Beruflich Dokumente
Kultur Dokumente
I
Einfhrung in die empirische Wirtschaftsforschung HS 2015
Autor: Stjepan Herceg
E-Mail: stjepan.herceg@uzh.ch
Aufgabe I Schtzung einer Cobb-Douglas-Produktionsfunktion
Den Kern dieser Aufgabe bildet die sogenannte Cobb-Douglas Funktion, welche zahlreiche
Verwendungen in der Mikro- als auch der Makrokonomie findet. Sie beschreibt den Zusammenhang
zwischen Kapital- und Arbeitseinsatz und der produzierten Outputmenge.
" = A " )*
= 1, ,
"
In dieser mathematischen Form beschreibt das Y die produzierte Outputmenge, A die Technologie, K
das Kapital und L die Anzahl Arbeiter.
Wenn man nun von konstanten Skalenertrgen ausgeht, so lsst sich diese nicht-lineare Funktion in
eine approximativ lineare Funktion berfhren, welche folgende mathematische Gestalt hat:
In den folgenden Teilaufgaben werde ich mich nun der Schtzung der Schweizer Produktionsfunktion
widmen. Der Datensatz, mit welchem ich dies bewerkstelligen werde ist production.csv von OLAT.
Nachdem ich nun im Ordner, welcher den erforderlichen Datensatz enthlt (Software1), angekommen
bin, kann ich im nchsten Schritt die Daten des .csv Dokuments einlesen. Dies geschieht nun so:
> mydata<-read.table("production.csv", header = T, sep = ";")
Die Daten sind jetzt unter der Variable mydata abgespeichert und stehen somit der weiteren
statistischen Bearbeitung in R Studio offen. Als nchstes werden die deskriptiven Statistiken berechnet:
> summary(mydata)
id
Min.
y_l
1
0.0301
Min.
0.0023
1st Qu.:
1.1117
1st Qu.:
0.2238
Median : 623
Median :
2.4523
Median :
0.9118
Mean
Mean
5.5045
Mean
8.3994
3rd Qu.:
5.4865
3rd Qu.:
4.2780
Max.
Max.
: 623
:1245
Min.
k_l
:403.4288
Max.
:521.2354
Da die Variable id eigentlich nur der Auflistung dient und somit keiner eingehender, statistischer
Betrachtung wrdig ist sei hier nun die Berechnung mit einzelnen Variablen aufgefhrt:
> with(mydata, summary(y_l))
Min.
1st Qu.
Median
Mean
0.0301
1.1120
2.4520
5.5040
3rd Qu.
Max.
5.4870 403.4000
1st Qu.
Median
Mean
0.0023
0.2238
0.9118
8.3990
3rd Qu.
Max.
4.2780 521.2000
Ich habe bewusst auf den attach() bzw. detach() Befehl verzichtet, weil er potenzielle Fehlerquellen
schafft und somit zu einem schlechten Programmierstil gehrt. Stattdessen benutze ich with() und
przisiere so jedes Mal den genauen, zu verwendenden Datensatz.
Interpretation der deskriptiven Statistiken
Die Outputmenge pro Arbeiter (y_l) erstreckt sich von 0.03 bis hin zu 403.4. Rund 50% der
Outputmenge liegt unter 2.45 und der Mittelwert beluft sich auf 5.5. Der Median ist fast halb so
klein wie der Mittelwert und das deutet auf eine stark rechtsschiefe Verteilung hin.
Das Kapital pro Arbeiter (k_l) nimmt Werte von 0.0023 bis hin zu 521.2 an. Rund 50% des Kapitals
liegt unterhalb von 0.9118 und den Mittelwert bildet 8.399. Da der Mittelwert auch hier grsser ist als
der Median, haben wir es erneut mit einer rechtsschiefen Verteilung zu tun.
Anhand des Histogramms lsst sich die Vermutung der stark rechtsschiefen Verteilung belegen. Das
[0,50] Intervall deckt fast die ganze Arbeiterschaft ab, Werte ber 50 werden sehr selten erreicht.
Die Bravais-Pearson-Korrelation betrgt 0.541, dies deutet auf einen moderaten und positiv linearen
Zusammenhang zwischen den beiden logarithmierten Variablen hin.
Die Ergebnisse dieser ausgefhrten Befehle sieht man, der Reihenfolge nach (v.l.n.r.), hier:
Der eigentliche Plot der logarithmierten Werte weist auf eine schwache, positiv lineare Beziehung hin.
Aus dem Residuendiagramm geht hervor, dass das Kriterium der Homoskedastizitt eingehalten wird
und dass sich nur ein einziger Datenpunkt der allgemeinen Beobachtung widersetzt; sonst sieht das
Residuendiagramm gut aus. Auch bei der Cooks Distance wird eben dieser Punkt (# 222)
hervorgehoben. Das Modell lsst sich also verbessern, indem man diesen Ausreisser aus dem
Datensatz entfernt.
Und hier noch die verschiedenen dazugehrigen Abbildungen:
Die neuen Plots zeigen, dass der Ausreisser dem Modell nicht allzu viel geschadet hat. Es hat sich nun
ein schneres Residuendiagramm, ohne den aufflligen Ausreisser, eingestellt. Das gleiche gilt auch
fr das Cooks Distance Diagramm.
1Q
Median
3Q
Max
-3.1945 -0.6390
0.0257
0.6282
3.7575
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.91729
0.02783
32.95
<2e-16 ***
ln.k_l[-c(222)]
0.29838
0.01272
23.46
<2e-16 ***
--Signif. codes:
0.307,
Adjusted R-squared:
0.3064
Eine Bravais-Pearson-Korrelation von 0.554 deutet auf einen moderaten, positiv linearen
Zusammenhang hin. Das R2, welches hier 0.307 betrgt, ist der quadrierten Pearson-Korrelation gleich
und ist eine wichtige Kennzahl zur Einschtzung der Gte des ELRM. Dieser Wert ist in seiner
Aussagekraft jedoch nicht in jeder akademischen Disziplin gleich. Whrend man in der Physik erst bei
Werten, welche im Absolutbetrag hher als 0.95 sind, ber ein aussagekrftiges Modell redet, kann
man in den Sozialwissenschaften, z.B. Wirtschaftswissenschaften, schon bei Werten, bei denen |r|
0.35 gilt, ber aussagekrftige Modelle reden. In unserem Fall ist selbst dieser Wert unterschritten,
wenn auch nur leicht, somit wre das jetzige lineare Modell nicht wirklich aussagekrftig. Nur 30.7 %
der Variation (Varianz) des logarithmierten Outputs pro Arbeiter wird durch die Kovariable erklrt.
Teilaufgabe I Hypothesentest
Die Konfidenzintervalle des ELRM sind:
> confint(fmnew)
2.5 %
(Intercept)
97.5 %
0.8626832 0.9719007
Das berechnete 95%-Student-Konfidenzintervall fr das ) umfasst den Zahlenbereich von 0.2734 bis
0.3233. Die Nullhypothese, welche besagt, dass das ) = 0.3 ist, wird somit auf 5%-Niveau
beibehalten 0.3 ist mit 95 %-iger Wahrscheinlichkeit im Konfidenzintervall enthalten und die
Arbeitshypothese wird im Gegenzug verworfen. Ein hnliches Szenario ergibt sich auch beim
Betrachten des ELRM, welches die Beobachtung # 222 enthlt. Dann wre das KI = [0.2676 , 0.3183].
In diesem konkreten Fall erhlt man 2.409217 fr den zu erwartenden logarithmierten Output pro
Arbeiter. Falls man sich dafr entscheidet, mit dem ELRM zu rechnen, welches noch die Beobachtung
# 222 beinhaltet, so erhlt man 2.387