Softwareübung

Softwarebung
I
Einfhrung in die empirische Wirtschaftsforschung HS 2015

Autor: Stjepan Herceg
E-Mail: stjepan.herceg@uzh.ch

Aufgabe I Schtzung einer Cobb-Douglas-Produktionsfunktion
Den Kern dieser Aufgabe bildet die sogenannte Cobb-Douglas Funktion, welche zahlreiche
Verwendungen in der Mikro- als auch der Makrokonomie findet. Sie beschreibt den Zusammenhang
zwischen Kapital- und Arbeitseinsatz und der produzierten Outputmenge.
" = A " )*
= 1, ,
"
In dieser mathematischen Form beschreibt das Y die produzierte Outputmenge, A die Technologie, K
das Kapital und L die Anzahl Arbeiter.
Wenn man nun von konstanten Skalenertrgen ausgeht, so lsst sich diese nicht-lineare Funktion in
eine approximativ lineare Funktion berfhren, welche folgende mathematische Gestalt hat:
In den folgenden Teilaufgaben werde ich mich nun der Schtzung der Schweizer Produktionsfunktion
widmen. Der Datensatz, mit welchem ich dies bewerkstelligen werde ist production.csv von OLAT.
Teilaufgabe A Einlesen des Datensatzes & deskriptive Statistiken

Anfnglich gilt es erst einmal das working directory zu setzen und zwar mit folgendem Befehl:
> setwd("~/Desktop/Software1")
> getwd()
[1] "/Users/Stjepan/Desktop/Software1"

Nachdem ich nun im Ordner, welcher den erforderlichen Datensatz enthlt (Software1), angekommen
bin, kann ich im nchsten Schritt die Daten des .csv Dokuments einlesen. Dies geschieht nun so:
> mydata<-read.table("production.csv", header = T, sep = ";")
Die Daten sind jetzt unter der Variable mydata abgespeichert und stehen somit der weiteren
statistischen Bearbeitung in R Studio offen. Als nchstes werden die deskriptiven Statistiken berechnet:
> summary(mydata)
id
Min.
y_l
1
0.0301
Min.
0.0023
1st Qu.: 312
1st Qu.:
1.1117
1st Qu.:
0.2238
Median : 623
Median :
2.4523
Median :
0.9118
Mean
Mean
5.5045
Mean
8.3994
3rd Qu.: 934
3rd Qu.:
5.4865
3rd Qu.:
4.2780
Max.
Max.
: 623
:1245
Min.
k_l
:403.4288
Max.
:521.2354

Da die Variable id eigentlich nur der Auflistung dient und somit keiner eingehender, statistischer
Betrachtung wrdig ist sei hier nun die Berechnung mit einzelnen Variablen aufgefhrt:
> with(mydata, summary(y_l))
Min.
1st Qu.
Median
Mean
0.0301
1.1120
2.4520
5.5040
3rd Qu.
Max.
5.4870 403.4000
> with(mydata, summary(k_l))

Min.
1st Qu.
Median
Mean
0.0023
0.2238
0.9118
8.3990
3rd Qu.
Max.
4.2780 521.2000

Ich habe bewusst auf den attach() bzw. detach() Befehl verzichtet, weil er potenzielle Fehlerquellen
schafft und somit zu einem schlechten Programmierstil gehrt. Stattdessen benutze ich with() und
przisiere so jedes Mal den genauen, zu verwendenden Datensatz.
Interpretation der deskriptiven Statistiken
Die Outputmenge pro Arbeiter (y_l) erstreckt sich von 0.03 bis hin zu 403.4. Rund 50% der
Outputmenge liegt unter 2.45 und der Mittelwert beluft sich auf 5.5. Der Median ist fast halb so
klein wie der Mittelwert und das deutet auf eine stark rechtsschiefe Verteilung hin.
Das Kapital pro Arbeiter (k_l) nimmt Werte von 0.0023 bis hin zu 521.2 an. Rund 50% des Kapitals
liegt unterhalb von 0.9118 und den Mittelwert bildet 8.399. Da der Mittelwert auch hier grsser ist als
der Median, haben wir es erneut mit einer rechtsschiefen Verteilung zu tun.
Teilaufgabe B Histogramm & Beurteilung

Ein Histogramm soll nun herangezogen werden, um die Verteilung der Output-Variable aufzuzeigen:
> with(mydata, hist(k_l, breaks = 45, col= "lightblue", border = "blue", main = "Histogramm des
Kapitals pro Arbeiter", ylab = "Absolute Hufigkeit", xlab = "Kapital pro Arbeiter", xlim = c(0,600)))

Anhand des Histogramms lsst sich die Vermutung der stark rechtsschiefen Verteilung belegen. Das
[0,50] Intervall deckt fast die ganze Arbeiterschaft ab, Werte ber 50 werden sehr selten erreicht.
Teilaufgabe D Zusammenhang zwischen den logarithmierten Variablen

Zunchst generiere ich die logarithmierten Variablen und berechne deren Zusammenhangsmass:
> ln.y_l<-with(mydata, log(y_l))
> ln.k_l<-with(mydata, log(k_l))
> cor(ln.y_l,ln.k_l)
[1] 0.5410243

Die Bravais-Pearson-Korrelation betrgt 0.541, dies deutet auf einen moderaten und positiv linearen
Zusammenhang zwischen den beiden logarithmierten Variablen hin.
Teilaufgabe E Schtzung des linearen Regressionsmodells

Die Schtzung der einfachen linearen Regression erfolgt ber die Benutzung des lm() Befehls:
> fm<-lm(ln.y_l ~ ln.k_l)
> plot(ln.y_l,ln.k_l, xlab = "Outputmenge pro Arbeiter", ylab = "Kapital pro
Arbeiter")
> plot(fm,1) #Residuendiagramm
> plot(fm,4) #Cook's Distance
Die Ergebnisse dieser ausgefhrten Befehle sieht man, der Reihenfolge nach (v.l.n.r.), hier:

Der eigentliche Plot der logarithmierten Werte weist auf eine schwache, positiv lineare Beziehung hin.
Aus dem Residuendiagramm geht hervor, dass das Kriterium der Homoskedastizitt eingehalten wird
und dass sich nur ein einziger Datenpunkt der allgemeinen Beobachtung widersetzt; sonst sieht das
Residuendiagramm gut aus. Auch bei der Cooks Distance wird eben dieser Punkt (# 222)
hervorgehoben. Das Modell lsst sich also verbessern, indem man diesen Ausreisser aus dem
Datensatz entfernt.
Teilaufgabe F Schtzung des linearen Regressionsmodells ohne Beobachtung 222

In dieser Teilaufgabe wird der oben genannten Ausreisser dem Modell entzogen. Diese Entfernung der
Beobachtung 222 wird konkret so vorgenommen:
> fmnew<-lm(ln.y_l[-c(222)] ~ ln.k_l[-c(222)])
> plot(ln.y_l[-c(222)],ln.k_l[-c(222)])
> plot(fmnew,1) #Residuendiagramm
> plot(fmnew,4) #Cooks Distance

Und hier noch die verschiedenen dazugehrigen Abbildungen:

Die neuen Plots zeigen, dass der Ausreisser dem Modell nicht allzu viel geschadet hat. Es hat sich nun
ein schneres Residuendiagramm, ohne den aufflligen Ausreisser, eingestellt. Das gleiche gilt auch
fr das Cooks Distance Diagramm.
Teilaufgabe G Strke des Zusammenhangs

Um auf diese Fragestellung eingehen zu knnen, mssen wir einige Kennzahlen errechnen:
> cor(ln.y_l[-c(222)],ln.k_l[-c(222)])
[1] 0.5540752
> summary(fmnew)
Call:
lm(formula = ln.y_l[-c(222)] ~ ln.k_l[-c(222)])
Residuals:
Min
1Q
Median
3Q
Max
-3.1945 -0.6390
0.0257
0.6282
3.7575
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.91729
0.02783
32.95
<2e-16 ***
ln.k_l[-c(222)]
0.29838
0.01272
23.46
<2e-16 ***
--Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.9816 on 1242 degrees of freedom

Multiple R-squared:
0.307,
Adjusted R-squared:
F-statistic: 550.2 on 1 and 1242 DF,
0.3064
p-value: < 2.2e-16

Eine Bravais-Pearson-Korrelation von 0.554 deutet auf einen moderaten, positiv linearen
Zusammenhang hin. Das R2, welches hier 0.307 betrgt, ist der quadrierten Pearson-Korrelation gleich
und ist eine wichtige Kennzahl zur Einschtzung der Gte des ELRM. Dieser Wert ist in seiner
Aussagekraft jedoch nicht in jeder akademischen Disziplin gleich. Whrend man in der Physik erst bei
Werten, welche im Absolutbetrag hher als 0.95 sind, ber ein aussagekrftiges Modell redet, kann
man in den Sozialwissenschaften, z.B. Wirtschaftswissenschaften, schon bei Werten, bei denen |r|
0.35 gilt, ber aussagekrftige Modelle reden. In unserem Fall ist selbst dieser Wert unterschritten,
wenn auch nur leicht, somit wre das jetzige lineare Modell nicht wirklich aussagekrftig. Nur 30.7 %
der Variation (Varianz) des logarithmierten Outputs pro Arbeiter wird durch die Kovariable erklrt.
Teilaufgabe H Der Parameter

Der zu betrachtende Parameter nimmt in diesem Modell einen Wert von 0.298 an und da es sich um
ein log-log Modell handelt sowohl die abhngige, als auch die unabhngige Variable sind logarithmiert
treten die Vernderungen prozentual auf. Das heisst, wenn ich das Kapital pro Arbeiter um ein
Prozent anhebe, so steigt das geometrische Mittel des Outputs pro Arbeiter lediglich um etwa 0.298 %.
Das Steigen grndet im positiven Vorzeichen; wre es negativ, so wrde es zu einer prozentualen
Abnahme des Outputs pro Arbeiter kommen. konomisch gesehen ist dies eine elastische Beziehung
zwischen den beiden logarithmierten Variablen () ist die Elastizitt), welche ein realwirtschaftliches
Problem angeht: um wieviel erhht sich die Leistung der Arbeiter, wenn man ihren Lohn um einen
Prozent erhht? Die Signifikanz des Beta Parameters kann z.B. durch den berechneten p-Wert
bestimmt werden. In diesem Fall ist der p-Wert sehr, sehr klein (2 * 10^-16) und liegt damit deutlich
unter 0.05, was dem 5% Irrtumswahrscheinlichkeit-Kriterium entsprecht. Dies bedeutet, dass das Beta
in der Tat signifikant ist: es gibt also einen Zusammenhang zwischen Kapital pro Arbeiter und Output
pro Arbeiter.
Teilaufgabe I Hypothesentest
Die Konfidenzintervalle des ELRM sind:
> confint(fmnew)
2.5 %
(Intercept)
97.5 %
0.8626832 0.9719007
ln.k_l[-c(222)] 0.2734284 0.3233416

Das berechnete 95%-Student-Konfidenzintervall fr das ) umfasst den Zahlenbereich von 0.2734 bis
0.3233. Die Nullhypothese, welche besagt, dass das ) = 0.3 ist, wird somit auf 5%-Niveau
beibehalten 0.3 ist mit 95 %-iger Wahrscheinlichkeit im Konfidenzintervall enthalten und die
Arbeitshypothese wird im Gegenzug verworfen. Ein hnliches Szenario ergibt sich auch beim
Betrachten des ELRM, welches die Beobachtung # 222 enthlt. Dann wre das KI = [0.2676 , 0.3183].
Teilaufgabe J Konkrete Berechnung

Die Berechnung des zu erwartenden logarithmierten Outputs pro Arbeiter fr eine Schweizer Firma mit
einem logarithmierten Kapital pro Arbeiter von 5 wird folgendermassen in R errechnet:
> predict(fmnew, data.frame(ln.k_l = 5, ln.y_l = 1))
1
2.409217

In diesem konkreten Fall erhlt man 2.409217 fr den zu erwartenden logarithmierten Output pro
Arbeiter. Falls man sich dafr entscheidet, mit dem ELRM zu rechnen, welches noch die Beobachtung
# 222 beinhaltet, so erhlt man 2.387

Softwareübung

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Softwareübung

Hochgeladen von

Copyright:

Verfügbare Formate

Softwarebung

Teilaufgabe A Einlesen des Datensatzes & deskriptive Statistiken

1st Qu.: 312

3rd Qu.: 934

> with(mydata, summary(k_l))

Teilaufgabe B Histogramm & Beurteilung

Teilaufgabe D Zusammenhang zwischen den logarithmierten Variablen

Teilaufgabe E Schtzung des linearen Regressionsmodells

Teilaufgabe F Schtzung des linearen Regressionsmodells ohne Beobachtung 222

Teilaufgabe G Strke des Zusammenhangs

0 * 0.001 0.01 * 0.05 . 0.1 1

Residual standard error: 0.9816 on 1242 degrees of freedom

F-statistic: 550.2 on 1 and 1242 DF,

p-value: < 2.2e-16

Teilaufgabe H Der Parameter

ln.k_l[-c(222)] 0.2734284 0.3233416

Teilaufgabe J Konkrete Berechnung

Das könnte Ihnen auch gefallen