Sie sind auf Seite 1von 6

Softwarebung

I
Einfhrung in die empirische Wirtschaftsforschung HS 2015

Autor: Stjepan Herceg
E-Mail: stjepan.herceg@uzh.ch

Aufgabe I Schtzung einer Cobb-Douglas-Produktionsfunktion
Den Kern dieser Aufgabe bildet die sogenannte Cobb-Douglas Funktion, welche zahlreiche
Verwendungen in der Mikro- als auch der Makrokonomie findet. Sie beschreibt den Zusammenhang
zwischen Kapital- und Arbeitseinsatz und der produzierten Outputmenge.

" = A " )*
= 1, ,
"
In dieser mathematischen Form beschreibt das Y die produzierte Outputmenge, A die Technologie, K
das Kapital und L die Anzahl Arbeiter.
Wenn man nun von konstanten Skalenertrgen ausgeht, so lsst sich diese nicht-lineare Funktion in
eine approximativ lineare Funktion berfhren, welche folgende mathematische Gestalt hat:

In den folgenden Teilaufgaben werde ich mich nun der Schtzung der Schweizer Produktionsfunktion
widmen. Der Datensatz, mit welchem ich dies bewerkstelligen werde ist production.csv von OLAT.

Teilaufgabe A Einlesen des Datensatzes & deskriptive Statistiken


Anfnglich gilt es erst einmal das working directory zu setzen und zwar mit folgendem Befehl:
> setwd("~/Desktop/Software1")
> getwd()
[1] "/Users/Stjepan/Desktop/Software1"


Nachdem ich nun im Ordner, welcher den erforderlichen Datensatz enthlt (Software1), angekommen
bin, kann ich im nchsten Schritt die Daten des .csv Dokuments einlesen. Dies geschieht nun so:
> mydata<-read.table("production.csv", header = T, sep = ";")

Die Daten sind jetzt unter der Variable mydata abgespeichert und stehen somit der weiteren
statistischen Bearbeitung in R Studio offen. Als nchstes werden die deskriptiven Statistiken berechnet:
> summary(mydata)
id
Min.

y_l
1

0.0301

Min.

0.0023

1st Qu.: 312

1st Qu.:

1.1117

1st Qu.:

0.2238

Median : 623

Median :

2.4523

Median :

0.9118

Mean

Mean

5.5045

Mean

8.3994

3rd Qu.: 934

3rd Qu.:

5.4865

3rd Qu.:

4.2780

Max.

Max.

: 623

:1245

Min.

k_l

:403.4288

Max.

:521.2354


Da die Variable id eigentlich nur der Auflistung dient und somit keiner eingehender, statistischer
Betrachtung wrdig ist sei hier nun die Berechnung mit einzelnen Variablen aufgefhrt:
> with(mydata, summary(y_l))
Min.

1st Qu.

Median

Mean

0.0301

1.1120

2.4520

5.5040

3rd Qu.

Max.

5.4870 403.4000

> with(mydata, summary(k_l))


Min.

1st Qu.

Median

Mean

0.0023

0.2238

0.9118

8.3990

3rd Qu.

Max.

4.2780 521.2000


Ich habe bewusst auf den attach() bzw. detach() Befehl verzichtet, weil er potenzielle Fehlerquellen
schafft und somit zu einem schlechten Programmierstil gehrt. Stattdessen benutze ich with() und
przisiere so jedes Mal den genauen, zu verwendenden Datensatz.
Interpretation der deskriptiven Statistiken

Die Outputmenge pro Arbeiter (y_l) erstreckt sich von 0.03 bis hin zu 403.4. Rund 50% der
Outputmenge liegt unter 2.45 und der Mittelwert beluft sich auf 5.5. Der Median ist fast halb so
klein wie der Mittelwert und das deutet auf eine stark rechtsschiefe Verteilung hin.
Das Kapital pro Arbeiter (k_l) nimmt Werte von 0.0023 bis hin zu 521.2 an. Rund 50% des Kapitals
liegt unterhalb von 0.9118 und den Mittelwert bildet 8.399. Da der Mittelwert auch hier grsser ist als
der Median, haben wir es erneut mit einer rechtsschiefen Verteilung zu tun.

Teilaufgabe B Histogramm & Beurteilung


Ein Histogramm soll nun herangezogen werden, um die Verteilung der Output-Variable aufzuzeigen:
> with(mydata, hist(k_l, breaks = 45, col= "lightblue", border = "blue", main = "Histogramm des
Kapitals pro Arbeiter", ylab = "Absolute Hufigkeit", xlab = "Kapital pro Arbeiter", xlim = c(0,600)))


Anhand des Histogramms lsst sich die Vermutung der stark rechtsschiefen Verteilung belegen. Das
[0,50] Intervall deckt fast die ganze Arbeiterschaft ab, Werte ber 50 werden sehr selten erreicht.

Teilaufgabe D Zusammenhang zwischen den logarithmierten Variablen


Zunchst generiere ich die logarithmierten Variablen und berechne deren Zusammenhangsmass:
> ln.y_l<-with(mydata, log(y_l))
> ln.k_l<-with(mydata, log(k_l))
> cor(ln.y_l,ln.k_l)
[1] 0.5410243


Die Bravais-Pearson-Korrelation betrgt 0.541, dies deutet auf einen moderaten und positiv linearen
Zusammenhang zwischen den beiden logarithmierten Variablen hin.

Teilaufgabe E Schtzung des linearen Regressionsmodells


Die Schtzung der einfachen linearen Regression erfolgt ber die Benutzung des lm() Befehls:
> fm<-lm(ln.y_l ~ ln.k_l)
> plot(ln.y_l,ln.k_l, xlab = "Outputmenge pro Arbeiter", ylab = "Kapital pro
Arbeiter")
> plot(fm,1) #Residuendiagramm
> plot(fm,4) #Cook's Distance

Die Ergebnisse dieser ausgefhrten Befehle sieht man, der Reihenfolge nach (v.l.n.r.), hier:


Der eigentliche Plot der logarithmierten Werte weist auf eine schwache, positiv lineare Beziehung hin.
Aus dem Residuendiagramm geht hervor, dass das Kriterium der Homoskedastizitt eingehalten wird
und dass sich nur ein einziger Datenpunkt der allgemeinen Beobachtung widersetzt; sonst sieht das
Residuendiagramm gut aus. Auch bei der Cooks Distance wird eben dieser Punkt (# 222)
hervorgehoben. Das Modell lsst sich also verbessern, indem man diesen Ausreisser aus dem
Datensatz entfernt.

Teilaufgabe F Schtzung des linearen Regressionsmodells ohne Beobachtung 222


In dieser Teilaufgabe wird der oben genannten Ausreisser dem Modell entzogen. Diese Entfernung der
Beobachtung 222 wird konkret so vorgenommen:
> fmnew<-lm(ln.y_l[-c(222)] ~ ln.k_l[-c(222)])
> plot(ln.y_l[-c(222)],ln.k_l[-c(222)])
> plot(fmnew,1) #Residuendiagramm
> plot(fmnew,4) #Cooks Distance


Und hier noch die verschiedenen dazugehrigen Abbildungen:


Die neuen Plots zeigen, dass der Ausreisser dem Modell nicht allzu viel geschadet hat. Es hat sich nun
ein schneres Residuendiagramm, ohne den aufflligen Ausreisser, eingestellt. Das gleiche gilt auch
fr das Cooks Distance Diagramm.

Teilaufgabe G Strke des Zusammenhangs


Um auf diese Fragestellung eingehen zu knnen, mssen wir einige Kennzahlen errechnen:
> cor(ln.y_l[-c(222)],ln.k_l[-c(222)])
[1] 0.5540752
> summary(fmnew)
Call:
lm(formula = ln.y_l[-c(222)] ~ ln.k_l[-c(222)])
Residuals:
Min

1Q

Median

3Q

Max

-3.1945 -0.6390

0.0257

0.6282

3.7575

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)

0.91729

0.02783

32.95

<2e-16 ***

ln.k_l[-c(222)]

0.29838

0.01272

23.46

<2e-16 ***

--Signif. codes:

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.9816 on 1242 degrees of freedom


Multiple R-squared:

0.307,

Adjusted R-squared:

F-statistic: 550.2 on 1 and 1242 DF,

0.3064

p-value: < 2.2e-16


Eine Bravais-Pearson-Korrelation von 0.554 deutet auf einen moderaten, positiv linearen
Zusammenhang hin. Das R2, welches hier 0.307 betrgt, ist der quadrierten Pearson-Korrelation gleich
und ist eine wichtige Kennzahl zur Einschtzung der Gte des ELRM. Dieser Wert ist in seiner
Aussagekraft jedoch nicht in jeder akademischen Disziplin gleich. Whrend man in der Physik erst bei
Werten, welche im Absolutbetrag hher als 0.95 sind, ber ein aussagekrftiges Modell redet, kann
man in den Sozialwissenschaften, z.B. Wirtschaftswissenschaften, schon bei Werten, bei denen |r|
0.35 gilt, ber aussagekrftige Modelle reden. In unserem Fall ist selbst dieser Wert unterschritten,
wenn auch nur leicht, somit wre das jetzige lineare Modell nicht wirklich aussagekrftig. Nur 30.7 %
der Variation (Varianz) des logarithmierten Outputs pro Arbeiter wird durch die Kovariable erklrt.

Teilaufgabe H Der Parameter


Der zu betrachtende Parameter nimmt in diesem Modell einen Wert von 0.298 an und da es sich um
ein log-log Modell handelt sowohl die abhngige, als auch die unabhngige Variable sind logarithmiert
treten die Vernderungen prozentual auf. Das heisst, wenn ich das Kapital pro Arbeiter um ein
Prozent anhebe, so steigt das geometrische Mittel des Outputs pro Arbeiter lediglich um etwa 0.298 %.
Das Steigen grndet im positiven Vorzeichen; wre es negativ, so wrde es zu einer prozentualen
Abnahme des Outputs pro Arbeiter kommen. konomisch gesehen ist dies eine elastische Beziehung
zwischen den beiden logarithmierten Variablen () ist die Elastizitt), welche ein realwirtschaftliches
Problem angeht: um wieviel erhht sich die Leistung der Arbeiter, wenn man ihren Lohn um einen
Prozent erhht? Die Signifikanz des Beta Parameters kann z.B. durch den berechneten p-Wert
bestimmt werden. In diesem Fall ist der p-Wert sehr, sehr klein (2 * 10^-16) und liegt damit deutlich
unter 0.05, was dem 5% Irrtumswahrscheinlichkeit-Kriterium entsprecht. Dies bedeutet, dass das Beta
in der Tat signifikant ist: es gibt also einen Zusammenhang zwischen Kapital pro Arbeiter und Output
pro Arbeiter.

Teilaufgabe I Hypothesentest
Die Konfidenzintervalle des ELRM sind:
> confint(fmnew)
2.5 %
(Intercept)

97.5 %

0.8626832 0.9719007

ln.k_l[-c(222)] 0.2734284 0.3233416


Das berechnete 95%-Student-Konfidenzintervall fr das ) umfasst den Zahlenbereich von 0.2734 bis
0.3233. Die Nullhypothese, welche besagt, dass das ) = 0.3 ist, wird somit auf 5%-Niveau
beibehalten 0.3 ist mit 95 %-iger Wahrscheinlichkeit im Konfidenzintervall enthalten und die
Arbeitshypothese wird im Gegenzug verworfen. Ein hnliches Szenario ergibt sich auch beim
Betrachten des ELRM, welches die Beobachtung # 222 enthlt. Dann wre das KI = [0.2676 , 0.3183].

Teilaufgabe J Konkrete Berechnung


Die Berechnung des zu erwartenden logarithmierten Outputs pro Arbeiter fr eine Schweizer Firma mit
einem logarithmierten Kapital pro Arbeiter von 5 wird folgendermassen in R errechnet:
> predict(fmnew, data.frame(ln.k_l = 5, ln.y_l = 1))
1
2.409217


In diesem konkreten Fall erhlt man 2.409217 fr den zu erwartenden logarithmierten Output pro
Arbeiter. Falls man sich dafr entscheidet, mit dem ELRM zu rechnen, welches noch die Beobachtung
# 222 beinhaltet, so erhlt man 2.387

Das könnte Ihnen auch gefallen