Sie sind auf Seite 1von 12

IN3401-1 Estadística para la Economía y la Gestión

Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova


Realizado por Juan Guillermo Obando Rojel

PARTE 1.
1. Se realizó una regresión múltiple tomando como variable dependiente a Ln(wage). En
la siguiente tabla se pueden observar los comandos utilizados y los coeficientes generados
(Coef.) junto con los respectivos errores estándar. En la Esquina superior derecha se observa el
valor de R2 (R-squared).

r(198);

. gen ln_wage=ln(wage)

. reg ln_wage polytech college highgrad pexper exper swage educ male

Source SS df MS Number of obs = 403


F( 8, 394) = 245.52
Model 54.0663669 8 6.75829586 Prob > F = 0.0000
Residual 10.8455079 394 .02752667 R-squared = 0.8329
Adj R-squared = 0.8295
Total 64.9118748 402 .161472325 Root MSE = .16591

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

polytech -.0490474 .0318956 -1.54 0.125 -.1117542 .0136594


college .0862262 .0324898 2.65 0.008 .0223511 .1501013
highgrad -.0635072 .0279278 -2.27 0.024 -.1184133 -.0086011
pexper -.0057996 .0008273 -7.01 0.000 -.0074261 -.004173
exper .0165606 .0047683 3.47 0.001 .0071861 .0259351
swage .0000333 2.12e-06 15.73 0.000 .0000291 .0000374
educ .0244308 .0052216 4.68 0.000 .0141652 .0346965
male .1254107 .0216768 5.79 0.000 .0827941 .1680273
_cons 9.261397 .0871684 106.25 0.000 9.090023 9.43277

.
Figura 1.1.

2. A continuación de analizaremos los supuestos necesarios que garantizan los siguientes


aspectos:

2.1 El Estimador de Mínimos Cuadrados Ordinarios es consistente:


La consistencia de un estimador es una propiedad que garantiza que, a medida que crece el
set de datos, el valor estimado se aproxima (converge) al valor real. Para garantizar esto se
necesita de 4 supuestos básicos:
a) El Modelo poblacional puede expresarse como un modelo lineal en los
parámetros.
b) Se tiene una muestra poblacional de n observaciones que sigue el modelo
poblacional de a).
c) No hay colinealidad perfecta. Este supuesto tiene la importancia de garantizar que
los coeficientes de regresión sean calculables. Para explicarlo mejor,
sabemos que (bajo el supuesto d), se tiene que:
IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

( )
̂ →
( )
luego, ( ) garantiza que la expresión anterior esté bien definida y esto
último es una consecuencia directa de la colinealidad no-perfecta.
d) El error esperado es 0, para cualquier valor en las covariables. Este supuesto tiene
una implicación importante que ya se mencionó en c), ya que esto asegura que la
covarianza entre los errores y las covariables es nula, es decir, no están
correlacionadas.

2.2 Los errores estándar reportados son correctos:


Para que los errores reportados estén correctos se requiere, además de los supuestos
anteriores, del supuesto de Homocedasticidad. Bajo Heterocedasticidad se tiene que
la varianza de la muestra Var (ˆ MCO )   2 ( X ' X ) 1 , luego la estimación realizada
mediante MCO se vuelve incorrecta, ocasionando problemas en los test de hipótesis y
en los cálculos de intervalos de confianza, por ejemplo (Errores en Inferencia).

3. Para evaluar la significancia conjunta de las co-variables, haremos uso del comando
test.

. test male= educ= swage= exper= highgrad= college= polytech= pexper=0

( 1) - educ + male = 0
( 2) - swage + male = 0
( 3) - exper + male = 0
( 4) - highgrad + male = 0
( 5) - college + male = 0
( 6) - polytech + male = 0
( 7) - pexper + male = 0
( 8) male = 0

F( 8, 394) = 245.52
Prob > F = 0.0000

En este caso se evalúa las hipótesis son:

Donde Cxxxx indica el coeficiente de la regresión para la covarible ‘xxxx’.


IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

 Como el número de restricciones es 8, el número de parámetros a estimar es 9


r(198); (con el intercepto) y el número de observaciones es 403, tenemos que el
estadístico utilizado sigue una distribución Fisher F(8,403-9)=F(8,394), bajo la
. gen ln_wage=ln(wage)
hipótesis nula.
. reg ln_wage polytech college highgrad pexper exper swage educ male
 Para rechazar la hipótesis nula, se requiere que el p-valor sea menor a 0.05. Como
Source
en este caso elSS df
p-valor (Prob>F) MS
es 0.0000, Number of
se rechaza la hipótesis nulaobs
para= un 403
F( 8, 394) = 245.52
nivel de significancia
Model 54.0663669 del 5%. 8 6.75829586 Prob > F = 0.0000
Residual 10.8455079 394 .02752667 R-squared = 0.8329
4. Si se analiza la Tabla de Coeficientes de la Figura 1.2. se puede evaluar la significancia
Adj R-squared de = las
0.8295
covariables Total 64.9118748
en la regresión. 402 .161472325 Root MSE = .16591

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

polytech -.0490474 .0318956 -1.54 0.125 -.1117542 .0136594


college .0862262 .0324898 2.65 0.008 .0223511 .1501013
highgrad -.0635072 .0279278 -2.27 0.024 -.1184133 -.0086011
pexper -.0057996 .0008273 -7.01 0.000 -.0074261 -.004173
exper .0165606 .0047683 3.47 0.001 .0071861 .0259351
swage .0000333 2.12e-06 15.73 0.000 .0000291 .0000374
educ .0244308 .0052216 4.68 0.000 .0141652 .0346965
male .1254107 .0216768 5.79 0.000 .0827941 .1680273
_cons 9.261397 .0871684 106.25 0.000 9.090023 9.43277

. Figura 1.2. Tabla de Coeficientes.

Para evaluar dicha significancia es se debe observa la columna P>|t| de la tabla que
nos indica el p-valor del siguiente test para cada covariable i:

En este caso Ci denota el coeficiente de la covarible i (college, highgrad, etc.). El


estadístico utilizado es el siguiente y sigue una distribución t-student:

̂
√ (̂)

N: Número de observaciones, K el número de parámetros a estimar (N-K=403-9=394).

- Para este test el criterio de rechazo utilizado será que el intervalo de confianza no
contenga a 0.
- Se observa que sólo para polytech el intervalo contiene a 0, luego no se puede
rechazar la hipótesis nula para el coeficiente y se concluye que Cpolytech no es
significativo para un nivel del significancia del 5% (es igual a 0). En todos los demás
casos los coeficientes resultan estadísticamente significativos.
IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

5. Para analizar cómo influyen los coeficientes en el valor de la variable Ln(wage),


observemos la siguiente tabla, que nos indica el signo asociado al coeficiente de la covariable.

Covariable Signo del Coefiente


College +
highgrad -
Pexper -
exper +
swage +
educ +
male +
Figura 1.3. Coeficientes

- Parece lógico que el salario aumente cuando el trabajador completa los estudios
de College. Lo mismo con los años de experiencia (exper), los años de educación
(educ), o el salario de partida. Incluso que ‘male’ tenga asociado un coeficiente
positivo es algo esperable y bastante común en países como el nuestro.
- Sin embargo, para el caso de la covariable pexper (años de experiencia previa) se
esperaría una correlación positiva con el salario. Esto último podría sugerir que dos
o más covariables están correlacionada, exper y pexper por ejemplo.
- En el caso de Highgrad se entiende que el coeficiente sea negativo, pues en
relación al promedio de los trabajadores quienes sólo completan los estudios
secundarios tienden a ganar menos. Esto último tiene sentido además por la
forma de nuestro set de datos, donde en general un individuo sólo posee el valor 1
en Highgrad, en College o en Polytech excluyentemente.

6. Ahora deseamos estimar el salario esperado para una persona con 12 años de
educación, con 4 años de experiencia y 2 años en su trabajo actual. El resto de los valores de las
covariables se asumen iguales al promedio. Haciendo uso del comando sum para cada variable
independiente se obtienen los valores promedio. Luego, haciendo uso del comando predict se
obtienen los siguientes valores:

Ln(wage) Desv. Estándar


10.27645 0.0486689

Luego haciendo uso del método delta, construiremos un intervalo de confianza al 95%.
En este caso ( ), entonces:
IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

( ) ( )

El intervalo de confianza viene de:

√ ( ( ) ( )) → ( ( ) )

Los valores son ( ) ( )


( ) ( ) ;
= = =0.95457071, donde ‘s’ es la desviación estándar obtenida.

Luego:

√ ( ) → ( )

Finalmente, el intervalo de confianza al 95% para wage queda:

Notemos que en este caso se ha usado 1.96 por ser un método asintótico.

7. Para evaluar si la multicolinealidad es un problema, primero se genera una matriz de


correlaciones.

. pwcorr male educ exper pexper swage highgrad college polytech, star(0.05)

male educ exper pexper swage highgrad college

male 1.0000
educ 0.4948* 1.0000
exper -0.0572 -0.0430 1.0000
pexper 0.1264* -0.0674 0.0413 1.0000
swage 0.5234* 0.6994* -0.0993* 0.1275* 1.0000
highgrad -0.4917* -0.5228* 0.0048 -0.0325 -0.4596* 1.0000
college 0.0863 0.3008* 0.0268 -0.0453 0.2546* -0.3077* 1.0000
polytech 0.3062* 0.2664* 0.0278 -0.0239 -0.1039* -0.5096* -0.2239*

polytech

polytech 1.0000

Figura 1.4. Matriz de Correlaciones


IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

Generaremos el Factor de Inflación de la Varianza (VIF) para cada caso.

. vif

Variable VIF 1/VIF

swage 3.80 0.262841


educ 3.07 0.326197
polytech 2.94 0.340270
highgrad 2.77 0.361518
male 1.71 0.583359
college 1.62 0.616729
pexper 1.10 0.911562
exper 1.02 0.982148

Mean VIF 2.25

Figura 1.4.1 VIF

Usando el criterio estudiado (VIF>10), se asume que no hay problemas de multicolinealidad


significativos.

8.

8.1 En esta parte se desea evaluar si es más conveniente una regresión sobre el Logaritmo
natural de wage, en vez de sobre la variable monto (wage). Al realizar los gráficos
cuantil-cuantil sobre los residuos, se observa que la variable cuyos residuos se
aproximan más a un comportamiento Normal es Ln_monto. Luego se justifica la
utilización de la misma, porque lo anterior sugiere la obtención de mejores
estimaciones al cumplirse éste supuesto estudiado.
1
.5
Residuals

0
-.5

-.5 0 .5
Inverse Normal

Figura 1.5. Gráfico cuantil-cuantil para ln_wage.


IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

60000
40000
Residuals

20000

0
-20000

-20000 -10000 0 10000 20000


Inverse Normal

Figura 1.6. Gráfico cuantil-cuantil para wage.

8.2 Para esta parte, se propone el siguiente modelo de regresión, donde se ha añadido el
coeficiente asociado a una nueva variable . Esta nueva variable parece
convincente en el sentido que intenta capturar el efecto ponderador de los años de experiencia
sobre los salarios esperados.

( )

Así, imponiendo , se obtiene un modelo anidado que es idéntico al modelo inicial.

8.3 Para verificar que el modelo irrestricto sea más conveniente que el anidado (realice
mejores predicciones), se hace uso de un Test de Fisher en el que se desea testear la siguiente
hipótesis:

SSR es la suma de los cuadrados residuales para los casos irrestrictos (U) y
restringidos (R). El estadístico del test es el siguiente:
IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

( )
( ) ( )
( )

Donde nuevamente N es el número de observaciones (403), K es el número de


parámetros estimados del modelo sin restricciones (10) y Q es el número de restricciones (1).

( ) ( )
( )

Como el valor del estadístico es mayor que el valor del mismo para un 95%
de confiabilidad 0,739783051, se tiene que el p-valor es menor que 0.005, luego se rechaza la hipótesis
y se concluye que agregar la covariable mejora las predicciones en el modelo. Además,
2
en las tablas se observa que R ajustado es mayor cuando se incorpora esta covariable (0.838 vs 0.829).
Se concluye que el modelo mejora.
. generate swpex = swage*pexper

. reg ln_wage male educ swage exper pexper highgrad college polytech swpex

Source SS df MS Number of obs = 403


F( 9, 393) = 231.71
Model 54.6188592 9 6.06876213 Prob > F = 0.0000
Residual 10.2930156 393 .026190879 R-squared = 0.8414
Adj R-squared = 0.8378
Total 64.9118748 402 .161472325 Root MSE = .16184

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

male .1138514 .0212935 5.35 0.000 .0719879 .1557149


educ .0169384 .0053482 3.17 0.002 .0064238 .027453
swage .0000442 3.15e-06 14.03 0.000 .000038 .0000504
exper .0179848 .0046615 3.86 0.000 .0088202 .0271494
pexper .0025781 .0019946 1.29 0.197 -.0013433 .0064996
highgrad -.0267152 .0283951 -0.94 0.347 -.0825404 .0291101
college .1174923 .0324146 3.62 0.000 .0537646 .18122
polytech .0001567 .0329048 0.00 0.996 -.0645348 .0648482
swpex -5.30e-07 1.15e-07 -4.59 0.000 -7.57e-07 -3.03e-07
_cons 9.1448 .0887359 103.06 0.000 8.970344 9.319256

Figura 1.7. Tabla de Regresión Nuevo Modelo

9. Para evaluar la homocedasticidad gráficamente, se hizo uso del comando scatter en STATA
para cada covariable. Se sabe que una manera de verificar la Homocedasticidad es observando que los
residuos sean más o menos los mismos para cada valor de la variable independiente. Esto se traduce
gráficamente en lo siguiente: tenemos Homocedasticidad si, al observar los gráficos de los residuos,
encontramos que, para cada valor de la variable dependiente, el ancho del clúster de puntos es el
mismo.

Figura 1.7.1 Un ejemplo de Heterocedasticidad


IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

1
.5

.5
Residuals

Residuals
0

0
-.5

-.5
10000 20000 30000 40000 50000 60000 5 10 15 20
starting wage years on current job
1

1
.5
.5

Residuals
Residuals

0
0

-.5
-.5

0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
=1 if high school graduate =1 if male
1

1
.5
.5

Residuals
Residuals

0
0

-.5
-.5

5 10 15 20
0 10 20 30 40 highest grade completed
previous experience
1

1
.5
.5

Residuals
Residuals

0
0

-.5
-.5

0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
=1 if a polytech =1 if college graduate

Figura 1.8. Gráficos Residuales


IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

Entonces, al observar los gráficos vemos que no hay crecimientos o decrecimientos considerables en
los residuos que sugieran problemas de heterocedasticidad.

Comprobemos también haciendo el Test de White. Este test tiene las siguientes hipótesis:

Usando STATA, se genera la siguiente tabla:

. imtest, white

White's test for Ho: homoskedasticity


against Ha: unrestricted heteroskedasticity

chi2(34) = 43.50
Prob > chi2 = 0.1275

Cameron & Trivedi's decomposition of IM-test

Source chi2 df p

Heteroskedasticity 43.50 34 0.1275


Skewness 10.04 8 0.2622
Kurtosis 1.73 1 0.1890

Total 55.26 43 0.0995

Como el p-valor del test es mayor que 0.005 (0.1275), entonces NO se verifica la
heterocedasticidad, es decir, no se puede rechazar la hipótesis de Homocedasticidad para un 95% de
confiabilidad. Esto último es importante para lograr una estimación mejor en MCO y para evitar
errores significativos en el cálculo del estimador de la matriz de varianzas y covarianzas de los
estimadores de mínimos cuadrados.
IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel

PARTE 2.
1. En esta parte de la tarea, se pide estudiar de qué manera la educación afecta los
salarios. Para ello se utilizó se quitó la variable polytech por no ser significativa al nivel
evaluado en la PARTE 1. Se utilizó LN (wage) como variable dependiente y se aplicaron
transformaciones a algunas variables. Las justificaciones para estas decisiones son las
siguientes:

 Recordemos que la elasticidad de y con respecto a x está dado por:

( ) ( )

Entonces, mediría el efecto porcentual de variar en un 1% x. Este razonamiento se usará


para las variables de Salario de partida (swage), pues es una variable que se mueve en un
rango más amplio de valores. Otro aspecto interesante de aplicar log a swage es que
disminuye la dispersión y con ello se puede evitar problemas de Heterocedasticidad.

 Otra relación importante de la que se hizo uso es la siguiente:


( )

En este caso indica el crecimiento porcentual de y cuando se aumenta una unidad de


x. Por esto, se ha aplicado esta relación a las variables educ, highgrad y college, pexper, male.
La interpretación en estos casos nos permite estudiar el efecto porcentual sobre el salario de
la educación. Así, un incremento de un año en la educación producirá un incremento salarial
de %. En el caso de Highgrad y College la interpretación es también evidente, es decir,
muestra cuánto aumenta en porcentaje el salario si se completan o no los estudios de
Secundaria o College.

Luego, al correr la regresión de este modelo, un modelo con un R2 superior al de la


regresiones anteriores (0.85). Estos y otros resultados se muestran en la siguiente tabla
generada con STATA:
IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova
Realizado por Juan Guillermo Obando Rojel
. reg ln_wage male educ ln_swage exper pexper highgrad college

Source SS df MS Number of obs = 403


F( 7, 395) = 326.63
Model 55.3495647 7 7.90708067 Prob > F = 0.0000
Residual 9.56231005 395 .02420838 R-squared = 0.8527
Adj R-squared = 0.8501
Total 64.9118748 402 .161472325 Root MSE = .15559

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

male .0468617 .0206406 2.27 0.024 .0062825 .0874409


educ .0104853 .0044925 2.33 0.020 .001653 .0193175
ln_swage .9149583 .0377881 24.21 0.000 .8406673 .9892493
exper .0168347 .0044705 3.77 0.000 .0080457 .0256237
pexper -.0066313 .0007791 -8.51 0.000 -.008163 -.0050995
highgrad -.0182102 .0200384 -0.91 0.364 -.0576054 .021185
college .0726044 .0260976 2.78 0.006 .0212968 .123912
_cons 1.18566 .3390201 3.50 0.001 .5191502 1.852169

Figura 2.1 Regresión para medir efectos de la educación.