Beruflich Dokumente
Kultur Dokumente
u s a n d o S T A T A
B i b li o t e c a d e lC o n g r e s o N a c i o n a l
Javiera E. Vsquez Nez1
1
Investigadora, Centro de Microdatos, Departamento de Economa, Universidad de Chile
(jvasquez@econ.uchile.cl). Cualquier error es responsabilidad exclusiva del autor. Se agradece a J.
Eguiguren los comentarios y cooperacin en la elaboracin de este apunte.
TABLA DE CONTENIDOS
Introduccin................................................................................................................... 5
CaptuloI. IntroduccinalusodelsoftwareSTATA.................................................... 6
I.1.Unapequeaintroduccinalprograma ....................................................................................................... 6
I.1.1CmoseveSTATA? .............................................................................................................................................6
I.2.ComoorganizareltrabajoenSTATA ............................................................................................................. 7
I.3.Cmocargarunabasededatos? .................................................................................................................... 9
I.4.Leyendolosdatos ................................................................................................................................................ 16
I.4.1Describe .................................................................................................................................................................. 16
I.4.2Codebook ................................................................................................................................................................ 18
I.4.3Edit............................................................................................................................................................................ 20
I.4.4list;inspect;duplicates;count;order......................................................................................................... 21
I.4.5Sum ........................................................................................................................................................................... 24
I.4.6Tabulate.................................................................................................................................................................. 26
I.5.Modificacindeunabasededatos............................................................................................................... 34
I.5.1Modificacindevariablesdeunabasededatos................................................................................... 34
I.5.2Unirbasesdedatos:mergeyappend ........................................................................................................ 37
I.5.3Condensarunabasededatos:collapse..................................................................................................... 43
I.5.4Cambiarlaestructuradelabasededatos:reshape ........................................................................... 43
I.5.5Eliminarvariables:keepydrop ................................................................................................................... 46
I.5.6Crearvariables:generateyegen ................................................................................................................. 48
I.6.Factoresdeexpansin ....................................................................................................................................... 51
I.7.Aplicandoloaprendido ..................................................................................................................................... 53
I.7.1Unejemploaplicado.......................................................................................................................................... 53
I.7.2Archivoslog........................................................................................................................................................... 56
I.7.3Archivosdo:paratrabajarenformaprogramadaenSTATA ........................................................ 58
I.8.Crearmatricesparaguardarlosdatos ....................................................................................................... 66
I.9.Ciclosrecursivos .................................................................................................................................................. 68
I.10.Grficos.................................................................................................................................................................. 68
I.11.Ayuda:Help ......................................................................................................................................................... 79
CaptuloII. ConceptosbsicosdeEstadstica ............................................................ 83
II.1.Distribucindefrecuencias ........................................................................................................................... 83
II.2.Estadsticasdescriptivas................................................................................................................................. 85
II.2.1Medidasdetendenciacentral...................................................................................................................... 87
II.2.2Medidasdedispersin..................................................................................................................................... 89
II.2.3BoxPlot.................................................................................................................................................................. 91
II.3.Medidasdedesigualdad .................................................................................................................................. 92
II.4.TestdeHiptesissobrelamediapoblacional ....................................................................................... 94
II.5.Testdediferenciademedias......................................................................................................................... 97
II.5.1Diferenciademediasdedosvariables: ................................................................................................... 97
II.5.2Diferenciademediaentregrupos ............................................................................................................. 98
II.6.CovarianzayCorrelacin................................................................................................................................ 99
CaptuloIII. MicroeconometraAplicada.................................................................. 103
III.1.Modeloderegresinlineal .........................................................................................................................103
III.1.1Anlisisderegresinlineal .......................................................................................................................103
III.1.2ElestimadordeMnimosCuadradosOrdinarios.............................................................................105
III.1.3Regresinmltiple ........................................................................................................................................112
III.1.4Aplicacin:Determinantesdelossalariosenelmercadolaboral ...........................................113
2
CursodeEstadsticayEconometraAplicadausandoSTATA 3
III.1.5Prediccin .........................................................................................................................................................119
III.1.6TestdeNormalidad ......................................................................................................................................123
III.1.7Boostrapparalaobtencindeintervalosdeconfianza...............................................................125
III.2.Modeloderegresinlineal:especificacinyproblemas...............................................................127
III.2.1Introduccin ....................................................................................................................................................127
III.2.2Aplicacin:determinantesdelossalariosenelmercadolaboral............................................129
III.2.3Omisindevariablesrelevantes .............................................................................................................133
III.2.4Inclusindevariablesirrelevantes........................................................................................................136
III.2.5Multicolinealidad ..........................................................................................................................................136
III.2.6Variablescategricasocualitativascomoregresores .................................................................141
III.2.7Incorporacindenolinealidades...........................................................................................................155
III.2.8Heteroscedasticidad.....................................................................................................................................156
III.2.9Seleccindemodelos(anidadosynoanidados)..............................................................................160
III.3.EstimadordeVariablesInstrumentales ...............................................................................................164
III.3.1Introduccin ....................................................................................................................................................164
III.3.2Endogeneidad .................................................................................................................................................165
III.3.3Errordemedicin .........................................................................................................................................165
III.3.4EstimadordeVariablesInstrumentales(IV).....................................................................................166
III.3.5EstimadorMnimosCuadradosOrdinariosendosetapas(MCO2E) ......................................167
III.3.6Ejemplosdevariablesinstrumentales..................................................................................................168
III.3.7Aplicacin:WagesofaVeryYoungMen,Griliches(1976)......................................................171
III.3.8TestdeendogeneidadDurbinWuHausman....................................................................................180
III.4.VariableDependienteDiscreta .................................................................................................................182
III.4.1Introduccin ....................................................................................................................................................182
III.4.2Modelodeprobabilidadlineal.................................................................................................................184
III.4.3LosmodelosPROBITyLOGIT...................................................................................................................190
III.4.4Estimacindelaprobabilidaddecapacitarseconmodelosdevariabledependiente
discreta............................................................................................................................................................................192
III.5.VariableDependienteCategricaordinalynoordinal..................................................................199
III.5.1Introduccin ....................................................................................................................................................199
III.5.2Modelosderegresinordinal(oprobityologit)..............................................................................200
III.5.3Aplicacinmodelosordinales ..................................................................................................................203
III.5.4MultinomialLogit..........................................................................................................................................209
III.5.5AplicacinMultinomialLogit...................................................................................................................210
III.6.VariableDependienteLimitada:Censura,Truncamiento,ySesgodeSeleccin ................214
III.6.1Introduccin ....................................................................................................................................................214
III.6.2DatosTruncados............................................................................................................................................215
III.6.3DatosCensurados..........................................................................................................................................222
III.6.4SesgodeSeleccin(truncamientoincidental)..................................................................................229
III.7.ModelosparaDatosLongitudinalesoDatosdePanel....................................................................232
III.7.1Introduccin ....................................................................................................................................................232
III.7.2Datosdepanelcondosperiodos:comparacinantesydespus .............................................237
III.7.3RegresindeEfectosFijosyEfectosAleatorios ...............................................................................239
III.8.Regresindemedianaycuantiles...........................................................................................................249
III.8.1Definicindelaestimacindecuantiles .............................................................................................249
III.8.2Aplicacin:Gastosmdicosenrelacinalosgastostotalesdelhogar..................................250
III.9.Mtodosnoparamtricosysemiparamtricos .................................................................................256
3
III.9.1Estimacinnoparamtricadefuncionesdedensidad .................................................................256
III.9.2Estimacinnoparamtricadelarelacinentredosvariables:Nonparametriclocal
regresin.........................................................................................................................................................................260
III.9.3Modelossemiparamtricos .......................................................................................................................262
III.10.Modelodedatosdeconteo ......................................................................................................................263
III.10.1Introduccin..................................................................................................................................................263
III.10.2ModelodeRegresinPoisson ................................................................................................................264
III.10.3Aplicacin:NmerodevisitasalMdico..........................................................................................265
4
CursodeEstadsticayEconometraAplicadausandoSTATA 5
Introduccin
escolaridad Ingreso
10 80.000
12 120.000
13 110.000
4 85.000
5 70.000
8 65.000
17 450.000
21 1.200.000
2 60.000
5
Captulo I. Introduccin al uso del software STATA
STATA es una aplicacin completa e integrada, basada en comandos, que tiene todos
los elementos necesarios para realizar anlisis estadstico, manejo de datos
estadsticos y grficos. Las versiones mas nuevas de STATA (a partir de la versin 8.0)
posee una forma ms fcil de utilizar, que consiste simplemente en hacer clic en
ventanas con las opciones de anlisis y procesamiento de datos, adems tiene la
opcin antigua mediante los comandos. El programa posee una ayuda en lnea, es un
programa fcil y rpido de utilizar.
Review: en esta ventana aparecen los comandos que han sido utilizados
durante la seccin en turno.
Results: muestra los resultados de la aplicacin de los comandos, slo los
resultados ms recientes son visibles en esta ventana
Variables: en esta venta se presenta el listado de variables que se encuentran
en la base de datos que se este trabajando
Commands: corresponde a la ventana donde introducen los comandos para
obtener el resultado deseado. Sirve para utilizar STATA en forma interactiva.
6
CursodeEstadsticayEconometraAplicadausandoSTATA 7
Abrir el editor de do-file. Los archivos do son archivos con esta extensin que nos
permiten en forma ordenada escribir todo lo que queremos hacer en nuestra base de
datos: cambiar la base de datos, sacar estadsticas, etc, y luego presionando
correr dicho do y obtener los resultados.2
Cuando se abre STATA es importante saber donde se esta trabajando, es decir, en que
carpeta se estn guardando los resultados o desde que carpeta vamos a llamar la base
de datos, etc. Si no se sabe la carpeta o directorio donde STATA esta ubicado podemos
averiguarlo escribiendo el comando pwd:
pwd
C:\data Este resultado nos indica que estamos ubicados en el disco C del
computador en la carpeta data
cd C:\Nivelacion_Stata
7
La ventaja de indicar desde un comienzo en que carpeta del computador se esta
trabajando, es que evita indicar la ruta completa de los archivos cada vez que
queramos abrir o guardar una base de datos, o abrir o guardar un log. Obviamente
esto tiene sentido cuando para un trabajo especfico tenemos todos los archivos
necesarios en la misma carpeta.
Por ejemplo, si estamos trabajando con informacin de tres bases de datos distintas, y
queremos dejar la informacin relevante para el estudio en una sola base datos (ms
adelante veremos como hacer esto), lo ideal es trabajar en una sola carpeta,
Nivelacion_Stata, y no tener las tres bases de datos repartidas en carpetas distintas.
Si no estn en la misma carpeta no es til indicarle el directorio al comienzo, ya que
igual cuando llamemos a cada una de las bases de datos, al estar en carpetas
distintas, tendremos que cambiar la ruta.
Importante: los sistemas operativos ms nuevos permiten que las carpetas tengan
nombres con espacio en blanco, por ejemplo, Nivelacion Stata. Sin embargo, STATA
no va a reconocer una carpeta que tenga espacios en blanco en el nombre, a no ser
que se indique la ubicacin de esta carpeta entre comillas. Por este motivo, se debe
evitar llamar a una carpeta con la que van a trabajar en STATA con nombres que
contengan espacios en blanco.3
3
Esto problema es comn cuando trabajan en el Escritorio del computador, ya que la carpeta en este caso
es C:\Documents and Settings\...., tiene espacios en blanco.
8
CursodeEstadsticayEconometraAplicadausandoSTATA 9
Las bases de datos en formato Stata tienen extensin .dta. Las versiones antiguas del
software no se pueden abrir bases de datos que han sido trabajadas y guardas en una
versin ms moderna, cuando intentemos hacer esto el programa entregar un error
indicando que la base no tiene formato Stata.
Antes de abrir una base de datos se tienen que cumplir dos condiciones:
9
set mem #[b|k|m|g] [, permanently]
o simplemente
Notar que en ambos casos el comando incorpora la opcion , clear, esto nos
garantiza que la base de datos sea abra si es que ya existe otra base de
datos previa en el programa, esta opcin ahorra el paso previo de ejecutar
el comando clear antes de abrir la base de datos.
10
CursodeEstadsticayEconometraAplicadausandoSTATA 11
11
El color rojo indica que la variable no es numrica.
o alternativamente:
12
CursodeEstadsticayEconometraAplicadausandoSTATA 13
13
Cuando las bases de datos vienen el texto y son muy grandes no se pueden
ver utilizando un block de notas, en estos casos se recomienda utilizar el
programa TextPad que puede ser descargado gratuitamente
(www.textpad.com). Siempre es recomendable inspeccionar la base de
datos en texto antes de ser traspasada a Stata.
5- Si la base de datos tiene otro formato, por ejemplo, SPSS (.sav), dbase
(.dbf), Access (.mbd), etc; existe un software llamado Stat Transfer, que
permite transformar base de datos desde y a diversos formatos.
save C:\Nivelacion_Stata\ingresos_new.dta
14
CursodeEstadsticayEconometraAplicadausandoSTATA 15
Una vez que los datos han sido cargados, se puede optimizar el espacio que
estos ocupan utilizando el comando compress, este comando comprime la
base de datos. Es muy til cuando trabajamos con bases de datos grandes.
Como se explicaba al comienzo de esta seccin cuando una base de datos ha sido
guardada con el comando save utilizando cierta versin del programa, luego no
podr ser abierta en ninguna versin anterior a este (pero si en versiones ms
nuevas), se puede utilizar el comando saveold de la misma forma que el comando
save para que la base de datos guardada sea reconocida por cualquier versin
anterior del programa.
Hasta ahora hemos aprendido como cargar una base de datos en Stata, en lo que
sigue se vern los comandos bsicos para analizar una base de datos.
Entonces, con los comandos recin estudiados, comencemos por abrir la base de
datos:
cd C:\Nivelacion_Stata
set mem 100m
use ingreso.dta, clear
15
I.4. Leyendo los datos
Existen varios comandos que nos permiten obtener informacin preliminar acerca de
de los datos y estadsticas acerca de ellos. Veremos bsicamente los comandos
describe, codebook, edit, sum, tab, inspect, count y duplicate.
Tambin podemos leer los datos usando las ventanas correspondientes, tal como lo
observamos en la siguiente figura:
Como podemos ver, si vamos a la opcin Data y luego seguimos la opcin Describe
data, veremos una serie de opciones que veremos a continuacin, tal como el
comando describe o el codebook. Tambin mediante la opcin Data podemos
directamente ver el editor de stata.
I.4.1 Describe
16
CursodeEstadsticayEconometraAplicadausandoSTATA 17
float, double, string)4, el formato de los datos, la variable que contiene el label
(etiqueta), y la descripcin de la variable. Adems entrega informacin de nmero de
observaciones, nmero de variables y tamao de la base de datos.
. describe
Para usar el comando mediante el uso de ventanas basta con seguir el mismo
esquema recin mostrado y hacer doble clic sobre Describe variables in memory.
4
Ver Anexo A sobre el tipo de almacenamiento de datos
17
Luego se escribe el nombre de la variable de la cual quiero la descripcin y si quisiese,
por ejemplo, una descripcin especifica, puedo aplicar alguna de las opciones que se
observan en la ventana anterior.
I.4.2 Codebook
Existen otras formas de obtener una descripcin de las variables en la base de datos,
una de las mejores es usar el comando codebook. Al igual que con el comando
describe, al tipear simplemente codebook se va a describir cada variable. El siguiente
cuadro muestra la diferencia entre ambos comandos:
Tanto el comando describe como el comando codebook nos permite distinguir dos
tipos de variables, las numricas y las no numricas. Slo se pueden obtener
estadsticas de los datos cuando las variables son numricas, aunque muchas veces es
18
CursodeEstadsticayEconometraAplicadausandoSTATA 19
ms fcil visualizar la base de datos cuando las variables tienen nombres en vez de
nmeros o cdigos. Por ejemplo, en la variable dhombre de la base de datos vemos
slo unos y ceros, siempre tenemos que tener en mente que uno significa hombre y
cero mujer.
Otra funcin que podemos aplicar sobre la misma ventana es condicionarla a algo,
como, por ejemplo, que la inspeccin sea slo para lo hombres:
19
I.4.3 Edit
Otra forma de conocer o tener una visin ms amplia de la base de datos es mediante
el comando edit; el que nos mostrar una planilla donde podremos ver la base de
datos completa; sus variables y todas sus observaciones. Tambin lo podemos hacer
va ventanas mediante la opcin Data y luego Data editor
20
CursodeEstadsticayEconometraAplicadausandoSTATA 21
Al igual que en los casos anteriores tambin se puede realizar la misma operacin va
el comando edit y tambin podemos editar una matriz mas pequea especificando las
variables que queramos incluir utilizando la encuesta casen 2003, por ejemplo edit
sexo ecivil edad esc.
Podemos ver que las variables edad y esc son variables numricas (siempre las
variables numricas aparecen de color negro), las variables sexo y ecivil a pesar de
que se ven con nombres, como si no fueses numricas, si lo son slo que estn
etiquetadas, siempre que el contenido de la variable sea de color azul indica que la
variable es numrica pero esta etiquetada, cuando el contenido de la variable aparece
de color rojo indica que el formato es no numrico. Ms adelante cuando veamos como
etiquetar las variables y recodificar de no numrico a numrico, analizaremos con ms
detalle esto. Los puntos indican missing values, que no existe valor de esta variable
para esa observacin.
Un comando bastante til, similar al edit es el comando list; el cal despliega los
datos en la ventana de resultados (Stata Results); en vez de enviarnos al editor.
21
Otro comando; el cual asegura que una variable es una codificacin nica dentro de
una base de datos, es el comando duplicates report. Este comando se usa
generalmente para chequear que no existan observaciones duplicadas (folios
duplicados) dentro de una base de datos. Si tenemos la siguiente base de datos:
22
CursodeEstadsticayEconometraAplicadausandoSTATA 23
El comando count, lo que hace es contar tal como lo dice su nombre. Por ejemplo:
23
order folio edad esc ingreso dhombre sexo
y nos entregar la base de datos de tal forma que al aplicar el comando edit la primera
variable que veremos ser folio, luego edad, luego aos de escolaridad, etc.
I.4.5 Sum
. sum
Si nos interesan las estadsticas de una sola variable, por ejemplo, escolaridad:
. sum esc
. sort dhombre
---------------------------------------------------------------------------
-> dhombre = 0
---------------------------------------------------------------------------
-> dhombre = 1
24
CursodeEstadsticayEconometraAplicadausandoSTATA 25
escolaridad (aos)
-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 0 0
10% 2 0 Obs 180914
25% 5 0 Sum of Wgt. 180914
25
I.4.6 Tabulate
El comando tabulate (o tab) permite hacer tablas con las variables de inters. La
tabla ms sencilla se realiza de la siguiente forma:
. tab dhombre
genero (1 |
hombre 0 |
mujer) | Freq. Percent Cum.
------------+-----------------------------------
0 | 126,681 50.12 50.12
1 | 126,067 49.88 100.00
------------+-----------------------------------
Total | 252,748 100.00
Esta tabla indica el nmero de observaciones total y de cada una de las categoras de
la variable, el porcentaje que cada uno representa sobre el total y el porcentaje
acumulado.
26
CursodeEstadsticayEconometraAplicadausandoSTATA 27
El comando tab1 permite hacer esto mismo pero para varias variables
simultneamente:
genero (1 |
hombre 0 |
mujer) | Freq. Percent Cum.
------------+-----------------------------------
0 | 126,681 50.12 50.12
1 | 126,067 49.88 100.00
------------+-----------------------------------
Total | 252,748 100.00
escolaridad |
(aos) | Freq. Percent Cum.
------------+-----------------------------------
0 | 10,833 5.99 5.99
1 | 2,481 1.37 7.36
2 | 5,434 3.00 10.36
3 | 9,193 5.08 15.44
4 | 10,303 5.69 21.14
5 | 7,512 4.15 25.29
6 | 19,165 10.59 35.89
7 | 7,004 3.87 39.76
8 | 20,503 11.33 51.09
9 | 10,582 5.85 56.94
10 | 12,984 7.18 64.12
11 | 9,384 5.19 69.30
12 | 35,263 19.49 88.79
13 | 4,820 2.66 91.46
14 | 3,965 2.19 93.65
15 | 3,156 1.74 95.39
16 | 3,177 1.76 97.15
17 | 3,853 2.13 99.28
18 | 881 0.49 99.77
19 | 292 0.16 99.93
20 | 122 0.07 100.00
21 | 7 0.00 100.00
------------+-----------------------------------
Total | 180,914 100.00
Adems, con este comando, se pueden realizar cruces entre variables, por ejemplo:
27
. tab esc dhombre
| genero (1 hombre 0
escolarida | mujer)
d (aos) | 0 1 | Total
-----------+----------------------+----------
0 | 5,842 4,991 | 10,833
1 | 1,198 1,283 | 2,481
2 | 2,709 2,725 | 5,434
3 | 4,571 4,622 | 9,193
4 | 5,284 5,019 | 10,303
5 | 3,818 3,694 | 7,512
6 | 9,915 9,250 | 19,165
7 | 3,501 3,503 | 7,004
8 | 9,791 10,712 | 20,503
9 | 5,173 5,409 | 10,582
10 | 6,435 6,549 | 12,984
11 | 4,707 4,677 | 9,384
12 | 18,245 17,018 | 35,263
13 | 2,672 2,148 | 4,820
14 | 2,180 1,785 | 3,965
15 | 1,523 1,633 | 3,156
16 | 1,596 1,581 | 3,177
17 | 1,929 1,924 | 3,853
18 | 326 555 | 881
19 | 92 200 | 292
20 | 45 77 | 122
21 | 5 2 | 7
-----------+----------------------+----------
Total | 91,557 89,357 | 180,914
Si en vez de las frecuencias uno quiere ver el porcentaje, que sume 100% en forma
horizontal (filas), se debe agregar a lo anterior una coma y la palabra row y poner
adems nofreq (para que no se muestre las frecuencias)
| genero (1 hombre 0
escolarida | mujer)
d (aos) | 0 1 | Total
-----------+----------------------+----------
0 | 53.93 46.07 | 100.00
1 | 48.29 51.71 | 100.00
2 | 49.85 50.15 | 100.00
3 | 49.72 50.28 | 100.00
4 | 51.29 48.71 | 100.00
.
.
.
.
16 | 50.24 49.76 | 100.00
17 | 50.06 49.94 | 100.00
18 | 37.00 63.00 | 100.00
19 | 31.51 68.49 | 100.00
20 | 36.89 63.11 | 100.00
21 | 71.43 28.57 | 100.00
-----------+----------------------+----------
Total | 50.61 49.39 | 100.00
28
CursodeEstadsticayEconometraAplicadausandoSTATA 29
Si se quiere que los porcentajes sumen 100% en forma vertical (columnas) debemos
hacer lo siguiente:
| genero (1 hombre 0
escolarida | mujer)
d (aos) | 0 1 | Total
-----------+----------------------+----------
0 | 6.38 5.59 | 5.99
1 | 1.31 1.44 | 1.37
2 | 2.96 3.05 | 3.00
3 | 4.99 5.17 | 5.08
4 | 5.77 5.62 | 5.69
5 | 4.17 4.13 | 4.15
6 | 10.83 10.35 | 10.59
7 | 3.82 3.92 | 3.87
8 | 10.69 11.99 | 11.33
9 | 5.65 6.05 | 5.85
10 | 7.03 7.33 | 7.18
11 | 5.14 5.23 | 5.19
12 | 19.93 19.04 | 19.49
13 | 2.92 2.40 | 2.66
14 | 2.38 2.00 | 2.19
15 | 1.66 1.83 | 1.74
16 | 1.74 1.77 | 1.76
17 | 2.11 2.15 | 2.13
18 | 0.36 0.62 | 0.49
19 | 0.10 0.22 | 0.16
20 | 0.05 0.09 | 0.07
21 | 0.01 0.00 | 0.00
-----------+----------------------+----------
Total | 100.00 100.00 | 100.00
Este cdigo entrega dos tablas de la variable escolaridad, una para los hombres y otra
para las mujeres. Lo mismo es posible de ser realizado utilizando el condicional if:
29
Tambin se puede utilizar el comando tabulate para generar variables dicotmicas.
Por ejemplo, si se quiere generar variables dicotmicas para cada ao de escolaridad:
Si los aos de educacin toman valores que van desde 0 a 21, se generarn 22
variables dicotmicas.
Suponga ahora que se requiere hacer un cuadro con los aos de escolaridad, pero en
vez de entregar la frecuencia o porcentaje de observaciones en cada categora, se
requiere que muestre una estadstica de otra variable, por ejemplo, el promedio de
ingreso. Para realizar este tipo de tablas se debe usar el comando tab agregndole
despus de una coma la palabra summarize. Para el ejemplo citado debera utilizar el
siguiente cdigo:
| Summary of
| ingreso
escolaridad | laboral
(aos) | Mean
------------+------------
0 | 96996.235
1 | 104083.11
2 | 108236.24
3 | 112638.81
4 | 119092.96
5 | 119745.97
6 | 136860.84
7 | 121445.45
8 | 131005.63
9 | 147939.41
10 | 169646.75
11 | 171547.61
12 | 196789.47
13 | 234377.27
14 | 267368.38
15 | 337808.95
16 | 394113.77
17 | 599325.8
18 | 865582.61
19 | 918467.2
20 | 1127102.9
21 | 744900.67
------------+------------
Total | 195714.26
30
CursodeEstadsticayEconometraAplicadausandoSTATA 31
Por ltimo, el comando tabstat permite realizar tablas con las siguientes estadsticas:
--------------------------------------------------
mean promedio
count cuenta el nmero de observaciones que tiene valor
n igual que count
sum suma
max mximo
min mnimo
range rango=max-min
sd desviacin estndar
var varianza
cv coeficiente de variacion (sd/mean)
semean error estndar de la media = sd/sqrt(n)
skewness asimetra
kurtosis kurtosis
median mediana (lo mismo que p50)
p1 1st percentile
p5 5th percentile
p10 10th percentile
p25 25th percentile
p50 50th percentile (igual que la mediana)
p75 75th percentile
p90 90th percentile
p95 95th percentile
p99 99th percentile
iqr rango interquantil = p75 - p25
q equivalente a especificar "p25 p50 p75"
--------------------------------------------------
Como hemos visto en los casos anteriores tambin podemos tabular usando las
ventanas:
31
Si quisiramos graficar escolaridad contra sexo hacemos doble click sobre Table of
summary statistics observamos el dibujo que viene y ponemos esc en Row
variable y sexo sobre Column variable.
32
CursodeEstadsticayEconometraAplicadausandoSTATA 33
33
I.5. Modificacin de una base de datos
En esta seccin veremos como se pueden modificar las bases de datos, desde los
nombres de sus variables y la generacin de nuevas variables hasta la forma se como
se pueden unir dos bases de datos
Para lograr que una base de datos sea ms amigable y sea entendida por cualquier
usuario, es recomendable incorporar etiquetas a los nmeros o cdigos de las
variables. Esto se hace mediante la utilizacin de variables secundarias llamadas value
labels. Si una variable tiene una variable secundaria que entregue etiqueta a los
cdigos que contiene, debera aparecer en el resultado del comando describe.
No tiene asociada una variable secundaria que nos indique que significa el nmero 1 y
el nmero 0 en esta variable.
Entonces para etiquetar los cdigos de una variable se deben realizar dos pasos:
1- Crear la variable secundaria (value label) que realice el nexo entre los cdigos y
sus etiquetas:
Al hacer un describe de la variable dhombre, este indica que existe una variable que
contiene la etiqueta de los nmeros o cdigos de esta variable:
34
CursodeEstadsticayEconometraAplicadausandoSTATA 35
Si es que la base de datos que uno tiene ya viene con las variables secundarias de
etiquetas (value labels), y queremos saber que cdigo esta relacionado a que etiqueta,
se debe utilizar el comando label list:
Por otro lado si queremos en ese instante darle nombre a las variables y su respectiva
descripcin, hacemos doble click sobre la variable y nos aparecer el siguiente cuadro:
35
En Name escribimos el nombre de la variable y en Label su descripcin.
Adicionalmente existen otros dos tipos de etiquetas: para las variables y para la base
de datos.
Para etiqueta una variable (variable label) se utiliza el comando label var:
36
CursodeEstadsticayEconometraAplicadausandoSTATA 37
Para ver la base de datos en la pantalla se puede tipear en Stata Command la palabra
Cuando una variable est en formato string (no numrico) no se pueden obtener
estadsticas de ella. Los comandos encode y decode cambian el formato de una
variable string a numrico y viceversa:
Mediante este cdigo generamos una nueva variable que le asigna un cdigo a cada
palabra distinta en la variable y deja como etiqueta la palabra.
Ahora cuando la variable que no tiene formato numrico, pero en realidad es un
nmero slo que al traspasarlo a la base de datos quedo en formato string, lo
recomendable es utilizar el siguiente comando:
generate nueva_variable=real(variable)
Muchas veces es necesario combinar dos o ms bases de datos para formar una sola.
Para ello se pueden utilizar los comandos merge y append. El primero une dos bases de
datos utilizando una variable en comn (generalmente es un folio o cdigo que
identifica las observaciones en la base de datos). Las dos bases de datos deben estar
guardadas en formato .dta y deben estar ordenadas de acuerdo a la variable que se va
a pegar. El objetivo del comando merge es agregar variables (columnas) no
observaciones (filas). Supongamos que tenemos dos bases de datos, la primera
llamada uno.dta contiene la siguiente informacin:
37
id esc sexo edad
1 8 1 20
2 9 2 55
3 11 2 45
4 13 2 47
5 15 1 32
6 2 2 31
7 0 1 28
8 10 1 26
9 9 1 35
Y supongamos que tenemos otra base de datos (dos.dta) con la siguiente informacin:
id ingreso
1 80000
3 99000
4 110000
6 130000
8 150000
9 200000
10 115000
11 98000
1- Ordenar la base de datos dos.dta (using data set) de acuerdo a las variables
que vamos a hacer el pegado (id) y guardar esta base de datos:
sort id
save dos.dta, replace
use uno.dta
sort id
merge id using dos.dta
38
CursodeEstadsticayEconometraAplicadausandoSTATA 39
1 8 1 20 80000 3
2 9 2 55 1
3 11 2 45 99000 3
4 13 2 47 110000 3
5 15 1 32 1
6 2 2 31 130000 3
7 0 1 28 1
8 10 1 26 150000 3
9 9 1 35 200000 3
10 115000 2
11 98000 2
Al realizar este pegue de datos, el programa generar una variable, si Ud. no le asigna
un nombre se crear con el nombre _merge, pero Ud. puede darle el nombre que
desee de la siguiente forma:
Ahora supongamos que no se dispone de la base ingreso.dta tal como fue presentada
anteriormente, sino que dispongo de dos bases de datos:
Si quiero construir entonces una sola base de datos que contenga todas estas variables
en forma conjunta, debera realizar los siguientes pasos:
39
Lo que este pequeo cdigo nos indica es que carguemos la base de datos
ingreso2.dta, la ordenemos (utilizando el comando sort) de acuerdo al identificador
folio, y guardemos los cambios realizados (esta base de datos se denomina using
dataset). Luego abrimos la base de datos a la cual le vamos a pegar variables (master
dataset), ingreso1.dta, la ordenamos de acuerdo al identificador folio, y finalmente le
pegamos la informacin que esta en la base ingreso2.dta utilizando el comando merge.
Si alguna de las bases de datos no esta ordenada les arrojara un mensaje de error:
Por otro lado, el comando append, anexa observaciones para el mismo conjunto de
variables, es decir, agrega filas a la base de datos. Supongamos que adems de
uno.dta tenemos otra base de datos (tres.dta) que contiene las mismas variables que
la primera pero para otros 10 individuos distintos:
10 8 1 20
11 9 2 55
12 11 2 45
13 13 2 47
14 15 1 32
15 2 2 31
16 0 1 28
17 10 1 26
18 9 1 35
19 4 2 20
Entonces podemos juntar estas 19 observaciones en una sola base de datos mediante
el comando append, de la siguiente forma:
use dos.dta
append using tres.dta
40
CursodeEstadsticayEconometraAplicadausandoSTATA 41
El resultado es el siguiente:
1 8 1 20
2 9 2 55
3 11 2 45
4 13 2 47
5 15 1 32
6 2 2 31
7 0 1 28
8 10 1 26
9 9 1 35
10 8 1 20
11 9 2 55
12 11 2 45
13 13 2 47
14 15 1 32
15 2 2 31
16 0 1 28
17 10 1 26
18 9 1 35
19 4 2 20
Supongamos ahora que no contamos con la base ingreso.dta, sino que tenemos dos
bases de datos. La primera (ingreso3.dta) tiene las primeras 126.374 observaciones, y
la segunda (ingreso4.dta) tiene las siguientes 126.374 observaciones. En total si
juntamos ambas bases completamos las 252.748 observaciones de la base original
(ingreso.dta).
use ingreso3.dta
append using ingreso4.dta
Podemos juntar bases de datos usando las ventanas tambin; en la opcin Data
existe la opcin Combine datasets luego se hace doble clic en Merge o Append y
nos sale una ventana que nos permite juntar dos o mltiples bases de datos:
41
Luego, para el caso de merge, buscamos la base que le queremos aadir a la base que
estamos usando y ponemos su direccin donde sale Filnename of dataset on disk,
luego en Key variables ponemos el nombre de la variable mediante el cual queremos
unir las dos bases de datos.
42
CursodeEstadsticayEconometraAplicadausandoSTATA 43
Suponga que tiene una base de datos de hogares y que cada hogar tiene una
observacin para cada miembro del hogar que lo integra. Si cada hogar dispone de un
identificador nico, entonces se puede formar una base de datos alternativa que
contenga una sola observacin por hogar (en lugar de una observacin por individuo)
para cada una de las variables deseadas. Esta observacin puede contener la media,
desviacin estndar, suma, u otro estadstico por hogar (sino se especifica calcula la
media). Por ejemplo:
El cdigo anterior crea una base de datos con cuatro variables (hogar, edad, educacin
e ingreso) con una observacin por hogar, la cual contiene el promedio de la edad por
hogar, el mximo de la educacin por hogar y la mediana del ingreso por hogar.
Para explicar como se utiliza este comando primero vamos a definir dos
representaciones de las bases de datos: wide form (forma horizontal) y long form
(forma vertical).
Long form:
43
Wide form:
En la base de datos en forma vertical (long form) podemos ver que existe una variable
que es constante al interior de un grupo, en este caso, al interior de una empresa,
tenemos una variable que vara al interior de este grupo, el precio, y una variable que
me sirve para identificar las distintas observaciones al interior de un grupo, que es la
variable ao.
En la base de datos en forma horizontal (wide form), tengo una sola observacin por
empresa pero tengo ms de una variable precio, una para cada ao.
El comando reshape me permite intercambiar las bases de datos entre estos dos tipos
de formatos, de la siguiente forma:
Long Wide
44
CursodeEstadsticayEconometraAplicadausandoSTATA 45
Wide Long
45
I.5.5 Eliminar variables: keep y drop
Ahora, si se tiene una base de datos que contiene muchas variables y slo se va a
trabajar con algunas de ellas, se puede utilizar el comando keep para mantener en la
base de datos slo las variables que interesan. Por ejemplo:
Tambin podramos requerir mantener todas las variables pero slo un subconjunto de
las observaciones, como por ejemplo, las de los hombres:
keep if dhombre==1
keep if esc<=12
46
CursodeEstadsticayEconometraAplicadausandoSTATA 47
keep if ingreso>=200000
El comando drop cumple el mismo rol que el comando keep, sin embargo, ste borra
observaciones o variables, en vez de mantenerlas. Para realizar lo mismo que hicimos
con el comando keep pero utilizando drop, se debera hacer lo siguiente:
47
I.5.6 Crear variables: generate y egen
Ejemplos:
Otro ejemplo. En la base ingreso.dta se tienen los aos de escolaridad (esc); a partir
de esta variable se podra generar una nueva (tesc) con el nivel de educacin
alcanzado por cada individuo (Bsica Incompleta, Bsica Completa, Media Incompleta,
etc..). Esto se hace con el siguiente cdigo:
g tesc=.
replace tesc=1 if esc<8
replace tesc=2 if esc==8
replace tesc=3 if esc>8 & esc<12
replace tesc=4 if esc==12
replace tesc=5 if esc>12
El comando replace, reemplaza observaciones que cumplen con cierta condicin con
el valor que uno especifica.
Otro comando til, similar a generate, es el comando egen. Este contiene una gran
cantidad de funciones pre-establecidas con las que se pueden generar nuevas
variables. La diferencia con el comando generate es que en este uno define como
quiere generar la variable (sumando, restando, multiplicando, etc.), sin embargo, el
comando egen tiene funciones ya establecidas, por ejemplo, el promedio, la desviacin
estndar, etc
48
CursodeEstadsticayEconometraAplicadausandoSTATA 49
La mayora de estas funciones pueden ser combinadas con el comando by, el que
permite generar variables por diversas categoras. Por ejemplo, si se quiere crear el
promedio de la experiencia laboral para cada ao de educacin, se debe realizar lo
siguiente:
sort esc
En esta parte veremos de manera ms aplicada los comandos utilizados en las clases
anteriores; para ello ser necesario ensear a usar los archivos do y los archivos log,
que como veremos sern de gran utilidad, ya que nos permitirn ir guardando
informacin. Finalmente veremos el comando help; el cual es un comando auxiliar que
49
nos permite encontrar los comandos necesarios para realizar un gama de funciones en
stata.
Como con casi todos los comandos tambin se pueden obtener los mismos resultados,
mediante el uso de ventanas:
Luego de apretar doble clic sobre Create new variable podemos ver que es trivial la
forma de generar otra variable.
50
CursodeEstadsticayEconometraAplicadausandoSTATA 51
Cuando trabajamos con muestras de datos que representan una poblacin, la muestra
generalmente es obtenida de un diseo muestral apropiado para lograr la
representatividad de la poblacin. Por lo tanto, cuando trabajemos con bases de datos
que corresponden a una muestra de una poblacin lo correcto es que adems de las
variables de inters se nos entregase una variable que contiene el factor de expansin,
este factor de expansin nos indica cuantas observaciones de la poblacin representa
cada observacin de la muestra. Luego, para hace anlisis a nivel poblacional debemos
utilizar ese factor de expansin.
. expand weight
(3 observations created)
Sin embargo, en la mayora de los casos esto no es ptimo ya que si por ejemplo
trabajamos con una muestra de representatividad nacional como la encuesta CASEN,
51
expandir la base de datos nos dejara con cerca de 16 millones de observaciones, lo
que hace inmanejable la base de datos en STATA. Por esta razn se utilizan los
comandos de factores de expansin de STATA, que no expanden la base de datos pero
para calcular las estadsticas descriptivas, hacer tabulaciones, regresiones, etc., es
como si la ampliara.
En STATA existen cuatro tipos de factores de expansin que pueden ser utilizados en
los distintos comandos, pero no todos los comandos son compatibles con todos los
factores de expansin.
En los comandos que se puede utilizar este factor de expansin se debe poner luego
del comando y antes de la coma en caso que se utilice de la siguiente forma:
[fw=weight]
En los comandos que se puede utilizar este factor de expansin se debe poner luego
del comando y antes de la coma en caso que se utilice de la siguiente forma:
[pw=weight]
En los comandos que se puede utilizar este factor de expansin se debe poner luego
del comando y antes de la coma en caso que se utilice de la siguiente forma:
[aw=weight]
Los comandos que permiten utilizar este tipo de factor de expansin especifican como
utilizarlo.
52
CursodeEstadsticayEconometraAplicadausandoSTATA 53
En esta seccin veremos de manera aplicada lo que hemos aprendido hasta ahora y en
los dos siguiente mostraremos a partir de est seccin la utilidad de los archivos do y
log. El archivo log es el archivo donde se va guardando todo lo que aparece en la
ventana de resultados, mientras que el do es un archivo que nos permite programar
todo el trabajo que queremos realizar en stata.
Luego debemos empezar a generar las variables necesarias para encontrar las tasas de
pobreza e indigencia correspondiente. Como la encuesta CASEN se realiza a hogares y
nosotros estamos interesados en el porcentaje de individuos pobres e indigentes y no
en el porcentaje de hogares pobres e indigentes; lo que necesitamos es tener algn
indicador per capita.
53
egen id=group(segmento folio)
edit id np
En la tabla anterior podemos ver que hay hogares (68.153) e individuos (257.077);
adems podemos ver que el nmero de individuos por hogar vara. La variable id tiene
asignado un cdigo por hogar y vemos que el hogar 13 tiene asociados 3 individuos, a
su vez el hogar nmero 7 tiene asociados 2 individuos y en el hogar numero 4 son 5
individuos.
54
CursodeEstadsticayEconometraAplicadausandoSTATA 55
tab pco1
parentesco con el |
jefe(a) hogar | Freq. Percent Cum.
-----------------------+-----------------------------------
jefe(a) de hogar | 68,153 26.51 26.51
cnyuge o pareja | 47,864 18.62 45.13
hijo(a), hijastro(a) | 104,375 40.60 85.73
padre o madre | 1,776 0.69 86.42
suegro(a) | 1,166 0.45 86.87
yerno o nuera | 3,749 1.46 88.33
nieto(a) | 19,044 7.41 95.74
hermano(a) | 2,828 1.10 96.84
cuado(a) | 942 0.37 97.21
otro familiar | 4,875 1.90 99.10
no familiar | 1,675 0.65 99.75
s. domstico p.adentro | 630 0.25 100.00
-----------------------+-----------------------------------
Total | 257,077 100.00
Como vemos en algunas casas ocurre que hay personas que prestan servicios
domsticos puertas adentro y generalmente para calcular el ingreso per capita del
hogar debemos excluir a esas personas. Para ello generaremos una variable llamada s;
la cual tomar el valor 1 si la personas pertenece al hogar y no presta servicios dentro
de l; y toma el valor de 0 si la personas presta servicios dentro del hogar. Despus
generaremos el nmero de personas que pertenecen al hogar y no prestan servicios
dentro de l. Finalmente botamos la variable s, ya que la creamos slo como una
variable momentnea para excluir a las personas que prestan servicios domsticos
puertas adentro y ya tenemos la variable np, que es la que nos seala el nmero de
personas que realmente son parte del hogar.
g s=1
replace s=0 if pco1==12
egen np=sum(s), by(id)
drop s
Ahora, que tenemos el nmero de personas que pertenecen al hogar, estamos listos
para crear la variable que nos indica el nivel de ingreso individual de los habitantes del
pas y poder separarlo de acuerdo al nivel de pobreza.
g ing=ytothaj/np
Una persona es pobre si est recibe ingresos menores a $43.712 y vive en zona
urbana y $29.473 y est vive en zona rural. Una persona ser indigente si recibe
ingresos menores a $21.856 y vive en zona urbana; y $16.842 si esta vive en zona
rural. Como se est pidiendo el nmero y le porcentaje de pobres e indigentes,
necesitamos clasificar a los individuos en alguna de las tres categoras posible; no
pobres; pobres no indigentes e indigentes.
55
g pobre=1 if ing<21856 & z==1
replace pobre=1 if ing<16842 & z==2
replace pobre=2 if ing>=21856 & ing<43712 & z==1
replace pobre=2 if ing>=16842 & ing<29473 & z==2
replace pobre=3 if pobre==.
replace pobre=. if pco1==12
label variable pobre "Situacion de pobreza"
label define pobrelbl 1 "Indigente" 2 "Pobre no indigente" 3 "No pobre"
label values pobre pobrelbl
Situacion de | zona
pobreza | urbana rural | Total
-------------------+----------------------+----------
Indigente | 599,008 129,055 | 728,063
| 4.47 6.19 | 4.70
-------------------+----------------------+----------
Pobre no indigente | 1,890,085 289,568 | 2,179,653
| 14.11 13.88 | 14.08
-------------------+----------------------+----------
No pobre |10,905,022 1,667,008 |12,572,030
| 81.42 79.93 | 81.22
-------------------+----------------------+----------
Total |13,394,115 2,085,631 |15,479,746
| 100.00 100.00 | 100.00
56
CursodeEstadsticayEconometraAplicadausandoSTATA 57
Si el archivo log que estamos tratando de abrir ya exista, el programa nos entregar
el siguiente error:
Frente a esto tenemos dos opciones, cual de ellas se tome depende de los objetivos:
reemplazar el archivo ya existente, o seguir escribiendo en el archivo existente a
continuacin de lo ltimo ingresado.
57
Para reemplazar el archivo existente:
El archivo do no es mas que un archivo de texto que permite escribir las instrucciones
para la ejecucin de comandos en Stata.
58
CursodeEstadsticayEconometraAplicadausandoSTATA 59
Con esto ya he abierto la base de datos. A continuacin puedo empezar a escribir los
comandos para transformar la base de datos, para obtener estadsticas, etc.
59
Exactamente de la misma forma que lo hara en la ventana de comandos pero ahora
en forma ms ordenada.
En primer lugar ser necesario crear una variable llamada sexojh, el cual tomar el
valor de 1 si ste es hombre y 2 si ste es mujer. Luego se etiquetar la variable
dndole el nombre de hombre cuando la variable sexojh tome el valor 1 y mujer
cuando sexojh tome el valor 2.
60
CursodeEstadsticayEconometraAplicadausandoSTATA 61
g sexojh=sexo if pco1==1
label define sexolbl 1 "Hombre" 2 "Mujer"
label values sexojh sexolbl
Ahora se generar una variable que tomar el valor de 1 para todos los miembros del
hogar cuando est es hombre y 2 para todos los miembros del hogar cuando este es
mujer. Esto se hace generando una variable con el comando
egen sexojhm=max(sexojh), by (id) el cual genera una variable que toma el
nmero mayor asociado a la variable sexojh- por hogar; y como en los hogares
donde el jefe de hogar es hombre el nmero mayor de la variable sexojh es 1 lo
otros son missings- y en los hogares donde el jefe es mujer ese nmero es 2.
61
tab pobre sexojh [w=expr], col nofreq
62
CursodeEstadsticayEconometraAplicadausandoSTATA 63
Situacion de | sexojh
pobreza | hombre mujer | Total
-------------------+----------------------+----------
Indigente | 4.24 6.30 | 4.70
Pobre no indigente | 13.82 15.00 | 14.08
No pobre | 81.94 78.70 | 81.22
-------------------+----------------------+----------
Total | 100.00 100.00 | 100.00
Podemos decir que las personas que viven en hogares con jefes de hogar hombres
tienen una tasa de indigencia es un 4.24%, y un porcentaje de pobres no indigentes
igual a 13.82%, con lo cual la tasa de pobreza es un 18.06%. Por su parte las
personas que viven en hogares con jefes de hogar mujer tienen una tasa de indigencia
de 6.3%, y un porcentaje de pobres no indigentes un 15%, de esta forma la tasa de
pobreza es 21.3%.
g categ_np=np
replace categ_np=8 if np>=8
tab categ_np pobre [w=expr], row nofreq
| Situacion de pobreza
categ_np | Indigente Pobre no No pobre | Total
-----------+---------------------------------+----------
1 | 1.96 2.89 95.15 | 100.00
2 | 1.95 4.25 93.81 | 100.00
3 | 3.15 9.24 87.60 | 100.00
4 | 3.76 12.65 83.58 | 100.00
5 | 4.74 16.29 78.97 | 100.00
6 | 7.08 18.98 73.94 | 100.00
7 | 7.41 22.18 70.41 | 100.00
8 | 9.73 24.45 65.82 | 100.00
-----------+---------------------------------+----------
Total | 4.70 14.08 81.22 | 100.00
En esta tabla se puede apreciar como las tasas de pobreza e indigencia aumentan a medida
que aumenta el tamao del hogar. En hogares de una persona el porcentaje de indigentes
es 1.96%, y el porcentaje de pobres no indigentes es 2.89%. Por el contrario, en hogares
con 8 personas o ms, el porcentaje de indigentes de 9.73% y de pobres no indigentes
24.45, con lo cual la tasa de pobreza en estos hogares alcanza un 34.2%.
63
c. Por educacin del Jefe de hogar
En primer lugar ser necesario crear una variable que determine el nivel de educacin
(aos de educacin) de las personas encuestadas y luego etiquetar aquellas variables.
El nivel de educacin viene determinado en la base de datos, sin embargo por ejercicio
aqu se vuelve a generar una variable que determine el nivel educativo que la persona
a alcanzado:
g leducjh=leduc if pco1==1
label values leducjh leduclbl
egen leducjhm=max(leducjh), by(id)
drop leducjh
rename leducjhm leducjh
64
CursodeEstadsticayEconometraAplicadausandoSTATA 65
| Situacion de pobreza
leducjh | Indigente Pobre no No pobre | Total
-----------+---------------------------------+----------
0 | 7.49 18.53 73.98 | 100.00
1 | 7.93 20.58 71.48 | 100.00
2 | 5.68 18.99 75.34 | 100.00
3 | 5.13 17.09 77.78 | 100.00
4 | 3.49 11.19 85.33 | 100.00
5 | 0.93 5.27 93.81 | 100.00
6 | 1.33 3.59 95.08 | 100.00
7 | 0.54 0.51 98.95 | 100.00
-----------+---------------------------------+----------
Total | 4.70 14.08 81.22 | 100.00
65
I.8. Crear matrices para guardar los datos
. sum esc
. return list
scalars:
r(N) = 180914
r(sum_w) = 180914
r(mean) = 8.319068728788263
r(Var) = 18.37735307412638
r(sd) = 4.28688150922397
r(min) = 0
r(max) = 21
r(sum) = 1505036
escolaridad (aos)
-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 0 0
10% 2 0 Obs 180914
25% 5 0 Sum of Wgt. 180914
. return list
scalars:
r(N) = 180914
r(sum_w) = 180914
r(mean) = 8.319068728788263
r(Var) = 18.37735307412638
r(sd) = 4.28688150922397
r(skewness) = -.1286631597722507
r(kurtosis) = 2.403091261120855
r(sum) = 1505036
r(min) = 0
r(max) = 21
r(p1) = 0
r(p5) = 0
r(p10) = 2
66
CursodeEstadsticayEconometraAplicadausandoSTATA 67
r(p25) = 5
r(p50) = 8
r(p75) = 12
r(p90) = 13
r(p95) = 15
r(p99) = 17
Esto puede hacerse generando una matriz de dos filas y tres columnas, para
posteriormente completar sus elementos con las estadsticas correspondientes. Para
esto primero se debe generar la matriz, llammosla A.
matrix A=J(2,3,0)
Luego se hace el primer sum, de la variable ingreso para los hombres, y guardo este
resultado en la posicin [1,1] de la matriz:
Con esto se completa la matriz. Luego para que se vea, en Stata Results se tipea el
comando matriz list:
. matrix list A
A[2,3]
c1 c2 c3
r1 210198.54 8.3427264 58.336718
r2 162629.12 8.2959796 60.383309
67
Esta matriz se puede copiar, seleccionando la matriz en la ventana de resultados
apretando el botn derecho y pinchando copy table; luego se puede llevar a un
archivo Excel para su edicin.
El comando while permite ejecutar una funcin en forma recursiva mientras cierta
condicin se cumpla. Por ejemplo:
local i
while `i<22 {
tab dhombre if esc==`i
local i=`i+1
}
Este cdigo har 21 tablas, una para cada ao de escolaridad, de la variable que
identifica gnero.
I.10. Grficos
En STATA se pueden realizar grficos de todos los tipos. Esto, al igual que otras
funciones preestablecidas, no requiere del conocimiento de todos los comandos, ya que
pinchando Graphics aparecen todas las opciones y en cada una de ellas un cuadro de
opciones bastante completo:
68
CursodeEstadsticayEconometraAplicadausandoSTATA 69
69
Donde se nos presentan varias opciones, como hacer el grfico por cierta categora
(por ejemplo gnero) a travs del comando by, condicionar el grfico a cierto grupo a
travs del comando if, introducir factores de expansin, ajustar una densidad normal,
ajustar una densidad estimada en forma no paramtrica (kernel), y poner ttulos,
etiquetas, etc
histogram leduc
70
CursodeEstadsticayEconometraAplicadausandoSTATA 71
71
En el grfico observamos que el nmero de personas con educacin va cayendo a
medida que aumenta el nivel educativo. Sin embargo observamos que se observa un
gran nmero de personas sobre el nmero 1, lo que equivale a educacin bsica
incompleta, y luego observamos otro peca en el nmero 4, lo que equivale a educacin
media completa.
Ahora hagamos este mismo grfico pero separando a los hombres de las mujeres:
72
CursodeEstadsticayEconometraAplicadausandoSTATA 73
73
2. Ahora realicemos un grfico de dispersin entre aos escolaridad e ingreso:
Ahora mostraremos el mismo grafico slo que con la lnea de regresin que minimiza la
distancia entre los puntos:
74
CursodeEstadsticayEconometraAplicadausandoSTATA 75
Pero; qu ocurre con ambos grficos?, ocurre que no se observa una correlacin entre
el nivel de ingresos y el nivel de escolaridad, debido a que los ingresos muy altos
distorsionan la distribucin. A continuacin mostraremos un grafico de puntos junto a
su lnea de regresin, pero que slo toma en cuenta a los individuos que tienen
ingresos menores a un milln de pesos.
75
3. Hagamos un grfico de barras con el ingreso promedio por sexo y situacin de
pobreza:
76
CursodeEstadsticayEconometraAplicadausandoSTATA 77
Este grfico nos muestra que para los indigentes y los pobres no indigentes el nivel de
ingreso entre hombres y mujeres es similar, sin embargo para los individuos no pobres
el ingreso de los hombres supera al ingreso de las mujeres.
Un grfico til son los box plots, estos entregan informacin sobre el centro,
dispersin, simetra y observaciones extremas, en un solo grfico. Por ejemplo
observamos en el siguiente box-plot del ingreso per cpita. La lnea horizontal dentro de
la caja muestra la mediana. La caja muestra el rango intercuartil y, correspondiente a
la diferencia entre el ingreso del percentil 75 y del percentil 25. La lnea superior
horizontal se establece en un valor igual al percentil 75 ms 1,5 veces el rango
intercuartil. La lnea inferior horizontal, por su parte, se fija en un valor igual al
percentil 25 menos 1,5 veces el rango intercuartil. Todos los valores superiores o
inferiores a estas lneas representan valores extremos (outliers) de la distribucin.
Podemos ver que los nmeros o coinciden realizando un sum detail, el que se muestra
a continuacin del box-plot.
77
78
CursodeEstadsticayEconometraAplicadausandoSTATA 79
La ayuda que trae este programa es bastante amigable y fcil de utilizar. Si Ud. Se
dirige a Help se despliega un cuadro con diferentes opciones, puede buscar ayuda
por contenidos, por comandos, etc, en Whats new encontrar todas las novedades
del programa, que nuevos comandos hay y podr descargarlos haciendo un update.
Por ejemplo, supongamos se quiere saber como calcular correlacin entre variables.
Entonces se debe buscar en Search:
79
Dependiendo que este buscando pincha el comando (en azul), y se abrir una ventana
con una completa ayuda sobre el comando.
80
CursodeEstadsticayEconometraAplicadausandoSTATA 81
Para que el Help de STATA le sea realmente til es fundamental que Ud. aprenda a leer
la sintaxis de cada comando. Por ejemplo, en este caso la sintaxis del comando
correlate es la siguiente:
Esta sintaxis nos indica que el commando correlate puede ser utilizado entregando el
listado de variables, sino se entrega el default es considerar todas las variables en la
81
base de datos. Se puede utilizar la opcin if, in y weight todas ellas antes de la coma,
la que es utilizada tambin en forma opcional para poner algunas opciones del
comando. Entonces siempre lo que aparece en parntesis cuadrados son alternativas
opcionales del comando. Ms adelante de la sintaxis, se indican cuales son estas
correlate_options, tambin se presenta una descripcin general del comando y sus
opciones.
Recordemos que todo lo que esta entre parntesis cuadrado son opciones voluntarias
de comando. En este caso rowvar no esta entre parntesis cuadrado, significa que
debemos obligadamente sealar la variable fila en la tabulacin, es voluntario indicar
la variable de columna, si no se indica la tabulacin resultante es una distribucin de la
variable sola, si se indica colvar la tabla ser un cruce entre rowvar y colvar. Este
ejemplo nos permite notar la diferencia en aquellos insumos del comando que son
obligatorios de los que son voluntarios.
Puede ser que algunos de los comandos que aparezcan Ud. no los tenga cargados, en
este caso si se encuentra conectado a Internet los podr bajar online. Aparecer algo
de la siguiente forma:
Una forma ms completa de buscar ayuda es a travs de los manuales, estos adems
de traer una ayuda sobre los comandos generalmente contiene toda una descripcin
terica de ellos. Por ejemplo, en el caso de un modelo de regresin lineal, explica lo
que es una modelo de este tipo.
Adems el manual de grficos es muy til, ya que trae mltiples ejemplos que se
pueden adecuar a los que uno anda buscando.
En esta parte veremos un ejemplo como el visto en la parte 3 y luego con la misma
base de datos realizaremos varios tipos o formas de grficos.
82
CursodeEstadsticayEconometraAplicadausandoSTATA 83
Cuando tenemos un conjunto de observaciones sobre una variable, por ejemplo aos
de escolaridad, existen varias formas de caracterizar la variable. Una forma de ilustrar
tendencias y patrones de los datos de una variable dentro de la poblacin es atravs
de un grfico de distribucin de frecuencias. La distribucin de frecuencias muestra en
nmero de observaciones de la poblacin que toma cada uno de los posibles valores de
la variable. Tambin podemos expresar la frecuencia de cada valor de la variable como
una fraccin o porcentaje lo que se conoce como frecuencia relativa. Un histograma
nos muestra una distribucin de frecuencias, por ejemplo, el siguiente grfico
corresponde a la distribucin de frecuencias de los aos de escolaridad de una
poblacin de 18.989 individuos:
83
La distribucin de frecuencias tambin se puede ver mediante una tabla con los datos:
. tab esc
84
CursodeEstadsticayEconometraAplicadausandoSTATA 85
g normal_02=normal_01*sqrt(2)
twoway (scatter dennormal_01 normal_02) (scatter dennormal_01 normal_01),
ytitle(Densidad) legend(order(1 "N(0,2)" 2 "N(0,1)"))
85
Sesgo: las curvas que representan los datos pueden ser simtricas o sesgadas. Cuando
la curva es simtrica la media divide a la distribucin en dos partes iguales. El
siguiente grfico nos muestra la comparacin de una distribucin simtrica como la
normal, con una distribucin asimtrica como la distribucin Pareto5:
5
Una variable x que se distribuye pareto tiene la siguiente funcin de distribucin de densidad y probabilidad
acumulada:
86
CursodeEstadsticayEconometraAplicadausandoSTATA 87
Por ejemplo, en la CASEN 2006 viene la variable ytotaj que corresponde a los ingresos
totales individuales. El siguiente comando nos muestra el nmero de observaciones de
esta variable y su promedio:
. sum ytotaj
87
presencia de valores extremos, el promedio deja de ser una buen indicador de la
variable.
. di 111787/152132
.73480267
Moda: corresponde al valor que ms se repite en las observaciones, esta medida tiene
ms sentido cuando la variable es discreta, ya que cuando la variable es continua con
poca probabilidad se repetirn valores y si se repiten no necesariamente representa
una medida de tendencia central.
. sum ytotaj, d
ingreso total
-------------------------------------------------------------
Percentiles Smallest
1% 4126 42
5% 4126 42
10% 4126 42 Obs 152132
25% 47186 63 Sum of Wgt. 152132
88
CursodeEstadsticayEconometraAplicadausandoSTATA 89
g uno=1
replace uno=0 if pco1==14
egen np=sum(uno), by(hogar)
g yaupc= yauthaj /np
5 quantiles |
of yaup | Freq. Percent Cum.
------------+-----------------------------------
1 | 813,736 20.00 20.00
2 | 813,835 20.00 40.00
3 | 813,944 20.01 60.01
4 | 813,597 20.00 80.01
5 | 813,371 19.99 100.00
------------+-----------------------------------
Total | 4,068,483 100.00
Con este comando solo se ha creado la variable quintil para los jefes de hogares, si
queremos que quede plasmada en cada uno de los integrantes debemos realizar la
siguiente operacin:
Summary statistics: sd
by categories of: quintil
89
4 | 31462.44 4.120101
5 | 621575.5 4.282641
---------+--------------------
Total | 250734.9 4.318203
------------------------------
90
CursodeEstadsticayEconometraAplicadausandoSTATA 91
Este tipo de grfico de STATA es bastante til ya que nos permite resumir algunos de
los indicadores de dispersin y tendencia central antes descritos. Este grfico entre el
siguiente dibujo como resultado:
outside values
Upper adjacent value
P75
P50
P25
91
II.3. Medidas de desigualdad
Curva de Lorenz: representa el porcentaje acumulado del ingreso total en manos del
porcentaje acumulado de la poblacin.
En STATA el comando lorenz nos grafica la Curva de Lorenz para la variable que
indiquemos, por ejemplo el siguiente grfico nos muestra la Curva de Lorenz del
ingreso autnomo per cpita:
lorenz yaupc
92
CursodeEstadsticayEconometraAplicadausandoSTATA 93
93
El comando inequal de STATA nos entrega, dentro de otros indicadores, el coeficiente
de GINI:
. inequal yaupc
La idea detrs de hacer una prueba de hiptesis es que como investigador tenemos
una hiptesis sobre un parmetro poblacional, por ejemplo la media. Para estimar este
parmetro poblacional generalmente recurrimos a una muestra de observaciones de la
poblacin, luego utilizamos el test de hiptesis para decir que tan probable es que
nuestro parmetro poblacional hipottico sea correcto. Para esto tomamos el promedio
muestral y el valor poblacional supuesto, y vemos si esta diferencia es significativa o
no.
94
CursodeEstadsticayEconometraAplicadausandoSTATA 95
conclusin que si aceptamos se llama hiptesis alternativa (H1). Para la hiptesis nula
anterior se pueden considerar tres hiptesis alternativas:
. sum yautaj
Con estos datos podemos construir el estadstico que nos permite testear la hiptesis
nula:
Donde:
. di sqrt(r(N))*(r(mean)-300000)/r(sd)
-25.227046
. di 1-ttail(r(N)-1,-25.227046)
0
95
Este mismo test de hiptesis se puede realizar en un solo paso con el siguiente
comando en STATA:
. ttest yautaj=300000
One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
yautaj | 121895 259172.3 1618.411 565043.2 256000.2 262344.3
------------------------------------------------------------------------------
mean = mean(yautaj) t = -25.2270
Ho: mean = 300000 degrees of freedom = 121894
Ha: mean < 300000 Ha: mean != 300000 Ha: mean > 300000
Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 1.0000
Tambin podemos utilizar las ventanas de STATA para realizar el mismo test:
96
CursodeEstadsticayEconometraAplicadausandoSTATA 97
distribucin t-student, para mas de 120 grados de libertad este valor es de 1.98. Si el
estadstico calculado es mayor a 1.96 o menor a -1.96 podemos rechazar la hiptesis
nula con un 95% de seguridad o de confianza. En este caso el estadstico calculado es
claramente menor al valor de tabla (-1.96) rechazando la hiptesis nula de que la
media del ingreso autnomo es de 300 mil pesos. Una forma alternativa de concluir
sobre la hiptesis nula una vez establecido el nivel de significancia es vieno el p-value,
este valor es el nivel de significancia asociado al estadstico calculados, si este es
menor al nivel de significancia escogido inicialmente, se rechaza la hiptesis nula. La
tercera forma de testear a hiptesis nula es con el intervalo de confianza, si hemos
escogido un 5% de significancia, el intervalo de confianza nos dice el rango de valores
ms probable (con 95% de seguridad) de la media, en este caso, con 95% de
seguridad la media esta entre $256,000.2 y $262,344.3, como $300,000 esta fuera de
los valores ms probable se rechaza la hiptesis nula de que la media sea igual a 300
mil.
One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [99% Conf. Interval]
---------+--------------------------------------------------------------------
yautaj | 121895 259172.3 1618.411 565043.2 255003.5 263341.1
------------------------------------------------------------------------------
mean = mean(yautaj) t = -25.2270
Ho: mean = 300000 degrees of freedom = 121894
Ha: mean < 300000 Ha: mean != 300000 Ha: mean > 300000
Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 1.0000
De igual forma, podemos realizar test de diferencia de medias entre dos variables, o
de la misma variable pero medias de distintos grupos.
Este test se puede realizar de dos maneras, testeando que en promedio la diferencia
entre las dos variables es igual a cero (paired), o testeando que la diferencia de los
promedios de los dos variables es igual a cero (unpaired).
97
. ttest yautaj == yaupc
Paired t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
yautaj | 121892 259175.3 1618.449 565049.8 256003.2 262347.5
yaupc | 121892 164064.2 860.9343 300578.3 162376.8 165751.6
---------+--------------------------------------------------------------------
diff | 121892 95111.11 1210.12 422489.7 92739.29 97482.92
------------------------------------------------------------------------------
mean(diff) = mean(yautaj - yaupc) t = 78.5964
Ho: mean(diff) = 0 degrees of freedom = 121891
La otra forma, es testear que la diferencia de los promedios de las dos variables es
igual a cero:
Existen otros casos en que nos interesa testear sobre una misma variable la diferencia
de medias entre grupos, por ejemplo, testear si la diferencia entre el ingreso promedio
autnomo de hombres y mujeres es estadsticamente significativa:
98
CursodeEstadsticayEconometraAplicadausandoSTATA 99
---------+--------------------------------------------------------------------
combined | 121895 259172.3 1618.411 565043.2 256000.2 262344.3
---------+--------------------------------------------------------------------
diff | 106745.1 3306.152 100265.1 113225.1
------------------------------------------------------------------------------
diff = mean(hombre) - mean(mujer) t = 32.2868
Ho: diff = 0 degrees of freedom = 121893
Cuando estamos interesados no slo en una variable, sino en como se relaciona esta
con otra variable podemos utilizar la covarianza y/o correlacin.
| esc yautaj
-------------+------------------
esc | 19.6016
yautaj | 564191 3.2e+11 Varianzas
| esc yautaj
-------------+------------------
esc | 1.0000
yautaj | 0.2237 1.0000
Coeficiente de
correlacin
Tambin podemos mediante inspeccin grfica ver el grado de asociacin entre dos
variables, este tipo de grfico se denomina diagrama de dispersin (scatterplot). El
99
grfico 1 muestra una asociacin positiva entre las expectativas de vida de los
hombres y de las mujeres a los 60 aos para un conjunto de 188 pases segn datos
de la Organizacin Mundial de la Salud. Como las observaciones estn bastante
cercanas a la recta de regresin, se puede decir que la correlacin exhibida es fuerte.
De hecho, el coeficiente de correlacin es 0,94. Se puede apreciar, adems, que la
pendiente de la recta es mayor que 1. Esto ocurre porque en casi todos los pases, las
mujeres tienen expectativas de vida mayores que las de los hombres.
Grfico 1
Nota:
Primero se llaman los datos:
use who2001, clear
lfit permite agregar una lnea de regresin entre las dos variables; scatter
indica la modalidad del grfico;
El Grfico 2 exhibe un patrn de asociacin negativo entre dos variables, en este caso,
entre la mortalidad infantil y la alfabetizacin de las mujeres, a partir de datos de 162
pases provenientes de UNICEF. El coeficiente de correlacin es -0,80.
100
CursodeEstadsticayEconometraAplicadausandoSTATA 101
Grfico 2
Nota:
use unicef, clear
graph twoway (lfit mort5_1999 literacy_f) (scatter mort5_1999 literacy_f, mstyle(p1)
ms(oh)), ytitle(Mortalidad Infantil) xtitle(Alfabetizacion) name(g2, replace)
legend(off)
Grfico 3
Nota:
use life, clear
graph twoway (lfit lhyb_m govexp)(scatter lhyb_m govexp, mstyle(p1) ms(oh)),
ytitle("Aos saludables perdidos (expectativa)") xtitle("Gasto gobierno en salud
como % del gasto total en salud") name(g3, replace) legend(off)
101
Los tres grficos anteriores se pueden poner juntos utilizando la siguiente instruccin:
graph combine g1 g2 g3, rows(3) ysize(6)
Entonces, si bien el anlisis de correlacin nos sirve para ver el grado de asociacin
lineal entre dos variables, este no indica una causalidad entre ellas. Por esta razn,
cuando estamos interesados en causalidad de una o ms variables sobre una variable
de inters, utilizamos el anlisis de regresin.
102
CursodeEstadsticayEconometraAplicadausandoSTATA 103
Podemos observar dos cosas: primero, para cada nota posible en los controles (3.0,
4.0,..) tenemos un rango o distribucin de notas en el examen y segundo, el promedio
de notas en el examen es mayor mientras mayores son notas de los controles. Esto
ltimo se puede apreciar al trazar una recta que una los valores promedios de notas en
examen para cada nota en los controles (lnea negra del la Figura 1), la que
corresponde a la recta de regresin. Esta nos permite, para cada nivel de edad,
predecir la estatura promedio correspondiente.
103
temperatura al que estuvo expuesta la uva, la cantidad de lluvia, sol y los fertilizantes.
La relacin entre estas variables explicativas y la calidad del vino tiene una naturaleza
estadstica, ya que si bien estas variables ayudan al productor de vino a saber ms o
menos como ser la cosecha, no podr predecir en forma exacta la calidad del
producto debido a los errores involucrados en estas variables y porque pueden haber
otros factores difciles de medir que estn afectando la calidad del vino. La variable
dependiente, en este caso la calidad del vino, tiene una variabilidad aleatoria, ya que
no puede ser explicada en su totalidad por las variables explicativas. Por el contrario,
la ley de gravedad de Newton es una relacin determinstica.
A pesar de que el anlisis de regresin es una relacin estadstica entre una variable
dependiente, y una o ms variables explicativas, no implica causalidad a priori. La
causalidad impuesta en el modelo de regresin forma parte de los supuestos y
argumentos del investigador.
104
CursodeEstadsticayEconometraAplicadausandoSTATA 105
Cul es la recta que mejor se ajusta a la nube de puntos en los grficos anteriores?.
El Mtodo de Mnimos Cuadrados Ordinarios (MICO) elige los parmetros relevantes de
manera de minimizar la suma de los errores al cuadrado.
------------------------------------------------------------------------------
mort5_1999 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
literacy_f | -2.046104 .1193802 -17.14 0.000 -2.281868 -1.810339
_cons | 219.0556 9.071686 24.15 0.000 201.1399 236.9713
------------------------------------------------------------------------------
105
es decir, sin alfabetizacin alguna, la mortalidad infantil en los pases sera de 219 por
cada 1000 nacidos vivos; pero, por otra parte, por cada punto porcentual de
alfabetizacin de las madres, el ndice de mortalidad infantil desciende en 2 por cada
1000 nacidos vivos.
Note que ud. puede usar el comando display como una calculadora:
. display 219.0556-2.046104*100
14.4452
Adems de los errores que se pueden cometer escribiendo nmeros, est el hecho que
los coeficientes que se exhiben en el output de STATA estn redondeados. Una forma
ms simple de acceder a los coeficientes es utilizando lo que queda almacenado en
STATA: _b[nombre de la variable]
. display _b[_cons]+_b[literacy_f]*100
14.44524
Supongamos que queremos mirar los datos y examinar precisamente los casos en que
la alfabetizacin femenina es de 100%. Ya sabemos que el valor predicho para la
mortalidad es de 14.44524. Cul es el valor observado para la mortalidad?
+-------------------------+
| mort5_1999 literacy_f |
|-------------------------|
64. | 23 100 |
91. | 30 100 |
101. | 11 100 |
157. | 6 100 |
+-------------------------+
Se puede ver que aparecen valores entre 6 y 30, que difieren del 14,4 esperado. Estas
diferencias corresponden a los residuos. Es decir, los residuos (e) corresponden a las
desviaciones entre el Y observado y el Y predicho por la recta de regresin:
106
CursodeEstadsticayEconometraAplicadausandoSTATA 107
Si se quiere computar el valor predicho para cada pas en la base de datos, se pueden
usar los coeficientes de la regresin que quedan grabados en STATA. Es decir, para
guardar el valor predicho en una variable que llamaremos ygorro, habra que escribir:
. generate ygorro=_b[_cons]+_b[literacy_f]*literacy_f
. predict ygorro
con lo que se crea una variable ygorro que contiene los valores predichos de la
variable dependiente de la regresin.
La suma de los residuos al cuadrado est denotada en el output de STATA por residual
SS y asciende a 272883,071, lo que equivale a:
107
El output que aparece en el borde superior derecho contiene el nmero de
observaciones: 162 (pases) en el caso que nos ocupa.
Adicionalmente, contiene una medida de la calidad del ajuste de la regresin. Para ello
utiliza el coeficiente de determinacin o R2:
Otras dos filas del output en el mismo sector se refieren al test F. En el ejemplo,
aparece F(1,160) y tambin Prob>F. El valor F(1,160) corresponde al valor del test
para la hiptesis nula de que todos los coeficientes son cero salvo la constante. Este
test tiene dos grados de libertad: el nmero de restricciones (en este caso,
corresponde solo a 1, la pendiente es igual a cero); y el nmero de observaciones
menos el nmero de parmetros estimado (n-2). Por ello, el test tiene grados de
libertad (1 y 160).
108
CursodeEstadsticayEconometraAplicadausandoSTATA 109
------------------------------------------------------------------------------
mort5_1999 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
literacy_f | -2.046104 .1193802 -17.14 0.000 -2.281868 -1.810339
_cons | 219.0556 9.071686 24.15 0.000 201.1399 236.9713
------------------------------------------------------------------------------
Ntese que, en el caso de una regresin bivariada, la varianza del estimador es:
109
Sin embargo, como no conocemos el parmetro 2, la varianza estimada del
coeficiente debe utilizar un estimador insesgado de 2, es decir: s2, la suma de los
residuos al cuadrado dividido por los grados de libertad.
Despus del error estndar, la columna siguiente de resultados muestra un test t para
la hiptesis nula de que cada coeficiente, individualmente, es igual a cero. El
estadstico estimado as, tiene una distribucin t de student con n-k grados de libertad
y corresponde a lo siguiente:
110
CursodeEstadsticayEconometraAplicadausandoSTATA 111
Una forma alternativa de examinar esta evidencia es mirar la columna P>|t|, que
contiene el p-value del test. Es decir, esta columna nos indica cun probable es
observar un valor del coeficiente como el obtenido de la regresin si es que el
coeficiente verdadero fuera el de la hiptesis nula (es decir, cero). En general, un valor
pequeo (tpicamente menor a 0,05) nos indica que es improbable observar este valor
si es que el valor verdadero poblacional es cero. Para el ejemplo en cuestin, para
ambos parmetros el p-value es de 0.
Por ltimo, tan importante como obtener estimaciones puntuales de los coeficientes, es
obtener intervalos de confianza para los mismos. Se puede demostrar que un intervalo
de confianza del 95% para el coeficiente toma la siguiente forma:
donde, como ya se vio, 2.042 corresponde al valor crtico para el 95% de confianza
para un test de dos colas, cuando el tamao muestral es mayor de 30 observaciones.
Debe recordarse que los errores estndar, test t y los intervalos estimados, para ser
apropiados, requieren del cumplimiento de los supuestos del modelo lineal clsico:
correcta especificacin del modelo y linealidad del mismo; trmino de error de media
cero, varianza igual y constante para todas las observaciones y covarianza de cero
entre los errores de dos distintas observaciones; adems de cero covarianza entre el
trmino de error del modelo y las variables independientes. Sin embargo, no basta lo
anterior. En efecto, las propiedades antes enunciadas aseguran que el estimador de
Mnimos Cuadrados Ordinarios es el mejor estimador dentro de la categora de
estimadores lineales e insesgados (Teorema de Gauss-Markov). El uso de los
intervalos, errores estndar y test t indicados anteriormente requiere de un supuesto
adicional que es que el trmino de error del modelo tenga distribucin normal
(alternativamente, se requerira que la muestra utilizada sea suficientemente grande
como para que se aplique el hecho que, asintticamente, las distribuciones tienden a
ser normales).
111
III.1.3 Regresin mltiple
112
CursodeEstadsticayEconometraAplicadausandoSTATA 113
Una de los modelos ms estimados en los anlisis empricos es aqul que busca
explicar los determinantes de los salarios en el mercado laboral.
En este caso, con el objeto de tener datos comparables para personas que laboran
distintas horas, se utiliza tpicamente como variable dependiente el salario por hora
trabajada (yph). Dentro de las variables explicativas ms utilizadas estn distintas
medidas de capital humano, siendo la ms importante los aos de escolaridad del
individuo (esc).
Para estimar este modelo contamos con una muestra de 7.312 personas entrevistadas
en la Encuesta de Proteccin Social6, que en el ao 2004 tenan entre 18 y 41 aos. Se
tomo este universo de personas ya que en la encuesta se pregunta por la historia
6
Para mayores antecedentes de esta encuesta visite www.proteccionsocial.cl.
113
laboral de las personas desde 1980. De esta forma, las personas mayores de 41 aos
en el ao 2004 reportan una historia laboral censurada, la cual no nos permite obtener
una medida apropiada de los aos trabajados.
Para esta muestra se tiene la siguiente relacin entre ingreso laboral por hora y aos
de escolaridad:
114
CursodeEstadsticayEconometraAplicadausandoSTATA 115
Nota:
use "ingresos_esp(18-41).dta", clear
twoway (scatter lyph esc04), ytitle(logaritmo salario por hora)
xtitle(Aos de escolaridad) note(Fuente: Encuesta de Proteccin
Social 2002-2004 (18 - 41 aos)) || lfit lyph esc04
115
De lo anterior se aprecia que la escolaridad puede explicar slo un 24,5% de la
varianza total del salario por hora.
Otra variable importante para explicar el salario por hora es la experiencia laboral de la
persona. Debido a falta de medidas precisas de esta variable, usualmente se aproxima
la experiencia laboral como la edad menos la escolaridad menos 6. Sin embargo, la
EPS entrega informacin autoreportada de los periodos de tiempo en que la persona ha
estado trabajando. Esta informacin nos permite computar una medida ms confiable
de experiencia. A continuacin se presenta el resultado del modelo que incorpora,
adems de la escolaridad, la experiencia laboral efectiva (medida en meses):
Ambas variables explican un 26% (R2) del comportamiento del salario por hora.
Adicionalmente, podemos observar lo siguiente:
116
CursodeEstadsticayEconometraAplicadausandoSTATA 117
Tal como se vio en la seccin anterior, el output de STATA entrega los estadsticos para
ver la significancia individual del modelo, los que nos indican que ambas variables son
estadsticamente significativas (p-values igual a cero). Adems se puede ver que el
modelo es globalmente significativo a travs del estadstico F (p-value es cero).
Test de hiptesis
117
Como se puede apreciar, no se puede rechazar la hiptesis nula de que 100 meses de
experiencia equivalen a un ao de escolaridad en el impacto sobre el salario por hora.
Por otra parte, para testear hiptesis conjuntas se debe utilizar el comando test,
inmediatamente despus de haber realizado la regresin. Por ejemplo, para testear
conjuntamente que el retorno a la educacin es de 11% y que, adems, el retorno a la
experiencia es igual a 0,11% hacemos:
118
CursodeEstadsticayEconometraAplicadausandoSTATA 119
III.1.5 Prediccin
Una vez estimado el modelo podemos utilizar los coeficientes para predecir la variable
de inters y hacer recomendaciones de poltica. Se pueden hacer dos tipos de
predicciones: para el valor puntual de la variable dependiente y para el valor esperado
de la variable dependiente. En ambos casos la prediccin propiamente tal ser la
misma, siendo la nica diferencia el error de prediccin que se comete en cada una de
ellas. Obviamente, al tratar de predecir un valor puntual de la variable dependiente el
error que se comente es mayor, por la naturaleza aleatoria intrnseca de nuestra
variable de inters; as, la varianza del error de prediccin tambin ser mayor, y los
intervalos de confianza ms amplios.
119
Prediccin de un valor puntual:
Error de prediccin:
120
CursodeEstadsticayEconometraAplicadausandoSTATA 121
Para realizar un grfico entre dos variables e incluir, adems de la recta de regresin
lineal (prediccin), un intervalo de confianza, se debe ejecutar el siguiente comando:
Se puede ver que por defecto STATA asume que se trata de un intervalo de 95% de
confianza (CI=confidence interval). Se puede usar otros intervalos utilizando las
opciones del comando.
121
Prediccin del valor esperado:
Error de prediccin:
122
CursodeEstadsticayEconometraAplicadausandoSTATA 123
Para realizar un grfico entre dos variables e incluir, adems de la recta de regresin
lineal (prediccin), un intervalo de confianza, se debe ejecutar el siguiente comando:
Tal como se mencion al trmino de la segunda seccin, el estimador MCO requiere del
cumplimiento de varios supuestos, para que este estimador sea el mejor (ms
eficiente) estimador dentro de los estimadores lineales e insesgados:
Para que el estimador MCO cumpla con la propiedad MELI, no se requiere que el error
tenga una distribucin normal. Sin embargo, para la realizacin de tests de hiptesis y
la construccin de los intervalos de confianza, este supuesto es fundamental, ya que si
los errores no son normales, las distribuciones de los estadsticos vistos no son t y F,
sino desconocidas.
Una vez estimado el modelo, podemos obtener los errores de estimacin, equivalentes
a la diferencia entre el valor observado de la variable dependiente y su valor estimado,
utilizando el siguiente comando post estimacin:
123
predict errores, resid
con el cual se genera una nueva variable errores, que contiene los errores del modelo
recin estimado.
Recordemos que los parmetros que definen la normalidad de una distribucin son el
coeficiente de asimetra (skewness) y el coeficiente de kurtosis, los que deben tomar
los valores 0 y 3 para que la distribucin sea normal. Veamos qu valores para estos
coeficientes tiene la variable errores recin creada:
124
CursodeEstadsticayEconometraAplicadausandoSTATA 125
Cuando los errores del modelo no son normales, los estadsticos para los test de
hiptesis simple y conjunto no siguen las distribuciones conocidas t y F,
respectivamente. En este caso, la distribucin de los errores es desconocida. Podemos
en este caso utilizar la metodologa de simulacin bootstrap para computar los
intervalos de confianza.
Con este comando le indicamos que haga la regresin de inters 500 veces. El
resultado de ejecutar este comando es:
------------------------------------------------------------------------------
| Observed Bootstrap Normal-based
lyph | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc04 | .1047146 .0029875 35.05 0.000 .0988591 .1105701
experiencia | .0011328 .0001174 9.65 0.000 .0009027 .0013629
_cons | 5.429254 .0409256 132.66 0.000 5.349041 5.509467
---------------------------------------------------------------------------------------------
125
estat bootstrap, all
------------------------------------------------------------------------------
| Observed Bootstrap
lyph | Coef. Bias Std. Err. [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc04 | .1047146 .000138 .00298754 .0988591 .1105701 (N)
| .0994602 .1105084 (P)
| .0987785 .1101035 (BC)
| .0987785 .1101035 (BCa)
experiencia | .00113281 -2.40e-06 .00011739 .0009027 .0013629 (N)
| .0009084 .0013524 (P)
| .0009099 .0013591 (BC)
| .0009088 .0013591 (BCa)
_cons | 5.4292541 -.0008044 .04092565 5.349041 5.509467 (N)
| 5.352264 5.511744 (P)
| 5.356518 5.513448 (BC)
| 5.356518 5.514764 (BCa)
------------------------------------------------------------------------------
(N) normal confidence interval
(P) percentile confidence interval
(BC) bias-corrected confidence interval
(BCa) bias-corrected and accelerated confidence interval
126
CursodeEstadsticayEconometraAplicadausandoSTATA 127
III.2.1 Introduccin
Otro de los supuestos claves de estimador MCO es que el modelo debe estar
correctamente especificado. Esto significa que debemos hacer todos los esfuerzos
(considerando la disponibilidad de datos) para incorporar todas las variables relevantes
para explicar el comportamiento de la variable de inters (variable dependiente), y de
la mejor forma posible. Algunas de las variables claves para explicar el
comportamiento de la variable dependiente pueden ser discretas, no continuas; estas
generalmente son variables de carcter cualitativo: gnero, zona geogrfica, estatus
laboral, etc. Es importante incorporar la informacin que aportan estas variables en
forma correcta en la especificacin para obtener una estimacin adecuada de los
impactos.
127
MCO, pero se pierde eficiencia (el estimador tiene mayor varianza, es menos preciso).
Un tipo de variable omitida son aquellas que ayudan a explicar un comportamiento no
lineal de la variable dependiente, en estos casos las variables omitidas son potencias
de las mismas variables explicativas ya incluidas en el modelo.
Otros supuesto, para la correcta especificacin del modelo, es que las variables
explicativas no sean colineales entre ellas. Es decir, se deben incluir variables
explicativas que no sean muy parecidas o que no expliquen de igual forma el
comportamiento de la variable dependiente. Cuando las variables explicativas son muy
parecidas, se habla del problema de multicolinealidad. Este problema, se detecta por
sntomas que se observan en la estimacin. No genera sesgo en la estimacin, pero
el problema es que la estimacin es muy voltil, poco robusta.
Por ltimo, una vez incorporadas todas las variables relevantes de la mejor forma, en
forma binaria o considerando no linealidades, y habiendo detectado y abordado los
problemas de multicolinealidad o heterocedasticidad presentes, es posible tener ms
de un modelo que explique el comportamiento de la variable de inters y que cumple
con todos los requisitos de especificacin. Entonces, con cul de los modelos
quedarse?. Existen test de modelos anidados y no anidados que lo ayudarn a tomar la
decisin en estos casos.
128
CursodeEstadsticayEconometraAplicadausandoSTATA 129
Una de los modelos ms estimados en los anlisis empricos es aqul que busca
explicar los determinantes de los salarios en el mercado laboral.
En este caso, con el objeto de tener datos comparables para personas que laboran
distintas horas, se utiliza tpicamente como variable dependiente el salario por hora
trabajada (yph). Dentro de las variables explicativas ms utilizadas estn distintas
medidas de capital humano, siendo la ms importante los aos de escolaridad del
individuo (esc).
129
La estimacin de este modelo se facilita si como variable dependiente se utiliza el
logaritmo del salario por hora y no el salario por hora, puesto que el cambio en el
logaritmo del ingreso por hora corresponde aproximadamente al cambio porcentual en
el ingreso por hora. De all que el retorno a la educacin pueda obtenerse directamente
como el coeficiente de la variable escolaridad en la regresin.
Para esta muestra se tiene la siguiente relacin entre ingreso laboral por hora y aos
de escolaridad:
7
Para mayores antecedentes de esta encuesta visite www.proteccionsocial.cl.
130
CursodeEstadsticayEconometraAplicadausandoSTATA 131
Nota:
use "ingresos_esp(18-41).dta", clear
twoway (scatter lyph esc04), ytitle(logaritmo salario por hora)
xtitle(Aos de escolaridad) note(Fuente: Encuesta de Proteccin
Social 2002-2004 (18 - 41 aos)) || lfit lyph esc04
131
De lo anterior se aprecia que la escolaridad puede explicar slo un 24,5% de la
varianza total del salario por hora.
Ambas variables explican un 26% (R2) del comportamiento del salario por hora.
Adicionalmente, podemos observar lo siguiente:
132
CursodeEstadsticayEconometraAplicadausandoSTATA 133
Tal como se vio en la seccin anterior, el output de STATA entrega los estadsticos para
ver la significancia individual del modelo, los que nos indican que ambas variables son
estadsticamente significativas (p-values igual a cero). Adems se puede ver que el
modelo es globalmente significativo a travs del estadstico F (p-value es cero).
La omisin de variables relevantes provoca que el estimador MCO sea sesgado cuando
dos condiciones se cumplen:
133
Volvamos a la primera especificacin (modelo simple) de la aplicacin introducida en la
primera clase:
Este modelo busca explicar el salario laboral por hora a travs de los aos de
escolaridad. Sin embargo, tal como se vio la clase anterior, la variable experiencia
tambin es relevante para explicar el salario por hora. Cuando se estim el siguiente
modelo, la variable experiencia result ser estadsticamente significativa:
134
CursodeEstadsticayEconometraAplicadausandoSTATA 135
135
III.2.4 Inclusin de variables irrelevantes
III.2.5 Multicolinealidad
136
CursodeEstadsticayEconometraAplicadausandoSTATA 137
1- El modelo tiene un ajuste bueno (R2 alto), pero los parmetros resultan ser
estadsticamente no significativos.
2- Pequeos cambios en los datos producen importantes cambios en las
estimaciones.
3- Los coeficientes pueden tener signos opuestos a los esperados o una magnitud
poco creble.
Cuando existe multicolinealidad perfecta STATA automticamente borra una de las dos
variables.
137
inflada, como producto de que esta variable no es ortogonal (no es independiente) de
las restantes variables del modelo.
Volvamos al modelo (2) que busca explicar el salario por hora a travs de la
experiencia y escolaridad, pero adicionalmente se incorporan tres variables: el IMC
(ndice de masa corporal)8, la estatura, y el peso de la persona. Estas variables busca
determinar si las caractersticas fsicas de la persona tienen influencia sobre el salario
por hora, dado un nivel de escolaridad y experiencia constante. El modelo estimado es
el siguiente:
8
IMC=peso/estatura2
138
CursodeEstadsticayEconometraAplicadausandoSTATA 139
Qu se puede concluir?
139
El modelo tiene multicolinealidad, el promedio de los factores VIF es mayor
a 1, y el mayor de estos factores es 26.1 (sobre el 10 sugerido).
Las variables IMC, estatura y peso son las que presentan colinealidad. La
segunda columna de esta tabla muestra el coeficiente de determinacin de
la regresin entre una variable explicativa, y las restantes, para cada una de
ellas. En efecto, podemos observar que poca ms de un 96% del
comportamiento de la variable peso es explicado por las otras variables
incluidas en el modelo. Algo similar sucede con las variables IMC y estatura,
donde gran parte del comportamiento de estas variables puede ser
explicado por las restantes variables del modelo, un 95% y 92%
respectivamente.
De los anterior se concluye que a pesar de que las variables resultan ser
medianamente significativas (al 10%), estn no pueden ser incluidas en
forma conjunta en la especificacin, ya que generan multicolinealidad.
----------------------------------------------------------------
Variable | model2 model3 model4 model5 model6
-------------+--------------------------------------------------
esc04 | .113 .114 .112 .112 .111
| 0.000 0.000 0.000 0.000 0.000
experiencia | .00115 .00122 .00112 .00103 .00113
| 0.000 0.000 0.000 0.000 0.000
imc | -.0035
| 0.088
140
CursodeEstadsticayEconometraAplicadausandoSTATA 141
En gran parte de los modelos de regresin lineal las variables cualitativas son
fundamentales para una correcta especificacin. Hasta ahora hemos visto la
incorporacin de una o ms variables explicativas, esencialmente cuantitativas y
continuas.
141
Por ejemplo, en la base de datos contamos con la variable gnero:
. tab genero
g sexo=1 if genero==1
replace sexo=0 if genero==2
g sexo_2=1 if genero==2
replace sexo_2=0 if genero==1
Continuemos con el modelo (4) estimado anteriormente. Ahora nos interesa, adems,
controlar por la caracterstica gnero, esto significa que nuestro modelo esta
controlando por las diferencias que pudiesen existir en salario por hora entre hombres
y mujeres. Para esto debemos incluir la variable dummy de gnero en nuestra
estimacin. Cual de ellas se elija para formar parte del modelo no tiene mayor
relevancia, slo se debe tener claro para la interpretacin del coeficiente asociado a la
dummy, recuerde que la categora que se deja fuera de la estimacin se denomina
categora base, y por lo tanto la interpretacin de el o los coeficientes siempre se hace
tomando como referencia la categora base.
142
CursodeEstadsticayEconometraAplicadausandoSTATA 143
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc04 | .1133031 .0028374 39.93 0.000 .1077406 .1188657
experiencia | .0010545 .0001153 9.14 0.000 .0008284 .0012806
estatura | .0084755 .0011773 7.20 0.000 .0061675 .0107835
sexo | .0731677 .0227193 3.22 0.001 .0286271 .1177083
_cons | 3.896486 .1877199 20.76 0.000 3.528466 4.264506
143
Qu sucede si hubisemos incluido la otra dummy, la que se define como 1 cuando la
persona es mujer y cero cuando es hombre?
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc04 | .1133031 .0028374 39.93 0.000 .1077406 .1188657
experiencia | .0010545 .0001153 9.14 0.000 .0008284 .0012806
estatura | .0084755 .0011773 7.20 0.000 .0061675 .0107835
sexo_2 | -.0731677 .0227193 -3.22 0.001 -.1177083 -.0286271
_cons | 3.969653 .2013815 19.71 0.000 3.57485 4.364457
------------------------------------------------------------------------------
g
pred_con_mujer=_b[_cons]+_b[esc04]*esc04+_b[experiencia]*104.9436+_b[estatura]*16
5.1241+_b[sexo_2]
g
pred_con_hombre=_b[_cons]+_b[esc04]*esc04+_b[experiencia]*104.9436+_b[estatura]*
165.1241
144
CursodeEstadsticayEconometraAplicadausandoSTATA 145
145
Ahora obtengamos el retorno a la educacin, que corresponde al cambio porcentual en
el salario por hora como resultados de un cambio en los aos de escolaridad:
g sexo_esc=sexo*esc04
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc04 | .1275529 .0046423 27.48 0.000 .1184517 .1366541
experiencia | .0009996 .000116 8.62 0.000 .0007721 .001227
estatura | .0086395 .0011763 7.34 0.000 .0063335 .0109456
sexo | .3425243 .073124 4.68 0.000 .1991666 .485882
sexo_esc | -.022392 .005779 -3.87 0.000 -.0337216 -.0110625
_cons | 3.700245 .1941592 19.06 0.000 3.319601 4.080889
------------------------------------------------------------------------------
146
CursodeEstadsticayEconometraAplicadausandoSTATA 147
El grfico anterior nos muestra que con cero aos de escolaridad los hombres
obtienen, en promedio, un salario por hora mayor al de las mujeres. Sin embargo, el
retorno a la educacin de las mujeres (pendiente) es mayor que el de los hombres.
Aproximadamente a los 15 aos de escolaridad el salario promedio entre hombres y
mujeres se iguala.
147
La siguiente tabla muestra el resumen de las estimaciones de los modelos 4, 7, y 8.
Podemos notar que este ltimo, donde controlamos por la caracterstica gnero en
promedio y retorno, tiene una mejor bondad de ajuste y menor error cuadrtico
medio.
--------------------------------------------
Variable | model4 model7 model8
-------------+------------------------------
esc04 | .112 .113 .128
| 0.000 0.000 0.000
experiencia | .00112 .00105 .001
| 0.000 0.000 0.000
estatura | .0108 .00848 .00864
| 0.000 0.000 0.000
sexo | .0732 .343
| 0.001 0.000
sexo_esc | -.0224
| 0.000
_cons | 3.56 3.9 3.7
| 0.000 0.000 0.000
-------------+------------------------------
r2_a | .28 .281 .283
rmse | .577 .577 .576
--------------------------------------------
legend: b/p
Las variables dummies tambin nos permiten estimar efectos umbrales, por ejemplo,
nos interesa saber no cuanto es el retorno de un ao adicional de educacin, sino de
completar el nivel bsico, medio y universitario.
Esta variable tienen 4 categoras, pero no puede ser incluida tal cual esta definida en el
modelo de regresin. Para cada una de estas categoras se puede definir una dummy:
148
CursodeEstadsticayEconometraAplicadausandoSTATA 149
Pero solo se deben incluir tres de ellas en el modelo, la que no se incluye se denomina
categora base, y las interpretaciones de los coeficientes de las restantes dummies
incluidas se deben hacer en funcin de esta categora. Si por error todas las dummies
son incluidas el programa borrar automticamente una de ellas.
El comando tabulate de STATA tiene una opcin para generar rpidamente las
dummies de una variable categrica:
Ahora nos interesa estimar los efectos umbrales, es decir, el retorno de completar cada
uno de los niveles educacionales. El modelo a estimar es el siguiente:
149
-------------+------------------------------ F( 6, 4655) = 242.92
Model | 513.910914 6 85.6518191 Prob > F = 0.0000
Residual | 1641.33738 4655 .352596644 R-squared = 0.2384
-------------+------------------------------ Adj R-squared = 0.2375
Total | 2155.24829 4661 .462400406 Root MSE = .5938
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
experiencia | .0008591 .0001182 7.27 0.000 .0006274 .0010909
estatura | .0099157 .0012082 8.21 0.000 .0075471 .0122843
sexo | .0495806 .023364 2.12 0.034 .0037761 .0953851
DE_2 | .1535891 .0378905 4.05 0.000 .0793058 .2278725
DE_3 | .5520762 .0312586 17.66 0.000 .4907945 .6133578
DE_4 | 1.457801 .0455263 32.02 0.000 1.368547 1.547054
_cons | 4.522802 .1940015 23.31 0.000 4.142467 4.903137
------------------------------------------------------------------------------
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
experiencia | .0008591 .0001182 7.27 0.000 .0006274 .0010909
estatura | .0099157 .0012082 8.21 0.000 .0075471 .0122843
sexo | .0495806 .023364 2.12 0.034 .0037761 .0953851
_Inivel_2 | .1535891 .0378905 4.05 0.000 .0793058 .2278725
_Inivel_3 | .5520762 .0312586 17.66 0.000 .4907945 .6133578
_Inivel_4 | 1.457801 .0455263 32.02 0.000 1.368547 1.547054
_cons | 4.522802 .1940015 23.31 0.000 4.142467 4.903137
------------------------------------------------------------------------------
150
CursodeEstadsticayEconometraAplicadausandoSTATA 151
completa (DE_4) indica que, todo lo dems constante, pasar de no tener educacin a
tener educacin universitaria completa aumenta, en promedio, el salario por hora en
un 145.8%.
g
pred_ninguna=_b[_cons]+_b[experiencia]*99.70346+_b[estatura]*165.1241+_b[sexo]*0.
4895707
g
pred_basica=_b[_cons]+_b[experiencia]*99.70346+_b[estatura]*165.1241+_b[sexo]*0.4
895707+_b[DE_2]
g
pred_media=_b[_cons]+_b[experiencia]*99.70346+_b[estatura]*165.1241+_b[sexo]*0.48
95707+_b[DE_3]
g
pred_superior=_b[_cons]+_b[experiencia]*99.70346+_b[estatura]*165.1241+_b[sexo]*0
.4895707+_b[DE_4]
151
El modelo anterior tiene como hiptesis que slo entrega retorno, en trminos de
salario por hora, completar los diferentes niveles educacionales, pero que al interior de
cada nivel avanzar en aos de escolaridad no significa un retorno adicional. Para poder
estimar retornos a la educacin diferenciados entre los niveles educacionales se deben
interactuar las dummies de nivel educacional con la variable aos de escolaridad. El
modelo a estimar es el siguiente:
g DE2_esc=DE_2*esc04
g DE3_esc=DE_3*esc04
g DE4_esc=DE_4*esc04
. regress lyph experiencia estatura esc04 sexo DE_2 DE_3 DE_4 DE2_esc DE3_esc
DE4_esc [w=factor]
(analytic weights assumed)
(sum of wgt is 2.9240e+06)
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
experiencia | .0010616 .0001111 9.55 0.000 .0008437 .0012795
estatura | .0077458 .0011336 6.83 0.000 .0055234 .0099682
esc04 | .038609 .0159501 2.42 0.016 .0073391 .0698789
sexo | .0822528 .0218629 3.76 0.000 .0393912 .1251145
DE_2 | -.4919427 .2173814 -2.26 0.024 -.9181136 -.0657717
DE_3 | -1.53227 .1261298 -12.15 0.000 -1.779544 -1.284995
DE_4 | -2.115875 .7445445 -2.84 0.005 -3.575537 -.6562139
DE2_esc | .0601242 .0282234 2.13 0.033 .0047929 .1154555
DE3_esc | .140969 .0175399 8.04 0.000 .1065823 .1753556
DE4_esc | .1841626 .0457869 4.02 0.000 .0943986 .2739267
_cons | 4.630689 .1989754 23.27 0.000 4.240603 5.020775
152
CursodeEstadsticayEconometraAplicadausandoSTATA 153
------------------------------------------------------------------------------
g
pred_basica_esc=_b[_cons]+_b[experiencia]*99.70346+_b[estatura]*165.1241+_b[sexo]
*0.4895707+_b[DE_2]+_b[esc04]+_b[DE2_esc]*esc04
g
pred_media_esc=_b[_cons]+_b[experiencia]*99.70346+_b[estatura]*165.1241+_b[sexo]*
0.4895707+_b[DE_3]+_b[esc04]+_b[DE3_esc]*esc04
g
pred_superior_esc=_b[_cons]+_b[experiencia]*99.70346+_b[estatura]*165.1241+_b[sex
o]*0.4895707+_b[DE_4]+_b[esc04]+_b[DE4_esc]*esc04
153
Por ltimo, en la base de datos se cuenta con dos variables dummies ms dsoltero que
toma el valor 1 si la persona es soltera y 0 sino; y jefe que toma valor 1 si la persona
es jefe de hogar y 0 sino. El resultado de la estimacin del modelo incluyendo estas
dos variables se presentan a continuacin (modelo 11):
--------------------------------------------
Variable | model7 model10 model11
-------------+------------------------------
esc04 | .113 .0386 .0387
| 0.000 0.016 0.015
experiencia | .00105 .00106 .00075
| 0.000 0.000 0.000
estatura | .00848 .00775 .00764
| 0.000 0.000 0.000
sexo | .0732 .0823 .0623
| 0.001 0.000 0.006
DE_2 | -.492 -.464
| 0.024 0.032
DE_3 | -1.53 -1.55
| 0.000 0.000
DE_4 | -2.12 -1.98
| 0.005 0.007
DE2_esc | .0601 .0569
| 0.033 0.043
DE3_esc | .141 .143
| 0.000 0.000
DE4_esc | .184 .177
| 0.000 0.000
dsoltero04 | -.0735
| 0.000
jefe | .0779
| 0.000
_cons | 3.9 4.63 4.69
| 0.000 0.000 0.000
-------------+------------------------------
r2_a | .281 .336 .343
rmse | .577 .554 .552
--------------------------------------------
legend: b/p
El modelo con mejor ajuste y menor error cuadrtico medio es aquel donde se han
incluido las dos dummies adicionales sobre estado civil y jefatura de hogar.
154
CursodeEstadsticayEconometraAplicadausandoSTATA 155
. estat ovtest
155
Prob > F = 0.0000
III.2.8 Heteroscedasticidad
156
CursodeEstadsticayEconometraAplicadausandoSTATA 157
157
comportamiento del trmino de error estimado al cuadrado, para esto se estima una
regresin auxiliar del error estimado al cuadrado en funcin de las variables
explicativas originales del modelo.
. estat hettest
chi2(1) = 64.89
Prob > chi2 = 0.0000
whitetst
158
CursodeEstadsticayEconometraAplicadausandoSTATA 159
los test de hiptesis y la inferencia este realizada en forma apropiada. Esto se hace en
STATA simplemente introduciendo la opcin robust al comando regress.
A continuacin vemos las diferencias entre la estimacin del modelo 11 sin corregir por
heteroscedasticidad y utilizando la opcin robust que estima la matriz correcta de
varianzas y covarianzas del estimador MCO en presencia de heteroscedasticidad:
----------------------------------
Variable | model11 model12
-------------+--------------------
experiencia | .00075 .00075
| 1.2e-04 1.5e-04
| 0.000 0.000
estatura | .00764 .00764
| .0011 .0014
| 0.000 0.000
esc04 | .0387 .0387
| .0159 .0212
| 0.015 0.068
sexo | .0623 .0623
| .0225 .0259
| 0.006 0.016
DE_2 | -.464 -.464
| .216 .241
| 0.032 0.054
DE_3 | -1.55 -1.55
| .126 .173
| 0.000 0.000
DE_4 | -1.98 -1.98
| .741 1.26
| 0.007 0.115
DE2_esc | .0569 .0569
| .0281 .0322
| 0.043 0.077
DE3_esc | .143 .143
| .0175 .0235
| 0.000 0.000
DE4_esc | .177 .177
| .0456 .076
| 0.000 0.020
dsoltero04 | -.0735 -.0735
| .0186 .0222
| 0.000 0.001
jefe | .0779 .0779
| .0195 .0239
| 0.000 0.001
_cons | 4.69 4.69
| .199 .25
| 0.000 0.000
-------------+--------------------
r2_a | .343 .343
rmse | .552 .552
----------------------------------
legend: b/se/p
159
De la comparacin de ambos modelos debemos notar lo siguiente:
En resumen, siempre utilice la opcin robust del comando regress de stata. Si existe el
problema de Heterocedasticidad, con esta opcin Ud. estar seguro de que los test
estadsticos son correctos y as las conclusiones sobre la significancia de los
parmetros. Si es que no hay Heterocedasticidad, obtendr exactamente el mismo
resultado que sin ocupar esta opcin, ya que sin Heterocedasticidad la matriz de
varianzas y covarianzas robusta (o de White), en este caso, sera la misma que la del
estimador MCO.
Los modelos sobre los cuales tiene que elegir pueden estar anidados o no. Se dice que
dos modelos estn anidados cuando uno de ellos corresponde al anterior imponiendo
cierta restricciones sobre los parmetros.
Los criterios de informacin de Akaike (AIC) y Schwarz (BIC) son medidas consistentes
para ver el mejor modelo. El mejor modelo es aquel que tiene menor valor del criterio
de informacin.
160
CursodeEstadsticayEconometraAplicadausandoSTATA 161
La siguiente tabla resume la estimacin del modelo (11) con y sin la variable estatura,
ambos con la opcin robust:
regress lyph experiencia estatura esc04 sexo DE_2 DE_3 DE_4 DE2_esc DE3_esc
DE4_esc dsoltero jefe [w=factor], robust
estimates store model12
regress lyph experiencia esc04 sexo DE_2 DE_3 DE_4 DE2_esc DE3_esc DE4_esc
dsoltero jefe [w=factor], robust
estimates store model13
estimates table model13 model12, stat(r2_a, rmse, aic, bic) b(%7.3g) p(%4.3f)
----------------------------------
Variable | model13 model12
-------------+--------------------
experiencia | .00065 .00075
| 0.000 0.000
esc04 | .0365 .0387
| 0.081 0.068
sexo | .152 .0623
| 0.000 0.016
DE_2 | -.47 -.464
| 0.046 0.054
DE_3 | -1.59 -1.55
| 0.000 0.000
DE_4 | -1.46 -1.98
| 0.215 0.115
DE2_esc | .0599 .0569
| 0.058 0.077
DE3_esc | .15 .143
| 0.000 0.000
DE4_esc | .15 .177
| 0.035 0.020
dsoltero04 | -.0766 -.0735
| 0.001 0.001
jefe | .08 .0779
| 0.001 0.001
estatura | .00764
| 0.000
_cons | 5.91 4.69
| 0.000 0.000
-------------+--------------------
r2_a | .336 .343
rmse | .555 .552
aic | 7855 7677
bic | 7932 7761
----------------------------------
161
legend: b/p
Ambos criterios nos indican que nos debemos quedar con el modelo que incluye la
variable estatura.
Cuando tenemos dos modelos que no estn anidados, por ejemplo, los modelos (8) y
(10), la simple comparacin de la bondad de ajuste del modelo a travs del R2 o R2
ajustado, o del error cuadrtico medio del modelo no son una forma apropiada, y no
nos permitir concluir sobre el mejor modelo.
162
CursodeEstadsticayEconometraAplicadausandoSTATA 163
Slo en los primeros dos casos el test J nos permite concluir sobre el modelo que
debemos preferir.
El comando para realizar este test no viene en STATA pero puede ser instalado
ejecutando el siguiente comando: ssc install nnest.
La ejecucin de este comando sobre los dos modelos anteriores se debe realizar de la
siguiente forma:
. nnest lyph esc04 experiencia estatura sexo sexo_esc (experiencia estatura esc04
sexo DE_2 DE_3 DE_4 DE2_esc DE3_esc D
> E4_esc)
El comando nos entrega dos resultados, el del tes J de Davidson y MacKinnon y el del
test de Cox-Pearsan, que esa bastante similar. El resultado se presenta a continuacin:
H0 : M1 t(4642) 19.19419
H1 : M2 p-val 0.00000
H0 : M2 t(4637) -0.93573
H1 : M1 p-val 0.34946
H0 : M1 N(0,1) -5.48e+02
H1 : M2 p-val 0.00000
H0 : M2 N(0,1) -75.18041
H1 : M1 p-val 0.00000
El test J nos permite concluir que el modelo (8) se rechaza, pero no as el modelo (10).
Con lo cual nos debemos quedar con el ltimo de los modelos estimados.
163
III.3. Estimador de Variables Instrumentales
III.3.1 Introduccin
Uno de los supuestos claves para que el estimador MCO sea insesgado es que el
trmino de error no debe estar correlacionado con las variables explicativas o
regresores del modelo:
A pesar de que estos problemas son generados por diferentes razones, la solucin a
ellos es una sola y se llama Estimador de Variables Instrumentales (IV).
Este estimador nos permite obtener una estimacin consistente de los coeficientes de
inters cuando no se cumple el supuesto de correlacin cero entre el trmino de error
y una o ms variables explicativas. Para entender como funciona el estimador IV,
pensemos que una de las variables explicativas esta compuesta por una parte que esta
correlacionada con el error (por cualquiera de las tres razones antes mencionadas), y
otra parte que no esta correlacionada con el error. Si se tiene informacin suficiente
para aislar la segunda parte de la variable, luego nos podemos enfocar en como la
variacin en esta parte de la variable explicativa afecta la variacin de la variable
dependiente. De esta forma, se elimina el sesgo en la estimacin MCO considerando
slo la parte de la variable explicativa que no esta correlacionada con el error. Esto es
exactamente lo que hace el estimador de variables instrumentales. La informacin
sobre los movimientos de la variable explicativa que no estn correlacionados con el
trmino de error se captura a travs de una o ms variables llamadas variables
instrumentales o simplemente instrumentos.
En resumen, la regresin por variables instrumentales usa estas variables como
herramientas o instrumentos para aislar del comportamiento de la variable
164
CursodeEstadsticayEconometraAplicadausandoSTATA 165
III.3.2 Endogeneidad
165
explicativas estn medidas con error, cuando la variable dependiente es la que esta
medida con error no se genera problema de sesgo.
A continuacin podemos apreciar que cuando la variable explicativa esta medida con
error, el trmino de error del modelo esta correlacionado con la variable explicativa
incluida (variable con error), lo que invalida, nuevamente, el supuesto del estimador
MCO sobre la no correlacin entre el error y las variables explicativas.
El modelo estimado no cumple con los supuestos MCO, ya que existe correlacin
distinta de cero entre el trmino de error compuesto i y la variable medida con error
Xi*. El estimador MCO ser sesgado e inconsistente.
166
CursodeEstadsticayEconometraAplicadausandoSTATA 167
con el error de la que no esta correlacionada con el error. Y luego utilizar slo la parte
de los aos de escolaridad no correlacionada con el error para estimar correctamente
el parmetro de inters a travs de MCO.
El instrumento debe satisfacer dos condiciones para que sea un instrumento vlido:
Condicin de relevancia: Cov(esci,Zi)0
Condicin de exogeneidad: Cov(Zi,i)=0
El estimado MCO2E, tal como su nombre sugiere, es un estimador que consta de dos
etapas. En la primera etapa se descompone la variable que tiene el problema de
endogeneidad en dos partes, la que no esta correlacionada con el trmino de error y la
que esta correlacionada con el trmino de error. De esta forma, la primera etapa
consiste en hacer una regresin de la variable con problemas, en este caso aos de
escolaridad, con el instrumento:
PRIMERA ETAPA:
167
parte exgena de la variable escolaridad, y otra parte que esta correlacionada con el
error y es la que genera el problema de endogeneidad.
SEGUNDA ETAPA:
168
CursodeEstadsticayEconometraAplicadausandoSTATA 169
El modelo estimado por los autores tiene como variable dependiente el logaritmo del
salario por hora, y como variables explicativas los aos de escolaridad, dummy de
raza, variable dummy de rea metropolitana, variable dummy si esta casado, 9
dummies para ao de nacimiento, 8 dummies para regin de residencia, 49 dummies
de estado, edad y edad al cuadrado.
169
incluidas en el modelo original distintas de la escolaridad, ms tres dummies
correspondientes al trimestre de nacimiento 1, 2 y 3, dummies que corresponden a los
instrumentos de los aos de escolaridad. El retorno a la educacin estimado por esta
metodologa es de 3.9%.
Este artculo tiene como objetivo estimar el retorno a la educacin, sin embargo, como
ya mencionamos antes el nivel educacional y los ingresos presentan endogeneidad, el
nivel educacional no es entregado aleatoriamente en la poblacin, sino que depende de
las decisiones tomadas sobre invertir o no en educacin, las que dependen en parte del
nivel de ingresos. De esta forma, para identificar correctamente el impacto que tiene la
escolaridad sobre los ingresos se requiere una variacin exgena en los aos de
escolaridad, es decir, requiere una variable instrumental que permita descomponer la
escolaridad en la parte correlacionada con el trmino de error (endgena), y la parte
no correlacionada con el error (exgena).
Este artculo utiliza como variable instrumental en la estimacin de retornos a la
educacin una variable la presencia de una universidad en el rea de residencia de la
persona. Los estudiantes que crecieron en reas donde no existen universidades
presentan mayores costos de educacin, ya que no tienen la posibilidad de seguir
viviendo en sus casas. De esta forma, se espera que estos costos reduzcan la inversin
en educacin, al menos en las familias de menores ingresos.
Donde Xk incluye una serie de controles como: raza, rea geogrfica, educacin de los
padres, y estructura familiar.
La estimacin por MCO del modelo anterior estima un retorno a la educacin de 7.3%.
170
CursodeEstadsticayEconometraAplicadausandoSTATA 171
El estimador MCO2E utiliza como instrumento para la escolaridad una variable que
indica que existe una universidad en el rea donde vive la persona. El retorno a la
educacin estimado en este caso es de 13.2%.
Estimating the payoff to schooling using the Vietnam-era Daft lottery, Angrist
y Krueger (1992)
El modelo estimado tiene como variable dependiente el logaritmo del salario por hora y
como variable explicativa la escolaridad ms un conjunto de regresores como estatus
de veterano, raza, cuidad metropolitana, estado civil, dummies de ao de nacimiento,
y dummies de regiones. La estimacin MCO de este modelo entrega un valor estimado
del retorno a la educacin de 5.9%.
Luego para solucionar el problema de endogeneidad de los aos de escolaridad, se
estima primero un modelo de regresin entre los aos de escolaridad como variable
dependiente, y 130 dummies con la fecha de nacimiento para la lotera. Luego
incorporando la prediccin de escolaridad a partir de esta primera etapa, se obtiene un
estimar del retorno a la educacin de 6.5%.
Este autor tiene como objetivo estimar el retorno a la educacin, para lo cual utiliza
una muestra de 758 hombres jvenes de la base de datos del estudio National
Longitudinal Survey of Young Men (NLS). Con el objetivo de eliminar el problema de
omisin de variable relevante al no incluir la variable habilidad, el autor incorpora la
171
variable IQ9, que corresponde al test de coeficiente intelectual. El problema es que esta
variable esta medida con error. Por lo cual, utiliza la metodologa de variables
instrumentales para solucionar el problema de sesgo que se genera en la estimacin
MCO cuando uno de los regresores esta medido con error.
------------------------------------------------------------------------------
lw | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
iq | .0027121 .0010314 2.63 0.009 .0006873 .0047369
s | .0619548 .0072786 8.51 0.000 .0476658 .0762438
expr | .0308395 .0065101 4.74 0.000 .0180592 .0436198
tenure | .0421631 .0074812 5.64 0.000 .0274763 .0568498
rns | -.0962935 .0275467 -3.50 0.001 -.1503719 -.0422151
smsa | .1328993 .0265758 5.00 0.000 .0807268 .1850717
_Iyear_67 | -.0542095 .0478522 -1.13 0.258 -.1481506 .0397317
_Iyear_68 | .0805808 .0448951 1.79 0.073 -.0075551 .1687168
9
IQ corresponde al coeficiente intelectual. Este nmero resulta de la realizacin de un test estandarizado
para medir habilidades cognitivas de las personas o inteligencia, en relacin con su grupo de edad. Se
expresa en forma estandarizada para que la media en un grupo de edad sea 100.
172
CursodeEstadsticayEconometraAplicadausandoSTATA 173
De esta regresin se obtiene que para este grupo de jvenes el retorno a la educacin
es de un 6.2%. Por otra parte, un punto adicional en el coeficiente intelectual aumenta
el salario en un 0.27%.
Sin embargo, el autor indica que la variable IQ puede estar medida con error. El error
de medicin genera que la variable explicativa (IQ en este caso) y el trmino de error
estn correlacionados lo que genera problemas de sesgo en la estimacin MCO de
todos los parmetros del modelo. Para solucionar este problema se debe utilizar la
metodologa de variables instrumentales, que consiste en no utilizar directamente la
variable IQ sino un instrumento que cumpla con la condicin de relevancia y
exogenidad.
Este comando lo que hace es estimar en una primera etapa una o ms regresiones
(porque las variables endgenas pueden ser ms de una) de cada una de las variables
endgenas (varlist2) contra las variables instrumentales (instlist: excluded
instruments) y las variables explicativas exgenas del modelo original (varlist1:
included instruments). Luego obtiene la prediccin de las variables endgenas las que
son incluidas como regresores junto con las variables explicativas exgenas varlist1 en
el modelo que tiene como variable dependiente a depvar.
173
En la base de datos se tiene informacin del nivel educacional de la madre (med),
puntaje de otra prueba estandarizada (kww)10, edad del entrevistado (age), y estado
civil (mrt) que toma valor 1 si la persona esta casada. Estas cuatro variables pueden
ser utilizadas como instrumentos para el coeficiente intelectual.
. ivreg lw s expr tenure rns smsa _I* (iq= med kww age mrt), first
La opcin first del comando indica que muestre tanto la estimacin de la primera
como de la segunda etapa.
First-stage regressions
-----------------------
------------------------------------------------------------------------------
iq | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
s | 2.497742 .2858159 8.74 0.000 1.936638 3.058846
expr | -.033548 .2534458 -0.13 0.895 -.5311042 .4640082
tenure | .6158215 .2731146 2.25 0.024 .0796522 1.151991
rns | -2.610221 .9499731 -2.75 0.006 -4.475177 -.7452663
smsa | .0260481 .9222585 0.03 0.977 -1.784499 1.836595
_Iyear_67 | .9254935 1.655969 0.56 0.576 -2.325449 4.176436
_Iyear_68 | .4706951 1.574561 0.30 0.765 -2.620429 3.56182
_Iyear_69 | 2.164635 1.521387 1.42 0.155 -.8221007 5.15137
_Iyear_70 | 5.734786 1.696033 3.38 0.001 2.405191 9.064381
_Iyear_71 | 5.180639 1.562156 3.32 0.001 2.113866 8.247411
_Iyear_73 | 4.526686 1.48294 3.05 0.002 1.615429 7.437943
med | .2877745 .1622338 1.77 0.077 -.0307176 .6062665
kww | .4581116 .0699323 6.55 0.000 .3208229 .5954003
age | -.8809144 .2232535 -3.95 0.000 -1.319198 -.4426307
mrt | -.584791 .946056 -0.62 0.537 -2.442056 1.272474
_cons | 67.20449 4.107281 16.36 0.000 59.14121 75.26776
------------------------------------------------------------------------------
10
KWW es una prueba estandarizada denominada Knowledge of the World of Work. Tal como su nombre lo
dice es una pruba enfocada a informacin ocupacional y no a inteligencia propiamente tal.
174
CursodeEstadsticayEconometraAplicadausandoSTATA 175
------------------------------------------------------------------------------
lw | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
iq | .0001747 .0039374 0.04 0.965 -.0075551 .0079044
s | .0691759 .013049 5.30 0.000 .0435587 .0947931
expr | .029866 .006697 4.46 0.000 .0167189 .0430132
tenure | .0432738 .0076934 5.62 0.000 .0281705 .058377
rns | -.1035897 .0297371 -3.48 0.001 -.1619682 -.0452111
smsa | .1351148 .0268889 5.02 0.000 .0823277 .1879019
_Iyear_67 | -.052598 .0481067 -1.09 0.275 -.1470388 .0418428
_Iyear_68 | .0794686 .0451078 1.76 0.079 -.009085 .1680222
_Iyear_69 | .2108962 .0443153 4.76 0.000 .1238984 .2978939
_Iyear_70 | .2386338 .0514161 4.64 0.000 .1376962 .3395714
_Iyear_71 | .2284609 .0441236 5.18 0.000 .1418396 .3150823
_Iyear_73 | .3258944 .0410718 7.93 0.000 .2452642 .4065247
_cons | 4.39955 .2708771 16.24 0.000 3.867777 4.931323
------------------------------------------------------------------------------
Instrumented: iq
Instruments: s expr tenure rns smsa _Iyear_67 _Iyear_68 _Iyear_69
_Iyear_70 _Iyear_71 _Iyear_73 med kww age mrt
------------------------------------------------------------------------------
De la primera etapa podemos apreciar que 3 de los 4 instrumentos que no son parte
del modelo original son significativos, la excepcin es la dummy de estatus marital. Sin
embargo, en la segunda etapa la variable IQ resulta no significativa, condicional a
todos los dems factores IQ parece no tener un rol determinante en los salarios.
Recordemos que los instrumentos deba cumplir dos criterios: relevancia y
exogeneidad.
Relevancia:
175
la inferencia del estimador MCO2E no se cumple, por lo cual la inferencia es incorrecta.
Con instrumentos dbiles el estimar MCO2E no es confiable. En la estimacin anterior,
el Test F es superior a 10, lo que muestra la relevancia de los instrumentos
seleccionados
Exogenidad:
Por otro lado, debemos chequear la exogenidad de los instrumentos, cuando esta no se
cumple el estimador MCO2E ser inconsistente, es decir, por ms grande que sea el
tamao muestral el estimador no se acercar al verdadero valor del coeficiente.
Adems recuerde que la idea de las variables instrumentales es justamente que esta
no tenga relacin con el error para de esta forma poder estimar correctamente el
impacto de la variable que se esta instrumentalizando.
No existe un test que permita testear explcitamente la exogenidad de los
instrumentos, saber si un instrumento es o no exgeno depende de la opinin de los
expertos y del conocimiento personal del problema emprico. Sin embargo, existen los
llamados Test de sobreindentificacin. Lo que hace el test es computar el error de
la estimacin por MCO2E y hacer una regresin de estos errores contra los
. overid
176
CursodeEstadsticayEconometraAplicadausandoSTATA 177
. ivreg2 lw s expr tenure rns smsa _I* (iq= med kww age mrt), gmm
GMM estimation
--------------
Number of obs = 758
Total (centered) SS = 139.2861498 Centered R2 = 0.4166
Total (uncentered) SS = 24652.24662 Uncentered R2 = 0.9967
Residual SS = 81.26217887 Root MSE = .33
------------------------------------------------------------------------------
| Robust
lw | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
iq | -.0014014 .0041131 -0.34 0.733 -.009463 .0066602
s | .0768355 .0131859 5.83 0.000 .0509915 .1026794
expr | .0312339 .0066931 4.67 0.000 .0181157 .0443522
tenure | .0489998 .0073437 6.67 0.000 .0346064 .0633931
rns | -.1006811 .0295887 -3.40 0.001 -.1586738 -.0426884
smsa | .1335973 .0263245 5.08 0.000 .0820021 .1851925
177
_Iyear_67 | -.0210135 .0455433 -0.46 0.645 -.1102768 .0682498
_Iyear_68 | .0890993 .042702 2.09 0.037 .0054049 .1727937
_Iyear_69 | .2072484 .0407995 5.08 0.000 .1272828 .287214
_Iyear_70 | .2338308 .0528512 4.42 0.000 .1302445 .3374172
_Iyear_71 | .2345525 .0425661 5.51 0.000 .1511244 .3179805
_Iyear_73 | .3360267 .0404103 8.32 0.000 .2568239 .4152295
_cons | 4.436784 .2899504 15.30 0.000 3.868492 5.005077
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments): 74.165
Chi-sq(3) P-val = 0.00000
------------------------------------------------------------------------------
Instrumented: iq
Instruments: s expr tenure rns smsa _Iyear_67 _Iyear_68 _Iyear_69 _Iyear_70
_Iyear_71 _Iyear_73 med kww age mrt
------------------------------------------------------------------------------
. ivreg2 lw s expr tenure rns smsa _I* (iq= med kww age mrt), gmm orthog(age mrt)
GMM estimation
--------------
Number of obs = 758
Total (centered) SS = 139.2861498 Centered R2 = 0.4166
Total (uncentered) SS = 24652.24662 Uncentered R2 = 0.9967
Residual SS = 81.26217887 Root MSE = .33
------------------------------------------------------------------------------
| Robust
lw | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
iq | -.0014014 .0041131 -0.34 0.733 -.009463 .0066602
s | .0768355 .0131859 5.83 0.000 .0509915 .1026794
expr | .0312339 .0066931 4.67 0.000 .0181157 .0443522
tenure | .0489998 .0073437 6.67 0.000 .0346064 .0633931
rns | -.1006811 .0295887 -3.40 0.001 -.1586738 -.0426884
smsa | .1335973 .0263245 5.08 0.000 .0820021 .1851925
_Iyear_67 | -.0210135 .0455433 -0.46 0.645 -.1102768 .0682498
_Iyear_68 | .0890993 .042702 2.09 0.037 .0054049 .1727937
_Iyear_69 | .2072484 .0407995 5.08 0.000 .1272828 .287214
_Iyear_70 | .2338308 .0528512 4.42 0.000 .1302445 .3374172
_Iyear_71 | .2345525 .0425661 5.51 0.000 .1511244 .3179805
_Iyear_73 | .3360267 .0404103 8.32 0.000 .2568239 .4152295
_cons | 4.436784 .2899504 15.30 0.000 3.868492 5.005077
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments): 74.165
178
CursodeEstadsticayEconometraAplicadausandoSTATA 179
A continuacin se presenta la estimacin del modelo anterior pero sin considerar estos
dos instrumentos que no cumplen con la condicin de exogeneidad. Se puede apreciar
tres diferencias importantes con respecto a la estimacin anterior: los instrumentos
incluidos cumplen con la condicin de exogeneidad, el coeficiente asociada a IQ
estimado por MCO2E es estadsticamente significativo, un punto adicional en el
coeficiente intelectual aumenta el salario, en promedio, en 2.4%, y el coeficiente
asociado a la escolaridad no es significativo.
. ivreg2 lw s expr tenure rns smsa _I* (iq= med kww), gmm
GMM estimation
--------------
------------------------------------------------------------------------------
| Robust
lw | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
iq | .0240417 .0060961 3.94 0.000 .0120936 .0359899
s | .0009181 .0194208 0.05 0.962 -.0371459 .038982
expr | .0393333 .0088012 4.47 0.000 .0220833 .0565834
tenure | .0324916 .0091223 3.56 0.000 .0146122 .050371
rns | -.0326157 .0376679 -0.87 0.387 -.1064433 .041212
smsa | .114463 .0330718 3.46 0.001 .0496434 .1792825
_Iyear_67 | -.0694178 .0568781 -1.22 0.222 -.1808968 .0420613
_Iyear_68 | .0891834 .0585629 1.52 0.128 -.0255977 .2039645
_Iyear_69 | .1780712 .0532308 3.35 0.001 .0737407 .2824016
_Iyear_70 | .139594 .0677261 2.06 0.039 .0068533 .2723346
_Iyear_71 | .1730151 .0521623 3.32 0.001 .070779 .2752512
_Iyear_73 | .300759 .0490919 6.13 0.000 .2045407 .3969772
179
_cons | 2.859113 .4083706 7.00 0.000 2.058721 3.659504
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments): 0.781
Chi-sq(1) P-val = 0.37681
------------------------------------------------------------------------------
Instrumented: iq
Instruments: s expr tenure rns smsa _Iyear_67 _Iyear_68 _Iyear_69 _Iyear_70
_Iyear_71 _Iyear_73 med kww
------------------------------------------------------------------------------
------------------------------------------------------------------------------
lw | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
iq | .0243202 .0060513 4.02 0.000 .0124405 .0361998
s | .0004625 .0191587 0.02 0.981 -.0371489 .0380738
expr | .039129 .0085141 4.60 0.000 .0224146 .0558435
tenure | .0327048 .0097792 3.34 0.001 .0135067 .0519029
rns | -.0341617 .0386606 -0.88 0.377 -.1100584 .0417351
smsa | .1140326 .0338968 3.36 0.001 .047488 .1805771
_Iyear_67 | -.0679321 .0604394 -1.12 0.261 -.186584 .0507198
_Iyear_68 | .0900522 .0566543 1.59 0.112 -.0211689 .2012733
_Iyear_69 | .1794505 .055824 3.21 0.001 .0698595 .2890415
_Iyear_70 | .1395755 .0661226 2.11 0.035 .0097668 .2693843
_Iyear_71 | .1735613 .0559634 3.10 0.002 .0636966 .2834259
180
CursodeEstadsticayEconometraAplicadausandoSTATA 181
. ivendog
181
III.4. Variable Dependiente Discreta
III.4.1 Introduccin
Volvamos al comienzo del curso, donde se empez hablando del anlisis de regresin.
El anlisis de regresin busca estimar el promedio poblacional de la variable
dependiente para valores fijos de las variables explicativas, es decir, estimar el
promedio de la variable dependiente condicional en X, lo que se traduce a que el
promedio condicional de variable dependiente en X se puede escribir como una funcin
de X:
El modelo de regresin lineal asume que esta funcin f() es lineal, es decir:
Sin embargo, este es un caso particular del anlisis de regresin. El estimador MCO
slo es capaz de estimar modelos de regresiones lineales (primer supuesto), existen
otros estimadores para estimar modelos no lineal, donde la funcin f() toma cualquier
otra forma, por ejemplo, el estimador Mxima Verosmil.
182
CursodeEstadsticayEconometraAplicadausandoSTATA 183
El estimador Mximo Verosimil es otro mtodo para estimar la relacin que existe
entre la o las variables explicativas y la variable dependiente, la idea de este
estimador es que la variable dependiente al ser una variable aleatoria tiene
asociada una funcin de probabilidad la que depende de ciertos parmetros, por
ejemplo, en el caso de una distribucin normal estos parmetros son la media y
la varianza. Entonces asumiendo una cierta distribucin de la variable
dependiente (normal, logstica, etc.) se tiene que determinar los parmetros de
esa distribucin que hicen ms probable la muestra que observamos. A la funcin
de densidad en este contexto de le llama funcin de verosimilitud, ya que se
toma como dado los daos y desconocidos los parmetros, contrario a lo que uno
usualmente entiende por funcin de densidad, donde se conocen los parmetros y
se generan datos a partir de ella. En resumen, el estimador de mxima
verosmilitud parte asumiendo una funcin de densidad de la variable
dependiente, la que se llama funcin de verosimilitud, y el objetivo es determinar
o estimar los parmentros de esta funcin que hicieron que la muestra que
observamos sea la ms probable.
183
Decisin de las personas de ahorrar o no (o de endeudarse o no)
Factores asociados a la depresin
Decisin de contribuir o no al sistema de pensiones
Decisin de tener o no un seguro
Para la presente clase se utilizar la encuesta CASEN 2006 para estudiar los
determinantes de que una persona realice o no una capacitacin laboral. En esta
encuesta se pregunta a las personas si entre Noviembre de 2005 y Octubre de 2006
han asistido a algn curso de capacitacin laboral. Plantearemos un modelo simple
para analizar la relacin entre la realizacin de capacitacin laboral y un conjunto de
variables demogrficas y caractersticas del empleo de los ocupados, por lo cual slo se
tomar como muestra de anlisis los ocupados como asalariados. Segn los datos de
la ENCUESTA CASEN 2006, un 49,7% de los mayores de 15 aos (poblacin en edad
de trabajar) se encuentran ocupados. Del total de personas ocupadas, un 69,1%
trabaja como asalariado, y de los asalariados un 21,4% ha realizado algn curso de
capacitacin en el ltimo ao. Las caractersticas individuales que se utilizarn en la
estimacin son: gnero, edad, escolaridad, estado civil, y condicin de jefe de hogar.
Adems se utilizarn algunas caractersticas del empleo como: ingreso laboral por
hora, tamao de la empresa y rama de actividad econmica.
11
donde:
esc: aos de escolaridad
184
CursodeEstadsticayEconometraAplicadausandoSTATA 185
La siguiente tabla nos muestra los resultados de la estimacin del modelo anterior por
MCO utilizando la opcin robust:
------------------------------------------------------------------------------
| Robust
capacitado | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc | .0131787 .0005115 25.76 0.000 .0121761 .0141812
edad | -.0002417 .0001516 -1.59 0.111 -.0005388 .0000554
casado | .0350264 .0037339 9.38 0.000 .027708 .0423447
jefe | .0616054 .0040919 15.06 0.000 .0535852 .0696256
genero | -.0322881 .0040074 -8.06 0.000 -.0401427 -.0244335
lyph | .0652031 .0030554 21.34 0.000 .0592145 .0711917
Egrande | .1271726 .0035704 35.62 0.000 .1201746 .1341707
Emediana | .0430007 .0035718 12.04 0.000 .0359999 .0500014
mineria | .1356752 .0120397 11.27 0.000 .1120773 .1592731
industria | .0287321 .0052282 5.50 0.000 .0184849 .0389794
electr | .0927762 .0202167 4.59 0.000 .0531512 .1324011
construccion | -.0393508 .0051154 -7.69 0.000 -.049377 -.0293247
comercio | .0298023 .0053396 5.58 0.000 .0193367 .040268
transporte | .0056154 .0069195 0.81 0.417 -.0079468 .0191776
servicios | .0480401 .0088693 5.42 0.000 .0306562 .065424
servcomu | .0700014 .0053381 13.11 0.000 .0595386 .0804642
185
_cons | -.5082504 .0185669 -27.37 0.000 -.5446416 -.4718592
------------------------------------------------------------------------------
Tomando todo las variables explicativas constante (evaluados en algn valor) excepto
la variable escolaridad podemos graficar la relacin estimada entre la variable
dependiente binaria que toma valor 1 si la persona ha realizado cursos de capacitacin
y los aos de escolaridad. Por ejemplo, tomemos la edad en 34, una persona casada,
jefe de hogar, hombre, que trabaja en una empresa mediana en sector comercio, el
siguiente grfico muestra la relacin entre el valor observado de la variable
dependiente, el valor predicho de la variable dependiente, y los aos de escolaridad.
g prediccion=_b[_cons]+_b[esc]*esc+_b[edad]*34+_b[casado]*1+_b[jefe]*1
+_b[genero]*1+_b[lyph]*6.8+_b[Emediana]*1+_b[comercio] if e(sample)
Notemos que cuando realizamos la estimacin por MCO, lo que obtenemos es el valor
estimado para la media poblacional de Y condicional en X. Cuando la variable
dependiente es binaria, la media de esta variable representa la probabilidad de que la
186
CursodeEstadsticayEconometraAplicadausandoSTATA 187
variable dependiente tome valor igual a 1. Por lo cual, el valor estimado para la
variable dependiente condicional en las variables explicativas representa justamente la
probabilidad estimada de haber realizado una capacitacin:
Los coeficientes del modelo miden el impacto de la variable explicativa que acompaan
sobre la probabilidad de que la variable dependiente sea igual a 1:
187
Del modelo estimado anteriormente se obtienen los siguientes resultados:
188
CursodeEstadsticayEconometraAplicadausandoSTATA 189
189
Si se asume una funcin de probabilidad normal el modelo de denomina PROBIT, si se
asume una funcin de probabilidad logstica el modelo se denomina LOGIT.
Donde f() es la funcin de densidad, la cual debe ser evaluada en X, por lo cual se
deben elegir valores de las variables explicativas sobre las cuales evaluar.
190
CursodeEstadsticayEconometraAplicadausandoSTATA 191
191
Maximizando la expresin con respecto a , obtenemos la siguiente condicin de
primer orden:
La ecuacin no tiene una solucin matemtica cerrada, por lo cual se deben utilizar
mtodos iterativos para encontrar la solucin, estos procesos los realizan los softwares
computacionales.
192
CursodeEstadsticayEconometraAplicadausandoSTATA 193
------------------------------------------------------------------------------
capacitado | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc | .0571299 .0024712 23.12 0.000 .0522864 .0619734
edad | -.002937 .0006914 -4.25 0.000 -.0042922 -.0015819
casado | .1719956 .0156521 10.99 0.000 .1413181 .2026731
jefe | .2758226 .016909 16.31 0.000 .2426816 .3089636
genero | -.1654 .0168968 -9.79 0.000 -.1985171 -.132283
lyph | .2187762 .0124129 17.62 0.000 .1944474 .2431049
Egrande | .6335182 .0197989 32.00 0.000 .594713 .6723235
Emediana | .3068984 .0219413 13.99 0.000 .2638943 .3499025
mineria | .4962219 .0371671 13.35 0.000 .4233757 .569068
industria | .1911305 .0236132 8.09 0.000 .1448494 .2374116
electr | .4233926 .0647481 6.54 0.000 .2964887 .5502966
construccion | -.1276754 .0294515 -4.34 0.000 -.1853992 -.0699516
comercio | .2018357 .0244174 8.27 0.000 .1539785 .2496928
transporte | .1027201 .0310052 3.31 0.001 .0419509 .1634892
servicios | .2536718 .0321939 7.88 0.000 .1905729 .3167707
servcomu | .2944947 .0227859 12.92 0.000 .2498352 .3391542
_cons | -3.631647 .0734629 -49.44 0.000 -3.775632 -3.487663
------------------------------------------------------------------------------
193
genero*| -.0396499 .00417 -9.50 0.000 -.047827 -.031473 .69221
lyph | .0507624 .00289 17.57 0.000 .045099 .056426 6.74595
Egrande*| .1498894 .00466 32.19 0.000 .140763 .159016 .471072
Emediana*| .0761954 .00575 13.25 0.000 .064924 .087466 .280417
mineria*| .1423699 .01254 11.36 0.000 .117797 .166942 .029316
indust~a*| .0476349 .00627 7.59 0.000 .035337 .059933 .127474
electr*| .1191014 .02122 5.61 0.000 .077507 .160696 .008878
constr~n*| -.0280096 .00609 -4.60 0.000 -.039954 -.016065 .087745
comercio*| .0504774 .00653 7.73 0.000 .037681 .063274 .129397
transp~e*| .0249543 .00786 3.17 0.002 .00954 .040369 .060944
servic~s*| .0658449 .00922 7.14 0.000 .047781 .083909 .049125
servcomu*| .074579 .00623 11.97 0.000 .062364 .086794 .200884
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
5 puntos porcentuales.
194
CursodeEstadsticayEconometraAplicadausandoSTATA 195
porcentuales.
La siguiente tabla muestra los efectos marginales del modelo utilizando LOGIT:
195
transp~e*| .0280152 .00783 3.58 0.000 .012665 .043366 .060944
servic~s*| .0664822 .0092 7.23 0.000 .048451 .084514 .049125
servcomu*| .0737426 .00625 11.81 0.000 .0615 .085985 .200884
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
Al igual que con el modelo de probabilidad lineal se puede graficar la relacin entre la
comandos:
g
pred_probit=_b[_cons]+_b[esc]*esc+_b[edad]*33.8+_b[casado]*0.42+_b[jefe]*0.27+_b[
genero]*0.5+_b[lyph]*6.8+_b[Egrande]*0.31+_b[Emediana]*0.18+_b[mineria]*0.02+_b[i
ndustria]*0.11+_b[electr]*0.006+_b[construccion]*0.08+_b[comercio]*0.15+_b[transp
orte]*0.06+_b[servicios]*0.04+_b[servcomu]*0.22 if e(sample)
g prob_pred_probit=normal(pred_probit)
196
CursodeEstadsticayEconometraAplicadausandoSTATA 197
Con respecto a la bondad de ajuste del modelo, existen dos medidas que nos permiten
Pseudos-R2.
pred, p):
Luego generar una variable que tome valor 1 si p-gorro es mayor o igual a 0.5
y que tome valor cero si es menor a 0.5. Luego generar una variable que
197
valor 1 cuando la observacin de la variable dependiente toma valor 1 y fue
predicho que tomaba valor 1 (p-gorro mayor o igual a 0.5), tambin ser igual
a 1 cuando la variable dependiente toma valor cero y fue predicho que tomaba
valor cero (p-gorro menor a 0.5), y tomar valor cero en los casos que se
Donde:
Notemos que si las variables explicativas del modelo no explican nada, la razn
198
CursodeEstadsticayEconometraAplicadausandoSTATA 199
III.5.1 Introduccin
Continuando con la discusin de la clase anterior, que nos permiti modelar y estimar
casos en que la variable dependiente era discreta y de carcter binario, en esta clase
abordamos el caso en que esta variable es categrica y ordinal.
Es decir, nos interesa ahora una variable dependiente que est dividida en varias
categoras, las que pueden ser ordenadas (puestas en un ranking).
Por ejemplo, queremos conocer cules son los aspectos que explican el autoreporte de
salud de los individuos. En la Encuesta de Proteccin Social, por ejemplo, los
entrevistados ordenan su salud en 6 categoras: 1) Excelente; 2) Muy buena; 3)
Buena; 4) Regular; 5) Mala; y 6) Muy mala. Se trata, obviamente, de una variable
ordinal puesto que al ir desde 1 a 6 claramente la salud de la persona es peor, y
viceversa. Otra variable ordinal que podra ser objeto de nuestro inters, es el nmero
de personas que trabajan en la empresa. En la encuesta CASEN, por ejemplo, la
respuesta a esta pregunta consta de las siguientes categoras: A) 1 persona; B) de 2 a
5 personas; C) de 6 a 9 personas; D) de 10 a 49 personas; E) de 50 a 199 personas;
F) 200 y ms personas.
12
McKelvey y Zavoina (1975) y Winship y Mare (1984)
199
Otro tipo de variables categricas son las variables no ordinales, como por ejemplo,
estatus marital, estatus laboral, dependencia de los colegios, etc. La variable, tipo de
colegio, que toma el valor 1 si el colegio en el que se estudi es municipal; 2 si se
trat de un establecimiento particular subvencionado; y 3 si se estudi en un colegio
particular pagado, es una variable categrica pero no ordinal, no tienen un orden
determinado. En algunos casos cuando las variables son ordinales pero hay categoras
no sabe o no responde, muchas estudios prefieren no eliminar la categora no sabe, y
tratar la variable como no ordinal. En este caso la metodologa es Multinomial Logit
Model.
Supongamos que la variable dependiente tiene J categoras que pueden ser ordenadas.
En este caso, el modelo de regresin lineal no puede ser utilizado porque simplemente
supondra que habra igual distancia entre las categoras, lo que no necesariamente es
correcto.
El anlisis lo realizaremos suponiendo un modelo que incluye una variable latente (no
observada) y* que, a diferencia de nuestra variable dependiente, es continua y que se
puede escribir como una funcin lineal de un vector de variables X:
Por otra parte, la variable que observamos es una variable que est en categoras, y
que est ordenada de acuerdo a la variable Y* del modo siguiente:
200
CursodeEstadsticayEconometraAplicadausandoSTATA 201
- +
Y*
1 2 3 j-1
Como en el caso del modelo de regresin binario, se puede realizar una estimacin por
medio del mtodo de Mxima Verosimilitud para aproximarse a la regresin de Y*
respecto del vector X.
Si suponemos que los errores del modelo tienen una distribucin normal, tenemos el
modelo PROBIT ORDENADO.
Si los errores, en cambio, suponemos que siguen una distribucin logstica, estamos
ante el modelo LOGIT ORDENADO.
201
donde:
202
CursodeEstadsticayEconometraAplicadausandoSTATA 203
. tab s6 [aw=expr]
percepcion |
de salud | Freq. Percent Cum.
------------+-----------------------------------
muy buena |11,991.1229 12.50 12.50
buena | 49,534.921 51.64 64.14
regular | 27,211.186 28.37 92.51
mala | 6,137.0227 6.40 98.91
muy mala | 1,049.7472 1.09 100.00
------------+-----------------------------------
Total | 95,924 100.00
Supongamos que queremos usar un modelo en que la educacin y la edad son las
variables determinantes de este autoreporte. Comenzaremos usando un modelo probit
ordenado, para lo cual el comando en STATA es oprobit seguido de la variable
dependiente (s6) y de las variables explicativas. Previamente, eliminamos las
observaciones en que las personas indican no saber su percepcin de salud, con el
objeto que STATA no considere a ese grupo como otra categora.
drop if s6==9
(1781 observations deleted)
203
Iteration 3: log likelihood = -104754.41
------------------------------------------------------------------------------
s6 | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc | -.0711402 .0009141 -77.83 0.000 -.0729318 -.0693486
edad | .0151264 .0002283 66.24 0.000 .0146788 .0155739
-------------+----------------------------------------------------------------
/cut1 | -1.325288 .0165261 -1.357678 -1.292897
/cut2 | .3443102 .0160589 .3128352 .3757851
/cut3 | 1.56539 .0168951 1.532276 1.598504
/cut4 | 2.507543 .0202028 2.467946 2.54714
------------------------------------------------------------------------------
En segundo lugar, el output de STATA muestra los coeficientes para las variables
explicativas y, en un recuadro inferior, los valores _cut1, _cut2, _cut3 y _cut4. Estos
corresponden a los que, en la nomenclatura de esta clase, seran 1, 2, 3 y 4,
respectivamente.
204
CursodeEstadsticayEconometraAplicadausandoSTATA 205
Para poder obtener una estimacin de esta probabilidad, se requiere asignar un valor
para la escolaridad y otro para la variable edad. Supondremos que esta probabilidad se
evala en las medias: 9.8 para escolaridad y 42.8 para edad, de la muestra para la
cual sea ha realizado la estimacin anterior:
. di normal(_b[/cut1]-(_b[esc]*9.8+_b[edad]*42.8))
.1010621
. di normal(_b[/cut2]-(_b[esc]*9.8+_b[edad]*42.8))-normal(_b[/cut1]-
(_b[esc]*9.8+_b[edad]*42.8))
.55217506
. di norm(_b[/cut3]-(_b[esc]*9.8+_b[edad]*42.8))-norm(_b[/cut2]-
(_b[esc]*9.8+_b[edad]*42.8))
.29362425
. di normal(_b[/cut4]-(_b[esc]*9.8+_b[edad]*42.8))-normal(_b[/cut3]-
(_b[esc]*9.8+_b[edad]*42.8))
.04786429
. di 1-normal(_b[/cut4]-(_b[esc]*9.8+_b[edad]*42.8))
.00527429
205
Como se aprecia, la funcin normal(z) en STATA entrega la probabilidad acumulada
en una funcin de densidad normal estndar, es decir, la probabilidad de que una
variable aleatoria normal tome un valor igual a z o menos.
206
CursodeEstadsticayEconometraAplicadausandoSTATA 207
Los efectos marginales de esta estimacin se deben computar en forma separada para
cada una de las categoras de la variable dependiente. El comando que se utiliza para
esto es mfx, comando que computa los efectos marginales de cualquier estimacin. En
particular, para los modelos de variable dependiente categrica, los efectos marginales
de deben computar en forma separada para cada una de las categoras. Esto se hace
de la siguiente forma:
207
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
esc | .0126146 .00017 72.39 0.000 .012273 .012956 9.82306
edad | -.0026822 .00004 -62.58 0.000 -.002766 -.002598 42.7725
------------------------------------------------------------------------------
A continuacin se presentan los efectos marginales estimados para todas las dems
categoras:
208
CursodeEstadsticayEconometraAplicadausandoSTATA 209
Todo lo realizado hasta ahora se puede hacer en forma equivalente asumiendo una
funcin de distribucin logstica por el mtodo de logit ordenado.
Se puede tambin apreciar que en el output de STATA se proveen los errores estndar
y test t y p-values para la hiptesis nula de que los coeficientes de las variables
explicativas, a nivel individual, son iguales a cero, los que se interpretan de la manera
habitual.
Considere una variable categrica no ordinal con tres categoras: A, B, y C, las que
tienen NA, NB, y NC cantidad de observaciones cada una. Para analizar la relacin entre
la variable dependiente categrica (y) y la variable explicativa (x) se debe correr una
serie de regresiones binarias logia. Para analizar los efectos de la variable explicativa x
en las chances (odds) de A versus B, se deben seleccionar las NA+NB observaciones y
estimar el siguiente modelo logit binario:
209
La variable dependiente de este modelo es el logaritmo de las chances de A versus B.
Un incremento de una unidad de X aumenta las chances de A versus B en .
Sin embargo, una de estas es irrelevante, si sabemos como X afecta las chantes de B
versus C, y sabemos como X afecta las chances de A versus C, es razonable esperar
saber el impacto de X sobre las chances de A versus C.
Para efectos de estimar el modelo, finalmente se toma una de las categoras como
base, y se estiman todas las dems en funcin de esta. En trminos de probabilidades
el modelo puede ser reescrito de la siguiente forma:
g estatus=1 if o9==1
replace estatus=2 if o9==2
replace estatus=3 if o9==3 | o9==4
replace estatus=4 if o9==5
210
CursodeEstadsticayEconometraAplicadausandoSTATA 211
g genero=1 if sexo==1
replace genero=0 if sexo==2
------------------------------------------------------------------------------
estatus | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Empleador |
edad | .0799784 .0014199 56.33 0.000 .0771954 .0827614
esc | .1597634 .0045325 35.25 0.000 .1508798 .168647
genero | .0993261 .0392921 2.53 0.011 .022315 .1763371
_cons | -8.00148 .100142 -79.90 0.000 -8.197754 -7.805205
-------------+----------------------------------------------------------------
Cuenta Pro~a |
edad | .0438387 .0007387 59.35 0.000 .0423908 .0452865
esc | -.0708369 .002294 -30.88 0.000 -.0753331 -.0663406
genero | -.2440134 .0193707 -12.60 0.000 -.2819792 -.2060476
_cons | -1.911952 .0468815 -40.78 0.000 -2.003838 -1.820066
-------------+----------------------------------------------------------------
Empleador ~o |
edad | .0516767 .0010375 49.81 0.000 .0496432 .0537101
esc | .2016091 .0035161 57.34 0.000 .1947177 .2085006
genero | -.8844475 .0247347 -35.76 0.000 -.9329267 -.8359682
_cons | -5.845748 .0689473 -84.79 0.000 -5.980882 -5.710614
------------------------------------------------------------------------------
(estatus==E. Sector Privado is the base outcome)
211
La estimacin anterior muestra tres estimaciones de logit binario, estimando las
chances de cada alternativa versus la categora base, que en este caso STATA la ha
seleccionado automticamente como Sector Pivado. Los parmetros estimados en cada
regresin representan los betas para cada modelo, y por si slo no tienen
interpretacin. Para mayor anlisis debemos ver los efectos marginales. Pero antes, la
siguiente tabla muestra el mismo modelo anterior pero tomando como base a los
empleadores:
------------------------------------------------------------------------------
estatus | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
Cuenta Pro~a |
edad | -.0427713 .0016151 -26.48 0.000 -.0459367 -.0396058
esc | -.236924 .0049962 -47.42 0.000 -.2467164 -.2271316
genero | -.294665 .0476776 -6.18 0.000 -.3881113 -.2012187
_cons | 6.609551 .1147018 57.62 0.000 6.384739 6.834362
-------------+----------------------------------------------------------------
Empleador ~o |
edad | -.0359512 .0017585 -20.44 0.000 -.0393978 -.0325046
esc | .032728 .005432 6.03 0.000 .0220816 .0433745
genero | -1.100984 .0497899 -22.11 0.000 -1.198571 -1.003398
_cons | 2.979489 .1218546 24.45 0.000 2.740659 3.21832
-------------+----------------------------------------------------------------
E. Sector ~o |
edad | -.0886659 .0016018 -55.35 0.000 -.0918054 -.0855265
esc | -.1798783 .0048512 -37.08 0.000 -.1893865 -.1703702
genero | -.0412019 .0465784 -0.88 0.376 -.132494 .0500901
_cons | 8.557451 .1126263 75.98 0.000 8.336707 8.778194
------------------------------------------------------------------------------
(estatus==Empleador is the base outcome)
212
CursodeEstadsticayEconometraAplicadausandoSTATA 213
213
III.6. Variable Dependiente Limitada: Censura, Truncamiento, y Sesgo de
Seleccin
III.6.1 Introduccin
En el modelo de regresin lineal, los valores de todas las variables son conocidos para
la muestra completa. Dentro del trabajo emprico, existen muchos casos donde debido
a la forma de recoleccin de los datos, disponemos de informacin incompleta de las
variables de inters. En esta clase se considerarn los casos en que la variable
dependiente es limitada, es decir, esta censurada o truncada.
Truncamiento: en este caso los datos son limitados en una forma ms severa, ya que
las observaciones con ingresos superiores al 1.000.000 son eliminadas de la muestra.
En este caso, tanto los datos de la variable dependiente como de las variables
explicativas estn perdidos.
214
CursodeEstadsticayEconometraAplicadausandoSTATA 215
del trabajo no es aleatoria, sino que depende entre otras cosas de variables que
determinan el ingreso, que es justamente la variable de inters. Este problema fue
planteado por primera vez por Heckman (1979), y su metodologa es la ms apropiada
para este tipo de problema.
Cuando tenemos datos truncados se tiene acceso slo a una parte de la muestra. Para
las personas que son excluidas no tenemos observaciones ni de la variable
dependiente ni de las variables explicativas del modelo. Por ejemplo, si tenemos una
encuesta que slo entrevista a los egresados de Ingeniera Comercial, y queremos
estudiar el retorno a la educacin. Esta es una muestra truncada, relativa a la
poblacin, ya que han sido excluidos todos los individuos que no han egresado de la
carrera de Ingeniera Comercial. Los individuos excluidos probablemente no tengan las
mismas caractersticas de los individuos que han sido incluidos. En efecto, deberamos
esperar que el ingreso promedio de las personas que estn quedando fuera sea menor
que los ingresos de los graduados de ingeniera comercial.
215
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
normal | 100000 1000029 250156.1 0 2070634
trunc | 78789 1091829 189679.9 800012.8 2070634
216
CursodeEstadsticayEconometraAplicadausandoSTATA 217
La muestra truncada no puede ser utilizada para hacer inferencia sobre la poblacin
completa sin corregir por aquellos individuos que fueron excluidos en forma no
aleatoria de la poblacin. Pero tampoco podemos utilizar la estimacin obtenidas de
esta sub-muestra para hacer inferencia sobre el sub-grupo para el cual tenemos
observaciones. La regresin MCO cuando estamos estimando en una sub muestra ser
sesgado hacia cero, y se subestimar la varianza del error (u2).
Cuando estamos tratando con una distribucin normal truncada, donde Yi=Xi+ i es
observada slo para valores de Yi superiores a cierto umbral , se puede definir:
217
dentro del modelo de regresin la variable explicativa equivalente al IMR, corrigiendo
el sesgo en la estimacin cuando la muestra observada esta truncada.
218
CursodeEstadsticayEconometraAplicadausandoSTATA 219
------------------------------------------------------------------------------
o19_hrs | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
t_hijos0_2 | -.4547121 2.208499 -0.21 0.837 -4.783758 3.874334
t_hijos2_6 | -4.296759 1.567057 -2.74 0.006 -7.368466 -1.225052
t_hijos6_18 | -4.453983 .7020404 -6.34 0.000 -5.830106 -3.07786
edad | .1955919 .0767236 2.55 0.011 .0452002 .3459836
esc | .2089916 .1644957 1.27 0.204 -.1134489 .5314321
_cons | 162.3907 4.420836 36.73 0.000 153.725 171.0563
------------------------------------------------------------------------------
Del modelo anterior podemos concluir que tener hijos entre 2 y 18 aos disminuyen las
horas trabajadas de las mujeres casadas. La edad aumenta las horas trabajadas, la
escolaridad no resulta ser estadsticamente significativa. Recordemos que cuando
tenemos un problema de truncamiento en la distribucin de la variable de inters, los
coeficientes estimados son sesgados hacia cero, es decir, en valor absoluto son
menores a los que se debera obtener. Adems, la varianza estimada del error es
sesgada hacia abajo, es menor a la que debera, por lo cual los estadsticos t estn
sobre estimados y se esta rechazando la hiptesis nula de que los coeficientes son
iguales a cero ms de lo que se debiera, es decir, con esta estimacin podemos
concluir que parmetros son estadsticamente significativos cuando realmente no lo
son.
Ahora, si podemos justificar que los errores del modelo se distribuyen en forma
normal, es posible estimar este modelo truncado en STATA utilizando el comando
truncreg. Bajo el supuesto de normalidad, podemos hacer inferencia para toda la
poblacin asociada a partir del modelo truncado estimado. En este caso en particular,
podemos hacer inferencia sobre todas las mujeres y no slo las que trabajan. El
comando tiene la opcin ll(#) que indica que todas las observaciones con valores de
la variable dependiente igual o menor a # han sido truncadas, la opcin lu(#) indica
que las observaciones con valores de la variable dependiente iguales o mayores a #
han sido truncadas. La distribucin puede estar truncada por arriba y abajo, ambas
opciones pueden ser utilizadas en forma simultnea.
219
A continuacin se presentan los resultados del modelo estimado anteriormente, pero
utilizando el comando truncreg:
Truncated regression
Limit: lower = 0 Number of obs = 11190
upper = +inf Wald chi2(5) = 73.86
Log likelihood = -63533.416 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
o19_hrs | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
eq1 |
t_hijos0_2 | -.5077218 2.403286 -0.21 0.833 -5.218076 4.202633
t_hijos2_6 | -4.708079 1.71185 -2.75 0.006 -8.063243 -1.352916
t_hijos6_18 | -4.863076 .7671873 -6.34 0.000 -6.366735 -3.359416
edad | .2100532 .0831678 2.53 0.012 .0470473 .3730591
esc | .2277216 .1785026 1.28 0.202 -.1221372 .5775804
_cons | 159.4184 4.803027 33.19 0.000 150.0046 168.8321
-------------+----------------------------------------------------------------
sigma |
_cons | 74.57292 .5779114 129.04 0.000 73.44023 75.7056
------------------------------------------------------------------------------
220
CursodeEstadsticayEconometraAplicadausandoSTATA 221
----------------------------------
Variable | mco trunc~g
-------------+--------------------
_ |
t_hijos0_2 | -.455
| 0.837
t_hijos2_6 | -4.3
| 0.006
t_hijos6_18 | -4.45
| 0.000
edad | .196
| 0.011
esc | .209
| 0.204
_cons | 162
| 0.000
-------------+--------------------
eq1 |
t_hijos0_2 | -.508
| 0.833
t_hijos2_6 | -4.71
| 0.006
t_hijos6_18 | -4.86
| 0.000
edad | .21
| 0.012
esc | .228
| 0.202
_cons | 159
| 0.000
-------------+--------------------
sigma |
_cons | 74.6
| 0.000
-------------+--------------------
Statistics |
rmse | 71.6
----------------------------------
legend: b/p
221
rmse de la estimacin MCO, nuevamente podemos apreciar que la desviacin estndar
de la estimacin MCO esta siendo subestimada.
Los resultados de la estimacin del modelo truncado, considerando este efecto, pueden
ser utilizados para hacer inferencias sobre la poblacin completa.
222
CursodeEstadsticayEconometraAplicadausandoSTATA 223
Este modelo combina dos tipos de modelos, un modelo probit binario para distinguir
entre yi=0 e yi>0, y el modelo de regresin para los valores de yi mayores a cero. El
comando en STATA que realiza la estimacin de estos modelos es tobit, los puntos de
censura son definidos con las opciones ll() y ul(), el primero indica la censura por la
izquierda, el segundo la censura por la derecha o arriba de la distribucin, y se pueden
especificar ambos al mismo tiempo.
223
transforma en un modelo binario (probit o logit), pero haciendo esto estamos
descartando toda la informacin importante en la variable dependiente. Tambin
podramos olvidarnos de todas las observaciones donde la variable dependiente es
igual a cero, pero en este caso tendramos un problema de truncamiento con las
consecuencias que esto genera sobre la estimacin, y adems al sacar los datos se
esta perdiendo informacin relevante.
Tenemos un problema de censura, ya que para las mujeres que no trabajan el salario
por hora es igual a cero.
Para poder comparar, primero estimaremos el modelo por MCO. Estos son los
resultados:
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc | .2410843 .0027767 86.82 0.000 .2356419 .2465266
edad | -.0161103 .0008979 -17.94 0.000 -.0178703 -.0143503
casada | -.738852 .0218491 -33.82 0.000 -.7816762 -.6960279
224
CursodeEstadsticayEconometraAplicadausandoSTATA 225
Utilizando la metodologa Tobit, que estima la probabilidad de que el salario por hora
sea igual a cero versus mayor a cero, y para las personas con salarios mayores a cero
estiman los parmetros de inters, se obtienen los siguientes resultados:
------------------------------------------------------------------------------
lyph | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
esc | .7039213 .0094809 74.25 0.000 .6853389 .7225037
edad | -.0774246 .0030792 -25.14 0.000 -.0834597 -.0713894
casada | -2.414922 .0724712 -33.32 0.000 -2.556965 -2.272879
t_hijos0_2 | -3.982303 .1096702 -36.31 0.000 -4.197256 -3.76735
t_hijos2_6 | -1.644371 .0820848 -20.03 0.000 -1.805257 -1.483485
t_hijos6_18 | .2869502 .0382811 7.50 0.000 .2119194 .361981
_cons | -4.012681 .2010891 -19.95 0.000 -4.406814 -3.618547
-------------+----------------------------------------------------------------
/sigma | 7.546969 .0430214 7.462647 7.631291
------------------------------------------------------------------------------
Obs. summary: 51802 left-censored observations at lyph<=0
22145 uncensored observations
0 right-censored observations
Pero ojo con la interpretacin de los coeficientes, al igual que en las estimaciones de
modelos probit, la interpretacin de los coeficientes se debe hacer con los efectos
marginales.
Para ver como se obtienen los efectos marginales, primero debemos notar que este
modelo podemos obtener tres tipos de predicciones:
225
Prediccin de la probabilidad de que el logaritmo del salario por hora sea
mayor a cero Pr(lyh>0):
. sum esp_cen
. sum esp_ncen
Pero esta informacin no es la que nos interesa en realidad, el efecto marginal sobre la
variable observada (censurada) es el siguiente:
226
CursodeEstadsticayEconometraAplicadausandoSTATA 227
. mfx, predict(e(0,.))
La tabla anterior nos muestra que todas las variables explicativas son estadsticamente
significativas, el retorno a la educacin de las mujeres es de un 18.8%, un ao
adicional de edad disminuye el salario por hora en un 2.1%, pasar de estar no casada
a casada diminuye el salario por hora promedio en 65.6%, los hijos hasta seis aos
227
disminuye el salario por hora mientras que tener hijos entre 6 y 18 aos aumenta en
7.7% los salarios por hora promedio de las mujeres.
. mfx, predict(ystar(0,.))
La tabla anterior muestral los efectos marginales sobre la variable latente, aquella que
no observamos su distribucin completa. Primero, primero podemos apreciar que el
valor predicho de la variable dependiente (logaritmo del salario por hora) es menor,
esto porque la variable latente considera los valores de la distribucin que estn por
debajo de cero. Todos los coeficientes son mayores (en valor absoluto) que los sobre la
variable observada. Tal como se mostr en la ecuaciones (3) y (4) al considerar los
efectos marginales sobre la variable observada los coeficientes se multiplican por la
probabilidad que siempre es menor a 1.
228
CursodeEstadsticayEconometraAplicadausandoSTATA 229
. mfx, predict(p(0,.))
Cuando tenemos datos truncados como los vistos en la seccin II, los datos se tienen
slo para un sub-conjunto de la poblacin, y los datos ni de la variable dependiente ni
de la variable explicativa se tienen para la muestra truncada. Cuando existe
truncamiento incidental la muestra es representativa de toda la poblacin, pero las
observaciones de la variable dependiente estn truncadas de acuerdo a una regla
relacionada con la ecuacin de inters. No observamos la variable dependiente para
una sub-muestra como resultado de otras variables que generan un indicador de
seleccin. Truncamiento incidental significa que observamos Yi no basada en su valor
sino que como resultado de otras variables. Por ejemplo, observamos las horas
trabajadas cuando los individuos participan en la fuerza de trabajo, y podemos
imaginar que existe una serie de variables que determinan que una mujer participe o
no en la fuerza de trabajo, por lo cual podemos estimar esta probabilidad mediante un
modelo probit o logit.
Para el ejemplo de las horas trabajadas donde la variable estaba truncada, podemos
estimar conjuntamente la probabilidad de trabajar o no, es decir, de observar o no
horas trabajadas. La metodologa para esta estimacin consiste en el mtodo de
Heckman.
229
La ecuacin que se estima y que corrige el problema de sesgo de seleccin es la
siguiente:
Donde S es la variable indicador de seleccin, cuya probabilidad de que sea igual a uno
es estimada utilizando las variables Z, y son los coeficientes de esta estimacin. La
variable () es el IMR que corrige el problema de truncamiento pero no basado en un
umbral fijo (como en la seccin II), sino con las variables que determinan la
probabilidad de seleccin.
. heckman lyph esc edad t_hijos0_2 t_hijos2_6 t_hijos6_18, select(esc edad casada
t_hijos0_2 t_hijos2_6 t_hijos6_18)
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lyph |
esc | .1563621 .0016359 95.58 0.000 .1531558 .1595685
230
CursodeEstadsticayEconometraAplicadausandoSTATA 231
231
III.7. Modelos para Datos Longitudinales o Datos de Panel
III.7.1 Introduccin
Con respecto a las base de datos panel estas pueden ser balanceados, es decir, se
tiene para cada individuo a la misma cantidad de aos, o no balanceados cuando
algunos individuos no se observan en todo momento del tiempo. Para las metodologas
de estimacin presentadas en esta clase, el tener un panel balanceado o no, no afectar
los resultados ni la forma de utilizar estos mtodos.
En esta clase se utilizar una base de datos panel de Estados Unidos que tiene
informacin desde 1982 a 1988 para 48 estados, para estimar la efectividad de
distintas polticas de gobierno que buscan desincentivar conducir bajo efectos del
alcohol, en reducir las muertes por accidentes de trnsito. La base de datos contiene
informacin sobre el nmero de accidentes fatales en cada estado en cada ao, los
tipos de leyes de alcohol de cada estado en cada ao, y el impuesto a la cerveza en
cada estado. La medida utilizada para medir las muertes por accidentes de autos se
denomina tasa de fatalidad que equivale a la cantidad de personas muertas en
accidentes de trnsito por cada 10.000 habitantes.
232
CursodeEstadsticayEconometraAplicadausandoSTATA 233
g fatality=allmort*10000/pop
233
234
CursodeEstadsticayEconometraAplicadausandoSTATA 235
235
1986 | .5086639 .371517 .0464396 2.352941
1987 | .4951288 .36 .045 2.28
1988 | .4798154 .346487 .0433109 2.194418
---------+----------------------------------------
Total | .513256 .3525886 .0433109 2.720764
--------------------------------------------------
A continuacin se muestral la estimacin por MCO de los modelos separados para cada
ao:
------------------------------------------------------------------------------------
Variable | M1982 M1983 M1984 M1985 M1986 M1987 M1988
-------------+----------------------------------------------------------------------
beertax | .148 .299 .4 .392 .48 .483 .439
| 0.435 0.082 0.011 0.015 0.005 0.007 0.011
_cons | 2.01 1.85 1.81 1.77 1.82 1.82 1.86
| 0.000 0.000 0.000 0.000 0.000 0.000 0.000
-------------+----------------------------------------------------------------------
r2_a | -.00813 .0439 .112 .103 .143 .131 .115
rmse | .67 .592 .517 .51 .518 .526 .49
------------------------------------------------------------------------------------
legend: b/p
estimates table M1982 M1983 M1984 M1985 M1986 M1987 M1988, stat(r2_a, rmse)
b(%7.3g) p(%4.3f)
236
CursodeEstadsticayEconometraAplicadausandoSTATA 237
Una solucin para este problema podra ser recolectar la informacin faltante, pero
alguna de esta informacin como si es aceptable o no beber, no se puede medir. Si
estos factores se mantienen constantes en el tiempo en un estado dado, existe otra
posibilidad de estimacin si contamos con informacin de datos de panel, esto consiste
en hacer una regresin MCO con efectos individuales.
Cuando los datos para cada estado son obtenidos para dos periodos de tiempo, es
posible computar el cambio en la variable dependiente para el anlisis, esta
comparacin antes-despus mantiene constante todos los factores no observables
que difieren entre estados pero no en el tiempo para un mismo estado.
Supongamos que slo tenemos los datos para los aos 1982 y 1988, y que existe una
variable W, por ejemplo, aceptacin social por beber alcohol que deberamos incluir en
el modelo antes estimado:
237
El modelo a estimar en este caso es:
------------------------------------------------------------------------------
dfatality | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dbeertax | -.8689218 .3929877 -2.21 0.032 -1.659511 -.0783325
------------------------------------------------------------------------------
238
CursodeEstadsticayEconometraAplicadausandoSTATA 239
La estructura general de los modelos de regresin con datos de panel, ya sea efectos
fijos o efectos aleatorios es la siguiente:
Donde Xit representan las variables explicativas que varan entre individuos y en el
tiempo, Zi representan variables explicativas que slo varan entre individuos pero no
en el tiempo, ui representa un efecto individual de nivel, y it corresponde al error del
modelo.
Deberamos ocupar efectos aleatorios cuando, por una parte tenemos acceso a las
variables explicativas Zi que son constantes en el tiempo pero que varan entre
individuos, y todo lo que es efecto individual no observado es completamente
aleatorio.
El estimador de efectos fijos se utiliza cuando ui esta correlacionado con las variables
explicativas del modelo, por lo que tiene que se modelado de alguna forma y se tratan
239
como parmetros a estimar del modelo, en este caso denotaremos a estos efectos
individuales como i, para identificar en trminos de notacin que son variables fijas y
no aleatorias. El problema del estimador de efectos fijos es que no permite incluir
variables explicativas que no varan en el para las cuales tenemos observaciones. Todo
lo que sea constante en el tiempo para los individuos, quedar obligatoriamente
capturado por este parmetro constante individual (i). De esta forma, el modelo de
efectos fijos debe quedar especificado de la siguiente forma:
La regresin por efectos fijos es un mtodo que permite controlar por variables
omitidas cuando estas variables no varan en el tiempo pero si entre la unidad de
observacin. La estimacin por efectos fijos es equivalente a la estimacin antes-
despus de la seccin II, pero puede ser utilizando cuando tenemos dos o ms
periodos de tiempo.
La regresin de efectos fijos estima n diferentes interceptos, uno para cada unidad de
observacin. Estos interceptos pueden ser representados por una serie de variables
binarias (dummies), las que absorbern la influencia de TODAS las que son constantes
en el tiempo.
La ecuacin (3) puede ser interpretada como que tiene n interceptos distintos:
240
CursodeEstadsticayEconometraAplicadausandoSTATA 241
Es decir,
El modelo (4) tambin puede ser expresando utilizando variables binarias, sea D1 igual
a 1 cuando i=1 y cero en otro caso, sea D2 igual a uno cuando i=2 y cero en otro
casos, etc. Recuerde que no podemos incluir todas las dummies al mismo tiempo ms
la constante porque existir multicolineallidad perfecta, omitamos D1:
Podemos establecer una relacin entre los coeficientes del modelo (2) y el (3):
Si uno no esta interesado explcitamente en estimar estos efectos individuales (i), los
que adems pueden aumentar significativamente el nmero de parmetros a estimar
cuando las unidades o individuos son un nmero elevado, se puede transformar el
modelo en (4) de forma tal de eliminar este efecto individual invariante en el tiempo.
Esta transformacin se conoce como la transformacin within, la que consiste en
tomar el promedio de las variables en el tiempo para cada individuo i y luego restar a
cada indiviudo este promedio. Como el efecto individual no varia en el tiempo, esta
transformacin lo elimina.
241
Tomando el promedio de (4) en t al interior de cada unidad i:
Para estimar modelos de efecto fijos en STATA se debe utilizar el comando xtreg, el
cual requiere que previamente se defina la variable que representa al individuo y la
variable que representa el tiempo, a travs de la siguiente indicacin:
iis state
tis year
Utilicemos los datos para el ao 1982 y 1988 con los que estimamos el modelo en
diferencias, pero utilicemos la estimacin de efectos fijos, podrn apreciar que se
obtienen exactamente los mismos resultados, un US$1 adicional de impuesto a la caja
de cervezas disminuye en 0.86 los muertos cada 10.000 habitantes por accidentes de
autos.
242
CursodeEstadsticayEconometraAplicadausandoSTATA 243
F(1,47) = 4.89
corr(u_i, Xb) = -0.7038 Prob > F = 0.0319
------------------------------------------------------------------------------
fatality | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
beertax | -.8689218 .3929877 -2.21 0.032 -1.659511 -.0783325
_cons | 2.518194 .2005206 12.56 0.000 2.114799 2.92159
-------------+----------------------------------------------------------------
sigma_u | .77501684
sigma_e | .27983322
rho | .88466641 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(47, 47) = 7.74 Prob > F = 0.0000
El mismo resultado se puede obtener a partir de la estimacin del modelo con variables
binarias, mediante la utilizacin del siguiente comando:
------------------------------------------------------------------------------
fatality | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
beertax | -.8689218 .3929877 -2.21 0.032 -1.659511 -.0783325
_Istate_4 | -.7860027 .5618579 -1.40 0.168 -1.916315 .3443096
_Istate_5 | -.6562953 .4612301 -1.42 0.161 -1.584171 .27158
.....
Ahora que hemos comprobado que las tres tipos de estimaciones nos entregan la
misma estimacin del parmetro de inters , utilicemos todos los aos (1982 a 1988)
para la estimacin del modelo por efectos fijos.
243
R-sq: within = 0.0407 Obs per group: min = 7
between = 0.1101 avg = 7.0
overall = 0.0934 max = 7
F(1,287) = 12.19
corr(u_i, Xb) = -0.6885 Prob > F = 0.0006
------------------------------------------------------------------------------
fatality | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
beertax | -.6558737 .18785 -3.49 0.001 -1.025612 -.2861353
_cons | 2.377075 .0969699 24.51 0.000 2.186213 2.567937
-------------+----------------------------------------------------------------
sigma_u | .71471463
sigma_e | .18985942
rho | .93408484 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(47, 287) = 52.18 Prob > F = 0.0000
Tal como los efectos fijos vistos hasta ahora controlan por efectos que son constantes
en el tiempo pero varan entre unidades, podemos tratar de controlar por efectos fijos
que varan en el tiempo pero son constantes entre individuos. Para controlar por estos
efectos fijos de tiempo se deben introducir variables dummies para cada ao:
244
CursodeEstadsticayEconometraAplicadausandoSTATA 245
F(7,281) = 3.50
corr(u_i, Xb) = -0.6781 Prob > F = 0.0013
------------------------------------------------------------------------------
fatality | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
beertax | -.63998 .1973768 -3.24 0.001 -1.028505 -.2514552
DY_2 | -.0799029 .0383537 -2.08 0.038 -.1554 -.0044058
DY_3 | -.0724205 .0383517 -1.89 0.060 -.1479136 .0030725
DY_4 | -.1239763 .0384418 -3.23 0.001 -.1996468 -.0483058
DY_5 | -.0378645 .0385879 -0.98 0.327 -.1138225 .0380936
DY_6 | -.0509021 .0389737 -1.31 0.193 -.1276196 .0258155
DY_7 | -.0518038 .0396235 -1.31 0.192 -.1298003 .0261927
_cons | 2.42847 .1081198 22.46 0.000 2.215643 2.641298
-------------+----------------------------------------------------------------
sigma_u | .70945969
sigma_e | .18788295
rho | .93446373 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(47, 281) = 53.19 Prob > F = 0.0000
( 1) DY_2 = 0
( 2) DY_3 = 0
( 3) DY_4 = 0
( 4) DY_5 = 0
( 5) DY_6 = 0
( 6) DY_7 = 0
F( 6, 281) = 2.01
Prob > F = 0.0642
245
Los resultados obtenidos en este caso son similares a los del modelo anterior, un
aumento en US$1 el impuesto por caja de cerveza disminuye las muertes en
accidentes de autos en 0.64 personas por cada 100.000 habitantes. Las dummies de
los aos 83 y 85 resultan significativas a un 5%, la dummy del ao 84 es significativa
al 6%. Los otros aos no tienen efectos fijos significativos.
Como este efecto individual no esta correlacionado con las variables explicativas, se
podra estimar el modelo por MCO, el problema es que esta estimacin no es eficiente
porque no considera la informacin que parte del trmino de error esta compuesto por
un efecto individual que se puede estimar para computar correctamente la matriz de
varianzas y covarianzas. La ventaja del modelo de efectos aleatorios es que incorpora
dentro de la estimacin este efecto como parte del trmino de error, obteniendo una
estimacin eficiente pero que ser consistente slo bajo el supuesto de que este
componente del error (el componente de efecto individual) no esta correlacionado con
las variables explicativas.
246
CursodeEstadsticayEconometraAplicadausandoSTATA 247
------------------------------------------------------------------------------
fatality | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
beertax | -.0520158 .1241758 -0.42 0.675 -.2953959 .1913643
_cons | 2.067141 .0999715 20.68 0.000 1.871201 2.263082
-------------+----------------------------------------------------------------
sigma_u | .5157915
sigma_e | .18985942
rho | .88067496 (fraction of variance due to u_i)
------------------------------------------------------------------------------
Los resultados cambian radicalmente con respecto a los obtenidos por efectos fijos, se
obtiene un efecto muy pequeo y no significativa, Por qu?.
247
del estimador de efectos aleatorio, la hiptesis nula es que no existe correlacin entre
el componente individual y las variables explicativas del modelo, bajo la hiptesis nula
el coeficiente estimado por efectos fijos y el estimado por efectos aleatorios no debera
diferir significativamente.
chi2(1) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 18.35
Prob>chi2 = 0.0000
Se rechaza la hiptesis nula de que los coeficientes son iguales, con lo cual se concluye
que el estimador de efectos aleatorios no es apropiado.
248
CursodeEstadsticayEconometraAplicadausandoSTATA 249
Cuando estimamos la relacin entre una variable de inters, la que hemos llamado
variable dependiente, y una o ms variables explicativas, por el mtodo de MCO, lo
que estamos estimando es la media condicional de la variable dependiente:
Sin embargo, en muchos casos puede que nuestro inters no sea solamente la media
de la variable dependiente, sino por ejemplo la mediana o cuantiles de la misma.
249
La ventaja de la regresin de cuantiles es que permite caracterizar de mejor forma los
datos, y la regresin de mediana, comparado con de la media, es ms robusta frente a
la presencia de outliers.
III.8.2 Aplicacin: Gastos mdicos en relacin a los gastos totales del hogar
------------------------------------------------------------------------------
| Robust
lnmed | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lntotal | .5736545 .0321665 17.83 0.000 .510594 .636715
_cons | .9352117 .298119 3.14 0.002 .3507677 1.519656
------------------------------------------------------------------------------
predict predmco
Podemos apreciar que la estimacin MCO de este modelo entrega una elasticidad del
gasto mdico con respecto al gasto total del hogar de un 0.57. Es decir, un aumento
de un 1% en el gasto total del hogar aumenta en un 0.57% el gasto en medicamentos
del hogar.
El comando qreg de STATA nos permite realizar estimaciones por cuantiles, por
ejemplo, a travs del siguiente comando podemos estimar una regresin de mediana:
250
CursodeEstadsticayEconometraAplicadausandoSTATA 251
------------------------------------------------------------------------------
lnmed | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lntotal | .6210917 .0388194 16.00 0.000 .5449886 .6971948
_cons | .5921626 .3646869 1.62 0.104 -.1227836 1.307109
------------------------------------------------------------------------------
predict predp50
------------------------------------------------------------------------------
Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]
-------------+----------------------------------------------------------------
_bs_1 | 100 .6210917 .0030688 .0451547 .531495 .7106884 (N)
| .5483162 .7212729 (P)
| .5522696 .732618 (BC)
------------------------------------------------------------------------------
Note: N = normal
P = percentile
BC = bias-corrected
Podemos apreciar que la elasticidad el gasto en mdico con respecto al gasto total del
hogar es de 0.62 mayor que para el promedio, y es estadsticamente significativo.
251
Tambin podemos estimar un coeficiente de la elasticidad para el quantil 0.25, lo que
ser hara de la siguiente forma:
------------------------------------------------------------------------------
lnmed | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lntotal | .4034632 .0454632 8.87 0.000 .3143353 .492591
_cons | 1.567055 .4271577 3.67 0.000 .7296387 2.404471
------------------------------------------------------------------------------
predict predp25
------------------------------------------------------------------------------
Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]
-------------+----------------------------------------------------------------
_bs_1 | 100 .4034632 .0057385 .0397641 .3245625 .4823639 (N)
| .3165871 .4944938 (P)
| .3165871 .4944938 (BC)
------------------------------------------------------------------------------
Note: N = normal
P = percentile
BC = bias-corrected
------------------------------------------------------------------------------
lnmed | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lntotal | .8003569 .0517226 15.47 0.000 .698958 .9017558
_cons | .6750967 .4857565 1.39 0.165 -.277199 1.627392
------------------------------------------------------------------------------
predict predp90
252
CursodeEstadsticayEconometraAplicadausandoSTATA 253
------------------------------------------------------------------------------
Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]
-------------+----------------------------------------------------------------
_bs_1 | 100 .8003569 -.0076573 .0418586 .7173004 .8834134 (N)
| .6942345 .8574172 (P)
| .7027756 .8593536 (BC)
------------------------------------------------------------------------------
Note: N = normal
P = percentile
BC = bias-corrected
253
Luego podramos estimar un beta para cada cuantil y obtener una relacin entre el
cuantil y el coeficiente estimado para la elasticidad del gasto en mdico con respecto al
gasto total del hogar:
matrix Q=J(99,2,0)
local i=0.01
while `i'<1{
local i=`i'+0.01
}
svmat Q, name(quantile)
254
CursodeEstadsticayEconometraAplicadausandoSTATA 255
Podemos apreciar que mientras menor es el nivel de gasto en mdico del hogar
(cuantiles ms bajos), menor es la elasticidad del gasto en mdico con respecto al
gasto total del hogar. La lnea roja del grfico representa la estimacin MCO del
coeficiente de inters.
255
III.9. Mtodos no paramtricos y semiparamtricos
En esta seccin presentaremos mtodos para el anlisis de datos que buscan realizar
la menor cantidad de supuestos sobre el proceso que genera los datos. Los primeros
son los mtodos no paramtricos, los que nos permitirn estimar la densidad de una
variable. Tambin se ver la regresin no paramtrica, la que slo se puede realizar en
funcin de una variable explicativa, aunque tericamente la regresin no paramtrica
se puede realizar en funcin de ms de una variable explicativa, en la prctica esto no
es factible. Es por esta razn que surgen los mtodos semi-paramtricos, en los que
por ejemplo no se supone una forma funcional especifica para la relacin entre la
variable dependiente y explicativa (media, mediana, etc) sino que se deja que los
datos revelen esta funcin, estimando los parmetros beta que forman parte del
argumento de esta relacin.
256
CursodeEstadsticayEconometraAplicadausandoSTATA 257
257
parmetro de suavizacin h, existe una eleccin ptima que corresponden a aquel que
minimiza el error cuadrtico medio integrado de la funcin de densidad.
La opcin generate, genera dos variables estim que contiene los puntos de estimacin
de la densidad kernel y den que contiene la densidad estimada para cada uno de estos
puntos. En esta estimacin se ha utilizado el bandwidth ptimo, que corresponde al
default de STATA.
258
CursodeEstadsticayEconometraAplicadausandoSTATA 259
259
Mientras mayor el bandwidth asumido ms se suaviza la funcin de densidad. Este
parmetro representa una especie de desviacin estndar de cada una de las
densidades que estoy combinando, mientras mayor es el parmetro ms desviacin
estndar tienen las densidades ponderadas lo que suaviza la funcin de densidad final
obtenida.
260
CursodeEstadsticayEconometraAplicadausandoSTATA 261
De esta forma, para cada punto x0 que observamos se obtiene la relacin estimada con
la variable dependiente como el promedio ponderado de la variable dependiente,
donde el ponderador depende de cuan cerca esta la observacin de xi a x0. El
estimador Lowess utiliza la funcin kernel como ponderador. De esta forma, el Lowess
Estimator minimiza la siguiente funcin objetivo:
twoway (scatter lyph esc04) (lowess lyph esc04) (lfit lyph esc04),
legend(on order(1 "observado" 2 "lowess estimator" 3 "mco"))
title(Logarimo del salario por hora y aos de escolaridad)
261
Otros estimadores no paramtricos son el estimador de Nadaraya-Watson (kernreg) y
el estimador del vecino ms cercano (knnreg), lo que cambia son las definiciones del
ponderador.
262
CursodeEstadsticayEconometraAplicadausandoSTATA 263
III.10.1 Introduccin
263
III.10.2 Modelo de Regresin Poisson
Debido a que,
Lo que nos interesa en este caso, al igual que en todos los modelos no lineales, no son
los coeficientes estimados, sino los efectos marginales:
264
CursodeEstadsticayEconometraAplicadausandoSTATA 265
Para esta aplicacin se utiliza la base de datos del RAND Experimento de Seguros de
Salud (RAND Health Insurance Experiment) utilizada por Deb y Trivendi (2002). El
experimento conducido por la Coporacin RAND entre los aos 1974 y 1982, ha sido el
experimento social controlado ms grande en el rea de la investigacin en seguros de
salud. El objetivo principal del experimento era evaluar como el uso de los servicios de
salud por parte de los pacientes se ve afectado por los tipos de seguros medicos, los
cuales fueron asignados aleatoriamente. En el experimento los datos fueron
recolectados para cerca de 8.000 personas en 2.823 familias. Cada familia fue suscrita
a uno de los 14 diferentes planes de salud por 3 o 5 aos. Los planes van desde
servicio libre hasta 95% de cobertura bajo cierto nivel de gasto (con un tope).
265
histogram MDU, discrete percent fcolor(green) lcolor(black) kdensity
title(Distribucin Nmero de visitas a Mdico) caption(Fuente: RAND
Health Insurance Experiment Data)
La siguiente tabla muestra las principales estadsticas de cada una de laa variables que
sern utilizadas como factores determinantes en la cantidad de visitas al mdico
realizadas al ao. La variable BLACK toma valor 1 si el jefe de hogar es de raza negra,
la variable AGE corresponde a la edad en aos, FEMALE toma valor 1 si la persona es
mujer, EDUCDEC representa los aos de educacin del jefe de hogar, MDU es la
variable que queremos explicar (variable dependiente) que mide el nmero de visitas
ambulatorias a un mdico, NDISEASE es el nmero de enfermedades crnicas,
PHYSLIM toma valor 1 si la persona tiene limitaciones fsicas, CHILD toma valor 1 si la
persona tiene menos de 18 aos, FEMCHILD corresponde a la interaccin de la
Dummy FEMALE y la Dummy CHILD, LFAM es el logaritmo del tamao familiar, LPI es
el logaritmo del pago anual de incentivo por participacin, IDP si el plan tiene
deducible, LC es el logaritmo del copago, FMDE es el logaritmo del tope de cobertura
sobre 0.01 el copago, HLTHG es 1 si declara que su estado de salud es bueno, HLTHF
es 1 si declara su estado de salud regular, HLTHP si declara estado de salud malo, y
LINC es el logaritmo del ingreso familiar.
266
CursodeEstadsticayEconometraAplicadausandoSTATA 267
. poisson MDU LC IDP LPI FMDE LINC LFAM AGE FEMALE CHILD FEMCHILD BLACK EDUCDEC
PHYSLIM NDISEASE HLTHG HLTHF HLTHP
------------------------------------------------------------------------------
MDU | Coef. Std. Err. z P>|z| [95% Conf. Interval]
267
-------------+----------------------------------------------------------------
LC | -.0427332 .0060785 -7.03 0.000 -.0546469 -.0308195
IDP | -.1613169 .0116218 -13.88 0.000 -.1840952 -.1385385
LPI | .0128511 .0018362 7.00 0.000 .0092523 .0164499
FMDE | -.020613 .0035521 -5.80 0.000 -.027575 -.0136511
LINC | .0834099 .0051656 16.15 0.000 .0732854 .0935343
LFAM | -.1296626 .0089603 -14.47 0.000 -.1472245 -.1121008
AGE | .0023756 .0004311 5.51 0.000 .0015306 .0032206
FEMALE | .3487667 .0113504 30.73 0.000 .3265203 .371013
CHILD | .3361904 .0178194 18.87 0.000 .3012649 .3711158
FEMCHILD | -.3625218 .0179396 -20.21 0.000 -.3976827 -.3273608
BLACK | -.6800518 .0155484 -43.74 0.000 -.7105262 -.6495775
EDUCDEC | .0176149 .0016387 10.75 0.000 .0144031 .0208268
PHYSLIM | .2684048 .0123624 21.71 0.000 .2441749 .2926347
NDISEASE | .023183 .0006081 38.12 0.000 .0219912 .0243749
HLTHG | .0394004 .0095884 4.11 0.000 .0206074 .0581934
HLTHF | .2531119 .016212 15.61 0.000 .2213369 .2848869
HLTHP | .5216034 .0272382 19.15 0.000 .4682176 .5749892
_cons | -.1898766 .0491731 -3.86 0.000 -.2862541 -.093499
------------------------------------------------------------------------------
Este output nos muestra como resultado el coeficiente beta estimado, pero al igual que
en la mayora de los modelos no lineales, no estamos interesados en el coeficiente sino
en los efectos marginales, y nuevamente el comando que nos permite obtener los
efectos marginales es mfx:
. mfx
268
CursodeEstadsticayEconometraAplicadausandoSTATA 269
Recoerdemos que en este modelo los errores son heterocedsticos por construccin, y
adems la varianza depende de los mismos coeficientes estimados, en este modelo la
forma apropiada de ver la significancia de los coeficientes es obteniendo los intervalos
de confianza mediante bootstrap:
. bs "poisson MDU LC IDP LPI FMDE LINC LFAM AGE FEMALE CHILD FEMCHILD BLACK
EDUCDEC PHYSLIM NDISEASE HLTHG HLTHF HLTHP" "_b", reps(100)
------------------------------------------------------------------------------
Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]
-------------+----------------------------------------------------------------
b_LC | 100 -.0427332 .0007178 .0159466 -.0743747 -.0110918 (N)
| -.0739939 -.0141433 (P)
| -.0756542 -.0161271 (BC)
b_IDP | 100 -.1613169 .0014252 .0345362 -.2298443 -.0927895 (N)
| -.2258377 -.0872168 (P)
| -.2100605 -.0798584 (BC)
b_LPI | 100 .0128511 .0003724 .0044547 .0040121 .0216901 (N)
| .0059388 .0223223 (P)
| .0030672 .0213983 (BC)
b_FMDE | 100 -.020613 -.0008264 .0091856 -.0388392 -.0023868 (N)
| -.0387147 -.0032838 (P)
| -.035657 .0046425 (BC)
b_LINC | 100 .0834099 .0018282 .0135125 .0565982 .1102215 (N)
| .0563673 .1088733 (P)
| .052815 .1033517 (BC)
b_LFAM | 100 -.1296626 .0009137 .0233243 -.1759431 -.0833822 (N)
| -.1799356 -.0818748 (P)
| -.1793034 -.0752146 (BC)
b_AGE | 100 .0023756 -.0001072 .0009951 .0004012 .00435 (N)
| .000192 .0039354 (P)
| .000192 .0039354 (BC)
b_FEMALE | 100 .3487667 -.0010908 .0301244 .2889933 .4085401 (N)
| .2870255 .4171301 (P)
| .2999384 .4198574 (BC)
b_CHILD | 100 .3361904 .000713 .0354193 .2659109 .4064699 (N)
| .2615154 .3928844 (P)
| .2515882 .3920318 (BC)
b_FEMCHILD | 100 -.3625218 -.001857 .0463087 -.4544083 -.2706353 (N)
| -.4669854 -.2924513 (P)
| -.5062459 -.2936182 (BC)
b_BLACK | 100 -.6800519 -.0013074 .0341245 -.7477622 -.6123415 (N)
| -.7536808 -.6212551 (P)
| -.7536808 -.6212551 (BC)
b_EDUCDEC | 100 .0176149 -.0000167 .0045235 .0086393 .0265905 (N)
| .0069081 .02805 (P)
269
| .0067609 .0259771 (BC)
b_PHYSLIM | 100 .2684048 .00063 .0328184 .2032859 .3335237 (N)
| .2070561 .340555 (P)
| .2070561 .340555 (BC)
b_NDISEASE | 100 .023183 .0001385 .001655 .0198992 .0264668 (N)
| .019857 .026076 (P)
| .0193031 .0257115 (BC)
b_HLTHG | 100 .0394004 -.0004796 .0223977 -.0050416 .0838424 (N)
| -.0029975 .0867478 (P)
| -.0029975 .0867478 (BC)
b_HLTHF | 100 .2531119 .0012493 .038593 .1765349 .3296889 (N)
| .1826011 .3211362 (P)
| .1773578 .3182556 (BC)
b_HLTHP | 100 .5216034 .0103248 .0654646 .3917073 .6514995 (N)
| .3883481 .6682352 (P)
| .3856528 .6546603 (BC)
b_cons | 100 -.1898766 -.016589 .1332961 -.454365 .0746119 (N)
| -.4715162 .0103337 (P)
| -.4362686 .1106389 (BC)
------------------------------------------------------------------------------
Note: N = normal
P = percentile
BC = bias-corrected
270