Sie sind auf Seite 1von 13

Estadstica y Econometra en Stata 8.

0


Jorge Barrientos-Marn
Departamentos de Fundamentos del Anlisis Econmico
Universidad de Alicante


1. Introduciendo la informacin en Stata


1.1 Cmo leer la informacin.

La informacin es Stata es muy fcil de leer. Puede hacerse de dos maneras:
interactivamente, tomando informacin que est en archivos con extensin
txt, o archivos ASCII, o colocndola en el data-editor, que es la manera
como Sata guarda la informacin en su interior. Es usual que el modo
interactivo sea usado cuando las bases de datos son extremadamente
grandes. Sin embargo, si una base es pequea o moderadamente
manejable, una manera til y eficiente de trabajar la informacin con Stata,
es decir, con archivos de extensin dta. Para introducir la informacin hay
dos maneras, dato a dato en el data editor, lo cual es dispendioso y de otro
lado se puede usar un programa conocido como StaTransfer, el cual
permite introducir archivos desde casi cualquier otro programa a Stata.
Presionando con el mouse en el icono correspondiente al data-editor
podemos observar los datos dentro de Sata.


1.2 Visualizacin de Datos

Visualizar los datos es muy fcil. Abrimos Stata, dando presionando el
icono de Stata. Aparecer inmediatamente una pantalla dividida en cuatro
secciones. En una seccin encontramos el Rewiev, donde hay un resumen
de los archivos de datos del Stata que han abiertos. Aparece otra seccin que
corresponde al Stata Result, all se observa el resultado de todas las
operaciones hechas con la informacin. Tambin tenemos la pantalla
Variables una seccin de visualizacin de las variables, todo el conjunto de
datos que tenemos para analizar. Por ultimo aparece una pequea consola,
Stata Command que es donde se introducen todos los comandos que
queremos aplicar a los datos, sea para transformacin o para elaborar
archivos de ejecucin.


1.3 Tipos de archivos en Stata

Los tipos de archivo asociados al Stata son tres. Todos de igual importancia
y de uso simultneo. El primero en mencionar es el archivo de extensin
dta, en ellos est contenida la informacin, las variables en toda su
extensin. Otro tipo de archivo es el de extensin log, es el archivo de
resultados. Con este archivo se puede visualizar los resultados de manera
ordenada, sin tener que pasarlos a ningn tipo de archivo de texto. Se abre
desde la pantalla principal y lo ms eficiente es imprimir nuestra
informacin para interpretar, o copiar y pegar en tablas directamente si lo
que queremos es poner resultados definitivos en un paper. Por ltimo
tenemos el archivo de extensin do que ser estudiado en detalle en la
siguiente seccin.


2. Los Datos en Stata

2.1 Comandos principales

Los comandos de Stata son muchos. Aqu tenemos un pequeo resumen de
los principales comandos usados en la organizacin de la informacin. El
comando save almacena los datos bajo un nombre especificando la
extensin dta. El comando describe hace un resumen del contenido de los
datos en la memoria o de los datos almacenados en formato. Por ejemplo
nos dice la naturaleza de esas variables si son numricas o string. Las string
son variables que tiene un formato no-numrico. El comando destring nos
convierte variables string en numricas. As la orden sera: destring
variable. El comando describe se usa fcilmente poniendo en el Stata
command la palabra describe, as:

describe
describe, short
describe using my data
ds

Comando label: es un nombre descriptivo de la variable. Por ejemplo si
decimos:

label variable year "anos de panel"

entonces en la seccin variable encontramos que al lado derecho de la
variable year hay una pequea explicacin de lo que es la variable.

Comando rename se usa para renombrar una variable sin cambiar su
contenido definitivamente. Por ejemplo: rename year t, esta orden nos
cambia el nombre de year por t en nuestros datos.

El comando reshape convierte los datos de filas por columnas en caso de ser
necesario.

El comando sort organiza las observaciones de las variables en orden
ascendente. No hay un lmite en el nmero de las variables. Los valores
missing se interpretan como mayores que cualquier nmero y por tanto
aparecen por ltimo. La orden es por ejemplo sort variable.

Aplicar el comando list a una variable obtenemos una lista detallada, esto es
observacin por observacin, de una variable.

Replace es un comando muy til. Esta cambia el contenido de una variable
existente. Acompaado del comando gen genera variables dummy de una
manera fcil. Este comando normalmente va acompaado de condicionales
como if.

El comando gen genera variables a partir de otra existentes o incluso nuevas.
Un comando relacionado es el egen, el cual crea una variable extrayendo,
por ejemplo, una medida de tendencia central. As podemos extraer la media
de una variable como: egen avg=mean(income). Aparecer entonces en el
data editor como una variable ms.

Comandos que estn relacionados son el drop y keep. El primero elimina
variables u observaciones de los datos en la memoria. El segundo trabaja del
mismo modo que drop excepto que tu especificas las variables u
observaciones que quieres conservar ms que eliminar.

Un importante comando es clear este nos limpia la seccin variables, si
queremos ver de nuevo las variables debemos llamarla desde el stata
command, por ejemplo si hemos ordenado clear, entonces llamamos los
datos as: use c:\carpeta1\file1.dta, tambin se puede hacer desde un
diskette como a:\file1.dta. Los datos retornaran fcilmente.


2.1 Concatenado Informacin

Para concatenar informacin tenemos dos comandos especiales por su
utilidad. El comando merge y append. Son muy usados para juntar bases de
datos que son muy grandes y estn divididas en varios archivos de tipo
texto. El merge se conoce como concatenacin horizontal, junta la
informacin por filas. Una vez llevada a cabo la concatenacin Stata crea
una variable llamada _merge. Esta variable toma tres valores:

_merge=1 si la observacin estaba en la base de datos original
_merge=2 si la observacin esta solo en la nueva base fusionada
_merge=3 si las observaciones estaban en ambas bases antes de la
concatenacin.

De este modo la nueva tabla de datos, que el merge de las dos anteriores
solo tienen observaciones que antes tenian en comn. Un ejemplo comn
donde se usa el merge es cuando tenemos un archivo de Excel con varias
hojas de informacin, usando el StaTransfer las pasamos a Stata y hay que
tener en cuenta que por cada hoja de datos de Excel tenemos un archivo
dta. As que usando los comandos merge and Append podemos tener toda
esta informacin en una sola tabla creando un archivo do.

Ejemplo:

use file1
sort variablex
save file2, replace
use file1
sort variablex
merge variablex using variabley
tab _merge

El comando append es de concatenacin vertical. Normalmente la
informacin esta en modo vectorial, o por columnas, por tanto para llevar a
cabo un append los nombres de las variables deben estar escritos
exactamente en ambas tablas de datos. Es muy fcil cometer error porque a
veces las variables aunque estn bien escritas pueden contener minsculas
en una y la otra esta completamente en maysculas, as el append no se
lleva a cabo.


2.3 Que es un archivo do

Un archivo de ejecucin o archivo con extensin do, es uno en el cual se
elabora un programa detallado para ejecutar. As por ejemplo, cuando
usamos una base de datos, toda transformacin de observaciones o de
variables puede ser llevada a cabo a travs de este tipo de archivo sin
modificar la base de datos original. A travs del do creamos una nueva
base de datos independiente de la original y sobre ella podemos trabajar.
Esta nueva tabla es til si queremos tener menos datos de los que estn en
la original o menos variables. Es decir existe una informacin que no
queremos usar, pero tampoco eliminar, as que mejor elaboramos una
nueva tabla permanente solo con la informacin que necesitamos.

Hay dos maneras de ejecutar el archivo do, a travs del Stata coman o
desde el archivo do mismo, solo presionando el icono do current file.
Desde el stata command hay que dar la orden do filename, y desde aqu es
justo como si hiciramos el programa por pasos desde el stata command. si
hay errores el programa se detiene. No obstante, si le ordenamos nostop el
programa no se detiene an si hay errores.


2.4 Comandos para iniciar un archivo do

Para iniciar un archivo do, presionamos el icono do file-editor. Los ms
normal es comenzar dicindole al programa como delimitamos las
sentencias o comandos en el programa, lo hacemos con la orden delimit#;
as toda sentencia del tipo:

reg y x
1
x
2
x
3
, robust;

termina con punto y coma. El delimit solo puede ser usado en archivos do.
Posteriormente le indicamos cuanta memoria requerimos a travs de la
orden set mem # k m, solo tiene sentido si usamos Stata bajo Windows.
Otro comando usado a menudo es set matzise y establece el mximo
nmero de variables que puede ser incluido en cualquier modelo para
estimar con Stata.

La orden log using y log close son muy importantes y se establecen en el
archivo do. Con log using abrimos archivos. Si un archivo es especificado
sin una extensin entonces Stata coloca por defecto extensin .log, la cual
indica que tenemos una archivo de resultados. La orden log close indica
que hemos terminado la sesin y cerramos el archivo. As por ejemplo
podemos crear un archivo de resultados y salvarlo:

log using exerc1, replace;
reg y x
1
x
2
x
3
, robust;
log close;
save exerc1, replace;

una vez salvados los resultados pueden verse e imprimirse.


2.2 Utilidad del archivo do

Un archivo do sirve para tener una base definitiva de lo que queremos hacer
y sobre la cual queremos posteriormente hacer modificaciones de cualquier
tipo, sea incluir variables u observaciones, o hacer una nueva regresin etc.
Por tanto un archivo do es un archivo por lo general definitivo al momento
de analizar informacin. Una vez elaborado un programa solo tenemos que
cambiar el nombre de variables para tener infinidad de problemas diferentes
a analizar. Ejemplo: supongamos que tenemos informacin de toda Espaa
acerca de caractersticas de miles de individuos, tale como su educacin, y
su salario, supongamos que la informacin la tenemos tambin por
ciudades. Queremos ver la relacin que hay entre salario y caracterstica
personales,

w
ij
=f(X
1i
, X
2i
,.,X
nk
, codciud=1) i=1,...,n; j=1,,k

esto significa el salario del individuo i en la ciudad j. A cada ciudad le
corresponde un nmero que la identifica, y est contenida en la variable
codciud. Por ejemplo Sevilla tiene codciud=1, Mlaga tiene codciud=2,
Asturias codciud=3, etc.Si tenemos informacin suficiente, por persona,
entonces podemos siempre repetir el mismo ejercicio que deseamos por
ciudades con la siguiente orden:

keep X
1i
X
2i
X
nk
if codciud=1

notemos pues en este simple ejemplo, la utilidad para un archivo do





3. Estadstica descriptiva


3.1 Resumen Estadstico

El resumen estadstico se hace a travs del comando sum. Con esta orden el
Stata nos hace una detallada descripcin de los datos. Reporta el valor de la
media, la desviacin estndar, el elemento mximo y mnimo en el vector
as como el nmero de observaciones. Se usa como sum variable.


3.2 Medidas de tendencia central

Un comando un poco ms detallado es detail, este nos ofrece otras medidas
de tendencia central como curtosis y asimetra, y adems varios percentiles a
lo argo de toda la muestra. Obtenemos fcilmente esta informacin con la
orden:

sum variable, detail

3.3 El histograma y otros grficos

El comando graph dibuja grficos. El histograma es muy util para intuir si
hay normalidad de una variable. La ordene s sencilla:

graph variable bin(9) normal title ("Histograma")

Un grfico ms sencillo solo de puntos, para ver la relacin entre dos
variables es a travs de las siguientes ordenes:

graph variable1 variable2
graph variable1 variable2 variable3


3.4 Variables categricas, las dummy como caso especial

En econometra las variables categricas son muy importantes. En particular
las dummies o variables dicotmicas. Pues muchas variables solo se pueden
analizar si toman valores reales, en nuestro ejemplo anterior si consideramos
el X
1ij
como el sexo de la persona i en la ciudad j, podemos saber cual de los
dos, si hombres o mujeres, en media tiene ms salario. Esta variable puede
tomar valores 1 si es hombre 0 si es mujer. En Stata hay varias maneras de
crear variables dicotmicas, una sencilla y rpida es con gen y replace.
Supongamos que en nuestros datos hay una variable que se llama sexo, pero
a cada individuo se le coloca en palabras, es decir si es hombre tiene masc y
si es mujer tiene fem. Claramente no podemos trabajr con los datos de este
modo as que creamos la variable asi:

gen dumsex=0
replace dumsex=1 if sexo=masc
otra manera ms til es con tab, a saber:

tab sexo, gen(dumsex)

Porqu ms til? Bueno, pues supongamos que tenemos un panel de datos con
la variable pas y no est categorizada, sino que tenemos los nombres de los
pases y tenemos 50 pases, pues

tab pais, gen(dumpais)

genera 50 dummies una por cada pas, en la cual pone 1 al pas de inters, 0 a
los dems. Adems de este modo obtenemos la frecuencia con la cual cada
pas aparece en la muestra. Tambin podemos hacerlo por individuos
imaginemos sin son 4000 individuos!


3.5 Test de Normalidad

Para cada variable de la muestra, nuestros datos, la orden sktest presenta un test
de normalidad basado en la asimetra y otro en la curtosis. Necesitamos ms de 8
observaciones para llevar a cabo el test. La orden es:

sktest variable1 variable2


4. Econometra Bsica e Inferencia Estadstica

4.1 Regresin con variable continua

Si queremos estimar un modelo de la forma:

2
1 2 2
... ; (0, ) 1,...,
i i k ki i i
y x x u u N i n + + + + ,

la podemos hacer con Stata se para ello usamos el comando reg, este nos
proporciona parmetros estimados usando una regresin lineal.

reg y X
1
X
2
X
3


Note que el orden es importante, primero ponemos la variable dependiente y
luego las independientes. La estimacin puede hacerse robusta usando el
comando robust. Esta alternativa de varianza produce errores estndar
consistentes an si por casualidad los errores estndar no son idnticamente
distribuidos. Podemos obtener los errores de la regresin con el comando
predict es importante, porque necesitamos saber si realmente nuestros errores
son normales, por tanto se obtiene ui y luego se le hace un test de normalidad.
Un comando til es cnsreg, el cual hace una estimacin restringida, previa
definicin de la restriccin.


Ejemplo:

constraint define 1 X
1i
-X
2i
=0
constraint define 1 X
1i
+X
3i
=c
cnsreg mpg X
1i
X
2i
X
3i
, constraint(1)

Un comando para recuperar la estimacin de los parmetros en formato vector
as como la matriz de varianzas estimada, la orden es simple:

matrix list e(b)
matrix list e(v)

Una vez recuperado nuestro vector de parmetros podemos usarlos si son
requeridos en algn clculo. Un procedimiento para almacenar las columnas de
una matriz como nuevas variables es usar el comando svmat as:

matrix beta=e(b)
svmat beta, name(b);
list b* if _n==1;


4.2 La estimacin con variables dummy

Este tipo de estimacin se hace especificando un modelo de la forma:

1 2 2 1
2
... ...
1
, (0, ) 1,...,
0
i i k ki j i
j i
y x x u
si i C
u N i n
si i C


+ + + + + + +


'



donde C es alguna categora, por ejemplo sexo, raza etc. Todos los
comandos analizados en la seccin 4.1 son aplicables.


4.3 Inferencia estadstica en el modelo de regresin lineal

La inferencia estadstica sobre los parmetros estimados podemos hacerla
con dos comandos importantes. Empecemos notando que el resultado de una
regresin en Stata incluye intervalos de confianza para los parmetros
estimados, por defecto son al 95%. No obstante Stata permite cambiar esa
opcin al nivel de confianza que deseemos con el comando level.
Establecemos el nivel que deseamos antes de hacer la regresin,

set level 90
reg y X
1
X
2
X
3
, robust

Para hacer un constaste de hiptesis, el comando Test es el adecuado.
Supongamos que tenemos la siguiente hiptesis:

0
1
:
:
k
k
H
H



donde es el complemento de B. Normalmente se especifica la hiptesis nula,
H
0
, por ejemplo una vez hecha la regresin hacemos lo siguiente:

test X
2
=0

Stata entiende que colocando la variable 2 igual 0 antecedido de test, quiere
hacer el test de
0 2
: 0 H . Con el este comando obtenemos el resultado de la
prueba de hiptesis de la ultima regresin hecha. Hiptesis del tipo
0 1 2
: 0 H + , la cual se contrasta como

test X
1
+X
2
=0 .

Claramente el estadstico de contraste es diferente. En el primer caso es el t-
estadstico y en el segundo el F-estadstico.


4.4 Detectando heteroscedasticidad

Para el contraste de heterocedasticidad usamos el comando hettest, este nos
proporciona el test de Cook-Heisberg (1983) para varianza constante:

2 2
0
1 0
:
:
i
H
H No H



Al igual que el test de White el estadstico de prueba es una chi-cuadrado. Este
es un comando postregresin.

El contraste de White de heterocedasticidad es muy fcil de llevar a cabo:
tomamos el R
2
de la regresin y el tamao de muestra, n, entonces W=nR
2
tiene
una distribucin asinttica, que es
2
( 1) p

donde p-1 son los grados de libertad, si



2
( 1) p
W

>

entonces rechazamos la hiptesis nula de homocedasticidad. Si hay evidencia de
heteroscedasticidad entonces hacemos una regresin Newey-West, que es para
errores heterocedsticos e incluso con errores correlacionado con sus rezagos.


4.5 Grafiquemos la estimacin

Graficar la estimacin requiere extraes los parmetros estimados y modelar la
ecuacin estimada, luego dar la orden:


1 1 2 2

... , ( 1, )
i i k ki
graph x x x y saving graph replace + + +
Stata en accin I


1. Funcin de Produccin

Considere la funcin de produccin Cobb-Doouglas:

1 2
0
i
u
i i i
Y C L K e



a) Elabore la estadstica descriptiva de los datos que se encuentran en el
fichero emps4.dta.
b) Obtenga el estimador OLS de los parmetros de la funcin de produccin
anterior. Recuerde que debemos tomar logaritmos para aplicar OLS.
c) Contrastemos la hiptesis nula de que la funcin de produccin presenta
rendimientos constantes a escala.
d) Consideremos ahora una funcin ms general, conocida como
translogartmica:
2 2
1 2 3 4 5 6
ln( ) ln( ) ln( ) (ln( )) (ln( )) ln( ) ln( )
i i i i i i i i
Y L K L K L K + + + + + +
e) Obtengamos el estimador OLS y los errores estndar.
f) Obtengamos la elasticidad de la produccin respecto a los factores.


2. Funcin de costes no lineal

2 3
1 2 3 4 i i i i i
c x x x u + + + +

donde c
i
es el coste total y xi es el output de la i-sima empresa.

a) Usando el fichero costed.dta, escriba la funcin e costes marginales
asociada a esta funcin de costes totales Qu signo esperaramos en
4
?
b) Escribamos la funcin de costes medios asociadas a esta funcin de
costes totales.
c) Obtengamos el estimados OLS de la funcin de costes totales.
d) Obtengamos intervalos de confianza para
i
, i=1,2,3.
e) Representemos grficamente la curva de costes medios y marginales.
f) Contrastemos si es suficiente una especificacin lineal y cuadrtica para
las funciones de costes totales.


5. Tpicos en Econometra


5.1 El Modelo de Datos de Panel

Un modelo de datos de panel es una especificacin en la cual un conjunto
de observaciones se observan en diferentes momentos del tiempo,
generalmente para los mismos agentes, sea individuos o firmas. El
modelo usualmente tiene unos efectos fijos individuales que se asumen
observables. Este modelo lo podemos escribir as:
T N T t n i x y
it T it t i it
> + + ,..., 1 ,..., 1 ,

Para trabajar en Stata con este modelo, lo normal es que especifiquemos
antes de iniciar cualquier clculo cual es la variable de identificacin de
individuos, id, y del tiempo, t. La orden para hacer esto es:

iis id
tis year

El comando xtdes el Stata especifica exactamente el nmero de
individuos y de aos en la muestra.


5.2 Efectos Fijos y Aleatorio

Dado que los efectos individuales pueden ser fijos o aleatorios, hay dos
estimadores de este modelo. El intra grupos y el entre grupos (o
estimador within y between groups respectivamente). El comando xtreg
estima datos de corte transversal y series de tiempo, el comando se
combina separadamente con la orden be para obtener el estimador entre
grupos, con fe para obtener el intra grupos y con re para obtener el de
efectos aleatorios. La orden es:

xtreg y X
1
X
2
X3, be
xtreg y X
1
X
2
X3, fe
xtreg y X
1
X
2
X3, re

Por defecto estima siempre efectos aleatorios si no especificamos que tipo
de modelo queremos


5.3 El estimador de Variables Instrumentales

Para estimar un modelo usando instrumentos debemos indicarle a Stata
cuales son los instrumentos y cuales las variable instrumentales. El
comando para hacer la regresin por variables instrumentales es ivreg,
este lleva a cabo la regresin por (Two Stages Least Squared). Este debe
ir acompaado de la especificacin con los instrumentos. Supongamos
que Z
1
, Z
2
y Z
3
es un buen instrumento para X
2
. Entonces la orden
apropiada es:

ivreg y (X
2
= Z
1
Z
2
Z
3
) X
1
X
2
X3

recordemos que no puede ser que halla mas instrumentos que variables.





5.4 El contraste de Hausman

El contraste de Huasman de exogenidad (endogenidad) se hace bajo
homocedasticidad. De lo contrario el test no es consistente.
Especifiquemos la hiptesis como:

( )
0 ) ( :
0 :
1
0

i ik
i ik
u X E H
u X E H


Notemos que la hiptesis nula es correlacin de la variable X
k
con los
errores del modelo. Supongamos que X
k
es la variable potencialmente
endgena. Entonces el test de Hausman denotado por H tiene la forma:

( ) ( ) ( )
1
2

T
d
IV OLS IV OLS IV OLS p
H V V



Donde
IV IV
V y

es el estimador de variable instrumentales y
OLS OLS
V y

el estimador y la varianza por OLS. H es un test asinttico
as rechazamos H
0
si:
2
p
H >

donde p es el nmero de regresores potencialmente endgenos. Este
procedimiento se hace despus de las dos regresiones la de OLS y la IV.
El comando xthaus, otro contraste de Hausman, se hace despus de la
regresin y reporta evidencia de correlacin de los regresores con los
efectos aleatorios.


Stata es Accin II

Para este problema usamos los datos de Baltagi y Griffin (1983). Este
corresponde al panel de 18 pases de la OCDE en el perodo 1960-1978.
Consideremos la siguiente funcin de demanda dada por:

( )
0 1 2 3
ln ln ln ln
it it
it
it it it
CG Y NC
PR v
NC N N

_ _ _
+ + + + +

, , ,


donde ln(CG/NC) denota el logaritmo del consumo per cpita de
gasolina, ln(Y/N) es el logaritmo del ingreso per cpita ln(NC/N) denota
el logaritmo del nmero de coches por persona y ln(PR) denota logaritmo
de los precios relativos de la gasolina y otros bienes. La ecuacin incluye
efectos fijos pas.

a) Obtengamos el estimador de OLS de la ecuacin pas por pas.
Interpretemos el signo y la significancia estadstica de las elasticidades
de la demanda.

b) Obtengamos el estimador intra grupos usando el comando xtreg y
directamente como una regresin OLS incluyendo una dummy por pas
como variable explicativa.

c) Obtengamos el estimador entre grupos y el de GLS e implementemos el
test de Hausman de hiptesis nula de efectos no correlacionados con las
variables explicativas.


Referencias


Baltagi, Badi. H and James M. Griffit (1983). Gasoline Demand in the
OCDE. European Economic Review, (22) 117-137.


Becker, William,. E. and William H. Greene (2001). Teaching
Statistics and econometrics to Undergraduates. The Journal of
Economic Perspectives, 15(4) Fall.


Griffiths, William. E,. R. Carter Hill,. George G. Judge (1993).
Learning and Practicing Econometrics. John Willey & sons, Inc. New
York.

Stata 8.0 Manual.

Das könnte Ihnen auch gefallen