Beruflich Dokumente
Kultur Dokumente
INTRODUCCION
Stata es una aplicacin desarrollada para realizar anlisis estadsticos sobre muestras
requiere un cierto esfuerzo inicial hasta que el usuario empiece a acostumbrarse con los
minsculas.
En este curso usaremos una combinacin de ambos mtodos. Sin embargo, el trabajo
Barra de men
Directorio de trabajo
Ventana de rdenes Ventana de variables
La ventana resultados se despliegan los resultados a medida que se van ejecutando los
distintos comandos.
La ventana variable Esta ventana nos muestra una lista de las variables que contiene la
base de datos, as como sus etiquetas. Esto nos permite seleccionarlas mediante un solo
clic en la flecha que aparece o dobel clic sobre al variable, para ingresarla a la ventana de
comandos sin necesidad de memorizar o escribir los nombres de todas ellas.
Para ajustar a las preferencias del usuario tamao de la pantalla, color de pantalla,
numero de ventanas, tamao de letra etc. en el men ir a:
. sysuse auto.dta
Cuando los resultados en la ventana de resultados estn llenos aparece la palabra more
en la parte inferior, al presionar la tecla Enter, la siguiente lnea se mostrar. Si no desea
esta interrupcin, puede escribir:
Bring Graph to Front: Coloca la ventana de grficas al frente de las otras ventanas
de Stata
9) Data Editor: Abre el editor de datos y lo coloca al frente de las otras ventanas de
Stata, permite ingresar datos.
10) Data editor (Browser) Abre el visualizador de datos y lo coloca al frente de las
otras ventanas de Stata, permite ver los datos.
11) Adminstrador de variables: Permite editar las variables.
12) Clear -more- Condition Le instruye a Stata que contine despus de parar
durante una produccin larga.
El programa Stata posee un sistema de ayuda excelente. Para solicitar ayuda sobre un
tema, slo se escribe la orden help seguida de la palabra clave.
El comando help, es uno de los comandos ms importantes de Stata, pues presenta la
sintaxis de los comandos as como ejemplos de cmo se usan. Para pedirle ayuda a Stata
sobre un comando se escribe en la ventana de comandos help (o hel o he) seguido del
nombre del comando que queramos conocer.
Abramos el archivo auto.dta y luego escribamos:
help table
Los datos utilizados para evaluar el comando pueden ser limitados con las opciones if e
in.
Las opciones especficas al comando tienen que ser precedidas por una coma.
Otra informacin clave es la forma en que podemos obtener ayuda. Todos los comandos
Stata tienen informacin acerca de la manera en que deben utilizarse (sintaxis y
opciones); para acceder a ella es solo cuestin de escribir la palabra help seguida por el
nombre del comando en la ventana de comandos de Stata. Si no conoce el nombre del
comando que realiza la tarea que tiene en mente, escriba la palabra findit seguida por
una palabra que este relacionada con dicha tarea. Este comando busca en toda la
documentacin tanto interna como aquella que se encuentra en la pagina red de Stata.
Stata se actualiza casi continuamente, los usuarios pueden escribir programas y
mandarlos al archivo de SSC (Statistical Software Components), por lo tanto es necesario
hacer actualizaciones de forma regular. El comando update query le indicar si es
necesario hacer actualizaciones.
Tipos de archivos
.dta archivo de datos. Esta extensin solo es interpretada por stata y stat/transfer
.do archivo de comandos. Es una archivo codigo ASCI que puede ser abrirto en un
block de notas.
La nueva versin de Stata 13 puede ejecutar algunas rdenes desde el men a travs de
uso de ventanas, trae activada la opcin automticamente y proporciona el acceso directo
desde el men a opciones como por ejemplo Data, Graphics Statistics y el User, los
cuales permiten realizar a travs de ventanas muchas de las rdenes que se hacen va
programacin en la ventana de comandos.
Casi todas las rdenes de Stata se han implementado como dilogos y se pueden obtener
por medio de mens que se han organizado por temas. Slo elija una orden de los mens
de Statistics, Graphics o Data, complete el dilogo y la orden se emitir a Stata.
Abrir una base de datos
Para abrir una base de datos desde el men principal, seguimos la siguiente ruta:
File/Open. En el cuadro de dilogo que aparece a continuacin se elige el archivo
deseado, que en este caso tiene la extensin de los archivos de datos nativos de Stata,
dta.
Para ver una descripcin rpida de los datos en la ventana command ingresamos
describe.
Para copiar a MSWord lo que acaba de aparecer en la ventana de resultados
seleccionamos dicho resultado y lo copiamos como texto o como tabla, luego de pegarlo
le aplicamos formato indicando el tipo tamao 9 y fuente Courier New.
Figura 10. Salida en la ventana de resultados.
Para ver los datos tal como si los visemos en MSExcel digitamos browse y aparece la
ventana Stata Editor.
Storage 0 without
type Minimum Maximum being 0 bytes
-----------------------------------------------------------------------------
byte (entero) -127 100 +/-1 1
int (entero) -32,767 32,740 +/-1 2
long (entero) -2,147,483,647 2,147,483,620 +/-1 4
float(nmero real)-1.70141173319*10^38 1.70141173319*10^38 +/-10^-38 4
doubl(nmero real)-8.9884656743*10^307 8.9884656743*10^307 +/-10^-323 8
-----------------------------------------------------------------------------
Stata por defecto le asigna formato float a una variable de datos nueva.
Stata13.0 soporta cadenas de hasta 2000 000 000 caracteres de largo.
String
storage Maximum
type length Bytes
-----------------------------------------
str1 1 1
... . .
... . .
str2045 2045 2045
strL 2000000000 2000000000
-----------------------------------------
Ingresando datos con el editor
Hay varias formas en que podemos introducir datos en Stata es posible introducir datos a
mano utilizando el comando edit, el cual abre una hoja de calculo. Tambin los datos
pueden ser introducidos cortndolos desde Excel y pegndolos en la hoja de clculo de
Stata.
Para ingresar los datos directamente al data editor (edit) debe abrir el editor e ingresar
los datos pulsando las flechas del teclado, el enter o el Tab. Para cambiar el nombre de
las variables ir a la ventana de variable y ubicarse en propiedades en el cual puede
cambiar el nombre, la etiqueta y el formato de la variable.
Figura 13. En la ventana de data editor (Edit) se puede ingresar valor y caractersticas de la variable
Supongamos que deseamos ingresar los datos de la tabla de MSExcel. Para ello abra el
editor y pegue los datos. Si los datos estaban en columnas, y tenan un encabezado con
el nombre de la variable, Stata pedir saber si la primera lnea son los nombres de las
variables de ser el caso las nombrar con los mismos nombres al pegar.
Figura 14. Ventana de data editor (Edit) se puede ingresar un conjunto de variables.
Stata emplea la extensin dta para los archivos de bases de datos. Para grabar se pulsa
el botn que tiene el icono de un disco o desde el men principal: File/ Save o File /Save
as.
Stata no guarda en el disco los cambios en las bases de datos a menos que ejecutemos
el comando save (en eso se parece a MSExcel), por lo que si se apaga o cuelga la
mquina perdemos los cambios.
En Stata hay compatibilidad hacia adelante, es decir, los comandos y bases de datos de
Stata10 sirven en Stata13 pero lo inverso no siempre es posible. Por ello si trabajamos
con una base de datos en Stata13 y luego la vamos a abrir en Stata10 deberemos
grabarla con formato de Stata10 desde el Stata13.
El do-file
A travs de una ventana similar a la de un editor de textos es posible crear una secuencia
de comandos de Stata, los cuales se almacenan a travs de los llamados do-files. La
ventaja de estos archivos (de extensin *.do) es que permiten replicar un conjunto de
instrucciones previamente almacenadas. Esto ayuda a ir corrigiendo posibles errores en la
ejecucin de los comandos, adems de permitir guardar la rutina de comandos ejecutados
para sesiones posteriores.
Los do files permiten
1. Mantener un registro de todo lo que se ha hecho en la sesin y poder replicarlo.
2. Correr una gran cantidad de comandos.
Se pueden considerar como un mecanismo de seguridad por permitir fcilmente regresar
a la data original sin importar cuantas transformaciones se hayan realizado.
Recordemos que para abrir la ventana del Do-file Editor pulsamos el botn
correspondiente o las teclas {ctrl+8} o desde el men principal: Windows/Do-file Editor.
Para ingresar datos en una archivo do file.
En el menu window Do-file Editor New file Editor
Ingresar los siguientes datos input a b c
1 5 10
087
146
end
generate d=c-b
list
save myfile
Luego en el men de new file execute(do)
Variables
Stata reconoce dos tipos principales de variables: numricas y categricas Para muchos
propsitos las variables numricas son ms usadas que las variables categricas y
algunos anlisis no funcionan con las variables categricas
Generando variable
generate heavy=0 se genera la variable heavy
replace heavy =1 if sex==1 & weight>90 incluye hombres >90k
replace heavy =1 if sex==2 & weight>80 incluye mujeres >80k
replace heavy =. if missing(weight) no incluye si el peso est ausente
generate days=date1-date2 se genera das
generate years=(dat12-date1)/365.25 se genera aos
generate bday=day(bdate) extrae el dia de la variable bdate
generate bmonth=dmonth(bdate) extrae el mes de la variable bdate
generate byear=year(byear) extrae el ao de la variable bdate
generate nation=Danish if ph==45 genera la variable categrica nation
destring xstr, generate(xnum) convierte variable categrica numrica
a numrica
encode sex, generate(ender) convierte variable categrica no
numrica a numrica
generate idstr=string(idnum format%010.0f) convierte la variable numrica a
categrica
egen mage=mean(age) genera la variable mage que es la
media de la variable age
Etiquetas
label data Datos de Fertiidad1999-2007. Ver 2 Etiqueta de la base de datos
label variable sexo Genero Etiqueta de la variable sexo
label define sex 1 male 2 female Valores de la etiquetas sex
label values sexo sex Asocia la etiqueta sex a variable sexo
label drop sex _all Elimina la etiqueta
recode sex (1=1)(0=2),generate(gender) Recodifica la variable sex 1 si sex es 1
y 0 si sex es 2 en la variable creada
gender
recode sex (1=1 male) (0=2 female, Recodifica la variable sex 1 si sex es 1
generate(gender) y 0 si sex es 2 con las etiquetas en la
variable creada gender
. webuse lbw.dta
(Hosmer & Lemeshow data)
. describe
Contains data from http://www.stata-press.com/data/r13/lbw.dta
obs: 189 Hosmer & Lemeshow data
vars: 11 15 Jan 2013 05:01
size: 2,646
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
id int %8.0g identification code
low byte %8.0g birthweight<2500g
age byte %8.0g age of mother
lwt int %8.0g weight at last menstrual period
race byte %8.0g race race
smoke byte %9.0g smoke smoked during pregnancy
ptl byte %8.0g premature labor history (count)
ht byte %8.0g has history of hypertension
ui byte %8.0g presence, uterine irritability
ftv byte %8.0g number of visits to physician
during 1st trimester
bwt int %8.0g birthweight (grams)
-------------------------------------------------------------------------------
Sorted by:
Agregar las etiquetas a las variables
label define yesno 0 No 1 Yes
label values low smoke ht ui yesno
label list
yesno:
0 No
1 Yes
smoke:
0 nonsmoker
1 smoker
race:
1 white
2 black
3 other
El comando codebook muestra todas la informacin de cada una de las variables, con la
opcin compact muestra un resumen de las caractersticas de cada variable: valores no
perdidos, numero de observaciones, valores nicos, media, los valores mximo y mnimo
como la etiqueta.
.
codebook, compact
+-------+
| smoke |
|-------|
1. | No |
2. | No |
3. | Yes |
4. | Yes |
5. | Yes |
+-------+
Lista el valor 5 contado desde el ltimo de la lista de la variable smoke
list smoke in -5
+-------+
| smoke |
|-------|
185. | Yes |
+-------+
+-------+
| smoke |
|-------|
185. | Yes |
186. | No |
187. | Yes |
188. | No |
189. | Yes |
+-------+
Listar los primeros 5 valores desde la variable id hasta smoke, sin etiquetas
+-------------------------------------+
| id low age lwt race smoke |
|-------------------------------------|
1. | 85 0 19 182 2 0 |
2. | 86 0 33 155 3 0 |
3. | 87 0 20 105 1 1 |
4. | 88 0 21 108 1 1 |
5. | 89 0 18 107 1 1 |
+-------------------------------------+
tab low
birthweight |
<2500g | Freq. Percent Cum.
------------+-----------------------------------
No | 130 68.78 68.78
Yes | 59 31.22 100.00
------------+-----------------------------------
Total | 189 100.00
Tab1 permite mostrar mltiples variables cada una en una tabla de frecuencias.
birthweight |
<2500g | Freq. Percent Cum.
------------+-----------------------------------
No | 130 68.78 68.78
Yes | 59 31.22 100.00
------------+-----------------------------------
Total | 189 100.00
-> tabulation of ui
presence, |
uterine |
irritabilit |
y | Freq. Percent Cum.
------------+-----------------------------------
No | 161 85.19 85.19
Yes | 28 14.81 100.00
------------+-----------------------------------
Total | 189 100.00
birthweigh | race
t<2500g | white black other | Total
-----------+---------------------------------+----------
No | 73 15 42 | 130
Yes | 23 11 25 | 59
-----------+---------------------------------+----------
Total | 96 26 67 | 189
Tab2 con dos a mas variables permite mostrar tablas de contingencias cada par variables
categricas.
| birthweight<2500g
race | No Yes | Total
-----------+----------------------+----------
white | 73 23 | 96
black | 15 11 | 26
other | 42 25 | 67
-----------+----------------------+----------
Total | 130 59 | 189
| presence, uterine
| irritability
race | No Yes | Total
-----------+----------------------+----------
white | 83 13 | 96
black | 23 3 | 26
other | 55 12 | 67
-----------+----------------------+----------
Total | 161 28 | 189
| presence, uterine
birthweigh | irritability
t<2500g | No Yes | Total
-----------+----------------------+----------
No | 116 14 | 130
Yes | 45 14 | 59
-----------+----------------------+----------
Total | 161 28 | 189
------------------------------------------------------
| smoked during pregnancy and race
birthweig | -------- No ------- ------- Yes -------
ht<2500g | white black other white black other
----------+-------------------------------------------
No | 40 11 35 33 4 7
Yes | 4 5 20 19 6 5
------------------------------------------------------
Con las opciones by organiza las tabla para fumadores y no fumadores verticalmente, las
opciones row y col agrega totales verticales y horizontales, y subwidth determina la
longitud del ttulo de la cabecera de la primera columna.
table low race, by(smoke) row col stubwidth(20)
-------------------------------------------------
smoked during |
pregnancy and | race
birthweight<2500g | white black other Total
---------------------+---------------------------
No |
No | 40 11 35 86
Yes | 4 5 20 29
Total | 44 16 55 115
---------------------+---------------------------
Yes |
No | 33 4 7 44
Yes | 19 6 5 30
Total | 52 10 12 74
-------------------------------------------------
Descripcin de la distribucin
. summarize bwt,detail
birthweight (grams)
-------------------------------------------------------------
Percentiles Smallest
1% 1021 709
5% 1790 1021
10% 1970 1135 Obs 189
25% 2414 1330 Sum of Wgt. 189
-- Binom. Interp. --
Variable | Obs Percentile Centile [95% Conf. Interval]
-------------+-------------------------------------------------------------
bwt | 189 25 2412 2297.521 2513.759
| 50 2977 2835.509 3090
| 75 3481 3318.32 3641.175
Tabstat muestra las estadsticas de resumen de las variables numricas dividida por una
variable categrica
Grficos
Los principales grficos son:
Grafico de barras
Grafico de cajas
Graficos de puntos
Graficos de pie o tortas
Grafico de dispersin o de nube de puntos o scatterplot
El grafico de barras muestra la distribucin de una cantidad (suenta, suma, medias) entre
grupos definido por una o mas categoras.
En un archivo do file ingrese los siguientes datos:
0 .5 1 1.5
public private
Source:OECD,Education at a Glance 2002
0 .5 1 1.5 2 2.5
Public Private
Source:OECD,Education at a Glance 2002
sysuse nlsw88.dta
graph bar (mean) wage, over(smsa, descend gap(-30)) over(married)
over(collgrad, relabel(0 "Not college graduate" 1 "College graduate"))
title("Average Hourly Wave, 1988 ,Women Aged 34-46") subtitle("by College
Graduation, Marital Status, and SMSA residence") note ("Source: 1988 data
from NLS, US Dep. of Labor Bureau")
15
mean of wage
10
5
0
Professional/technical Professional/technical
Managers/admin Managers/admin
Sales Sales
Clerical/unskilled Clerical/unskilled
Craftsmen Craftsmen
Operatives Operatives
Transport Transport
Laborers Laborers
Farmers Farmers
Farm laborers Farm laborers
Service Service
Household workers Household workers
Other Other
0 5 10 15 0 5 10 15
mean of wage
Source: 1988 data from NLS, US. Dept. of Labor
180
Sistolic blood pressure
160
140
120
20
10
2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000
Weight (lbs.)
Graphs by Car type
Domestic
10 20 30 40
Foreign
Mileage (mpg)
10 20 30 40
Total
10 20 30 40
1400
1300
High price/Low price
1200
1100
VW Diesel
40
Datsun
Subaru210
Plym. Champ
Toyota Corolla
30
MazdaDodge
GLCColt
Chev. Chevette
Honda
Ford Fiesta
Civic Plym. Arrow
Renault Le Car
Buick Opel
Plym. Sapporo
VWVWRabbit
Scirocco
Plym.
Honda Horizon
Accord
BMW 320i
Datsun 510 Pont.
Olds
Chev.
Sunbird
Starfire
Monza
AudiVWFoxDasher
Datsun 200
Merc.
AMCBobcat
Spirit
AMC Concord
Chev.
Chev.Malibu
Monte Carlo
Fiat Strada Ford
Datsun
Mustang810 Olds 98Cad. Seville
20
Merc. ZephyrBuick
BuickCentury
Regal
Pont.
Pont.
Olds
Olds
Olds
Le
Buick
Grand
Pont.
Chev.
Cutlass
Cutl
Mans
Omega
Skylark
Phoenix
Prix
Supr
Nova
Toyota Celica
Toyota Corona Plym.
Merc.
Pont.
Volare
Monarch
Dodge
Firebird
Buick
Olds
Pont.Diplomat
Delta
LeSabre
Catalina
88
Audi 5000 VolvoAMC
260 Pacer Dodge St. Regis
Dodge
Chev.
Magnum
Buick
Impala
Olds
Riviera
Toronado
Merc. Marquis
Buick Electra
Peugeot 604Linc.Cad.
Versailles
Merc.
Eldorado
Merc.Cougar
Cad.
XR-7 Deville
Linc.
Linc.
MarkContinental
V
10
30
Mileage
(mpg)
20
10
5,000
4,000
Weight
3,000 (lbs.)
2,000
15,000
Price 10,000
5,000
80
70
70
Life expectancy, females
Life expectancy, males
60
60
50
50
40
40
1900 1920 1940 1960 1980 2000 1900 1920 1940 1960 1980 2000
Year Year
graph twoway function y=normalden(x), range(-4 4)
.4
.3
.2
y
.1
0
-4 -2 0 2 4
x
webuse lbw.dta
histogram bwt,frequency normal qnorm bwt
5000
40
4000
30
birthweight (grams)
Frequency
3000
20
2000
10
1000
0
I. INICIARSE EN STATA
I.1. Uso general
En Stata las letras maysculas y minsculas son interpretadas como letras diferentes.
Usar comillas ... alrededor de informacin string (texto)
Usar == para una ecuacin lgica (if x==1)
BIBLIOGRAFIA
1. Institute for digital research and education UCLA [Internte]. [citado 2014 Abr 17].
Disponible en: http://www.ats.ucla.edu/stat/stata/
3. The Stata blog not elsewhere classified [Internte]. [citado 2014 Abr 17].
Disponible en: http://blog.stata.com/