Beruflich Dokumente
Kultur Dokumente
0 para economistas
Milenka Moschella y Juan Manuel Rivas
ESTADISTICA DESCRIPTIVA
Los cientficos sociales, tomando a la fsica como modelo, generalmente asignan nmeros a las
variables sociales o conductuales que estudian. Los cientficos sociales asignan nmeros con el
propsito de poder interpretar ciertas operaciones que se puedan realizar con ellos, pero algunas
veces no se percatan que no todas las operaciones tienen algn significado.
Las operaciones que se pueden realizar dada una determinada asignacin de nmeros a variables
dependen de los niveles (tipos) de medicin.
Niveles de Medicin
Escala nominal
Esta es la medicin en su nivel ms dbil, se da cuando los nmeros u otros smbolos se usan
solamente para clasificar (identificar) un objeto, una persona o caracterstica. No hay ninguna
jerarqua ni orden a la hora de asignar los nmeros.
Por ejemplo, cuando en estudio gentico se le asigna un nmero distinto a cada color de ojos:
Ojos pardos
Ojos azules
Ojos negros
Todos los datos son equivalentes y se les asigna un nmero de forma aleatoria.
Como los smbolos asignados pueden ser intercambiados sin alterar la informacin esencial, el nico
tipo de estadstico descriptivo son aquellos que no cambian a pesar a de la transformacin: La moda,
la cuenta de frecuencias, etc. Un promedio no tendra ningn significado.
Escala ordinal
Se da cuando los nmeros asignados a las variables adems de identificar a los datos conservan un
orden determinado, es decir, ya no son asignados de manera aleatoria.
Por ejemplo, en una encuesta se puede asignar un nmero distinto a cada posible nivel educativo
alcanzado por una persona.
Primaria terminada.....................1
Secundaria terminada.................2
Estudios Superiores....................3
En este caso se podra hacer cierta comparacin entre dos personas distintas, se podra identificar
quienes tienen mayor (orden) nivel educativo.
Cualquier transformacin de los nmeros asignados a cada variable es inocua es esta escala de
medicin.
El estadstico ms apropiado para describir la tendencia central de las variables en una escala ordinal
es la mediana, ya que la mediana no es afectada por los cambios de nmeros asignados (siempre y
cuando mantengan el orden). En este caso la media tiene cierto significado, pero no es muy
recomendable. Tanto en esta como la escala anterior solo se puede hacer un anlisis de los datos no
paramtricos (no se pueden hacer regresiones) dada las caractersticas de los datos.
Escala de intervalo
Cuando una escala tiene todas las caractersticas de una escala ordinal y cuando adems, tienen
sentido las distancias o diferencias entre cualesquiera dos nmeros de la escala, se ha logrado una
medicin considerablemente ms fuerte. Una escala de este tipo se caracteriza porque utiliza una
unidad de medida comn para medir las variables analizadas. En la escala de intervalo el punto cero
y la unidad de medida son arbitrarios.
En este tipo de medicin la razn de cualesquiera dos intervalos es independiente del punto de cero y
de la escala.
Ejemplo de este tipo escala es la medicin de la temperatura, existen dos unidades de medidas para
medirla : grados Celsius y Fahrenheit. Lo que importa es que la distancias entre dos valores
cualesquiera de temperatura representen el mismo intervalo. La relacin entre las distancias de las
dos medidas de temperatura es la siguiente: F = 9/5 c + 32. De esta forma la congelacin que ocurre
a 0 grados Celsius ocurre a 32 grados Fahrenheit.
Las transformaciones permitidas en esta escala no tienen que ser proporcionales como se pudo ver
en el ejemplo.
En este tipo de escala la mejor medida de tendencia central es la media. Adems, esta escala es la
primera verdaderamente cuantitativa y las operaciones aritmticas ya pueden llevarnos a conclusiones
interpretables. En esta escala se pueden empezar a usar medidas paramtricas para el anlisis de los
datos.
Escala de razn
Cuando una escala tiene todas las caractersticas de una escala de intervalo y, adems, tiene un
punto cero verdadero en su origen, se llama escala de razn. En esta escala la razn de cualesquiera
dos puntos es independiente de la unidad de medida.
Ejemplo de este tipo de escala es la medida del peso, un kilogramo es igual a mil gramos y siempre
habr un punto cero que ser comn para ambos tipos de medida.
Aqu las transformaciones lineales que se hagan de los nmeros asignados deben no solo guardar la
misma proporcin en distancias sino que el punto cero se debe mantener fijo. Aqu el nico tipo de
transformaciones lineales que se les pueden hacer a los valores tienen que ser proporcionales.
En esta escala cualquier prueba estadstica paramtrica puede usarse.
version 9
clear
set more off
cd "C:\Cursos\Stata9\Sesion04"
use Iraninos,clear
describe
codebook
SEXO
------------------------------------------------------------------------type:
numeric (byte)
range:
unique values:
[0,1]
2
tabulation:
Freq.
58
91
units:
missing .:
1
0/149
Value
0
1
-------------------------------------------------------------------------
EDAD
------------------------------------------------------------------------type: numeric (float)
range:
unique values:
mean:
std. dev:
[.00273973,14]
51
units:
missing .:
1.000e-09
0/149
1.9777
3.69481
percentiles:
10%
25%
50%
75%
90%
.008219
.019178
.166667
1
10
-------------------------------------------------------------------------
GETAREO
------------------------------------------------------------------------type:
range:
unique values:
numeric (byte)
[0,3]
4
units:
missing .:
1
0/149
tabulation:
Freq. Value
35 0
31 1
56 2
27 3
-------------------------------------------------------------------------
OLIGURIA
------------------------------------------------------------------------type:
numeric (byte)
range:
unique values:
[0,1]
2
tabulation:
Freq.
118
31
units:
missing .:
1
0/149
Value
0
1
-------------------------------------------------------------------------
PAR
------------------------------------------------------------------------type:
range:
unique values:
mean:
std. dev:
numeric (byte)
[0,93]
41
units:
missing .:
1
9/149
16.6429
16.4286
percentiles:
10%
3
25%
5.5
50%
12
75%
24
90%
32.5
-------------------------------------------------------------------------
CONGENITO
------------------------------------------------------------------------type:
numeric (byte)
range:
unique values:
[0,1]
2
tabulation:
Freq.
124
25
units:
missing .:
1
0/149
Value
0
1
-------------------------------------------------------------------------
SEPSIS
------------------------------------------------------------------------type:
numeric (byte)
range:
unique values:
[0,1]
2
tabulation:
Freq.
73
76
units:
missing .:
1
0/149
Value
0
1
------------------------------------------------------------------------TIPODAO
------------------------------------------------------------------------type: numeric (byte)
range:
unique values:
[0,3]
4
tabulation:
Freq.
8
79
44
18
units:
missing .:
1
0/149
Value
0
1
2
3
-------------------------------------------------------------------------
FINAL
------------------------------------------------------------------------type: numeric (byte)
range:
unique values:
[0,1]
2
tabulation:
Freq.
104
45
units:
missing .:
1
0/149
Value
0
1
define
define
define
define
values
getareo
getareo
getareo
getareo
getareo
0 "prematuro"
1 "rn", add
2 "lactante", add
3 "escolares", add
getareo
define
define
define
define
values
tipodao
tipodao
tipodao
tipodao
tipodao
0 "asfixia neonat"
1 "nta", add
2 "nti", add
3 "nefro tox", add
tipodao
**********
La variable de inters (la dependiente) es "final" pues es un evento (se le puede asignar una
probabilidad) de inters epidemiolgico. En este caso es la muerte de la persona debido a una falla
renal aguda.
Las explicativas son las que uno sospecha que causan dicho evento.
Las variables de control al influir en la ocurrencia del evento se emplean para aislar las causas de las
circunstancias.
*Variables explicativas: sepsis, tipo de dao
*Variables de control: sexo,edad. Getareo y congenito (dudosos)
SEXO |
Freq.
Percent
Cum.
------------+----------------------------------mujer |
58
38.93
38.93
hombre |
91
61.07
100.00
------------+----------------------------------Total |
149
100.00
mujer
hombre
tabulate getareo
GETAREO |
Freq.
Percent
Cum.
------------+----------------------------------prematuro |
35
23.49
23.49
rn |
31
20.81
44.30
lactante |
56
37.58
81.88
escolares |
27
18.12
100.00
------------+----------------------------------Total |
149
100.00
prematuro
lactante
rn
escolares
tabulate congenito
CONGENITO |
Freq.
Percent
Cum.
-------------+----------------------------------no congenito |
124
83.22
83.22
congenito |
25
16.78
100.00
-------------+----------------------------------Total |
149
100.00
no congenito
congenito
tabulate tipodao
TIPODAO |
Freq.
Percent
Cum.
---------------+----------------------------------asfixia neonat |
8
5.37
5.37
nta |
79
53.02
58.39
nti |
44
29.53
87.92
nefro tox |
18
12.08
100.00
---------------+----------------------------------Total |
149
100.00
asfixia neonat
nti
nta
nefro tox
10
tabulate final
FINAL |
Freq.
Percent
Cum.
---------------+----------------------------------vivo |
104
69.80
69.80
muerte por ira |
45
30.20
100.00
---------------+----------------------------------Total |
149
100.00
vivo
11
EDAD
------------------------------------------------------------Percentiles
Smallest
1%
.0027397
.0027397
5%
.0054795
.0027397
10%
.0082192
.0027397
Obs
149
25%
.0191781
.0054795
Sum of Wgt.
149
50%
75%
90%
95%
99%
.1666667
Largest
13
13
13
14
1
10
11
13
Mean
Std. Dev.
1.977695
3.694806
Variance
Skewness
Kurtosis
13.65159
1.969659
5.418928
.2
Density
.4
.6
histogram edad
10
15
EDAD
EDAD
10
15
12
12
Largest
65
72
91
93
24
32.5
46.5
91
Mean
Std. Dev.
16.64286
16.42864
Variance
Skewness
Kurtosis
269.9003
2.21764
9.24408
.01
Density
.02
.03
.04
.05
histogram par
20
40
60
80
100
par
20
40
60
80
100
13
Cuando cruzamos dos variables categricas empleamos la prueba de Pearson, que tiene como
hiptesis nula que las variables fila y columna son independientes entre s.
tabulate final sexo, chi2
|
SEXO
FINAL |
mujer
hombre |
Total
---------------+----------------------+---------vivo |
38
66 |
104
muerte por ira |
20
25 |
45
---------------+----------------------+---------Total |
58
91 |
149
Pearson chi2(1) =
0.8258
Pr = 0.363
9.2145
Pr = 0.027
14
EDAD
10
15
|
edad
par
-------------+-----------------edad |
1.0000
par | -0.0845
1.0000
20
40
60
80
100
par
15
_______________________________________________________________________________
-> final = muerte por ira
(obs=43)
EDAD
5
10
|
edad
par
-------------+-----------------edad |
1.0000
par |
0.0691
1.0000
10
20
30
40
par
16
_______________________________________________________________________________
-> getareo = rn
(obs=26)
|
edad
par
-------------+-----------------edad |
1.0000
par | -0.0752
1.0000
_______________________________________________________________________________
-> getareo = lactante
(obs=54)
|
edad
par
-------------+-----------------edad |
1.0000
par | -0.1241
1.0000
_______________________________________________________________________________
-> getareo = escolares
(obs=25)
.02
EDAD
.04
.06
.08
|
edad
par
-------------+-----------------edad |
1.0000
par | -0.0252
1.0000
20
40
par
60
80
17
Cuando cruzamos una categrica con una de razn empleamos tablas con sum
tabulate final, summ(edad)
|
Summary of EDAD
FINAL |
Mean
Std. Dev.
Freq.
------------+-----------------------------------vivo |
2.3427669
3.9636195
104
muerte po |
1.1339746
2.8459782
45
------------+-----------------------------------Total |
1.9776954
3.6948061
149
tabulate final, summ(par)
|
Summary of par
FINAL |
Mean
Std. Dev.
Freq.
------------+-----------------------------------vivo |
19.783505
17.452451
97
muerte po |
9.5581395
11.084744
43
------------+-----------------------------------Total |
16.642857
16.428643
140
18
base1.dta
nombre
Juan
Rosa
Ricardo
base2.dta
nombre
Helena
Jorge
Paola
Alexis
base3.dta
nombre
Juan
Rosa
Sexo econometria
1
14
2
12
base4.dta
nombre
helena
Jorge
Paola
Alexis
sexo econometria
2
13
1
16
2
19
2
11
mate
15
17
append
append using filename [, nolabel keep(varlist) ]
Une a los registros del archivo cargado en la memoria los registros de otro que est
en el disco, cuyo nombre se seala con using.
merge
merge [varlist] using filename [, keep(varlist) unique uniqmaster uniqusing nolabel
update replace nokeep _merge(varname) ]
1
2
3
4
5
6
7
nombre
Alexis
Helena
Jorge
Juan
Paola
Ricardo
Rosa
sexo
micro
2
2
1
1
2 .
1
2
macro
10
18
11
15
14
14
econom~a
16
11
16
13
14
16
12
14
15
19
17 .
13
12
mate
.
.
.
_merge
3
3
3
3
3
1
3
15
.
.
17
joinby
joinby [varlist] using filename [, unmatched(none|both|master|using) nolabel update
replace merge(varname) ]
codhogar
172
172
185
185
185
185
190
190
190
edad
35
29
48
45
24
19
25
24
2
base6.dta
codhogar
172
185
190
progsocial
1
0
1
El resultado es:
codperso
1
2
3
4
5
6
7
8
9
1
2
1
2
3
4
1
2
3
codhogar
edad progsocial
172
35
1
172
29
1
185
48
0
185
45
0
185
24
0
185
19
0
190
25
1
190
24
1
190
2
1
20
collapse
collapse clist [weight] [if exp] [in range] [, by(varlist) cw fast]
Suponga que tiene la siguiente informacin sobre los hogares, pero se necesita
obtener para cada individuo el ingreso familiar y la edad del jefe de familia (codperso
igual a 1).
base7.dta
codperso
1
2
1
2
3
4
1
2
3
codhogar
edad
172
172
185
185
185
185
190
190
190
35
29
48
45
24
19
25
24
2
ingreso
1500
1200
450
800
500
0
2200
1500
El resultado es:
codperso
1
2
3
4
5
6
7
8
9
1
2
1
2
3
4
1
2
3
codhogar
edad
172
172
185
185
185
185
190
190
190
ingreso
ingresofam edadjefe
35
1500
2700
35
29
1200
2700
35
48
450
1750
48
45
800
1750
48
24
500
1750
48
19
0
1750
48
25
2200
3700
25
24
1500
3700
25
2 .
3700
25
21
Presupuesto
Tiempo disponible
Tamao de la poblacin
Varianza en la caracterstica
Costos de los errores de muestreo
Costos de los errores de falta de muestreo
Naturaleza de la medicin
Atencin a casos individuales
Muestra
Reducido
Breve
Pequea
Baja
Bajo
Alto
Destructiva
S
Censo
Amplio
Prolongado
Numerosa
Alta
Alto
Bajo
No destructiva
No
22
23
24
25
Muestreo estratificado
Una poblacin se divide en subgrupos(estratos) y se selecciona una muestra de cada estrato. Hay que
notar que los estratos deben ser lo ms excluyentes posibles entre ellos; no obstante, dentro de un
estrato, se requiere que la poblacin sea bastante homognea.
Las variables que se utilizan para dividir a la poblacin se llaman variables de estratificacin, deben
estar bastante relacionadas con la caracterstica de inters y normalmente se emplea solo una.
Dentro de este tipo de muestreo tenemos otras dos categoras:
-
Esta resulta una tcnica de empleo bastante usada pues la muestra resulta ser representativa y
adems, el procedimiento es sencillo.
Muestreo por grupos
Para utilizar esta tcnica se siguen dos pasos. En primer lugar, se divide a la poblacin objetivo en
subpoblaciones mutuamente excluyentes y colectivamente exhaustivas (de modo que los elementos
de las subpoblaciones sean homogneos) que se denominarn grupos. En segundo lugar, se escogen
aleatoriamente algunos grupos de forma aleatoria y se concentran los esfuerzos en estos,
descartndose los no elegidos.
Una muestra de grupo tambin se puede realizar en ms de dos etapas (muestra de etapas mltiples).
La diferencia con el muestreo estratificado reside que en este caso se extrae una muestra de grupos
para la seleccin posterior y no se seleccionan todas las subpoblaciones.
Una forma particular del muestreo de grupos es el muestreo de reas. En esta tcnica, los grupos se
refieren a reas geogrficas, la lgica es la misma que el muestreo de grupos y tambin puede
realizarse en dos o ms etapas.
Si los grupos que se han formado no tienen igual tamao, se pueden combinar grupos para mejorar la
precisin de la muestra. Cuando no se puede, se lleva a cabo el muestreo probabilstico proporcional
al tamao (PPS). Este consiste en asignar probabilidades de manera que varen en forma inversa al
tamao del grupo. De esta manera, en la primera eleccin es ms probable que se elijan grupos
grandes que pequeos.
Existen dos grandes ventajas del muestreo de grupo: su viabilidad y bajo costo. Sin embargo, a la vez
existen algunas limitaciones. Entre ellas tenemos: las muestras resultan relativamente inexactas y
resulta difcil formar grupos relativamente heterogneos.
26
Muestreo secuencial:
Los elementos de la poblacin se incluyen en la muestra de forma secuencial. En cada etapa
del proceso se recopilan y analizan los datos, se toma una decisin de si se incluyen o no
elementos adicionales a la poblacin. Se utiliza para determinar las preferencias de dos
alternativas en competencia.
Muestreo doble:
Llamado tambin muestreo de dos etapas. En esta tcnica, ciertos elementos se incluyen dos
veces en la muestra. En la primera etapa se selecciona una muestra y se recopila informacin
de todos los elementos de una muestra. En la segunda etapa, se toma una submuestra y se
vuelve a recopilar informacin acerca de los elementos de la misma.
27
Cobertura: La encuesta se realiza tomando en cuenta el mbito nacional, en el rea urbana y rural,
en los 24 departamentos y la Provincia Constitucional del Callao.
Diseo muestral:
Tipo de muestreo:
Probabilstica, de reas, estratificado, multietpico e independiente en cada departamento de
estudio.
Tamao de la muestra (a partir de ENAHO 2003): Total: la encuesta se realiza a 20084 viviendas
particulares. Por otro lado, existe una parte de la muestra que es encuestada siempre. Este panel
consta de 6146 viviendas particulares.
Mtodo de recoleccin de datos: Se encuesta directamente a todas las personas de catorce aos o
ms.
En cada trimestre la ENAHO suele abarcar un tema particular, los cuales son presentados a
continuacin:
28
Inferencia, Solo se puede hacer inferencia a partir de los datos a nivel departamental. A nivel
provincial solo se pude hacer inferencia en Lima Metropolitana y en la Provincia Constitucional del
Callao.
Nota: En la siguiente direccin se pueden hacer todo tipo de preguntas acerca de la ENAHO y sern
respondida por el INEI: http://www.inei.gob.pe/ineibpr/enahobpr.htm.
29
30
Tarea N3
1. Trabajando con la ENAHO 2000 segundo trimestre. Slo para el Departamento de Lima.
Fusione el captulo 100 y el 200.
2. Ponga comentarios a todas las lneas de los archivos do base1.do y base2.do.
31