Sie sind auf Seite 1von 31

Stata 9.

0 para economistas
Milenka Moschella y Juan Manuel Rivas

ESTADISTICA DESCRIPTIVA
Los cientficos sociales, tomando a la fsica como modelo, generalmente asignan nmeros a las
variables sociales o conductuales que estudian. Los cientficos sociales asignan nmeros con el
propsito de poder interpretar ciertas operaciones que se puedan realizar con ellos, pero algunas
veces no se percatan que no todas las operaciones tienen algn significado.
Las operaciones que se pueden realizar dada una determinada asignacin de nmeros a variables
dependen de los niveles (tipos) de medicin.

Niveles de Medicin
Escala nominal
Esta es la medicin en su nivel ms dbil, se da cuando los nmeros u otros smbolos se usan
solamente para clasificar (identificar) un objeto, una persona o caracterstica. No hay ninguna
jerarqua ni orden a la hora de asignar los nmeros.
Por ejemplo, cuando en estudio gentico se le asigna un nmero distinto a cada color de ojos:
Ojos pardos

Ojos azules

Ojos negros

Todos los datos son equivalentes y se les asigna un nmero de forma aleatoria.
Como los smbolos asignados pueden ser intercambiados sin alterar la informacin esencial, el nico
tipo de estadstico descriptivo son aquellos que no cambian a pesar a de la transformacin: La moda,
la cuenta de frecuencias, etc. Un promedio no tendra ningn significado.
Escala ordinal
Se da cuando los nmeros asignados a las variables adems de identificar a los datos conservan un
orden determinado, es decir, ya no son asignados de manera aleatoria.
Por ejemplo, en una encuesta se puede asignar un nmero distinto a cada posible nivel educativo
alcanzado por una persona.
Primaria terminada.....................1
Secundaria terminada.................2
Estudios Superiores....................3
En este caso se podra hacer cierta comparacin entre dos personas distintas, se podra identificar
quienes tienen mayor (orden) nivel educativo.
Cualquier transformacin de los nmeros asignados a cada variable es inocua es esta escala de
medicin.
El estadstico ms apropiado para describir la tendencia central de las variables en una escala ordinal
es la mediana, ya que la mediana no es afectada por los cambios de nmeros asignados (siempre y
cuando mantengan el orden). En este caso la media tiene cierto significado, pero no es muy

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

recomendable. Tanto en esta como la escala anterior solo se puede hacer un anlisis de los datos no
paramtricos (no se pueden hacer regresiones) dada las caractersticas de los datos.
Escala de intervalo
Cuando una escala tiene todas las caractersticas de una escala ordinal y cuando adems, tienen
sentido las distancias o diferencias entre cualesquiera dos nmeros de la escala, se ha logrado una
medicin considerablemente ms fuerte. Una escala de este tipo se caracteriza porque utiliza una
unidad de medida comn para medir las variables analizadas. En la escala de intervalo el punto cero
y la unidad de medida son arbitrarios.
En este tipo de medicin la razn de cualesquiera dos intervalos es independiente del punto de cero y
de la escala.
Ejemplo de este tipo escala es la medicin de la temperatura, existen dos unidades de medidas para
medirla : grados Celsius y Fahrenheit. Lo que importa es que la distancias entre dos valores
cualesquiera de temperatura representen el mismo intervalo. La relacin entre las distancias de las
dos medidas de temperatura es la siguiente: F = 9/5 c + 32. De esta forma la congelacin que ocurre
a 0 grados Celsius ocurre a 32 grados Fahrenheit.
Las transformaciones permitidas en esta escala no tienen que ser proporcionales como se pudo ver
en el ejemplo.
En este tipo de escala la mejor medida de tendencia central es la media. Adems, esta escala es la
primera verdaderamente cuantitativa y las operaciones aritmticas ya pueden llevarnos a conclusiones
interpretables. En esta escala se pueden empezar a usar medidas paramtricas para el anlisis de los
datos.
Escala de razn
Cuando una escala tiene todas las caractersticas de una escala de intervalo y, adems, tiene un
punto cero verdadero en su origen, se llama escala de razn. En esta escala la razn de cualesquiera
dos puntos es independiente de la unidad de medida.
Ejemplo de este tipo de escala es la medida del peso, un kilogramo es igual a mil gramos y siempre
habr un punto cero que ser comn para ambos tipos de medida.
Aqu las transformaciones lineales que se hagan de los nmeros asignados deben no solo guardar la
misma proporcin en distancias sino que el punto cero se debe mantener fijo. Aqu el nico tipo de
transformaciones lineales que se les pueden hacer a los valores tienen que ser proporcionales.
En esta escala cualquier prueba estadstica paramtrica puede usarse.

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

version 9
clear
set more off
cd "C:\Cursos\Stata9\Sesion04"
use Iraninos,clear

describe

Contains data from Iraninos.dta


obs:
149
vars:
9
27 Feb 2005 22:08
size:
2,384 (99.8% of memory free)
------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------sexo
byte
%8.0g
SEXO
edad
float %9.0g
EDAD
getareo
byte
%8.0g
GETAREO
oliguria
byte
%8.0g
OLIGURIA
par
byte
%8.0g
congenito
byte
%8.0g
CONGENITO
sepsis
byte
%8.0g
SEPSIS
tipodao
byte
%8.0g
TIPODAO
final
byte
%8.0g
FINAL
------------------------------------------------------------------------Sorted by:

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

codebook

SEXO
------------------------------------------------------------------------type:

numeric (byte)

range:
unique values:

[0,1]
2

tabulation:

Freq.
58
91

units:
missing .:

1
0/149

Value
0
1

-------------------------------------------------------------------------

EDAD
------------------------------------------------------------------------type: numeric (float)
range:
unique values:
mean:
std. dev:

[.00273973,14]
51

units:
missing .:

1.000e-09
0/149

1.9777
3.69481

percentiles:

10%
25%
50%
75%
90%
.008219
.019178
.166667
1
10
-------------------------------------------------------------------------

GETAREO
------------------------------------------------------------------------type:
range:
unique values:

numeric (byte)
[0,3]
4

units:
missing .:

1
0/149

tabulation:

Freq. Value
35 0
31 1
56 2
27 3
-------------------------------------------------------------------------

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

OLIGURIA
------------------------------------------------------------------------type:

numeric (byte)

range:
unique values:

[0,1]
2

tabulation:

Freq.
118
31

units:
missing .:

1
0/149

Value
0
1

-------------------------------------------------------------------------

PAR
------------------------------------------------------------------------type:
range:
unique values:
mean:
std. dev:

numeric (byte)
[0,93]
41

units:
missing .:

1
9/149

16.6429
16.4286

percentiles:

10%
3

25%
5.5

50%
12

75%
24

90%
32.5

-------------------------------------------------------------------------

CONGENITO
------------------------------------------------------------------------type:

numeric (byte)

range:
unique values:

[0,1]
2

tabulation:

Freq.
124
25

units:
missing .:

1
0/149

Value
0
1

-------------------------------------------------------------------------

SEPSIS
------------------------------------------------------------------------type:

numeric (byte)

range:
unique values:

[0,1]
2

tabulation:

Freq.
73
76

units:
missing .:

1
0/149

Value
0
1

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

------------------------------------------------------------------------TIPODAO
------------------------------------------------------------------------type: numeric (byte)
range:
unique values:

[0,3]
4

tabulation:

Freq.
8
79
44
18

units:
missing .:

1
0/149

Value
0
1
2
3

-------------------------------------------------------------------------

FINAL
------------------------------------------------------------------------type: numeric (byte)
range:
unique values:

[0,1]
2

tabulation:

Freq.
104
45

units:
missing .:

1
0/149

Value
0
1

Por el codebook vemos el tipo de variables y su frecuencia:


*sexo: numrica categrica dicotmica
*edad: numrica de razn
*Getareo: numrica ordinal
*Oliguria: numrica categrica dicotmica
*Par: numrica de razn (discreta)
*Congnito: numrica categrica dicotmica
*Sepsis: numrica categrica dicotmica
*Tipodao: numrica categrica policotmica
*Final: numrica categrica dicotmica

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Renombramos las variables:


label define sexo 0 "mujer"
label define sexo 1 "hombre", add
label values sexo sexo
label
label
label
label
label

define
define
define
define
values

getareo
getareo
getareo
getareo
getareo

0 "prematuro"
1 "rn", add
2 "lactante", add
3 "escolares", add
getareo

label define sepsis 0 "no sepsis"


label define sepsis 1 "sepsis", add
label values sepsis sepsis
label
label
label
label
label

define
define
define
define
values

tipodao
tipodao
tipodao
tipodao
tipodao

0 "asfixia neonat"
1 "nta", add
2 "nti", add
3 "nefro tox", add
tipodao

label define oliguria 0 "no oliguria"


label define oliguria 1 "oliguria", add
label values oliguria oliguria
label define congenito 0 "no congenito"
label define congenito 1 "congenito", add
label values congenito congenito
label define final 0 "vivo"
label define final 1 "muerte por ira", add
label values final final

**********
La variable de inters (la dependiente) es "final" pues es un evento (se le puede asignar una
probabilidad) de inters epidemiolgico. En este caso es la muerte de la persona debido a una falla
renal aguda.
Las explicativas son las que uno sospecha que causan dicho evento.
Las variables de control al influir en la ocurrencia del evento se emplean para aislar las causas de las
circunstancias.
*Variables explicativas: sepsis, tipo de dao
*Variables de control: sexo,edad. Getareo y congenito (dudosos)

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Para las variables categricas creamos tablas, grficos de pie.


tabulate sexo

SEXO |
Freq.
Percent
Cum.
------------+----------------------------------mujer |
58
38.93
38.93
hombre |
91
61.07
100.00
------------+----------------------------------Total |
149
100.00

graph pie, over(sexo)

mujer

hombre

tabulate getareo
GETAREO |
Freq.
Percent
Cum.
------------+----------------------------------prematuro |
35
23.49
23.49
rn |
31
20.81
44.30
lactante |
56
37.58
81.88
escolares |
27
18.12
100.00
------------+----------------------------------Total |
149
100.00

graph pie, over(getareo)

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

prematuro
lactante

rn
escolares

tabulate congenito
CONGENITO |
Freq.
Percent
Cum.
-------------+----------------------------------no congenito |
124
83.22
83.22
congenito |
25
16.78
100.00
-------------+----------------------------------Total |
149
100.00

graph pie, over(congenito)

no congenito

congenito

tabulate tipodao
TIPODAO |
Freq.
Percent
Cum.
---------------+----------------------------------asfixia neonat |
8
5.37
5.37
nta |
79
53.02
58.39
nti |
44
29.53
87.92
nefro tox |
18
12.08
100.00
---------------+----------------------------------Total |
149
100.00

graph pie, over(tipodao)

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

asfixia neonat
nti

nta
nefro tox

10

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

tabulate final
FINAL |
Freq.
Percent
Cum.
---------------+----------------------------------vivo |
104
69.80
69.80
muerte por ira |
45
30.20
100.00
---------------+----------------------------------Total |
149
100.00

graph pie, over(final)

vivo

muerte por ira

11

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Para las variables con escala de razn empleamos sum o histogramas.


summarize edad, detail

EDAD
------------------------------------------------------------Percentiles
Smallest
1%
.0027397
.0027397
5%
.0054795
.0027397
10%
.0082192
.0027397
Obs
149
25%
.0191781
.0054795
Sum of Wgt.
149
50%
75%
90%
95%
99%

.1666667
Largest
13
13
13
14

1
10
11
13

Mean
Std. Dev.

1.977695
3.694806

Variance
Skewness
Kurtosis

13.65159
1.969659
5.418928

.2

Density

.4

.6

histogram edad

10

15

EDAD

EDAD

10

15

graph box edad, medtype(line)

12

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Ahora, realizaremos el mismo anlisis para la variable par.


summarize par, detail
------------------------------------------------------------Percentiles
Smallest
1%
0
0
5%
2
0
10%
3
1
Obs
140
25%
5.5
1
Sum of Wgt.
140
50%
75%
90%
95%
99%

12
Largest
65
72
91
93

24
32.5
46.5
91

Mean
Std. Dev.

16.64286
16.42864

Variance
Skewness
Kurtosis

269.9003
2.21764
9.24408

.01

Density
.02
.03

.04

.05

histogram par

20

40

60

80

100

par

20

40

60

80

100

graph box par, medtype(line)

13

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Cuando cruzamos dos variables categricas empleamos la prueba de Pearson, que tiene como
hiptesis nula que las variables fila y columna son independientes entre s.
tabulate final sexo, chi2

|
SEXO
FINAL |
mujer
hombre |
Total
---------------+----------------------+---------vivo |
38
66 |
104
muerte por ira |
20
25 |
45
---------------+----------------------+---------Total |
58
91 |
149
Pearson chi2(1) =

0.8258

Pr = 0.363

tabulate final getareo, chi2


|
GETAREO
FINAL | prematuro
rn
lactante escolares |
Total
---------------+--------------------------------------------+---------vivo |
21
17
43
23 |
104
muerte por ira |
14
14
13
4 |
45
---------------+--------------------------------------------+---------Total |
35
31
56
27 |
149
Pearson chi2(3) =

9.2145

Pr = 0.027

14

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

A continuacin analizaremos la relacin que existe entre dos variables


correlate edad par

EDAD

10

15

|
edad
par
-------------+-----------------edad |
1.0000
par | -0.0845
1.0000

20

40

60

80

100

par

15

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Queremos analizar la direccin y la fuerza de la relacin entre dos variables


considerando un factor.
sort final
. by final: correlate edad par
_______________________________________________________________________________
-> final = vivo
(obs=97)
|
edad
par
-------------+-----------------edad |
1.0000
par | -0.1728
1.0000

_______________________________________________________________________________
-> final = muerte por ira
(obs=43)

EDAD
5

10

|
edad
par
-------------+-----------------edad |
1.0000
par |
0.0691
1.0000

10

20

30

40

par

16

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Otro ejemplo pero con ms categoras en su factor.


sort getareo
. by getareo: correlate edad par
_______________________________________________________________________________
-> getareo = prematuro
(obs=35)
|
edad
par
-------------+-----------------edad |
1.0000
par |
0.5872
1.0000

_______________________________________________________________________________
-> getareo = rn
(obs=26)
|
edad
par
-------------+-----------------edad |
1.0000
par | -0.0752
1.0000

_______________________________________________________________________________
-> getareo = lactante
(obs=54)
|
edad
par
-------------+-----------------edad |
1.0000
par | -0.1241
1.0000

_______________________________________________________________________________
-> getareo = escolares
(obs=25)

.02

EDAD
.04

.06

.08

|
edad
par
-------------+-----------------edad |
1.0000
par | -0.0252
1.0000

20

40
par

60

80

17

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Cuando cruzamos una categrica con una de razn empleamos tablas con sum
tabulate final, summ(edad)
|
Summary of EDAD
FINAL |
Mean
Std. Dev.
Freq.
------------+-----------------------------------vivo |
2.3427669
3.9636195
104
muerte po |
1.1339746
2.8459782
45
------------+-----------------------------------Total |
1.9776954
3.6948061
149
tabulate final, summ(par)
|
Summary of par
FINAL |
Mean
Std. Dev.
Freq.
------------+-----------------------------------vivo |
19.783505
17.452451
97
muerte po |
9.5581395
11.084744
43
------------+-----------------------------------Total |
16.642857
16.428643
140

18

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Comandos para combinar datos


Suponga que usted debe consolidar la informacin de las siguientes bases de datos
para generar un reporte. Como parte del trabajo del investigador es acopiar y
consolidar la informacin, este problema es muy comn.
Para combinar datos se emplean los comandos append, merge y joinby.

base1.dta
nombre
Juan
Rosa
Ricardo

sexo micro macro


1
15
12
2
14
13
1
14
17

base2.dta
nombre
Helena
Jorge
Paola
Alexis

sexo micro macro


2
18
16
1
11
14
2
15
2
10
16

base3.dta
nombre
Juan
Rosa

Sexo econometria
1
14
2
12

base4.dta
nombre
helena
Jorge
Paola
Alexis

sexo econometria
2
13
1
16
2
19
2
11

mate
15
17

En el archivo bases.do se muestra como solucionarlo.

append
append using filename [, nolabel keep(varlist) ]

Une a los registros del archivo cargado en la memoria los registros de otro que est
en el disco, cuyo nombre se seala con using.

merge
merge [varlist] using filename [, keep(varlist) unique uniqmaster uniqusing nolabel
update replace nokeep _merge(varname) ]

Une a las observaciones del archivo cargado en la memoria las observaciones de


otro que est en el disco, cuyo nombre se seala con using.
Cuando se fusionan bases de datos con el comando merge se estn agregando
variables a un registro, por lo cual es crucial saber si un registro est en la base
master (la que est cargada en la memoria) o en la slave ( la que sigue a la palabra
using) o en ambas bases.
Para ello se tabula la variable _merge que se autogenera (o la variable que se haya
creado para tal fin)
19

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

La base, una vez finalizada es:

1
2
3
4
5
6
7

nombre
Alexis
Helena
Jorge
Juan
Paola
Ricardo
Rosa

sexo

micro
2
2
1
1
2 .
1
2

macro
10
18
11
15
14
14

econom~a
16
11
16
13
14
16
12
14
15
19
17 .
13
12

mate
.
.
.

_merge
3
3
3
3
3
1
3

15
.
.
17

joinby
joinby [varlist] using filename [, unmatched(none|both|master|using) nolabel update
replace merge(varname) ]

Supongamos ahora que queremos saber cuantos individuos se benefician de


determinado programa social, pero este programa se ejecuta por hogares, cada uno
de los cuales tiene diferente nmero de individuos. Sin embargo la base que
describe los hogares est separada de la base que describe los receptores de los
programas sociales. Por ejemplo:
base5.dta
codperso
1
2
1
2
3
4
1
2
3

codhogar
172
172
185
185
185
185
190
190
190

edad
35
29
48
45
24
19
25
24
2

base6.dta
codhogar
172
185
190

progsocial
1
0
1

El resultado es:
codperso
1
2
3
4
5
6
7
8
9

1
2
1
2
3
4
1
2
3

codhogar
edad progsocial
172
35
1
172
29
1
185
48
0
185
45
0
185
24
0
185
19
0
190
25
1
190
24
1
190
2
1

20

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

collapse
collapse clist [weight] [if exp] [in range] [, by(varlist) cw fast]

Suponga que tiene la siguiente informacin sobre los hogares, pero se necesita
obtener para cada individuo el ingreso familiar y la edad del jefe de familia (codperso
igual a 1).
base7.dta
codperso
1
2
1
2
3
4
1
2
3

codhogar
edad
172
172
185
185
185
185
190
190
190

35
29
48
45
24
19
25
24
2

ingreso
1500
1200
450
800
500
0
2200
1500

El resultado es:
codperso
1
2
3
4
5
6
7
8
9

1
2
1
2
3
4
1
2
3

codhogar
edad
172
172
185
185
185
185
190
190
190

ingreso
ingresofam edadjefe
35
1500
2700
35
29
1200
2700
35
48
450
1750
48
45
800
1750
48
24
500
1750
48
19
0
1750
48
25
2200
3700
25
24
1500
3700
25
2 .
3700
25

21

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Naresh Maholtra INVESTIGACIN DE MERCADOS


Captulo 11

Muestreo: Diseo y procedimientos


Muestra o Censo:
Una investigacin tiene como objetivo siempre estudiar los parmetros de una poblacin objetivo.
Una poblacin es el conjunto de todos los elementos que comparten algn grupo de caractersticas
comunes y que forman el universo para el propsito del problema de la investigacin.
La aproximacin a los parmetros de una poblacin por parte del investigador se puede a travs de un
censo o muestra. Un censo comprende un recuento completo de los elementos de la poblacin. Por
otra parte, una muestra comprende un subgrupo de elementos de la poblacin. Las inferencias que
unen las caractersticas de la muestra con los parmetros de la poblacin se llaman procedimientos
de estimacin.

Condiciones que favorecen el uso de la Muestra contra el censo:

Presupuesto
Tiempo disponible
Tamao de la poblacin
Varianza en la caracterstica
Costos de los errores de muestreo
Costos de los errores de falta de muestreo
Naturaleza de la medicin
Atencin a casos individuales

Muestra
Reducido
Breve
Pequea
Baja
Bajo
Alto
Destructiva
S

Censo
Amplio
Prolongado
Numerosa
Alta
Alto
Bajo
No destructiva
No

Pero estas condiciones no siempre se dan y algunas veces se utiliza el censo.

22

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

El Proceso de Diseo de la Muestra


Este proceso incluye 5 pasos:
Primer paso: Definicin de la poblacin Meta:
Un investigador primero debe especificar el conjunto de elementos que poseen la informacin que
busca y a cerca de la cual desea hacer inferencias. Esta es la poblacin meta, la cual debe definirse
en trminos de elementos, las unidades de la muestra, la extensin y el tiempo.
Un elemento es el objeto sobre el cual se desea informacin, por lo regular en una encuesta hace
referencia a un entrevistado. Una unidad de muestra es un subgrupo de la muestra elegida que
puede ser igual o no al elemento.
Segundo Paso: Determinacin del Marco de la Muestra
El marco de la muestra es una representacin de los elementos de la poblacin meta que consiste en
una lista o grupo de indicadores para identificar la poblacin meta. Un ejemplo simple de marco de la
muestra puede ser una gua telefnica o una lista de clase en algn curso.
Con frecuencia a la hora de listar los elementos incluimos elementos que no pertenecen a la poblacin
u omitimos uno que s pertenece a la poblacin. En algunos casos este error es pequeo y se ignora.
Otras veces es necesario solucionar este error y hay diversos caminos como redefinir la poblacin en
funcin del marco muestral, corregir los errores en el proceso de entrevistas o ponderar los datos del
marco dndole mayor probabilidad a los que pertenecen a la muestra.
Tercer Paso: Seleccin de una tcnica de muestreo
La seleccin de una tcnica de muestreo comprende varias decisiones entre las que se encuentra si el
muestreo ser bayesiano o tradicional, realizar la muestra con reemplazo o sin reemplazo y la ms
importante de todas que es si el muestreo ser probabilstico o no probabilstico (y dentro de cada
subgrupo hay que elegir un tipo). Esta ltima decisin ser ampliada en secciones subsiguientes.
La estrategia bayesiana selecciono los elementos de la muestra en forma secuencial, despus de que
cada elemento se agrega se recopilan las estadsticas de la muestra y los costos del muestreo; este
mtodo supone que de antemano conocemos los costos y la probabilidades asociadas a las tomas de
decisiones equivocadas.
En el muestreo con reemplazo un elemento puede incluirse en la muestra ms de una vez mientras
que en el que es sin reemplazo no.
Cuarto paso: Determinacin del tamao de la muestra
El tamao se refiere al nmero de elementos que se incluirn en un estudio. Esta eleccin d.C.
considerar:
-La importancia de la muestra (mientras ms importante se necesitar mayor precisin y una muestra
ms grande).
-La naturaleza de la investigacin
-El nmero de variables
-La naturaleza del anlisis
-Los tamaos de la muestra utilizada en estudios anteriores
-las limitaciones de recursos.

23

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Quinto Paso: Ejecucin del proceso de muestreo


La cual debe ajustarse tomando en cuenta las elecciones hechas en los cuatro pasos anteriores.

Clasificacin de las tcnicas de muestreo


En el proceso de eleccin por muestreo probabilstico todos los elementos de la poblacin tienen la
misma probabilidad de formar parte de la muestra mientras que en los procesos no probabilsticos la
seleccin depende del juicio personal del investigador.
Tcnicas de Muestreo de no Probabilidad
Muestreo por conveniencia:
Esta tcnica trata de obtener los elementos de acuerdo al punto de vista del investigador.
Un ejemplo simple de esta tcnica son las encuestas en la calle, donde se entrevista a aquella
persona que estuvo a la hora indicada en el lugar indicado (camin cerca del entrevistador cuando
este haca la encuesta).
Este tipo de muestras no se recomienda para la investigacin descriptiva ni causal, pero pueden
emplearse en la investigacin de exploracin para generar hiptesis.
Muestreo por juicio:
Forma de muestreo por conveniencia en la cual los elementos de la poblacin se seleccionan de
manera intencional sobre la base del juicio del investigador.
Ejemplos de esta tcnica son: Los mercados seleccionados para determinar el potencial de un nuevo
producto, cuando se elige al tercio superior de cada facultad de una universidad para hacerle una
encuesta sobre un tema especfico (como la forma de encuestar el rendimiento de los profesores a
final de ciclo).
Muestreo por Cuotas:
Es un muestreo por juicio restringido de dos etapas. La primera consiste en el desarrollo de categoras
de control (caractersticas de inters o cuotas) de los elementos de la poblacin. En la segunda etapa,
los elementos de la muestra se seleccionan con base en la conveniencia o el juicio y como nico
requerimiento deben cumplir con las caractersticas antes indicadas.
Un ejemplo simple de esta tcnica es el siguiente: En una encuesta para evaluar los distintos
gobiernos desde el 85. En una primera etapa se establece que solo se quiere entrevistar a personas
mayores de cuarenta aos y en una segunda etapa se entrevista en la calle a 50 personas que
cumplan con este requisito (por conveniencia).
Muestreo de bola de nieve:
En esta tcnica se selecciona un grupo inicial de entrevistados, por lo general en forma aleatoria.
Despus de la entrevista, se pide a los participantes que identifiquen a otros que pertenecen a la
poblacin meta de inters, por tanto, los entrevistados subsecuentes se eligen con base en
referencias. Este proceso se lleva a cabo progresivamente ocasionando un efecto bola de nieve.

24

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

An cuando en la primera etapa se emplee una tcnica probabilstica, el resultado final es


predominantemente no probabilstico. La ventaja principal de este muestreo es que aumenta la
probabilidad de encontrar las caractersticas deseadas en la poblacin.
Este mtodo suele ser utilizado para estudiar las caractersticas raras en la poblacin. Por ejemplo si
se quisiera hacer un estudio en Ayacucho de quienes se beneficias con el programa Qatari Wawa, se
podra utilizar este mtodo para seleccionar la poblacin meta.
Tcnicas de muestreo probabilstico
Todo investigador debe tener en cuenta que existe una relacin positiva entre el costo de un muestreo
y su precisin (mientras ms exacta, ms costosa). Una tarea importante es, por tanto, realizar el
muestreo de la forma ms eficiente posible tomando en cuenta que existe previamente un
presupuesto asignado. La eficiencia de las diferentes formas de muestreo se evalan comparndolas
con el muestreo aleatorio simple.
Muestreo Aleatorio Simple (SRS)
En esta tcnica, cada elemento de la poblacin tiene una probabilidad de seleccin idntica y
conocida, se elige independientemente de cualquier otro. Lo mismo ocurre con cualquier muestra de
tamao n que se formule por medio de un proceso aleatorio.
Caractersticas positivas:
- Fcil de comprender.
- Resultados pueden proyectarse a la poblacin meta.
- La mayora de planteamientos de inferencia suponen que la muestra ha sido recopilada por
este procedimiento.
Limitaciones:
- Difcil construir un marco del cual se pueda extraer una muestra por muestreo aleatorio
simple.
- Pueden resultar muestras muy grandes.
- Baja precisin (con respecto a las dems tcnicas).
- Existe incertidumbre acerca de la representatividad de la muestra.
Muestreo sistemtico
En este caso, primero se elige aleatoriamente, un punto inicial. Luego, en base a ese punto inicial se
eligen en sucesin cada isimo elemento. El intervalo i de la muestra se determina dividiendo el
tamao de la poblacin por el de la muestra que se desea. Por ejemplo, si aleatoriamente se elige el
nmero 33 y sabemos que la poblacin consta de 10000 individuos y se requiere una muestra de 100;
los elementos siguientes sern 133 (33+100), 233 (133+100), etc.
Cada elemento de la muestra tiene probabilidad idntica y conocida pero slo las muestras de tamao
n tienen esa propiedad. Muestras de un tamao distinto tienen una probabilidad de cero de ser
elegidas.
Una nota importante es que este tipo de muestreo es til y representativo cuando los elementos
presentan un orden que se relaciona con la caracterstica de inters. Adems, resulta ser menos
costoso pues la seleccin aleatoria se realiza solo una vez (al principio).

25

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Muestreo estratificado
Una poblacin se divide en subgrupos(estratos) y se selecciona una muestra de cada estrato. Hay que
notar que los estratos deben ser lo ms excluyentes posibles entre ellos; no obstante, dentro de un
estrato, se requiere que la poblacin sea bastante homognea.
Las variables que se utilizan para dividir a la poblacin se llaman variables de estratificacin, deben
estar bastante relacionadas con la caracterstica de inters y normalmente se emplea solo una.
Dentro de este tipo de muestreo tenemos otras dos categoras:
-

Muestreo proporcionado: el tamao de la muestra de cada estrato es proporcional al tamao


relativo de ese estrato en la poblacin.
Muestreo desproporcionado: el tamao del estrato es proporcional al tamao relativo del
estrato y a la desviacin estndar entre todos los elementos del mismo. Para utilizarlo se
requiere que se tenga alguna informacin sobre la distribucin de la caracterstica de inters.

Esta resulta una tcnica de empleo bastante usada pues la muestra resulta ser representativa y
adems, el procedimiento es sencillo.
Muestreo por grupos
Para utilizar esta tcnica se siguen dos pasos. En primer lugar, se divide a la poblacin objetivo en
subpoblaciones mutuamente excluyentes y colectivamente exhaustivas (de modo que los elementos
de las subpoblaciones sean homogneos) que se denominarn grupos. En segundo lugar, se escogen
aleatoriamente algunos grupos de forma aleatoria y se concentran los esfuerzos en estos,
descartndose los no elegidos.
Una muestra de grupo tambin se puede realizar en ms de dos etapas (muestra de etapas mltiples).
La diferencia con el muestreo estratificado reside que en este caso se extrae una muestra de grupos
para la seleccin posterior y no se seleccionan todas las subpoblaciones.
Una forma particular del muestreo de grupos es el muestreo de reas. En esta tcnica, los grupos se
refieren a reas geogrficas, la lgica es la misma que el muestreo de grupos y tambin puede
realizarse en dos o ms etapas.
Si los grupos que se han formado no tienen igual tamao, se pueden combinar grupos para mejorar la
precisin de la muestra. Cuando no se puede, se lleva a cabo el muestreo probabilstico proporcional
al tamao (PPS). Este consiste en asignar probabilidades de manera que varen en forma inversa al
tamao del grupo. De esta manera, en la primera eleccin es ms probable que se elijan grupos
grandes que pequeos.
Existen dos grandes ventajas del muestreo de grupo: su viabilidad y bajo costo. Sin embargo, a la vez
existen algunas limitaciones. Entre ellas tenemos: las muestras resultan relativamente inexactas y
resulta difcil formar grupos relativamente heterogneos.

26

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Otras tcnicas de muestreo probabilstico:


-

Muestreo secuencial:
Los elementos de la poblacin se incluyen en la muestra de forma secuencial. En cada etapa
del proceso se recopilan y analizan los datos, se toma una decisin de si se incluyen o no
elementos adicionales a la poblacin. Se utiliza para determinar las preferencias de dos
alternativas en competencia.
Muestreo doble:
Llamado tambin muestreo de dos etapas. En esta tcnica, ciertos elementos se incluyen dos
veces en la muestra. En la primera etapa se selecciona una muestra y se recopila informacin
de todos los elementos de una muestra. En la segunda etapa, se toma una submuestra y se
vuelve a recopilar informacin acerca de los elementos de la misma.

27

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

ENCUESTA NACIONAL DE HOGARES (ENAHO)


Inicio: 1995. Ha sido llevada a cabo trimestralmente hasta el cuarto trimestre del ao 2002. En mayo
del 2003 empez a realizarse en forma continua.
Objetivos:

Generar indicadores relacionados al empleo y al ingreso con el objetivo de conocer las


condiciones de vida de los hogares (bienestar y pobreza) y su evolucin.
Medir el alcance de los programas sociales provistos por el Estado.

Cobertura: La encuesta se realiza tomando en cuenta el mbito nacional, en el rea urbana y rural,
en los 24 departamentos y la Provincia Constitucional del Callao.
Diseo muestral:

Tipo de muestreo:
Probabilstica, de reas, estratificado, multietpico e independiente en cada departamento de
estudio.

Tamao de la muestra (a partir de ENAHO 2003): Total: la encuesta se realiza a 20084 viviendas
particulares. Por otro lado, existe una parte de la muestra que es encuestada siempre. Este panel
consta de 6146 viviendas particulares.

Mtodo de recoleccin de datos: Se encuesta directamente a todas las personas de catorce aos o
ms.

En cada trimestre la ENAHO suele abarcar un tema particular, los cuales son presentados a
continuacin:

28

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Inferencia, Solo se puede hacer inferencia a partir de los datos a nivel departamental. A nivel
provincial solo se pude hacer inferencia en Lima Metropolitana y en la Provincia Constitucional del
Callao.
Nota: En la siguiente direccin se pueden hacer todo tipo de preguntas acerca de la ENAHO y sern
respondida por el INEI: http://www.inei.gob.pe/ineibpr/enahobpr.htm.

29

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Aplicacin: ENAHO 2000-II.


Una de las ventajas que ofrece el Stata para el anlisis de Encuestas como la
ENAHO, con Diseo muestral complejo, es que permite calcular los estimadores
teniendo en cuenta el diseo muestral de la misma (diferente al muestreo simple al
azar). Adems, Stata proporciona estadsticos con los cuales se puede evaluar la
confiabilidad del resultado en forma simultnea a su estimacin. De esta manera el
usuario est en la capacidad de interpretar y utilizar adecuadamente cada
estimacin proveniente de la encuesta.
Los principales elementos que se deben tener en cuenta en el trabajo con datos de
encuestas por muestreo son:
Ponderacin: En las encuestas por muestreo, las observaciones son seleccionadas mediante
un proceso aleatorio, donde cada observacin puede tener una probabilidad de seleccin
diferente. La ponderacin (o peso) de una observacin (hogar, por ejemplo) es igual a la
inversa de la probabilidad de pertenecer a la muestra. Es usual que luego del trabajo de
campo se realicen ajustes sobre esta ponderacin, debido, por ejemplo, al efecto de la NoRespuesta. Un peso wj de una observacin j significa que la observacin j representa a wj
elementos de la poblacin. Si no se toman en cuenta las ponderaciones, las estimaciones que
se obtengan estarn sesgadas.
Conglomerados o cluster: Algunas veces se utiliza el muestreo por conglomerados, es decir
las observaciones son muestreadas en grupos o clusters, por ejemplo, provincias dentro de
departamentos, distritos dentro de provincias y finalmente viviendas dentro de los distritos
seleccionados, que son el objetivo final del muestreo. Todas las observaciones de un mismo
cluster no son independientes entre si, si no se toma en cuenta este hecho, los errores
estndar que se obtengan sern menores a los verdaderos.
Estratos: En algunos casos, tambin se emplea el muestreo estratificado, donde diferentes
grupos de observaciones o estratos, son muestreados en forma independiente. Al igual que el
caso anterior, si no se toma en cuenta este hecho, se obtendrn sub estimaciones de los
errores estndar verdaderos.

30

Stata 9.0 para economistas


Milenka Moschella y Juan Manuel Rivas

Tarea N3
1. Trabajando con la ENAHO 2000 segundo trimestre. Slo para el Departamento de Lima.
Fusione el captulo 100 y el 200.
2. Ponga comentarios a todas las lneas de los archivos do base1.do y base2.do.

31

Das könnte Ihnen auch gefallen