You are on page 1of 26

17/11/2011

Análisis de datos y gestión veterinaria

Muestreo

Departamento de Producción Animal – Facultad de Veterinaria


Universidad de Córdoba

Córdoba, 16 de Noviembre de 2011

Población y muestra

Predecir los
resultados
electorales en
España

Población. Conjunto completo de individuos sobre


el que estamos interesados en obtener conclusiones.

1
17/11/2011

Población y muestra

Predecir los
resultados
electorales en
N = ?? España
?? = millones de votantes

Población. Conjunto completo de votantes.

Población y muestra

n = 10.000
votantes
N = ??
?? = millones de votantes
n = 10.000
votantes

Muestra. Subconjunto de los valores poblacionales


observados.

2
17/11/2011

Población y muestra

n = 10.000
votantes
N = ?? los estadísticos
se utilizan como
?? = millones de votantes
estimadores
de los
parámetros de
Inferencias. calculamos
la población,
Generalizaciones a estadísticos,
como la edad
como la edad
partir de la muestra a media de los media de los
la población. votantes de la votantes de la
población
muestra

Población y muestra

¿Se puede confiar en que los


estadísticos sean similares a n = 10.000
35,5 años
los parámetros? votantes
N = ??
?¿?¿?¿ 35,5 años ??¿?¿?
?? = millones de votantes

Los
estadísticos
Los parámetros son son calculados
los que realmente se y conocidos
quieren conocer

3
17/11/2011

Población y muestra

¿Se puede confiar en que los


estadísticos sean similares a
los parámetros?
Los parámetros no son verificables (si lo fueran, no
trabajaríamos con muestras).

Si, siempre que la muestra


represente a la población

Población y muestra

N = 12 vacas

Si, siempre que la muestra


represente a la población

4
17/11/2011

Población y muestra

N = 12 vacas n=6
vacas

La muestra representa a la población


Si, siempre que la simuestra
las
características de la población se repiten en la
represente a la población muestra.

¿Si no sabemos cómo es la población, ni


Población y muestra
siquiera su tamaño?

La representatividad se basa en la forma en


que la muestra es seleccionada (los n = mejores
10.000
métodos son los que se basan en el usovotantes
planeado
del azar) N = ??
?? = millones de votantes
La representatividad se basa en el tamaño de
la muestra (en principio, mayores tamaños
mejoran la representatividad)

La muestra representa a la población si las


características de la población se repiten en la muestra.

5
17/11/2011

Muestreo aleatorio simple

Población (N):
5.000 papeletas marcadas con 1
5.000 papeletas marcadas con 0

Muestreo aleatorio simple

Se le da la urna y se le informa que contiene un número


determinado de papeletas con ceros y unos. Se le pide que
estime sus proporciones
Agita la urna (garantizamos la aleatoriedad)

Saca 1.000 papeletas


sin reposición (n)

6
17/11/2011

Muestreo aleatorio simple

Dado que todos los elementos de la urna tenían la misma


probabilidad de ser seleccionados, el muestreo es
aleatorio, por tanto:
% unos en la muestra = % unos en la urna + error aleatorio

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

Muestreo aleatorio simple

521 unos en la muestra = 500 + 21

491 unos en la muestra = 500 - 9


507 unos en la muestra = 500 + 7

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

7
17/11/2011

Distribución en el muestreo de la media


muestral

Población (N):
6 papeletas marcadas con:
2, 4, 6, 6, 7 y 8
µ = 5,5

Distribución en el muestreo de la media


muestral

Media = µ + error aleatorio


4,5 = 5,5 -1

Repetimos…
Agitamos la urna…

Sacamos 4 papeletas
(n)

2, 4, 6, 6
media = 4,5

8
17/11/2011

Distribución en el muestreo de la media


muestral
Media = µ + error aleatorio
4,5 = 5,5 -1
5,0 = 5,5 - 0,5
Repetimos…
Agitamos la urna…

Sacamos 4 papeletas
(n)
2, 4, 6, 8
media = 5,0

Distribución en el muestreo de la media


muestral

Media = µ + error aleatorio


4,5 = 5,5 -1
5,0 = 5,5 - 0,5
5,75 = 5,5la+urna…
Agitamos 0,25

Sacamos 4 papeletas
(n)

2, 6, 7, 8
media = 5,75

9
17/11/2011

Distribución en el muestreo de la media


muestral
…Si hay 6 papeletas…. La variable “sacamos 4
…y se extraen sin reposición papeletas de la urna”
4… es una variable aleatoria
¿cuántas muestras se como las estudiadas en
temas anteriores (cada
pueden extraer? extracción es una variable
aleatoria).

La distribución de probabilidades de los posibles valores que


puede tomar el estadístico (en este caso, la media) a lo largo de
todas las posibles muestras con el mismo número de
observaciones (se denomina distribución muestral) sirve para
estimar el error aleatorio a través del error estándar (y
proporciona la base para la inferencia).

Distribución en el muestreo de la media


Muestra Media muestral
muestral
2, 4, 6, 6 4,50
2, 4, 6, 7 4,75 Todas las muestras
2, 4, 6, 8 5,00 tienen la misma
2, 4, 6, 7 4,75 probabilidad de ser
2, 4, 6, 8 5,00 seleccionadas (1/15)
2, 4, 7, 8 5,25
2, 6, 6, 7 5,25
2, 6, 6, 8 5,50
2, 6, 7, 8 5,75
2, 6, 7, 8 5,75
4, 6, 6, 7 5,75
4, 6, 6, 8 6,00
4, 6, 7, 8 6,25
4, 6, 7, 8 6,25
6, 6, 7, 8 6,75

10
17/11/2011

Distribución en el muestreo de la media


muestral
Todas las muestras
tienen la misma
probabilidad de ser
Muestra Media muestral seleccionadas (1/15)
2, 4, 6, 6 4,50
2, 4, 6, 7 4,75 La distribución muestral de la media
2, 4, 6, 8 5,00 (función de probabilidad):
2, 4, 6, 7 4,75
2, 4, 6, 8 5,00
2, 4, 7, 8 5,25 Px(4,50) = 1/15 Px(6,25) = 2/15
2, 6, 6, 7 5,25 Px(4,75) = 2/15 Px(6,75) = 1/15
2, 6, 6, 8 5,50
2, 6, 7, 8 5,75 Px(5,00) = 2/15
2, 6, 7, 8 5,75 Px(5,25) = 2/15
4, 6, 6, 7 5,75
4, 6, 6, 8 6,00 Px(5,50) = 1/15
4, 6, 7, 8 6,25 Px(5,75) = 3/15
4, 6, 7, 8 6,25
6, 6, 7, 8 6,75 Px(6,00) = 1/15

Distribución en el muestreo de la media


muestral
Px(4,50) = 1/15 Px(6,25) = 2/15 Px(5,00) = 2/15
Px(5,25) = 2/15 Px(4,75) = 2/15 Px(6,75) = 1/15
Px(5,50) = 1/15 Px(5,75) = 3/15 Px(6,00) = 1/15
Px(x)
3/15 El valor esperado de la media muestral es:
2/15 1  2 1
E( X ) = ∑ xPx ( x ) =(4,5)  15  + (4, 75)  15  + ... + (6, 75)  15  = 5,5
Por tanto, el valor esperado de la media muestral es la
1/15 poblacional
media

0 4,5 5,5 6,5 7,5

11
17/11/2011

Distribución en el muestreo de la media


muestral
Por tanto, la suma de las 4 variables aleatorias será:
 n 
E  ∑ X i  =Sacamos
nµ x siendo n=4
4 papeletas
 i =1 
(n)
SeX1trata de X2
4 variables
X3
aleatorias,
X4
cuya esperanza es:
E ( X1 ) = E ( X 2 ) = E ( X 3 ) = E ( X 4 ) = µ x

La media muestral esperada será:


1  n  nµ
E(X ) = E  ∑ X i  = x = µx
n  i =1  n

LaDistribución
distribución de
enlaelmedia muestral
muestreo de está centrada
la media
en la media poblacional.
muestral
Px(x)
3/15Por el teorema central del límite, sabemos

2/15
además que sigue una distribución normal

1/15

0 4,5 5,5 6,5 7,5

12
17/11/2011

Distribución en el muestreo de la media


muestral

Media = µ + error aleatorio


4,5 = 5,5 -1
5,0 = 5,5 - 0,5
5,75 = 5,5 + 0,25



Cuando el número
Sacamosde4muestras
papeletasse hace muy grande, el
promedio de las medias
(n) muestrales tiende a la media
poblacional (µ)

Distribución en el muestreo de la media


muestral
Dado que todos los elementos de la urna tenían la
misma probabilidad de ser seleccionados, el muestreo
es aleatorio, por tanto:
% unos en la muestra = % unos en la urna + error aleatorio

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

13
17/11/2011

Distribución en el muestreo de la media


muestral
521 unos en la muestra = 500 + 21

491 unos en la muestra = 500 - 9


507 unos en la muestra = 500 + 7

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

Distribución en el muestreo de la media


muestral
521 unos en la muestra = 500 + 21

491 unos en la muestra = 500 - 9


507 unos en la muestra = 500 + 7

El error aleatorio cambia con cada extracción


No es posible conocer cuánto medirá en una
extracción particular

Es posible calcular su tamaño probable (error estándar)

14
17/11/2011

Distribución en el muestreo de la media


muestral
Px(x)
3/15

2/15

1/15

0 4,5 5,5 6,5 7,5

Es posible calcular su tamaño probable (error estándar)

Distribución en el muestreo de la media


muestral

Población (N):
6 papeletas marcadas con:
2, 4, 6, 6, 7 y 8
µ = 5,5

Sacamos 4 papeletas
(n)
15 combinaciones Sacamos 5 papeletas
(n)
6 combinaciones

15
17/11/2011

Distribución en el muestreo de la media


muestral
Todas las muestras
Sacamos 5 papeletas
tienen la misma
(n)
probabilidad de ser
6 combinaciones seleccionadas (1/6)

La distribución muestral de la media


(función de probabilidad):
Muestra Media muestral
2, 4, 6, 6, 8 5,0 Px(5,0) = 1/6
2, 4, 6, 6, 7 5,2
2, 4, 6, 7, 8 5,4
Px(5,2) = 1/6
2, 4, 6, 7, 8 5,4 Px(5,4) = 1/3
2, 6, 6, 7, 8 5,8
4, 6, 6, 7, 8 6,2
Px(5,8) = 1/6
Px(6,2) = 1/6

Distribución
Px(5,0) = 1/6 en el muestreo
Px(5,2) = 1/6 de la media
Px(5,4) = 1/3
Px(5,8) = 1/6 Px(6,2) =
muestral1/6
Px(x)

2/6

1/6

0 4,5 5,5 6,5 7,5

Es posible calcular su tamaño probable (error estándar)

16
17/11/2011

Distribución en el muestreo de la media


muestral
Px(x)
Error estándar.
La varianza muestraldedetermina el error se
aleatorio,σx
Ambas
Si n se
distribuciones
incrementa, la
la media muestral
varianza muestral EE = yen
centran
disminuye.
Indica
sirve el tamaño
para
la media calcularprobable del probable.
su tamaño
poblacional. error aleatorio. n
2/6

1/6

0 4,5 5,5 6,5 7,5

Distribución en el muestreo de la media


muestral
Px(x)
Ambas distribuciones de la media muestral se centran en la
media poblacional.
2/6
Si n se incrementa, la varianza muestral disminuye.

La varianza muestral determina el error aleatorio, y


1/6 para calcular su tamaño probable.
sirve

Error estándar. σx
EE =
Indica el tamaño probable del error aleatorio. n
0 4,5 5,5 6,5 7,5

17
17/11/2011

Distribución en el muestreo de la media


muestral
Siempre que el muestreo sea aleatorio:
Mientras mayor sea n, menor será el error aleatorio.
Si n respecto a N es muy pequeño, se puede asumir
que los valores individuales de la muestra se distribuyen
independientemente unos de otros.
El error
P.e. cometido
Muestra de al asumir
1.000 independencia
votantes sobre eles censo
muy pequeño,
total de
por lo que
votantes en las elecciones presidenciales españolas (N
σ
entorno a 30 millones). EE = x
n
Probabilidad primera extracción = 1/30 millones
Probabilidad segunda extracción = 1/(30 millones – 1)
Probabilidad 999 extracción = 1/(30 millones – 999)

Distribución en el muestreo de la media


muestral
Siempre que el muestreo sea aleatorio:
Mientras mayor sea n, menor será el error aleatorio.
Si n respecto a N no es muy pequeño, no se puede asumir
que los valores individuales de la muestra se distribuyen
independientemente unos de otros.

P.e. Muestra de 4 sobres sobre 6 sobres.


El error cometido al asumir independencia es muy grande,
porProbabilidad
lo que seprimera
aplica extracción
el factor= 1/6
de corrección por
población finita
Probabilidad (N – n)/(N
segunda – 1):= 1/(6-1)
extracción σ N −n
EE = x
·
Probabilidad cuarta extracción = 1/(6-3) n N −1

18
17/11/2011

Distribución en el muestreo de la media


muestral

Si la distribución de la población es normal:


X − µx
Z=
σx
Sigue una distribución normal estándar

Si la distribución de la población no es normal pero n es


grande, Z se considera que sigue una distribución normal
estándar por el teorema central del límite.

σx
Distribución X − µx
en el muestreo de la media
EE = muestral
Z=
n σx
La tasa de abortos en una cooperativa lechera sigue una
distribución normal con media 12,2% y desviación típica 3,6%. Se
toma una muestra aleatoria de 9 explotaciones. ¿Cuál es la
probabilidad de que la media muestral sea menor del
10%?
µx = 12,2 σx = 3,6 n=9
 X − µ x 10 − µ x   10 − µ x  σx
P ( X < 10 ) = P 
3, 6
<  = PZ <  EE = σ x = = = 1, 2
 σ x σ x   σx  n 9

 10 − 12, 2 
P ( X < 10 ) = P  Z < = P ( Z < −1,83)
 1, 2 
P ( X < 10 ) = Fz ( −1,83) = 1 − Fz (1,83) = 1 − 0,9664
P ( X < 10 ) = 0, 0336

19
17/11/2011

Distribución en el muestreo de una


proporción muestral
Se le da la urna y se le informa que contiene un número
determinado de papeletas con ceros y unos. Se le pide
que estime sus proporciones
Agita la urna (garantizamos la aleatoriedad)

Saca 1.000 papeletas


sin reposición (n)

Distribución en el muestreo de una


proporción muestral
Si en la urna hay 5.000 papeletas con ceros y 5.000
papeletas con unos:
Sea X el número de éxitos en n observaciones, donde la
probabilidad de éxito es p.
Px(1)=0,5
X
pˆ x =
En E ( X ) = np
la muestra (1.000), Var ( X ) = np (1 − p )
n
el número esperado de
unos será:
n—p = 1.000 — 0,5 = 5000
E ( pˆ x ) = p p (1 − p ) N − n
EE ( pˆ x ) = ·
La proporción n N −1
esperada será:
p(1 − p )
EE ( pˆ x ) = p −p ˆ
(n—p)/n =n(1.000 — 0,5)/1.000
Z = x = 0,5
EE ( pˆ x )

20
17/11/2011

pˆ x − p p (1 − p )
Z= Distribución en el muestreo de
EE ( una
pˆ x ) =
EE ( pˆ x ) n
proporción muestral
Tras una epidemia de lengua azul en Córdoba, se estima que el
30% de las explotaciones resulta insegura. Se toma una muestra
de 250 explotaciones para determinar la proporción de las que
resultan inseguras. Hallar la probabilidad de que la
proporción en la muestra esté entre el 25% y el 30%.
p = 0,30 n = 250
 0, 25 − p pˆ x − p 0,35 − p 
P ( 0, 25 < pˆ x < 0, 35 ) = P  < < =  p (1 − p )   0,30·0, 60 
 σˆ
 σ pˆ σ pˆ  σ pˆ =  =  =
   
p
n
 0, 25 − p 0,35 − p 
= P <Z< 
 σˆ σ pˆ 
 p
 (1 )  0, 30·0, 60 
=  =   = 0, 029
   250 
P ( 0, 25 < pˆ x < 0, 35) = P ( −1, 72 < Z < 1, 72 ) =
= Fz (1, 72) − Fz (−1, 72) = 0,9573 − (1 − 0,9573) = 0,9146

Distribución en el muestreo de la varianza


muestral

1 n
·∑ ( X i − X )
2
sx2 =
n − 1 i =1

Si la distribución poblacional es normal, entonces:

( n − 1)·sx2
σ x2

sigue una distribución χ (2n −1)

21
17/11/2011

Distribución en el muestreo de la varianza


muestral
E ( χ (2n −1) ) = n − 1 Var ( χ (2n −1) ) = 2(n − 1)
χ (2n −1)
(n - 1) = grados de libertad

0,16

χ 52
f(chi-cuadrado)

0,12

0,08

0,04

0
0 4 8 12 16 20 24
chi-cuadrado

Distribución en el muestreo de la varianza


muestral
E ( χ (2n −1) ) = n − 1 Var ( χ (2n −1) ) = 2(n − 1)
χ (2n −1)
(n - 1) = grados de libertad

0,1
χ102
f(chi-cuadrado)

0,08

0,06

0,04

0,02

0
0 10 20 30 40
chi-cuadrado

22
17/11/2011

Distribución en el muestreo de la varianza


muestral

χυ2 Es la distribución de la suma de los


cuadrados de variables aleatorias
normales estándar independientes

Si la distribución poblacional es normal, entonces:

( n − 1)·sx2
σ x2

sigue una distribución χ (2n −1)

( ) x
n − 1 ·s 2
Distribución
σx2 χ 2
en el muestreo de la varianza
( n −1)
muestral
Cuando una fábrica de piensos funciona adecuadamente, el peso
de los sacos de 50 kg sigue una distribución normal con
desviación típica 3,6. Se toma una muestra aleatoria de 4 sacos.
¿Qué probabilidad hay de que la varianza sea superior a
30?.
n=4 σx = 3,6 σx2 = 12,96
 (n − 1) sx2 30(n − 1) 
P ( sx2 > 30 ) = P  > P ( χ 32 > 6, 25 ) = 0,10
=
 σx σ x2 
2
P ( χ 32 > 7,81) = 0, 05
 30·3 
= P  χ 32 > = P ( χ 32 > 6,94 )
 12,96 
0, 05 < P ( sx2 > 30 ) < 0,10

23
17/11/2011

Muestreo aleatorio simple

La inferencia basada en la media muestral es robusta


debido a que si la distribución de la población de la que
extrae la muestra se desvía de la normal, el error cometido
en el cálculo de probabilidades es pequeño.

La inferencia basada en la varianza muestral es muy


sensible a las desviaciones de la distribución de la
población respecto a la normal, por lo que el error cometido
en el cálculo de probabilidades es grande.

Sesgo

Estimador = Parámetro + Error aleatorio + Sesgo

24
17/11/2011

Sesgo

Sesgo. Distorsión causada por la selección de la


muestra, que potencia o excluye cierto tipo de
resultados.

Estimador = Parámetro + Error aleatorio + Sesgo

Sesgo

Sesgo. Distorsión causada por la selección de la


muestra, que potencia o excluye cierto tipo de
resultados.
- El sesgo se controla aleatorizando el muestreo.

- Cualquier tipo de selección provoca sesgo.


- Es difícil de detectar.
- Si se detecta, tampoco se “puede” corregir.

25
17/11/2011

Sesgo

Por ejemplo. Para estudiar la opinión de los españoles


sobre la ley del aborto, hacemos una encuesta a 100.000
españoles.

Los encuestadores preguntan a la salida de misa en la


puerta de las iglesias.
La muestra es seleccionada aleatoriamente a partir del
listín telefónico.
Los encuestadores preguntan a padres y madres en la
puerta de los colegios.

Sesgo

Ejemplos de sesgo.
Los indecisos.
Sesgo de respuesta.
Sesgo de no respuesta.
Sesgo del hogar.
Sesgo del entrevistador.

26