Sie sind auf Seite 1von 25

La clase anterior

Presentamos los fundamentos de


probabilidades continuas.
Densidad, distribucin, etc.
Presentamos la Distribucin Normal.
Hoy.
Veremos por qu todo es normal
Estudiaremos principios de muestreo e
inferencia estadstica.

IND3100 - Prof. Jorge Vera A. 2013

Por qu la distribucin normal parece tan normal?


Se mide la estatura de un grupo de personas (por
ejemplo, en esta sala).
Si se hace el histograma segn rangos de altura, va a
parecer normal
La altura es resultado de muchos factores, cada uno de
los cuales est sujeto a variaciones
Es sorprendente que los efectos acumulados de esas
variaciones termina teniendo un comportamiento
normal
Uno de los resultados ms importantes en
probabilidades es el que veremos a continuacin

IND3100 - Prof. Jorge Vera A. 2013

Teorema Central del Lmite (TCL)


Supongamos que tengo n variables aleatorias:
X1, X2, , Xn
Supongamos que todas son independientes e
idnticamente distribuidas con media , y
desviacin estndar .
Sea: Sn=X1 + X2 + + Xn
Entonces, a medida que n se hace grande, Sn
distribuye aproximadamente normal con
media Sn = n
desviacin estndar Sn = n
Este resultado es vlido independiente de la
distribucin de probabilidades de los Xi.

IND3100 - Prof. Jorge Vera A. 2013

Teorema Central del Lmite (TCL)


Tambin podemos concluir que si tomamos el
promedio de las variables aleatorias:
S =(Sn/n)=(X1 + X2 + + Xn)/n
Entonces, a medida que n se hace grande, el
promedio distribuye aproximadamente normal

con media S = y desviacin estndar S =


n
Nota: n no necesita ser muy grande.
Tpicamente n 30 basta.
Importancia del resultado

IND3100 - Prof. Jorge Vera A. 2013

Ejemplo TCL: Lanzar un dado varias veces


Supongamos lanzamos un dado n veces y
registramos la suma de los nmeros
X1 , X2 , , Xn son las v.a. que representan
los nmeros en cada tirada.
La suma es X1 + X2 + + Xn
Recordemos la tabla con n = 2:
1

10

10

11

10

11

12

IND3100 - Prof. Jorge Vera A. 2013

Ejemplo TCL: Lanzar un dado varias veces


0.250

n=3

0.200
0.150
0.100
0.050

IND3100 - Prof. Jorge Vera A. 2013

17

15

13

11

0.000

17

15

13

11

17

0.250

0.000

n=2

0.000
15

0.050

13

0.050

11

0.100

0.100

0.150

0.150

0.200

0.200

n=1

0.250

Ejemplos:
Veamos algunas animaciones

http://www.ms.uky.edu/~mai/java/stat/Galto
nMachine.html

IND3100 - Prof. Jorge Vera A. 2013

Comentarios sobre el TCL


n no tiene que ser TAN grande (30 es suficiente),
especialmente si la distribucin de los Xi es decente
Ms o menos simtrica y con colas no muy pesadas.
El TCL es otra forma de las llamadas leyes de grandes
nmeros
La distribucin de probabilidades de los Xi no importa, ms
an, incluso hay formas avanzadas del TCL en donde las
v.a. no necesitan ser i.i.d. (con n ms grande, eso s).
Entonces, la distribucin Normal puede aparecer de al
menos tres formas:
Como un modelo natural para muchos procesos fsicos
Como la suma de muchas variables aleatorias
Como una aproximacin de la suma o promedio de muchas v.a. iid

IND3100 - Prof. Jorge Vera A. 2013

Aproximacin de Binomial con Normal


Supongamos que X es Binomial(n, p)
E(X) = np
VAR(X) = np(1-p)
Sea Y una v.a. normal con media np y varianza np(1-p)
Entonces, Y es una buena aproximacin de X si n es
grande.
Una buena regla es usar esta aproximacin slo si:

np 5 y n(1 - p) 5
IND3100 - Prof. Jorge Vera A. 2013

Aplicacin del TCL: Binomial(n,0.8)

25

20

15

10

IND3100 - Prof. Jorge Vera A. 2013

25

0.05
0.00

0.00

25

0.10

0.05

20

0.10

20

0.20
0.15

15

0.20
0.15

n = 25

0.25

0.25

15

25

0.35
0.30

n = 20

0.30

10

0.00
5

0.05

0.00

0.10

0.05
20

0.15

0.10

15

0.20

0.15

10

0.25

0.20

0.25

0.30

0.35

n = 15

0.35

0.30

10

n = 10

0.35

Ejemplo 3.13 de Bertsimas y Freund


Un proceso de manufactura de semiconductores tiene una
tasa de defectos de 1 en 1.000. Qu tan probable es que
hayan al menos 10 piezas defectuosas en un lote de
6.000 unidades?
Sea X el nmero de defectuosos en el lote de 6000.
X distribuye Binomial(n,p) con n=6000, p=0,001.

X = np = 6, 0; X = np(1 p) = 2, 448
Estamos en los rangos vlidos de la aproximacin y X
puede aproximarse por una v.a. normal, Y, con esos
parmetros.

P ( X 10) Pnormal (Y 10) =

Y 6 10 6

P
=
2, 448 2, 448

P( Z 1, 63) 0, 0516
IND3100 - Prof. Jorge Vera A. 2013

IND 3100
Magster en Ingeniera Industrial
Departamento de Ingeniera Industrial y de Sistemas
Pontificia Universidad Catlica de Chile

Modelos Cuant. Para la Toma de Dec.

Muestreo y elementos de Inferencia


Estadstica

IND3100 - Prof. Jorge Vera A. 2013

Un Ejemplo
NEXNet es una empresa pequea pero agresiva en el mercado
de telecomunicaciones de la costa Este de EEUU, y est
considerando moverse hacia el Norte, al rea de Boston.

NEXNet quiere estimar la cuenta telefnica mensual promedio en


las comunidades de Weston, Wayland, y Sudbury, mediante una
encuesta telefnica. Para motivar a la gente a participar, NEXNet
ofrecer cupones de descuentos en ciertos productos al encuestar
a los participantes.

A cuntas personas debera encuestar NEXNet


(exitosamente) para estimar en forma exitosa la cuenta
telefnica promedio en estas tres comunidades?

Cmo debera analizar NEXNet los resultados de la encuenta?


IND3100 - Prof. Jorge Vera A. 2013

Qu estudiaremos
Muestras aleatorias.
Indicadores de la muestra: media y desviacin
estndar muestral.
Distribucin de la media muestral.
Intervalos de confianza para estimar.
Diseo del tamao muestral.
Comparaciones de poblaciones sobre la base
de muestras.

IND3100 - Prof. Jorge Vera A. 2013

Muestra Aleatoria
Poblacin: conjunto de todos los elementos de inters

Muestra: subconjunto de una poblacin


Muestra aleatoria: una muestra recolectada de tal
forma que cada miembro de la poblacin pueda ser
seleccionado con igual probabilidad

Objetivo: Hacer inferencia sobre una


poblacin sobre la base de la informacin
de una muestra.
IND3100 - Prof. Jorge Vera A. 2013

Usos del Muestreo Estadstico


Dnde se usa muestreo y
estadsticas?

IND3100 - Prof. Jorge Vera A. 2013

Una Encuesta que Fall


Ejemplo: Eleccin presidencial de EEUU en
1936, Alf Landon vs Franklin D. Roosevelt.
Octubre 1936, Literary Digest llev a cabo la
encuesta ms grande de la historia (10 millones de
votantes).
Su prediccin fue que Landon ganara por 4:3
en votos populares.
Un mes despus, Roosevelt fue reelecto con la
ms grande mayora en la historia de EE.UU.
Qu pas?

La revista quebr al poco tiempo

IND3100 - Prof. Jorge Vera A. 2013

Una Encuesta que Fall


Problemas:
Nombres obtenidos principalmente de las
guas telefnicas, listas de correo y
subscripciones
Slo 1 de cada 4 americanos tena telfono
Los pobres tendan a favorecer a Roosevelt
Literary Digest recibi de regreso slo el 20%
de las encuestas
Se sabe que los que no responden tienden a diferir
de varias formas de los que s responden

IND3100 - Prof. Jorge Vera A. 2013

Volvamos al Ejemplo
Sigamos con NEXNet
Sobre la base de las respuestas a la encuesta, podemos
preguntar, por ejemplo:

Cul sera un estimador de la probabilidad que


la cuenta sea menor a $45? Es decir, Pr(X<=45)

Cul sera un estimador de la probabilidad


que la cuenta sea menor a $90 y mayor a $75?
Es decir, Pr(75<=X<=90)

IND3100 - Prof. Jorge Vera A. 2013

Respondent October
Number
Phone Bill
1
$95.67
2
$82.69
3
$75.27
4
$145.20
5
$155.20
6
$80.53
7
$80.81
8
$60.93
9
$86.67
10
$56.31
11
$151.27
12
$96.93
13
$65.60
14
$53.43
15
$63.03
16
$139.45
17
$58.51
18
$81.22
19
$98.14
20
$79.75
21
$72.74
22
$75.99
IND3100 - Prof.
2013
23 Jorge Vera A. $80.35
24
$49.42

Sample Data of October Phone Bills


(sample size n = 70)
Respondent October Respondent October
Number
Phone Bill
Number
Phone Bill
25
$79.32
49
$90.02
26
$89.12
50
$61.06
27
$63.12
51
$51.00
28
$145.62
52
$97.71
29
$37.53
53
$95.44
30
$97.06
54
$31.89
31
$86.33
55
$82.35
32
$69.83
56
$60.20
33
$77.26
57
$92.28
34
$64.99
58
$120.89
35
$57.78
59
$35.09
36
$61.82
60
$69.53
37
$74.07
61
$49.85
38
$141.17
62
$42.33
39
$48.57
63
$50.09
40
$76.77
64
$62.69
41
$78.78
65
$58.69
42
$62.20
66
$127.82
43
$80.78
67
$62.47
44
$84.51
68
$79.25
45
$93.38
69
$76.53
46
$139.23
70
$74.13
47
$48.06
48
$44.51

Frecuencia(%)

Histograma
Histograma
Es esto la distribucin de
probabilidad del valor de la
cuenta telefnica?

10.0
8.0
4.0
0
40

60

80

100

120

140

Cuenta Telef. Mensual ($)

IND3100 - Prof. Jorge Vera A. 2013

El Problema (formal)
Discutiremos ms adelante cmo
determinar n, el tamao de la muestra.
Nuestro problema actual es:
Basado en slo n valores muestrales
X1, X2, . . . , Xn , queremos hacer
inferencias acerca de la poblacin
entera.

IND3100 - Prof. Jorge Vera A. 2013

Ms

Estimador de la Media Poblacional


Media muestral: suma de todos los elementos
de la muestra aleatoria, dividida por el tamao
de la muestra, es decir, el promedio emprico.

X=

X 1 + X 2 + ... + X n
n

Mediana muestral: el valor para el cual la


mitad de los elementos estn por debajo, es
decir, el percentil 50.

Frecuencia(%)

IND3100 - Prof. Jorge Vera A. 2013

Histograma
10.0
8.0
4.0
0
40

60

80

100

120

140

Ms

Cuenta Telef. Mensual ($)


Mediana muestral = $76,65

Media muestral = $79,40

La media muestral toma en cuenta los valores numricos de cada


observacin, pero puede verse distorsionada por valores extremos.
La mediana muestral no se ve afectada por la magnitud de los
valores extremos. Slo entrega informacin de posicin.
IND3100 - Prof. Jorge Vera A. 2013

Estimador para Desv. Est. Poblacional


La desviacin estndar muestral S es:
n

S=

(X
i =1

X )2

n 1

Usaremos S para estimar la desviacin estndar poblacional


Pregunta: Por qu n - 1, y no n?
Respuesta: Porque es un mejor estimador

La varianza muestral S2 es un estimador insesgado


de la varianza poblacional, es decir, E [S2] = 2.

Cuando n es grande, la diferencia es despreciable.

IND3100 - Prof. Jorge Vera A. 2013

Volvamos al Ejemplo
NEXNet se organiza para tener 70 hogares bien encuestados
y seleccionados aleatoriamente. Encuentran que la media
muestral observada de la cuenta telefnica mensual es
$79,40, y que la desviacin estndar muestral observada es
$28,79.
Cul es su estimador de la media poblacional ?

x = $79,40
$79,40
Cul es su estimador de la desviacin estndar poblacional ?

28,79
s = $$28,79

IND3100 - Prof. Jorge Vera A. 2013

Cmo entender el procedimiento de muestreo?


Cada toma de la muestra es una v.a.
X1, X2, . . . , Xn son v.a. independientes e idnticamente
distribuidas
Cada Xi tiene la misma distribucin que la poblacin entera:
Var[Xi] = 2.
E[Xi] = ,

X=

X 1 + X 2 + ... + X n es la media muestral (una v.a.)


n
n

(X

S=

i =1

X )2

es la desviacin estndar muestral


(una v.a.)

n 1

IND3100 - Prof. Jorge Vera A. 2013

Cmo entender el procedimiento de muestreo?


Despus de tomar la muestra:
x1, x2, . . . , xn (con minscula) son valores observados
de la muestra (nmeros)

x=

x1 + x2 + ... + xn
n

es nuestro estimador para

s=

(x x )
i =1

n 1

es nuestro estimador para

Tpicamente, obtendremos resultados diferentes de


muestras diferentes, es decir, de cada repeticin de la
toma.

IND3100 - Prof. Jorge Vera A. 2013

Qu tan buena es la media muestral?


El valor esperado de la media muestral:

X + X 2 + ... + X n = 1 E X + X + ... + X
( 1 2
E( X ) = E 1
n)

n
n

1
n
= ( E ( X 1 ) + ... + E ( X n ) ) =
=
n
n
En promedio, estamos estimando lo que queremos!
Tambin:

X + X 2 + ... + X n = 1 (Var X ) + ... + Var ( X )


Var ( X ) = Var 1
( 1
n )

n
n

1
2
2
= 2 (n ) =
n
n

y:

SD( X ) =

IND3100 - Prof. Jorge Vera A. 2013

Qu tan buena es la media muestral?


La media muestral es un estimador insesgado
de la media poblacional
A medida que aumenta el tamao de la
muestra, el estimador de la media presenta
menos variabilidad
Y esto coincide con la intucin sobre
estimacin de promedios
Observacin: ntese que hemos calculado Var ( X )
no la varianza de X.

IND3100 - Prof. Jorge Vera A. 2013

Cul es la distribucin de la media muestral?


Volvamos al ejemplo:
Cul es la probabilidad de que la media estimada est
a lo ms a una distancia L de ?
Supongamos que la distribucin de probabilidad de una
cuenta telefnica mensual tpica es normal....

L
X
L

P ( L X L) = P

/ n / n / n

Qu distribucin tiene esto?


IND3100 - Prof. Jorge Vera A. 2013

Cul es la distribucin de la media muestral?


Notar que ( X ) / ( / n ) tendr distribucin
Normal(0,1) siempre y cuando se conozca el verdadero
valor de .
Pero slo conocemos un estimador: s.
Se puede mostrar que la desv. estndar muestral sigue
una distribucin Chi-cuadrado (denotado 2 ) con n-1
grados de libertad
El cuociente entre una distribucin normal y una chicuadrado se conoce como una distribucin t-Student.
Entonces en:
Tiene distribucin t

L
X
L
= P

s/ n s/ n s/ n
IND3100 - Prof. Jorge Vera A. 2013

La distribucin t-student

k
k 2

IND3100 - Prof. Jorge Vera A. 2013

Cul es la distribucin de la media muestral?


La t tiene colas ms pesadas que la normal...
Pero se parecen mucho cuando n es grande.
Como consecuencia del Teorema Central del Lmite
tenemos que si n es grande, entonces

X
s/ n
Distribuye aproximadamente Normal(0,1)
Esto nos permite usar la distribucin normal al calcular
probabilidades de la media muestral normalizada, pero
slo cuando la muestra es grande.

IND3100 - Prof. Jorge Vera A. 2013

Volvamos al Ejemplo
NEXNet determina que la media muestral observada de la
cuenta telefnica mensual es $79,40, y que la desviacin
estndar muestral observada es $28,79.

Qu tan confiados podemos estar de que la media


poblacional sea =79,40?
Qu tan confiados podemos estar de que $79,40 est dentro
de +/- 1 de la verdadera media poblacional ?

Pr(1 < X < 1) = ?

IND3100 - Prof. Jorge Vera A. 2013

Cunto confiamos en la media muestral?


Para un tamao muestral grande n,

X N ( , sn )
2

Cul es la probabilidad de que X est a lo ms a una


distancia L de ?

L
X
L

P ( L X L) = P

/ n / n / n
L
X
L
= P

s/ n s/ n s/ n
L
L
P
Z

s/ n
s/ n
Donde Z es Normal(0,1)

IND3100 - Prof. Jorge Vera A. 2013

Volvamos al Ejemplo
Qu tan tan confiados podemos estar de que $79,40 est
dentro de +/- 1 de la verdadera media poblacional ?

L
s/ n

1
= 0, 2906
28, 79 / 70

Luego:

P(1 X 1) P(0, 2906 Z 0, 2906) = 0, 229.


Suponga que quiero estar 95% seguro que $79,40 est a
L dlares de la verdadera media poblacional. Cunto
debe valer L?

IND3100 - Prof. Jorge Vera A. 2013

Ejemplo (cont.)
Hay que calcular L tal que:

L
L
Z
0,95 = P( L X L) = P

s/ n
s/ n

El percentil 0,95 de la normal en este caso es 1,96 y:

L
= 1,96 L = 1,96 28,79/ 70 = 6,74.
s/ n
Por lo tanto, tenemos un 95% de confianza que la media
muestral $79,40 se encuentra a lo ms a L = $6,74 dlares
de la media poblacional
Al intervalo [79,40 6,74, 79,40 + 6,74] se le llama
intervalo de confianza al 95% para la media poblacional.

IND3100 - Prof. Jorge Vera A. 2013

Ejemplo (cont.)
Que tal si queremos estar 99% seguros?
El intervalo es ms ancho o ms angosto?
Haciendo el clculo nuevamente tenemos:

L
= 2,58 L = 2,58 28,79/ 70 = 8,86.
s/ n
Un IC al 99% para sera [79,40 8,86, 79,40 + 8,86].

IND3100 - Prof. Jorge Vera A. 2013

Resumen: Intervalos de Confianza


El intervalo de confianza nos permite estimar qu tan
cerca est nuestro estimador del valor verdadero .
Es correcto siempre entregar un intervalo de confianza
de la forma

El nivel de confianza representa la probabilidad de que


los intervalos que calculamos incluyan .
L es determinado por el tamao muestral n, el nivel de
confianza, y la desviacin estndar (o su estimador s)

IND3100 - Prof. Jorge Vera A. 2013

Resumen: Construyendo un IC al % para


Suponga que x es la media muestral observada y que s es la
desviacin estndar muestral observada, ambas calculadas de los
datos de una muestra. Si n es suficientemente grande, entonces
un IC al % para la media poblacional sera:

s
s

c
,
x
+
c

n
n

donde c es un nmero tal que

P(c Z c) = % , Z N (0,1)
Para = 90,
Para = 95,
Para = 99,

c = 1,65
c = 1,96
c = 2,58

IND3100 - Prof. Jorge Vera A. 2013

Comentarios
Idealmente, queremos un intervalo angosto (L pequeo)
con un alto nivel de confianza (alto ). Objetivos
contrapuestos.
Para un tamao muestral fijo (n es fijo), si queremos
afirmar algo con un nivel de confianza ms alto,
necesitamos un intervalo ms ancho (L ms grande).
trade-off entre ancho del intervalo y el nivel de confianza

Para un nivel de confianza fijo ( y c son fijos), si


aumentamos el tamao muestral n, entonces
obtendremos un L ms pequeo.
A mayor tamao de muestra, ms precisos los
estimadores
IND3100 - Prof. Jorge Vera A. 2013

Comentarios
Para un tamao muestral fijo y un nivel de confianza
fijo, podemos obtener un intervalo ms angosto, cuando
la poblacin es menos variable ( y s pequeos).
Es ms fcil inferir sobre una poblacin con baja
dispersin

Si tomamos muestras repetidamente, y calculamos los


intervalos de confianza, cada vez obtendremos un
intervalo diferente.
Si hacemos esto una y otra vez, el tanto % de los
intervalos resultantes incluirn la media poblacional.

IND3100 - Prof. Jorge Vera A. 2013

Diseo Experimental
Una empresa de investigacin de mercado quiere llevar a cabo una
encuesta para estimar el monto promedio gastado por cada persona
que visita un resort popular. A esta empresa le gustara estimar el
monto promedio en un rango de +/- $120, con un nivel de confianza
de un 95%. Asumamos que la SD poblacional del gasto en el resort
es de $500.
Cul es el tamao muestral n que se requerir para esto?

500
1,96 500
120 = L = c
= 1,96
n=
67
n
n
120

Pero si no conocemos , primero


debemos estimarlo con s.

IND3100 - Prof. Jorge Vera A. 2013

Determinando el tamao muestral


Para construir in IC al % que est dentro de +/- L de , el tamao
muestral requerido esta dado por:

c s
n=

donde c es el nmero para el cual:

P (c Z c) = % , Z N (0,1)
Para = 90,
Para = 95,
Para = 99,

c = 1.65
c = 1.96
c = 2.58

Como regla general, n debe ser siempre redondeado hacia


arriba, y tambin debera ser siempre suficientemente grande
(mayor a 30) para usar la aproximacin normal.
IND3100 - Prof. Jorge Vera A. 2013

Comparando tratamientos
Ejemplo:
Empresa de retail quiere estimar la efectividad de una
campaa de marketing con envo de anuncios por
correo. Para esto selecciona dos grupos de 600
personas: al primer grupo se le enva la campaa y al
segundo (el control) no se le enva. Luego, se
investiga la demanda en cada grupo.
El problema: Hay diferencia significativa entre los que
se les envi la publicidad y a los que no?
Lo que habra que hacer: muestrear en cada grupo,
estimar las medias de demanda y ver si son
diferentes.

IND3100 - Prof. Jorge Vera A. 2013

Comparando tratamientos
El primer grupo tiene una media 1 y desv. est. 1,
mientras que el segundo grupo tiene media 2 y
desv.est. 2
Supongamos se muestrean n1 personas en el primer
grupo y n2 en el segundo.
Sean x1,x2,,xn1 las observaciones de demanda para el
primer grupo.
Sean y1,y2,,yn2 las observaciones de demanda para el
segundo grupo.
Las dos medias muestrales son:

x1 =

x1 + ... + xn1
n1

y1 =

y1 + ... + yn2
n2

IND3100 - Prof. Jorge Vera A. 2013

Comparando tratamientos
Tenemos que (por independencia):

E ( X Y ) = 1 2 , Var ( X Y ) = Var ( X ) + Var (Y )


Ahora:
Luego,

Var ( X ) =

12

DS ( X Y ) =

n1

, Var (Y ) =

12
n1

22
n2

22
n2

Y la variable aleatoria:
( X Y ) ( 1 2 )
Z=
12 22
+
n1 n2
Es aproximadamente normal (0,1), si n1 y n2 son
grandes.
IND3100 - Prof. Jorge Vera A. 2013

Comparando tratamientos
Lo anterior permite construir un intervalo de confianza
para la diferencia de medias:

12 22
12 22
(
x

y
)

c
+
,
(
x

y
)
+
c
+

n1 n2
n1 n2

Donde c, como siempre, es el percentil de la


distribucin N(0,1) para un nivel de confianza dado.

Para = 90,
Para = 95,
Para = 99,

c = 1,65
c = 1,96
c = 2,58

IND3100 - Prof. Jorge Vera A. 2013

Comparando tratamientos
Volviendo al ejemplo:
Supongamos n1=500, n2=400.
La media muestral en el grupo 1 es $387 y en el grupo 2
es de $365. Las desv.est. son $223 y $274
respectivamente en grupo 1 y grupo 2.
La estimacin de la diferencia es 387-365=22.
La desv.est de la diferencia es:

12

22

2232 2742
+
=
+
= 16,95
n1 n2
500 400

Y el intervalo de confianza al 98% es:

[ 17.43 , 61.43]
Hay diferencias entre los tratamientos?
IND3100 - Prof. Jorge Vera A. 2013

Das könnte Ihnen auch gefallen