Sie sind auf Seite 1von 17

1

INFERENCIA ESTADSTICA:
Profesor: Juan Garrido Ziga (Ms. Sc. Estadstica - Matemtica)
Una poblacin la constituyen todos los elementos (entidades) del universo con
respecto al cual se desea investigar, obtener conclusiones, tomar decisiones, etc.
Para una poblacin finita el nmero de elementos se denota por N .
Una muestra aleatoria de tamao n es un conjunto de variables aleatorias
( X 1 , X 2 , .........., X i , ........., X n ) tales que:
i)
Las variables aleatorias X i son independientes
ii) Las variables aleatorias X i tienen la misma distribucin de
probabilidades
Una muestra es un conjunto de valores ( x1 , x2 , ........., xi , ......, xn ) que toman las
variables aleatorias X i que componen una muestra aleatoria de tamao n.
Porque debemos extraer muestras desde una poblacin?
Respuesta: Porque en todo estudio, proyecto, investigacin, etc. existen ciertas
caractersticas numricas que describen a la poblacin y que reciben el nombre
de parmetros. Los verdaderos valores de estos parmetros son desconocidos
debido a que observar (medir, encuestar, etc.) a todas los elementos de la
poblacin (Censo) est descartado por tener costos prohibitivos y adems
demandar mucho tiempo.
Como alternativa entonces, seleccionamos en forma aleatoria, un subconjunto de
la poblacin llamado muestra y a partir de los valores observados en la muestra
calculamos estimaciones de estos parmetros desconocidos.
La Inferencia Estadstica es una tcnica mediante la cual a partir de las
observaciones obtenidas de una muestra aleatoria, se infieren conclusiones para

toda la poblacin de inters. Se usa entonces el mtodo inductivo, dado que se


proyecta desde lo especfico (muestra) hacia lo general (poblacin).
Evidentemente en un procedimiento de esta naturaleza debemos admitir la
posibilidad de error y nunca se tendr certeza sobre una proposicin basada en la
observacin de una muestra. Sin embargo, la estadstica es una ciencia y
asociada a cualquier proposicin, existe una medida de la confiabilidad de esta,
la cual se mide en trminos de probabilidad, esto es, para cada inferencia
estadstica conocemos la probabilidad de que tal inferencia sea correcta.
El anlisis de datos con propsitos inferenciales consta de las siguientes etapas:
1) Estimacin Puntual de un parmetro
2) Estimacin de un parmetro por Intervalos de Confianza
3) Pruebas de Hiptesis para uno o ms parmetros
1) Estimacin Puntual:
Como se mencion anteriormente un parmetro es una caracterstica numrica
descriptiva de toda la poblacin. Como los parmetros son desconocidos, dado
que no censamos la poblacin, extraemos muestras aleatorias desde la
poblacin, y con los valores obtenidos de la muestra, calculamos los llamados
estadsticos. Por lo tanto un estadstico es una funcin de la muestra y el valor
numrico del estadstico, llamado punto muestral, se usa como estimacin del
parmetro. Se obtiene entonces una estimacin puntual del parmetro.
2
Ejemplos: En una poblacin N ( ; ) se tiene que:
N

Media Poblaciona l

x
i 1

y Varianza Poblaciona l 2

( x
i 1

)2

Pr oporcin Poblaciona l
P( X i 1) y

P( X i 0 ) 1

x
i 1

1 si el atributo est
donde xi
0 si el atributo no est

Son ejemplos de parmetros. Mientras que:


n

Media muestral X

i 1

Varianza muestral S n21

( x
i 1

X )2

n 1

X
i 1

Pr oporcin muestral p
in

X
i 1

1 si el atributo est
donde X i
0 si el atributo no est

total de sujetos que poseen el atributo en la muestra

Son ejemplos de estadsticos (estimadores). Para denotar un parmetro genrico


(sin especificar de cual se trata) usaremos y para denotar un estimador del

parmetro usaremos . Los estimadores de los parmetros se pueden obtener


por el Mtodo de Mxima Verosimilitud, por el Mtodo de los Momentos o por
el Mtodo de Mnimos Cuadrados (regresin lineal)
Ejemplo: Las ganancias (dlares) por accin de diez valores burstiles, en un
da fueron: 10 ; 16 ; 5 ; 10 ; 12 ; 8 ; 4 ; 6 ; 5 ; 4. Calcular
estimadores puntuales para los parmetros: media, varianza, desviacin estandar
y la proporcin de valores cuya ganancia por accin fu mayor que 8.5 dlares
Solucin:
n

Media muestral

x
i 1

8 dlares

n
n

Varianzamuestral S n21

( x

i 1

X )2
15.78

n 1

S n 1 3.97 dlares

Proporcin muestral p

X
i 1

1 si xi 8.5
4
0.40 ; donde X i
10
0 si xi 8.5

x1 1 , x2 1 , x3 0 , x4 1 , x5 1 , x6 0 , x7 0 , x8 0 , x9 0 , x10 0

Propiedades de los Estimadores:


Error de estimacin: Sea un estimador de un parmetro . Se define el
error de estimacin por la diferencia: (Puede ser positivo o negativo)
Estimador Insesgado: Sea un estimador de un parmetro . Se dice que el
estimador es insesgado si: E ( )
Ejemplo: Sean 1 y 2 estimadores puntuales de un parmetro . La figura
siguiente corresponde a la distribucin muestral de ambos y puede observarse
que solo el estimador 1 es insesgado puesto que E ( 1 ) y E ( 2 )

Si no es insesgado, define el sesgo del estimador por: sesgo ( ) E( )


Si un estimador es insesgado se tiene que: sesgo ( ) 0
Ejemplo: Sea ( X 1 , X 2 , .........., X i , ........., X n ) una mat(n) tal que: X i ~ N ( ; 2 )
2
Por lo tanto X i ~ N ( ; 2 ) E( X i ) y V ( X i ) E( X i ) E 2 ( X i ) 2
2
Probaremos que X y S n21 son estimadores insesgados de y

2
Por lo tanto la varianza muestral S n 1 es un estimador insesgado de 2
Es natural preferir, de entre dos estimadores, aquel estimador cuya distribucin
est ms concentrada alrededor del parmetro poblacional que se est estimando.

Definicin: Sean 1 y 2 dos estimadores insesgados de un mismo parmetro


calculados con un mismo tamao de muestra, entonces diremos que:
1 es ms eficiente 2 si Var( 1 ) < Var( 2 )
i)
ii)

Var (1 )

la eficiencia relativa de 2 respecto de 1 es igual a:


Var (2 )

Si la eficiencia relativa es menor que 1, entonces 1 es ms eficiente que 2

Supongamos que tenemos una coleccin finita (1 , 2 , ...., n ) de estimadores de


un parmetro . El estimador ms eficiente de entre esta coleccin, ser aquel
estimador que sea insesgado de varianza mnima.
Error Cuadrtico Medio de un estimador: Sea un estimador de un
parmetro . Se define el error cuadrtico medio del estimador por:
ECM ( ) E ( ) 2
El error cuadrtico medio puede expresar como:

ECM ( ) E ( ) 2 E ( 2 2 2 ) E ( 2 ) 2 E ( ) 2 )
E ( 2 ) E 2 () E 2 () 2E ( ) 2 Var () ( E () ) 2
Var ( ) sesgo2 ( )

2
2
Por lo tanto: ECM ( ) E ( ) sesgo () Var ()
El ECM () es la suma de dos cantidades positivas y por lo tanto es positivo
Si un estimador es insesgado se tiene que: sesgo ( ) 0 y en tal caso:

ECM ( ) Var ()
Estimador Consistente: Sea un estimador de un parmetro , calculado para
una poblacin de N elementos y a partir de una muestra aleatoria de tamao n .
Diremos que este estimador es consistente si:
Cuando n N se tiene que , lo cual significa que a medida que si se
incrementa el tamao de la muestra n , entonces el valor del estimador tiende a
ser ms prximo al valor del parmetro.
Criterio para consistencia: Diremos que un estimador de un parmetro es
consistente si:
lim ECM ( ) 0
n

Mtodo de Mxima Verosimilitud


Es un procedimiento para obtener estimadores puntuales de los parmetros
desconocidos de una distribucin de probabilidades discreta y/o continua.
Las variables aleatorias discretas estn definidas por funciones de cuanta:
f ( x) P( X x) tales que i) f ( x) 0 , x ; ii ) f ( x) 1

Las variables aleatorias continuas estn definidas por funciones de densidad:


b

f ( x) tales que : i) P( a X b)

f ( x) dx

ii ) f ( x) 0 , x ; iii )

f ( x) dx 1

Usaremos la siguiente secuencia de pasos para obtener un estimador puntual de


mxima verosimilitud (EMV), de un parmetro
Paso 1: Se formula la funcin de verosimilitud, que equivale a la distribucin
conjunta de una muestra aleatoria ( X 1 , X 2 , .........., X i , ........., X n ) en la cual las
variables aleatorias X i son independientes e igualmente distribuidas con una
funcin de cuanta o densidad f ( x ; ) , siendo el parmetro a estimar.
LX ( ) f ( x1 ; ) f ( x2 ; ) .................. f ( xn ; )

Paso 2: Aplicamos logaritmo natural a la funcin verosimilitud obteniendo:


n

ln LX ( ) ln f ( xi ; )
i 1

Paso 3: Se deriva (parcialmente) ln LX ( ) con respecto al parmetro , esto es:


ln L X ( )

Paso 4:

ln LX ( )
0 ( xi )

Muestreo y distribuciones muestrales.


Muestreo Aleatorio (muestreo probabilstico)
El muestreo aleatorio es aquel en el cual cada uno de los elementos de la
poblacin de inters o poblacin objetivo, tiene una probabilidad conocida de
ser incluidos en la muestra. A las muestras obtenidas por este criterio se las
llama muestras probabilsticas o cientficas.
Muestreo Aleatorio Simple.
Formalmente el muestreo aleatorio simple est caracterizado por la siguiente
definicin: Sean N y n respectivamente el nmero de elementos de la
poblacin y de la muestra. Una muestra aleatoria simple es aquella en que todos
los elementos de la poblacin tienen la misma probabilidad de ser seleccionados
y se seleccionan independientemente, es decir la seleccin de un elemento no
afecta la probabilidad de que sean seleccionados otros elementos.
Ejemplo: Se realiza el muestreo sin reposicin y de modo que cada una de las
N
muestras posibles tenga la misma probabilidad de ser seleccionadas.
n

Suponga una poblacin de N 5 elementos , a saber 1, 2, 3, 4, 5 y deseamos


extraer una muestra aleatoria simple de n 2 elementos, entonces el nmero de
muestras posibles (sin reposicin) estar dado por:
N 5
10
n 2

y la probabilidad de ser seleccionada cada una es 0.1

Las diez muestras posibles sin reposicin de tamao n 2 de este ejemplo son:
(1; 2) ; (1; 3 ) ; (1; 4 ) ; (1; 5 ) ; ( 2 ; 3 ) ; ( 2 ; 4 ) ; ( 2 ; 5 ) ; ( 3; 4 ) ; ( 3; 5 ) ; ( 4 ; 5 )

Distribucin muestral (distribucin de muestreo)


Recordemos que un estadstico es un valor calculado a partir de los valores
observados en una muestra aleatoria de tamao n. Si desde una poblacin

distribuida normal con una media y una varianza 2 se extraen todas las
muestras posibles de tamao n y en cada una de ellas calculamos el valor de un
estadstico, entonces la distribucin de probabilidades del estadstico es la
distribucin muestral de ese estadstico. La figura siguiente muestra la
distribucin muestral del estadstico media muestral X

Teorema central del lmite


Sea ( X 1 , X 2 , .........., X i , ........., X n ) una muestra aleatoria de tamao n extrada desde
una poblacin (finita o infinita) con cualquier distribucin, con media y
varianza 2. Entonces si X es la media muestral se tiene que:
X
Z
~ N ( 0 ;1) aprox

Sigue una distribucin aproximada a una Normal Estandar cuando n


La condicin n se interpreta como un tamao de muestra suficientemente
grande y para propsitos prcticos un tamao de muestra n 30 es suficiente

10

La distribucin muestral de la media muestral X


Recordemos que la distribucin de la media muestral X cuando la muestra
2
proviene de una poblacin N ( ; 2 ) es: X ~ N ( ; n ) de donde resulta que:
E( X )

Var ( X )

A la desviacin estndar de

n
X

~ N ( 0 ;1)

se la llama error estndar de

: X

Ejemplo:

Distribucin poblacional y muestral de X para una poblacin N(500 ; 2500) n = 25

La distribucin chi cuadrado con r grados de libertad ( r2 )


Una variable aleatoria continua X tiene distribucin chi cuadrado con r grados
de libertad si su distribucin corresponde a una distribucin Gamma con el
parmetro 2 y el parmetro 2r . Como la media de una variable
distribuida Gamma es y la varianza es 2 , se tiene entonces que:

X ~ r2 E( X ) ( 2r ) (2) r

Var ( X ) ( 2r ) (22 ) 2 r

11

Teorema: Sea ( X 1 , X 2 , .........., X i , ........., X n ) una muestra aleatoria de variables


distribuidas chi cuadrado con (r1 , r2 ,.........., ri ,........., rn ) grados de libertad, entonces
n

se tiene que:

X
i 1

~ 2 r . Por lo tanto la suma de variables aleatorias chi


i

cuadrado se distribuye chi cuadrado con la suma de los grados de libertad de


las variables X i (Aditividad de la distribucin chi cuadrado)
La distribucin muestral de la varianza muestral 2 S n21
Sea ( X 1 , X 2 , .........., X i , ........., X n ) una muestra aleatoria extrada desde una
poblacin normal N ( ; 2 ) . Entonces la siguiente funcin de la varianza
muestral: J

(n 1) S n21

se distribuye chi cuadrado con (n-1) grados de libertad

La distribucin t de Student: Sean X 1 y X 2 dos variables aleatorias


X 2 ~ r2 . Entonces la variable
independientes tales que: X 1 ~ N ( 0 ;1) y
aleatoria

X1
X2
r

~ t n 1

(t de Student con (n 1) grados de libertad)

A partir de esta definicin podemos construir una variable distribuida t de


Student usando las siguientes variables aleatorias independientes:
X1

~ N ( 0 ;1 )

X2

(n 1) S n21

~ n21

X
T

Por lo tanto se tiene que:

X1
X2
r

n
(n 1) S n21

X
~ t ( n 1 )
S n 1 n

X
~ t ( n 1)
S n 1
n

12
X
La distribucin muestral de la proporcin muestral p n

Sea ( X 1 , X 2 , .........., X i , ........., X n ) una muestra aleatoria de variables aleatorias


1 si el atributo est presente
0 si el atributo no est presente

distribuidas Bernoulli, esto es: X i

La suma de estas variable aleatorias, esto es X i

total de xitos, tiene una


p

distribucin Binomial con parmetros n y p con

X
n

por lo tanto

tendremos que: E( X i ) np y Var ( X i ) np (1 p) . Para obtener la


distribucin muestral de p calculamos la media y varianza de este estimador:

X i ) np p
E ( p ) E (
n
n

Var ( p ) Var (

Por lo tanto el error estndar de p es: p

np (1 p )
p (1 p)

2
n
n

p (1 p )
n

Aplicando el Teorema Central del lmite tendremos entonces que:


Z

p p
p ( 1 p)
n

~ N ( 0 ;1) ,

equivalentemente Z

np

n p (1 p )

~ N ( 0 ;1)

Intervalos de confianza:
Una estimacin por intervalo de confianza de un parmetro desconocido es un
intervalo de la forma: linf lsup , donde los lmites inferior l inf y superior

l sup dependen del valor numrico del estadstico (estimador) , para una
muestra en particular, y adems de la distribucin muestral de . Dado que
muestras diferentes generan valores distintos del estimador y de los lmites
inferior y superior, estos lmites son variables aleatorias Linf y Lsup tales que la
siguiente proposicin de probabilidad es verdadera: P ( Linf Lsup ) 1

13

La probabilidad ( 1 ) recibe el nombre coeficiente de confianza. Por lo


tanto tenemos una probabilidad ( 1 ) de seleccionar una muestra que genere
un intervalo que contenga el verdadero valor del parmetro
1.- Intervalo de confianza para la media de una poblacin N ( ; 2 )
1.1.- Se conoce la varianza poblacional 2
Usaremos para obtener este IdC para el estadstico (pivot)

~ N ( 0 ;1 )

z1

z1

De la figura podemos observar que: P( z Z z ) 1 , de donde


2

remplazando Z

y despejando resulta entonces:

X Z1

La expresin Z1

X Z1
n
n
2

recibe el nombre de margen de error de la estimacin

por intervalo y la denotaremos por:

ME Z1

Como puede observarse que

el margen de error depende del nivel de confianza a travs de z1 2 , de la


desviacin estndar y del tamao de muestra (inversamente proporcional)
De acuerdo con esto, el intervalo de confianza (1 ) para el parmetro puede
escribirse como X ME X ME o como = X ME

14

Tamao de muestra para estimar la media poblacional


El tamao de la muestra juega un papel importante para determinar la
probabilidad del error y la precisin de la estimacin. Una vez que se ha
seleccionado el nivel de confianza, dos factores influyen en el tamao de
muestra: 1) La varianza de la poblacin 2 sobre la cual nada puede hacer el
investigador, y 2) el tamao del error que el investigador est dispuesto a tolerar,
el cual depende de que tan crtico sea el trabajo que se est realizando.
De la distribucin muestral de X se tiene que Z X desde donde podemos

despejar n resultando:

2
1 2

(X )

2
, donde Z 1

depende de la confiabilidad, por ejemplo Z 0.975 1.96 para un nivel de


confianza del 95 %. Recordemos que el error de estimacin es E , el cual
en este caso particular es E X
De esta forma para estimar por un intervalo de confianza ( 1 ) la media de la
n

poblacin usaremos la frmula:

Z12 2
2

E2

Importante: Recordemos que se defini a la desviacin estndar de X como el


error estndar de X : X
. Esta frmula es apropiada solo si el muestreo
n

se realiza con remplazo o si la muestra se selecciona desde una poblacin muy


grande (virtualmente infinita). Si el muestreo se realiza sin remplazo y si el
tamao de la muestra es ms del 5 % de la poblacin, esto es, n 0.05 N debe
aplicarse un factor de correccin para poblacin finita y la frmula apropiada
para el error estndar es: X

N n
. El clculo del tamao de muestra en
N 1

tal caso se deduce de la expresin:

N n
N 1

tamao demuestra n resultando la siguiente frmula:

, de donde despejamos el

N 2
E2
( N 1 ) 2
2
Z1
2

15

Observacin importante: En ambas frmulas para el tamao de muestra para


estimar la media , aparece involucrada la varianza de la poblacin 2, que en la
prctica no se conoce y debemos previamente obtener una estimacin puntual.
Una forma es aplicar primero un muestreo piloto, el cual consiste en
seleccionar una muestra muy pequea (Unos diez a quince casos por ejemplo) y
desde ella calcular una estimacin S 2 de 2 y utilizar esta estimacin para
calcular el tamao de la muestra.
Otra opcin (no siempre aplicable) es recordar que bajo la curva normal un 95 %
de los casos se encuentra entre - 2 y + 2 (ver figura), lo cual cubre una
amplitud de cuatro desviaciones estndar, esto es 4. Entonces si se conocen los
valores mnimo y mximo de un rango igual al 95 %, se divide este rango por
cuatro y se obtiene as una estimacin de la varianza 2

1.2.- No se conoce la varianza poblacional 2


Usaremos para obtener este IdC para el estadstico (pivot)

t1

X
~ t ( n 1)
S n 1
n

T
1

t1

De la figura podemos observar que: P( t 2 T t 2 ) 1 , de donde


remplazando

X
S n 1
n

y despejando resulta entonces:

16

X t1

La expresin t1

S n 1

S n 1
n

X t1

S n 1
n

recibe el nombre de margen de error de la estimacin

por intervalo y la denotaremos por:

ME t1

S n 1
.

Como puede observarse que

el margen de error depende del nivel de confianza a travs de t1 2 , de la


desviacin estndar S n 1 y del tamao de muestra (inversamente proporcional)
De acuerdo con esto, el intervalo de confianza (1 ) para el parmetro puede
escribirse como X ME X ME o como = X ME
Observacin respecto el tamao de muestra para estimar :
Para estimar la media poblacional cuando no se conoce la varianza
poblacional 2 se utilizan las mismas frmulas ya tratadas en el caso anterior
(varianza 2 conocida), pero sustituyendo 2 por su estimador S n21 (varianza
muestral). Por lo tanto:
n
n

t12 S n21
2

E2

(Poblacin virtualmente infinita y muestreo con remplazo)

N S n21
E2
( N 1) S n21
2
t1

(Poblacin finita y muestreo sin remplazo) ; n 0.05 N

Podemos observar que Z 0.975 1.96 y t0.975; 30 2.04 por lo tanto podemos
2
aproximar ambos valores a 2.00 y usar Z 1

t12

= 4.0

2.- Intervalo de confianza para una proporcin p


Como en los dos casos anteriores, usaremos la distribucin muestral del

estimador del parmetro p n , la cual, como ya lo vimos, aplicando el


Teorema Central del Lmite, es una distribucin normal aproximada si n 30
Xi

17

resultando entonces la expresin

p p

~ N ( 0 ;1) .

p ( 1 p)
n

Entonces un Intervalo

X
de Confianza (1 ) para el parmetro p n es:
i

p Z1

p (1 p )
p p Z1
2
n

p (1 p )
n

Tamao de muestra para estimar la proporcin poblacional p


Del estadstico inferencial (pivot):
el error de estimacin es

E p p

p p
p ( 1 p)
n

resulta, teniendo en cuenta que

, despejando n queda:

Z Z1

Z12

20

E2

p (1 p) .

Para aplicar esta frmula se requiere una estimacin p del

parmetro p, la cual puede lograrse a partir de alguna muestra piloto anterior.


Otro enfoque para seleccionar el tamao de muestra es utilizar el hecho de que
la expresin para n es mxima si p 0.5 , esto es p (1 p) 0.25 , con esto se
obtiene una cota superior para n con lo cual:

Z12

(0.25)

3.- Intervalo de confianza para la varianza poblacional 2


El estadstico inferencial (pivot) para este caso es

El intervalo de confianza (1-) para es:

(n 1) S n21

12 ; n 1
2

(n 1) S n21

~ n2

(n 1) S n21

2
2

; n 1

Das könnte Ihnen auch gefallen