Beruflich Dokumente
Kultur Dokumente
Nancy Lacourly
1996
Con la colaboracion de Ernesto San Mart n y Felipe Far as
PREFACIO
Este curso de estad stica hace parte del plan comun de ingenier a 1 . Como para algunas
carreras es el unico curso que tendra el alumno de Ingenieria, se ha trata aqu dar una
vision de la metodolog a basica de la Inferencia Estad stica y una introduccion a los modelos
lineales y metodos multidimensionales. Se busca preparar al futuro ingeniero en la aplicacion
de modelos estad sticos para tratar fenomenos aleatorios en f sica, mecanica o econom a en
donde se encuentra errores de medicion, errores de muestreo etc., as como grandes volumenes
de datos que en la actualidad pueden ser estudiados facilmente.
Si bien el calculo de las probabilidades es una teor a matematica abstracta, que deduce consecuencias de un conjunto de axiomas, al contrario la estadistica necesita dar una interpretacion
concreta a la nocion de probabilidad. Varias interpretaciones fueron propuestas por los estadisticos, que se pueden resumir en dos puntos de vista diferentes: la nocion frecuentista y
la nocion intuicionista.
El punto de vista frecuentista asocia la nocion de probabilidad a la nocion emp rica de frecuencia, basada en observaciones aleatorias repetidas, mientras que el punto de vista intuicionista
liga la nocion de probabilidad a lo incierto, para de nir un grado de creencia.
Este texto fue nanciado parcialmente por la Escuela de Ingenier a y Ciencias (Proyecto Docente 139301)
INDICE
1 INTRODUCCION A LA ESTADISTICA
1.1 HISTORICO : : : : : : : : : : : : : : : : : : : : :
1.2 EJEMPLOS DE PROBLEMAS ESTADISTICOS :
1.3 EL RAZONAMIENTO ESTADISTICO : : : : : :
1.3.1 Recoleccion de los datos : : : : : : : : : : :
1.3.2 Descripcion estad stica de los datos : : : : :
1.3.3 Analisis de los datos : : : : : : : : : : : : :
1.3.4 Decision o prediccion : : : : : : : : : : : : :
1.4 TEORIA DE MUESTREO : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
2 DISTRIBUCIONES EN EL MUESTREO
11
2.1 INTRODUCCION : : : : : : : : : : : : : : : : : : : : : : : : : : :
2.2 TIPOS DE VARIABLES : : : : : : : : : : : : : : : : : : : : : : :
2.3 FUNCION DE DISTRIBUCION EMPIRICA : : : : : : : : : : : :
2.3.1 Caso de variables numericas (reales o enteras) : : : : : : : :
2.3.2 Caso de variables no son numericas (nominal u ordinal) : :
2.4 DISTRIBUCIONES EN EL MUESTREO Y EN LA POBLACION
2.4.1 Media muestral : : : : : : : : : : : : : : : : : : : : : : : : :
2.4.2 Varianza muestral : : : : : : : : : : : : : : : : : : : : : : :
2.4.3 Caso de una distribucion normal : : : : : : : : : : : : : : :
2.4.4 Valores extremos : : : : : : : : : : : : : : : : : : : : : : : :
2.4.5 Cuantilas : : : : : : : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
: : : : : : : : : : :
3 ESTIMACION PUNTUAL
3.1
3.2
3.3
3.4
3.5
6
7
7
8
8
8
8
8
11
11
11
11
13
13
13
14
14
17
18
19
INTRODUCCION : : : : : : : : : : : : : : :
METODO DE LOS MOMENTOS : : : : : :
METODO DE MAXIMA VEROSIMILITUD
EJEMPLOS : : : : : : : : : : : : : : : : : : :
PROPIEDADES : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : : : :
19
20
20
20
22
3.5.1 Invarianza : : : : : : : : : : : : : : : : : : : :
3.5.2 Consistencia : : : : : : : : : : : : : : : : : :
3.5.3 Estimador insesgado : : : : : : : : : : : : : :
3.5.4 Su ciencia : : : : : : : : : : : : : : : : : : :
3.6 ESTIMADORES BAYESIANOS : : : : : : : : : : :
3.6.1 Distribuciones a priori : : : : : : : : : : : : :
3.6.2 Distribuciones a posteriori : : : : : : : : : : :
3.6.3 Funciones de perdida : : : : : : : : : : : : : :
3.6.4 Estimadores de Bayes : : : : : : : : : : : : :
3.6.5 Estimadores de Bayes para muestras grandes
3.7 EJERCICIOS : : : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : :
22
22
23
24
25
25
25
26
27
28
29
32
INTRODUCCION : : : : : : : : : : : : : : : : :
CASO BAYESIANO : : : : : : : : : : : : : : : :
INTERVALO DE CONFIANZA DE NEYMANN
EJERCICIOS : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : : :
5 TESTS DE HIPOTESIS
32
32
32
35
38
5.1 GENERALIDADES : : : : : : : : : : : : : : : : :
5.2 HIPOTESIS ESTADISTICAS : : : : : : : : : : : :
5.3 TEST DE HIPOTESIS PARAMETRICAS : : : :
5.3.1 Funcion de potencia : : : : : : : : : : : : :
5.3.2 Tests para hipotesis simples : : : : : : : : :
5.3.3 Tests U.M.P. : : : : : : : : : : : : : : : : :
5.3.4 Tests usuales : : : : : : : : : : : : : : : : :
5.4 TESTS 2 : : : : : : : : : : : : : : : : : : : : : : :
5.4.1 La distribucion normal multivariada : : : :
5.4.2 La distribucion multinomial : : : : : : : : :
5.4.3 Test de ajuste para un modelo multinomial
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
: : : : : : : : : : : : : : : : : : : :
38
39
40
40
42
44
46
51
51
53
54
: : : : : : : : : : : : : : :
: : : : : : : : : : : : : : :
: : : : : : : : : : : : : : :
: : : : : : : : : : : : : : :
55
55
57
58
1 INTRODUCCION A LA ESTADISTICA
1 INTRODUCCION A LA ESTADISTICA
La estad stica es una rama del metodo cient co que trata datos emp ricos, es decir datos
obtenidos contando o midiendo propiedades sobre poblaciones de fenomenos naturales, cuyo
resultado es "incierto".
En teor ia de las probabilidades, estudiaron el experimento relativo a tirar un dado y hicieron
el supuesto que el dado no esta cargado (sucesos elementales equiprobables), lo que permite
deducir que la probabilidad de sacar "un numero par" es igual a 1=3. A partir de un modelo
probabilitico adecuado, se deduce nuevos modelos o propiedades. En Estad istica tratamos
responder a la pregunta ">el dado no esta cargado?", comprobando si el modelo probabilistico
de equiprobable subyacente esta en acuerdo con datos experimentales obtenidos tirando el
dado un cierto numero de veces. Se propone entonces un modelo probabilitico que debe seguir
los datos y no lo contrario.
La teor a de las probabilidades permite deducir propiedades a partir de una serie de axiomas,
mientras que la Estad tica propone metodos para veri car hipotesis.
Esta introduccion se inicia con una breve presentacion historica de la estad stica, para seguir
con algunos ejemplos de problemas estad sticos. Siguen las etapas del razonamiento que se
usa para resolver tales problemas. Terminamos esta introduccion con la presentacion de la
teor a de muestreo, que es la base de la solucion de todo problema estad stisco.
1.1 HISTORICO
Antes de la aparicion del calculo de las probabilidades en el siglo 17, la estad stica se ha
desarrollado poco y se limita a estudio descriptivo, que es la parte de la estad stica que no se
apoya sobre la nocion de probabilidad. En efecto es una actividad bien antigua, aquella de
recolectar datos para conocer la situacion de los estados: el emperador chino Yao organizo
un censo de producciones agricolas en 2238 A.C. en Egipto ya se hac an catastros y censos
en 1700 A.C. mas cerca, los Incas con sus quipus manten an al d a las estad sticas de las
cosechas. Durante este per odo, los censos de poblaciones y recursos naturales son solo cifras
informativas y descriptivas. Es solo en el siglo 18 que se expande la idea introducida por el
ingles John Grant, que las estad sticas demogra cas podr an servir de base a predicciones.
Con Adophe Quetelet se empieza a concebir que la estad stica puede ser fundada en el calculo
de las probabilidades. Pero hay que esperar los primeros estad sticos matematicos ingleses
(despues de 1900) para ver realmente una metodolog a estad stica como una teor a inductiva
bien formalizada, que permite inducir a partir de datos observados particulares, conclusiones
generales sobre el comportamiento probabil stico de fenomenos observados. Despues de la
Estad stica Matematica, que se desarrolla entre 1900 y 1950, los estad sticos neo-bayesianos
proponen hacer inferencia, no solo a partir de los datos observados, sino tomando tambien en
cuenta el conocimiento a priori respecto de los modelos probabil sticos. En la misma epoca
(1950), la aparicion de los computadores potentes permite el auge del analisis de grandes
1 INTRODUCCION A LA ESTADISTICA
volumenes de datos, con mas observaciones y mas variables. Un conjunto de tecnicas para
estudiar datos multidimensionales, que se basan en modelos no probabil sticos, permiten
describir, clasi car y simpli car los datos con el objeto de facilitar su interpretacion ademas
de sugerir leyes, modelos o explicar fenomenos.
1 INTRODUCCION A LA ESTADISTICA
1 INTRODUCCION A LA ESTADISTICA
Los datos experimentales son obtenidos sobre conjunto de individuos u objetos, llamado
poblacion, sobre el cual se quiere conocer algunas caracter sticas. La poblacion puede ser
nita -por ejemplo, en una encuesta de opinion, es la poblacion de un pa s o una region, los
productos fabricados por una maquina- o in nita, cuando la poblacion se de ne a partir del
experimento de tirar un dado, o sacar valores de la distribucion de probabilidad de la v.a.
N (0 1) (es el espacio muestral). Como generalmente la poblacion a estudiar es demasiado
vasta o incluso in nita, se extrae solamente un subconjunto de la poblacion, llamada muestra
sobre la cual se observan caracter sticas llamadas variables. >Como entonces sacar una
muestra de una poblacion o de una distribucion de probabilidad desconocida para obtener
informaciones dedignas sobre la poblacion de la cual proviene? Es lo que pretende contestar
la teor a de muestreo, planteando la pregunta de otra manera: >Si la distribucion probabilidad
de obtener la muestra que se obtuvo? La teor a de muestreo permite de de mir el tama~no
de la muestra a tomar pero la forma de seleccionar los elementos de la muestra tambien.
Se tiene varios metodos de muestreo para obtener muestras que, dependiendo del problema,
pueden ser muy complejos.
Los valores de las variables obtenidos sobre los elementos de la muestra se llaman valores
muestrales. Ahora bien, cuando se emiten conclusiones sobre una poblacion a partir solo de
valores muestrales, entonces estos resultados estan afectados de errores debidos al muestreo.
Pero se tiene generalmente errores de medicion tambien que pueden in uir sobre la precision
de las conclusiones.
Ahora bien hay que observar que los errores de muestreo decrecen con el tama~no de la muestra,
pero los errores de observacion crecen con este tama~no. Lo ideal es entonces tener un buen
equilibrio entre estos tipos de errores.
Se vio en el curso de probabilidad que el muestreo aleatorio simple (m.a.s.) permite sacar
muestras de tama~no dado equiprobables, distinguiendo el m.a.s. con reemplazo del m.a.s. sin
reemplazo.
Dado un experimento aleatorio E y una poblacion (o espacio muestral) de sucesos elementales, el conjunto de n realizaciones del experimento E es una muestra de tama~no
n.
Una muestra aleatoria simple con reemplazo (o con repeticion) se obtiene realizando n
repeticiones independientes del experimento E , tomando sobre los sucesos elementales
equiprobables. Se obtiene entonces una n-tupla de .
Una muestra aleatoria simple sin reemplazo (o sin repeticion) se obtiene de la poblacion
realizando el experimento E :
{ sobre . Se obtiene un suceso !1 con equiprobabilidad
{ sobre n f!1g. Se obtiene un suceso !2 con equiprobabilidad
{ sobre n f!1 !2g. Se obtiene un suceso !3 con equiprobabilidad, etc.
As se obtienen elementos de , todos distintos.
1 INTRODUCCION A LA ESTADISTICA
10
2 DISTRIBUCIONES EN EL MUESTREO
11
2 DISTRIBUCIONES EN EL MUESTREO
2.1 INTRODUCCION
Los metodos estad sticos permiten confrontar modelos matematicos o probabil sticos con los
datos emp ricos obtenidos sobre una muestra:
Dadas observaciones obtenidas sobre una muestra de tama~no n, se busca deducir
propiedades de la poblacion de la cual provienen.
2 DISTRIBUCIONES EN EL MUESTREO
12
x
Figura 2.1: Una distribucion emp rica.
Ademas para x jo Fn (x) es una variable aleatoria y nFn (x) es una v.a. igual a la suma de
variables de Bernoulli independientes de mismo parametro F (x), o sea nFn (x) B(n F (x)).
Teorema 2.1 Para todo x, Fn (x) converge casi-seguramente hacia la distribucion teorica
F(x) de X.
B (n
P (lim
n Fn (x) = F (x)) = 1
c:s: F (x)
O sea que Fn (x) ;!
nlim
!1 P ( nDn < y ) =
+1
;1
(;1)K exp(;2K 2 y 2)
2 DISTRIBUCIONES EN EL MUESTREO
13
De nicion 2.1 Las funciones de los valores muestrales son v.a. llamadas estad sticos y
las distribuciones de los estad sticos se llaman distribuciones en el muestreo.
La distribucion de la v.a. X, que es generalmente desconocida, se llama distribucion de
poblacion. Se le da en general una expresion teorica. Se supone, por ejemplo, que la distribucion de poblacion pertenece a una familia de distribuciones, por ejemplo la distribucion
normal, la distribucion beta o la distribucion de Poisson. Quedan desconocidas, en este caso,
solo algunas caracter sticas. Estas caracter sticas, son los parametros de la distribucion de
poblacion.
Los estad sticos y sus distribuciones en el muestreo (o sus distribuciones asintoticas cuando n
tiende a +1) permiten estimar los parametros desconocidos de la distribucion de poblacion.
2 DISTRIBUCIONES EN EL MUESTREO
14
Propiedades:
c:s:
Sn2 ;!
c:s: E (X 2) y X 2 ;!
c:s: E (X )]2).
( n1 Pni=1 Xi2 ;!
n
m:c: 2
Sn2 ;!
(E ((Sn2 ; 2 )2) ;! 0).
Calculo de E (P
Sn2 )
1
E (Sn2) = E ( n (Xi2 ; Xn )2 ) = E ( n1 P(Xi2 ; )2 ; (Xn ; )2)
Calculo de V ar(Sn2 )
V ar(Sn2) = nn;31 ((n ; 1) 4 ; (n ; 3) 4)
en que 4 = E ((X ; )4 ) es el momento teorico de orden 4 de la v.a. X.
Se deja este calculo como ejercicio.
V ar(Sn2 ) 4 ;n 4 ;! 0.
Calculo de Cov (Xn Sn2)
Cov(Xn Sn2) = E ((Xn ; )(Sn2 ; n;n 1 2))
Cov(Xn Sn2 ) = E (( n1 P Xi ; )( n1 P(Xj ; )2 ; (Xn ; )2 ; n;n 1 2))
Cov(Xn Sn2 ) = E (( n1 P(Xi ; ))( n1 P(Xj ; )2 ; (Xn ; )2 ; n;n 1 2))
E (Xi ; ) = 0 8i y E (Xi ; )(Xj ; ) = 0 8(i j )
Cov(Xn Sn2 ) = n12 E (P(Xi ; )3 ) ; E ((Xn ; )3)
Cov(Xn Sn2) = n12 E (P(Xi ; )3 ) ; n13 E (P Xi3)
Cov(Xn Sn2) = n3 ; n23 = nn;21 3
si n ! +1, Cov (Xn Sn2) ! 0 (lo que no signi ca que hay independencia).
En particular si la distribucion es simetrica ( 3 = 0), entonces Cov (Xn Sn2) = 0:
N(
) i.i.d. =) Xn
N(
=n)
2 DISTRIBUCIONES EN EL MUESTREO
15
= P( Xi; )2 ; ( X=np;n )2
Como las v.a. ( Xi ; ) son i.i.d. de una N (0 1), entonces U = P( Xi ; )2 es una suma de
los cuadrados de n v.a. independientes de N (0 1) cuya distribucion es facil de calcular y se
llama Ji-cuadrado con n grados de libertad y se denota 2n . Por otro lado, ( X=np;n )2
sigue una distribucion 2 con 1 grado de libertad.
En efecto recordemos en primer lugar la distribucion de Y = Z 2 , en que Z N (0 1):
Sea (x) la funcion de distribucion de pZ N (0 1)
y F(y) la
de Y = Zp2 .
p
p
F (y) = P (Y y ) = P (Z 2 y) = P (; y Z
y ) = ( y ) ; (; y):
Se deduce la funcion de densidad de Y:
f (y ) = p1 y ;1=2exp(;y=2) 8y > 0
2
Se dice que Y sigue una distribucion Ji-cuadrado con 1 grado de libertad, 21 .
Observando que la 21 tiene una distribucion Gamma particular ;(1=2 1=2), la funcion generatriz de momentos (f.g.m.) se escribe:
1
1
Y (t) = E (etY ) = ( 1 ; 2t )1=2 8t < 2
Sea U = Pn1 Yi = Pn1 Zi2 en que las Zi2 son 21 independientes, entonces
U (t) = ( 1;12t )n=2 , que es la f.g.m. de una distribucion Gamma( n2 21 ).
Se deduce as la funcion de densidad de U la v.a. 2n , una Ji-cuadrado con n g.l.:
a r1 + r2 + ::: + rk g.l.
a r1 , r2,...,rk g.l.
N(
2 DISTRIBUCIONES EN EL MUESTREO
16
Y1 = pnXn
P Y 2 = P X 2 = P(X ; X )2 + nX 2
i
n
n
i
i
Y22 + ::: + Yn2 = nSn2
p
(Y1 ; n )2 + Y22 + ::: + Yn2 = (X1 ; )2 + ::: + (Xn ; )2
La densidad conjunta de Y1 ::: Yn es entonces proporcional a:
expf;(y1 ;
nXn = Y1
N(
2
2
)
2
n;1
Teorema 2.5 Sean X1 X2 ::: Xn v.a. i.i.d., entonces Xn y Sn2 son independientes si y solo
si las Xi provienen de una distribucion normal.
n , entonces la
2
Y
n
2 DISTRIBUCIONES EN EL MUESTREO
17
r w e; t2n2 w w n2 ;1e; w2
g(t w) = n p
2
2 n2 ;( n2 )
n;1 ; 1 (1+ t )w
2 e 2
n
w
g(t w) = p n+1
2 n;( n2 )
2
8w
>0
n+1 )
2
;1 < t < 1
t 2 IR
n
Se observa que la funcion de densidad de T es simetrica y E (T ) = 0 y var(T ) = n ;
1
para n 2. Ademas para n=1 se tiene la distribucion de Cauchy y para n grande se puede
aproximar la distribucion de T a una N (0 1).
Aplicando estos resultados, deducimos que la distribucion de la v.a.
V = p X2 n ;
Sn =(n ; 1)
es una t de Student con n-1 grados de libertad.
2 DISTRIBUCIONES EN EL MUESTREO
18
2.4.5 Cuantilas
De nicion 2.3 Dada una funcion de distribucion F(x) de X, se llama cuantila de orden p
al valor xp tal que F (xp ) = p.
Si tomamos p = 1/2, entonces x1=2 es tal que hay tantos valores por debajo que por arriba de
x1=2, que se llama mediana de la distribucion. Se llaman cuartilas a x1=4 y x3=4 y intervalo
intercuartila a x3=4 ; x1=4.
Se observara que para una distribucion discreta o emp rica Fn una cuantila para un p dado
no es unica. Se de ne entonces como xp al valor tal que IP (X < xp ) p IP (X xp ).
3 ESTIMACION PUNTUAL
19
3 ESTIMACION PUNTUAL
3.1 INTRODUCCION
En un problema estad stico, si los datos fueron generados a partir de una distribucion de
probabilidad F(x) desconocida, los metodos de la Inferencia Estad stica permite decir
algo respecto de esta distribucion. Cuando se supone que tal distribucion no es totalmente
desconocida - por ejemplo pertenece a una determinada familia de distribuciones - entonces
son desconocidos solo uno o varios parametros que de nen cada distribucion de esta familia.
En este caso la teor a de estimacion tiene por objetivo dar valores a estos parametros a partir
de los valores muestrales.
Por ejemplo, F (x) pertenece a la familia de las distribuciones normales N ( 1) de varianza
igual a 1 y de esperanza desconocida. Aqu es el unico parametro desconocido de la
distribucion. Pero si se supone la varianza tambien desconocida, se tendran dos parametros
desconocidos, la media y la varianza 2 .
Los parametros son constantes que toman valores en un espacio llamado espacio de parametros
:
N(
N(
1)
)
Exp( )
Binomial(10,p)
= IR
= IR ]0 +1
=]0 +1
= 0 1]
Sean X1 ::: Xn los valores muestrales obtenidos sobre una muestra aleatoria simple de una
v.a. X de funcion de densidad f (x= ), en que es desconocido. Hay varias maneras de
decir algo sobre . Lo mas simple consiste en dar un valor unico para . Es la estimacion
puntual: se busca elegir un valor para a partir de los valores muestrales. Es decir se tiene
que de nir una funcion : IRn ;! , que es un estad stico llamado estimador de . El valor
tomado por esta funcion sobre una muestra particular de tama~no n es una estimacion. Otra
forma de estimar un parametro consiste en buscar no un solo valor para , sino un conjunto
de valores, un intervalo en general, en el cual se tiene alta probabilidad de encontrar . Es la
estimacion por intervalo.
Procediendo as , tratamos de estimar el valor de los parametros, que son considerados
como constantes, a partir de estad sticos que son aleatorios. Ahora bien, frecuentemente se
sabe algo mas sobre los parametros este conocimiento obviamente no es preciso, sino no
se tendr a el problema de estimar estos parametros pero se tienen ideas sobre sus posibles
valores, que pueden ser traducidas a una funcion de distribucion a priori sobre el espacio
de parametro . Los estimadores bayesianos toman en cuenta la distribucion a priori y los
valores muestrales.
El problema es encontrar metodos que permitan construir estos estimadores.
A continuacion daremos los metodos usuales de estimacion puntual.
3 ESTIMACION PUNTUAL
20
n
Y
i=1
f (xi = )
Un estimador del parametro basado en una muestra de tama~no n es una funcion de los
valores muestrales (x1 x2 ::: xn) a valores en el espacio de parametro .
El valor que toma el estimador sobre una muestra (x1 ::: xn) se llama estimacion o valor
estimado.
El estimador de Maxima Verosimilitud es el estimador que hace fn (x= ) maxima.
Tal estimador puede entonces no ser unico, o bien no existir.
3.4 EJEMPLOS
Ejemplo 1: Una maquina produce diariamente un lote de piezas. Un criterio basado sobre
normas de calidad vigente permite clasi car cada pieza fabricada como defectuosa o no defectuosa. El cliente aceptara el lote si la proporcion de piezas defectuosas contenidas en el lote
no sobrepasa el valor o . El fabricante tiene que controlar entonces la proporcion de piezas
3 ESTIMACION PUNTUAL
21
defectuosas contenidas en cada lote que fabrica. Pero si la cantidad de piezas N de cada lote
es muy grande, no podra examinar cada una para determinar el valor de . El fabricante
efectua entonces el control de calidad de una muestra aleatoria peque~na con n piezas. Se
de ne la v.a. X que toma el valor 1 si la pieza es defectuosa y 0 en el caso contrario. Sean
x1 x2 ::: xn los valores obtenidos sobre la muestra.
xi Bernoulli( ) (0
fn (x= ) =
n
Y
i=1
xi (1 ;
1)
)1;xi
Logfn (x= ) =
n
X
i=1
xi Log + (1 ; xi )Log(1 ; )]
dLogfn(x= ) = P xi ; n ; P xi = 0
d
1;
Luego el estimador dePmaxima verosimilitud (E.M.V.) ^ de es la proporcion de piezas
defectuosas observada xi =n.
Ejemplo 2: El ministerio de la salud quiere conocer la talla promedia de las mujeres
chilenas
P
adultas. Si X1 X2 ::: XN son las tallas de todas las chilenas adultas, = Xi =N . Dado
el tama~no grande de esta poblacion, se obtiene la talla de una muestra aleatoria de tama~no
peque~no n. Sean x1 x2 ::: xn.
Se supone que xi N ( 2) con y 2 desconocidos.
X
fn (x= ) = (1=2 2)n=2 expf; (xi ; )2=2 2g
Logfn (x= ) es maximo cuando = Xn la media muestral y 2 = Sn2 la varianza muestral.
Notas:
- Si se supone la varianza poblacional 2 conocida, el E.M.V. de queda igual a la media
muestral Xn .
- Se puede buscar el estimador de la varianza o bien de su ra z . El resultado no cambia.
Ejemplo 3: xi Uniforme 0 ]
>0
fn (x= ) = 1= n si 0 xi
8i
Cuando
xi para todo i, fn (x= ) es no nulo y es decreciente en luego fn(x= ) es
maxima para el valor mas peque~no de que hace fn (x= ) no nulo: el E.M.V. de es entonces
^ = maxfx1 x2::: xng
El metodo de los momentos produce un estimador bien diferente. En efecto, como
E(X) = =2, el estimador de los momentos es ~ = 2Xn.
3 ESTIMACION PUNTUAL
22
En este ejemplo, una di cultad se presenta cuando se toma el intervalo ]0 abierto, dado
que no se puede tomar como estimador el maximo ^ en este caso no existe E.M.V. Puede
ocurrir que no es unico tambien: si se de ne el intervalo
+ 1], la funcion de verosimilitud
es:
fn (x= ) = 1 si
xi + 1 8i
es decir:
fn (x= ) = 1 si maxfx1 ::: xng ; 1
minfx1 ::: xng
Por lo cual todo elemento del intervalo maxfx1 ::: xng ; 1 minfx1 ::: xng] es E.M.V.
Aqu el estimador de los momentos, que es igual a Xn ; 1=2, es bien diferente tambien.
3.5 PROPIEDADES
>Como elegir un estimador? >Como decidir si un estimador es aceptable? Para ayudarnos
en esta eleccion se puede estudiar si el estimador cumple ciertas propiedades razonables.
3.5.1 Invarianza
Observamos en las notas del ejemplo 2, que el E.M.V. de se puede obtener directamente o
como la raiz del E.M.V. de 2. Eso se debe de la propiedad de invarianza del E.M.V. por
transformacion funcional:
;!
es biyectiva, entonces
3.5.2 Consistencia
Un estimador depende del tama~no de la muestra a traves de los valores muestrales los
estimadores ^n asociados a muestras de tama~no n (n 2 IN ) constituyen sucesiones de v.a..
Un buen estimador deberia converger en algun sentido hacia .
!1 1
IP (j ^n ; j < ) n;!
3 ESTIMACION PUNTUAL
23
Los momentos emp ricos de una v.a. real son estimadores consistentes de los momentos
teoricos correspondientes. Mas aun la convergencia es casi-segura y la distribucion asintotica
de estos estimadores es normal.
Por otro
lado se puede construir un estimador insesgado de 2 a partir de Sn2 :
P
2
~ = (xi ; Xn )2=(n ; 1). Pero observamos que ~ 2 = ( n;n 1 )2 2, es decir que el estimador
insesgado ~ 2 tiene mayor varianza que Sn2 .
Por otro lado observamos que si ^n2 es un estimador sesgado de , se tiene:
E ( ^n ; )2 = V ar( ^n ) + (sesgo)2
En efecto,
E ( ^n ; )2 = E ( ^n ; E ( ^n ) + E ( ^n ) ; )2]
E ( ^n ; )2 = E ( ^n ; E ( ^n))2] + E ( ^n) ; )]2
m:c: ).
Si E ( ^n) ; )]2 ;! 0 entonces ^n converge en media cuadratica hacia . ( ^n ;!
Proposicion 3.2
E ( ^n ; )2 ;! 0 () V ar( ^n ) ! 0 y E ( ^n) !
de .
3 ESTIMACION PUNTUAL
24
3.5.4 Su ciencia
En el ejemplo 1, se busca deducir de las observaciones de una muestra aleatoria de n piezas
una informacion sobre la proporcion de piezas defectuosas en el lote total. Es mas simple
considerar el numero de piezas defectuosas encontradas en la muestra en vez de la sucesion
de resultados x1 x2 ::: xn. El conocimiento de nlos valores individuales no procura ninguna
X
informacion aditiva para la proporcion que xi . Se redujo los n datos a un solo valor,
i=1
que es funcion de estos datos, sin perder informacion para determinar .
En el ejemplo 2, la media muestral Xn permite simpli car la informacion dada por los n
valores muestrales. Pero nos preguntamos si se pierde informacion usando la media muestral
para estimar la media de la poblacion.
Observamos que si suponemos la varianza conocida, la funcion de verosimilitud puede escribirse como funcion unicamente de la media muestral y del tama~no n de la muestra:
p
fn (x= ) = (1= 2 )nexpf;n(Xn ; )2 =2g
Es decir que la unica informacion relevante para estimar es dada por la media muestral. En
este caso se dice que la media muestral es un estad stico su ciente. Un estad stico su ciente
que se toma como estimador del parametro , deber a contener toda la informacion que llevan
los valores muestrales sobre .
De nicion 3.5 Un estad stico T (x1 ::: xn), funcion de los valores muestrales y con valor en
se dice su ciente para si la distribucion conjunta de los valores muestrales condicional-
De nicion 3.6 Se dice que un estad stico T es su ciente minimal si no se puede encontrar
otro estad stico su ciente que hace una mejor reduccion de los datos que T.
No es siempre facil detectar si un estad stico es su ciente. Los dos siguientes teoremas
permiten enunciar condiciones para que un estad stico sea su ciente.
Si X es una variable real cuyo dominio de variacion no depende del parametro , una
condicion necesaria y su ciente para que existe un estad stico su ciente es que la funcion
de densidad de X sea de la forma:
f (x ) = b(x)c( )expfa(x)q( )g
3 ESTIMACION PUNTUAL
Tn(X ) =
Si X
n
X
i=1
N(
25
2
X
fn (x1 ::: xn= ) = (2 1)n=2 exp(; 12 x2i )exp(; n2 + n X )
3 ESTIMACION PUNTUAL
26
De nicion 3.8 La distribucion condicional de dada la muestra (x1 ::: xn) se llama dis) ( ) , en que
tribucion a posteriori y su densidad es igual a ( =x) = fn (x=
g
(
x
n )
R
g (x) = h(x )d es la densidad marginal de x.
n
+nXn ;1
(1 ; p)
+n;nXn ;1
) 0 p 1
3 ESTIMACION PUNTUAL
27
No es siempre facil de nir esta funcion de perdida, que es espec ca de cada problema y
puede tener algun aspecto subjectivo (nocion de utilidad). Sin embargo, se puede elegir entre
diversas funciones de perdida clasicas, cuando no se puede construir una propia:
Funcion de perdida cuadratica
Es la funcion de perdida mas utilizada y mas criticada:
L( ) = (
)2
L( ) = j
o bien una funcion af n por parte:
L( ) =
k1(
k2(
;
;
; j
) si >
) si no
L( ) =
0 si 2 I" ( )
1 si no
3 ESTIMACION PUNTUAL
28
k1 (
k2 (
;
;
) si >
) si no
es la fractila k1k+1k2 de .
Demostracion: Se tiene
E L( )=x] = k2
Z
;1
) ( =x)d + k1
Z +1
) ( =x)d
(T ) = E (b(X )=T )
es un estimador insesgado de basado sobre T mejor que b(X).
3 ESTIMACION PUNTUAL
29
nXn (1 ; )n;nXn
( =x) /
nXn (1 ; )n+1;nXn
;1 (1 ;
) ;1 d = 1=2
3.7 EJERCICIOS
1. Sea Xi , i = 1 ::: n una muestra aleatoria simple de una v.a. X de funcion de distribucion
Gamma( ).
Estime E(X) por Maxima Verosimilitud. Muestre que el estimador resultante es insesgado,
convergente en media cuadratica y es consistente.
2. Sea una m.a.s. x1 :::xn de una v.a. X de funcion de densidad f (x= ) = x ;1 I1 0 1].
Encuentre el estimador de Maxima Verosimilitud ^ de y pruebe que ^ es consistente y
asintoticamente insesgado.
3. Sea Y una v.a. de Bernoulli de parametro . Considere una m.a.s. y1 :::yn y una
distribucion a priori Beta(a,b) para . Obtenga el estimador de Bayes, ^ para , usando
una funcion de perdida cuadratica. Muestre que ^ es sesgado, asintoticamente insesgado,
convergente en media cuadratica y consistente.
3 ESTIMACION PUNTUAL
30
4.. Sean dos preguntas complementarias: Q="vota por Pedro" y Q'="no vota por Pedro".
Se obtiene una m.a.s. de n personas que contestan a la pregunta Q o Q' lo unico que se sabe
es que cada persona ha contestado a Q con probabilidad conocida y Q' con probabilidad
(1 ; ). Se de nen:
p: la probabilidad que una persona contesta "SI" a la pregunta (Q o Q')
: la proporcion desconocida de votos para Pedro en la poblacion.
a) De la proporcion en funcion de p y .
b) De el estimador de Maxima Verosimilitud de p y deduzca un estimador ^ para . Calcule
la esperanza y la varianza de ^ .
c) Estudie las propiedades de ^ estudie en particular la varianza ^ cuando = 0:5.
5. Suponga que X tiene una funcion de densidad f (x= ) y que T (X ) es un estimador de
Bayes insesgado para con la funcion de perdida cuadratica y una distribucion a priori ( ).
a) Demuestre que E ( ; T (X ))2 = 0
b) Asuma que f (x= ) es una N ( 1). Pruebe que E ( ; Xn )2 = n1 . Concluya si Xn puede
ser un estimador de Bayes para perdida cuadratica.
6. Sea x1 x2 ::: xn una m.a.s. de una distribucion tal que IP (xi 2 a b]) = .
(
i 2 a b]
Se de ne yi = 10 sienxcaso
contrario
a) De la distribucion de yi .
b) De el estimador de maxima verosimilitud ^ de .
c) De la esperanza y la varianza de ^.
d) Sean las distribuciones a priori de :
;( + ) ; 1 (1 ; ) ; 1 (Distribucion Beta( )) y 2 ( ) = 2(1 ; )
1( ) =
;( );( )
De los estimadores de Bayes y sus varianzas cuando se usa una funcion de perdida cuadratica.
e) Aplicacion numerica: de las soluciones a las preguntas anteriores con los valores: n=10,
= 2, = 2 xi : 1.2, 3.5, 2.4, 1.5, 6.3, 2.8, 4.2, 4.5, 3.8, 5.1 y a,b]= 2,4].
7. Sea fX1 X2 ::: Xng una m.a.s. de una v.a. X con funcion de densidad f (x= ). Sea
Y = (X1 ::: Xn) un estimador de . Se de ne Yi el estimador calculadoP sobre la muestra
salvo la observacion i (i = 1 2 ::: n), Yi = nY ; (n ; 1)Yi y Y = (1=n) ni Yi .
a) Calcule la varianza S 2 de Y cuando Y = Xn la media muestral y E (X ) = .
b) Deducir la distribucion de (Y ; )=S cuando Y = Xn y X N ( 2).
8. Sea X una v.a. real con densidad f (x= ), 2 = f 1 2 ::: N g ( nito).
Sean una distribucion de probabilidad a priori sobre y la funcion de perdida:
L( ) =
0 si =
c si 6= (c > 0)
3 ESTIMACION PUNTUAL
31
a) Pruebe que la perdida esperada se escribe como E (L( )) = c(1 ; ( =x)), en donde es
la distribucion a posteriori sobre .
b) Deduzca la condicion que debe satisfacer para ser el estimador de Bayes de asociado
a . Pruebe que el estimador no depende de c.
c) Si es la distribucion uniforme sobre , pruebe que el estimador de Bayes de y el
estimador de maxima verosimilitud coinciden.
9. Se considera la distribucion discreta: IP (X = x) = ax x =h( ), con x = 0 1 2 :::, en donde
h es diferenciable y ax puede ser nulo para algunos x.
Sea fx1 x2 ::: xng una m.a.s. de esta distribucion.
a) De las expresiones de h( ) y h0 ( ).
b) De el estimador de maxima verosimilitud de en funcion de h y h0 .
c) Muestre que el estimador de maxima verosimilitud es el mismo que el del metodo de los
momentos.
d) Aplique lo anterior para los casos siguientes:
i) X Binomial(N p) (N conocido)
ii) X Poisson( ).
10. Sean Ti , i = 1 ::: I estimadores del parametro
tales que : E (Ti) = + bi , bi 2 R
Se de ne un nuevo estimador T de como T = PIi=1 iTi
a) De una condicion sobre los i para que T sea insesgado.
b) Suponga que bi = 0 8i (estimadores insesgados). Plantee el problema de encontrar los
coe cientes i para que la varianza de T sea m nima.
c) Suponiendo que los Ti son no correlacionados , resuelva el problema planteado antes.
d) Sean Xij , i = 1 : : :M j = 1 : : :ni M m.a.s. independientes entre si, de variables aleatorias
X i con distribuciones
normales de varianza comun 2 .
P
n
1
2
i
Sea si = ni ;1 j =1 (Xij ; Xi )2, el estimador insesgado de la varianza calculado en la muestra
"i".
2
Demuestre que S 2 = PM 1ni ;M PM
i=1 (ni ; 1)si es el estimador lineal insesgado de varianza
i=1
m nima para 2.
32
+nXn ;1
(1 ; p)
+n;nXn ;1
IP (
) = 1;
33
(X1 ; X2 ;
+ 2 )=
2
1
n1
34
+ n22
tn1 +n2 ;2 ,
2
2
( n1 1^2 1 + n2 2^2 2 )=(n1 + n2 ; 2)
que depende de la varianzas desconocidas 12 y 22 .
Si se supone que estas varianzas son proporcionales:
que no depende de 12 y 22:
r X21 ;2X2 ;2
tn1 +n2 ;2
Usualmente si toma k = 1.
Ejemplo 4: Intervalo para el cuociente de dos varianzas: la distribucion F de Fisher
Sean dos poblaciones normales N ( 1 12) y N ( 2 22), nos interesamos al cuociente de las
2
varianzas: 12 .
2
El estad stico n1 ^12= 12 2n1 ;1 y el estad stico n2 ^22 = 22 2n2 ;1 , siendo estos independientes.
2 y V
2 , y son independientes, entonces Y = sU=rV sigue una
Mostramos que si U
r
s
distribucion de Fisher a r y s grados de libertad con una funcion de densidad igual a:
;( r+2 s ) rr=2ss=2 y (r=2);1
h(y ) = ;( r );( s )
(r+s)=2
2
2 (ry + s)
8y
>0
f (y) =
Observamos que si Y
Z1
0
g(y z)dz =
Fr s entonces 1=Y
Fs r .
35
(n + u2)
; (2np^ + u2 )
+ np^2 = 0
2
2
n (^p + u2 ) + u p^(1 ; p^) + u2 = 1 ;
IP ( n +n u2 (^p + 2un ) ; u p^(1 n; p^) + 4un2
n + u2
2n
n
4n2
Para n muy grande, se puede aproximar por:
p^ + u p^(1 n; p^) ) = 1 ;
4.4 EJERCICIOS
1. Sea una m.a.s. fx1 :::xng de una distribucion normal de media desconocida y varianza
2 conocida.
a) De el numero m nimo n del tama~no de la muestra para que un intervalo de con anza I a
95% tenga un largo L a lo mas igual a 0.016 .
36
37
probabilidad condicional
8
>
< (;x) ; (;a) si x < ;a
IP ( 2 Ca(x))=x) = > (a) ; (;a) si ;a < x < a
: (a) ; (;x) si x > a
Ca(x)=x)
0:90 y que
5 TESTS DE HIPOTESIS
38
5 TESTS DE HIPOTESIS
5.1 GENERALIDADES
En el cap tulo 3, se presentaron metodos que permiten encontrar los valores de los parametros
desconocidos de la distribucion de poblacion y en el cap tulo anterior, la estimacion por
intervalo permite dar una cierta indicacion sobre la precision de la estimacion puntual. Tales
estimaciones, puntuales y por intervalo, que fueron obtenidas a partir de valores muestrales,
permiten formarse una opinion sobre la poblacion y entonces darse una hipotesis de trabajo.
Ejemplos:
Antes de apostar "cara" o "sello" en el lanzamiento de una moneda, se tiene que postular
que la moneda esta equilibrada. La hipotesis de trabajo es entonces que el parametro
p=probabilidad de sacar "cara" de la Bernoulli es
p = 0:5
Un agricultor se compromete a entregar a una fabrica de azucar remolacha con un cierto
porcentaje po de glucosa la hipotesis de trabajo es entonces
p = po
p po
Los hombres chilenos pretenden ser mas altos que los argentinos en promedio si 1 y
2 son las tallas promedias respectivas de los hombres chilenos y argentinos, la hipotesis
de trabajo es
1
5 TESTS DE HIPOTESIS
39
En efecto, en el ejemplo de la moneda, si se encuentra una proporcion de 0.45 en 100 lanzamientos, >debemos rechazar la hipotesis p=1/2? y si se rechaza, >sera a favor de la hipotesis
p 1=2?
Se distingue la hipotesis de trabajo llamandola hipotesis nula y una hipotesis nula se confronta a una hipotesis alternativa.
>Con que grado de desacuerdo uno tiene que abandonar la hipotesis nula para la
hipotesis alternativa?
Para decidir, se necesita una regla de decision. Cualquier regla de decision deber a tratar de
minimizar los errores de decision. Si es la regla de decision adoptada y ( ) la probabilidad
de equivocarse cuando la hipotesis nula es cierta y ( ) la probabilidad de equivocarse cuando
la hipotesis alternativa es cierta, uno buscara minimizar ambas probabilidades de error. Pero
veremos, a traves de un ejemplo, que a tener ( ) nula, se hace ( ) igual a 1 e inversamente.
Dada una hipotesis nula Ho , vimos que ( ) es la probabilidad condicional de rechazar la
hipotesis Ho con la regla cuando Ho es cierta. Ahora bien la regla se basa en los valores
muestrales si la muestra es de tama~no n y los valores muestrales en IR, una regla de decision
consiste en dividir el dominio IRn del conjunto de todas las muestras de tama~no n en dos
partes disjuntas: la parte W en donde se rechaza la hipotesis nula Ho y la parte W en donde
no se rechaza. La parte W se llama region de rechazo de Ho o region cr tica del test.
Como la region cr tica del test es aquella en donde se rechaza Ho , deber a tomar en cuenta
la hipotesis alternativa.
Una regla de decision consiste entonces en determinar la region cr tica del test en funcion de
las dos hipotesis.
5 TESTS DE HIPOTESIS
40
del test.
0 si 2 o
1 si 2 1
En efecto, para todo 2 o , la decision de rechazar Ho es una decision equivocada, entonces
( ) es una probabilidad de error de tipo I (o riesgo de primer especie). Por otro lado,
para todo 2 1 , la decision de rechazar Ho es una decision correcta, entonces 1 ; ( ) es
una probabilidad de error de tipo II (o riesgo de segundo especie).
( )=
5 TESTS DE HIPOTESIS
41
2 og
El problema es que tal region cr tica ideal no existe como lo veremos en el siguiente ejemplo,
cuando se disminuye uno de los errores a 0, se aumenta el otro a 1.
Ejemplo: Sea x1 x2 ::: xn una m.a.s. de una v.a. X uniforme en 0, ] con > 0.
Consideramos la hipotesis nula Ho : 3
4 contra la hipotesis alternativa H1 : < 3 o
> 4. Supongamos que una regla de decision nos llevo a decidir de no rechazar a la hipotesis
nula Ho cuando maxfx1 x2 ::: xng de una m.a.s. de la v.a. X esta en el intervalo 2.9,4.1] y a
rechazar Ho en el caso contrario. Luego la region cr tica del test es un subconjunto W IRn
tal que maxfx1 x2 ::: xng < 2:9 o > 4:1g. La funcion de potencia del test es entonces:
( ) = IP (maxfx1 + x2 ::: xng < 2:9= ) + IP (maxfx1 x2 ::: xng > 4:1= )
Si
2:9 )
Si 2:9 <
Si > 4:1 )
4:1 )
)
)
( )=1
)
)
)
)
( ) = ( 2:9 )n
( ) = 1 + ( 2:9 )n ; ( 4:1 )n
5 TESTS DE HIPOTESIS
42
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
0
0
0
Ho : =
contra H1 : =
5 TESTS DE HIPOTESIS
43
entonces a ( ) + b ( ) a ( ) + b ( )
( ) = :::
( ) = :::
fo (x)dx1:::dxn
f1 (x)dx1:::dxn
entonces es optimo para estos valores a y b dados. Se observara que fo (x) ; bf1 (x) = 0 es
irrelevante, dado que no cambia el m nimo.
Sea
De nicion 5.4 Se llama NIVEL DE SIGNIFICACION del test a la cota maxima de error
de tipo I aceptada.
Se tiene entonces que buscar una regla de decision que produce un error de tipo I ( ) o
y tal que ( ) sea m nimo. El siguiente lema, que deriva del teorema anterior, nos da la
forma de proceder.
( ) se tiene ( )
( ).
Ejemplo: sea x1 ::: xn de una muestra aleatoria simple de la v.a. X N ( 2), desconocido y 2 conocido. Se estudia Ho : = 1 contre H1 : = 2. La razon de verosimilitud se
escribe:
f1 (x) = expf; 1 X(x ; 2)2 ; X(x ; 1)2]g
i
i
f (x)
2 2
o
5 TESTS DE HIPOTESIS
44
Si a=b, como c=3/2, para n=20, se obtiene ( ) = ( ) = 1 ; (1:58) = 0:057, pero con
n=100, ( ) = ( ) = 1 ; (3:53) ' 0.
Si se obtuvo una media muestral X = 1:30 para una muestra aleatoria de tama~no 20, no se
rechaza Ho : = 1 con un error de tipo I de 0.057 cuando se toma a=b si se toma a=0.3 y
b=0.7, se rechaza Ho a favor de H1 con un error de tipo I igual a 0.11.
Si ahora se tiene un nivel de signi cacion jado a o = 0:05, entonces se obtiene una region
cr tica R = fX > cg tal que
IP (X > c= = 1) = 0:05
p
Como n(X ; 1) N (0 1)
p
p
IP (X > c= = 1) = 1 ; ( n(c ; 1)= 2) = 0:05
p
p
Como (1:65) = 0:95, se obtiene que n(c ; 1)= 2 = 1:65, es decir que c=1.52 y
R = fX > 1:52g. En este caso no se rechaza Ho .
5 TESTS DE HIPOTESIS
45
Ahora bien no es siempre posible encontrar un test que satisfaga esta condicion. En efecto
si = f 1 2g, un test podra tener una potencia maxima para 1 pero no necesariamente
para 2 .
Retomando el ejemplo anterior, si tomamos como una hipotesis alternativa con dos valores
H1 = f0 2g, entonces para = 0 la region cr tica mas potente sera de la forma R = fX < cg,
que, como lo vimos, no es la region cr tica mas potente para = 2.
De nicion 5.5 Si un test maximiza la funcion de potencia para todo valor de la hipotesis
De nicion 5.6 Se dice que fn (x= ) tiene una razon de verosimilitud monotona para un
Vamos a mostrar que si fn (x= ) tiene una razon de verosimilitud monotona en algun estad stico T, entonces existe un test U.M.P. para las hipotesis Ho :
o contra H1 : > o
Teorema 5.2 Si fn (x= ) tiene una razon de verosimilitud monotona en el estad stico T y
5 TESTS DE HIPOTESIS
46
contra H1 :
, se de ne
n (x= 2 1 )
(x) = Supf
Supfn (x= 2 o )
El test de razon de verosimilitud consiste en rechazar Ho si (x) > k y no rechazar Ho si
(x) < k.
El problema es encontrar la distribucion de (x). El siguiente teorema da una solucion.
2
5 TESTS DE HIPOTESIS
47
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
180
190
200
210
220
230
240
0
120
130
140
150
160
170
180
Sea ahora Ho : = 180 contra H1 : < 180 con un nivel de signi cacion de 0.05.
La region cr tica mas potente es de la forma R = fX < cg con c determinado por:
5 TESTS DE HIPOTESIS
48
1;
140 150 160 170 175 180 185 190 200 210 220
( ) 0.91 0.69 0.37 0.12 0.07 0.05 0.07 0.12 0.37 0.69 0.91
( ) 0.09 0.31 0.43 0.88 0.93 0.95 0.93 0.88 0.43 0.31 0.09
Tabla 5.3: Funcion de Potencia para H1 : 6= 180
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
120
140
160
180
200
220
240
260
5 TESTS DE HIPOTESIS
49
Se observara que este test se basa en el supuesto de distribucion normal de los valores muestrales. Cuando el tama~no de la muestra es grande, este supuesto es aceptable, pero para
muestras peque~nas, es importante comprobar si lo es.
El problema en este caso es la di cultad que se encuentra para calcular la potencia del test
para una hipotesis alternativa.
<
Frecuentemente uno esta interesado no en uma sola media, pero en la diferencia entre dos
medias. Por ejemplo, la diferencia de sueldos medios 1 y 2 entre dos poblaciones 1 y 2.
Las hipotesis se escriben entonces:
Ho : 1 ; 2 = do
H1 : 1 ; 2 6= do
Es mas usual tomar do = 0 y la hipotesis alternativa H1 puede ser
H1 : 1 ; 2 6= 0
o
H1 : 1 ; 2 > 0
Sea la v.a. sueldo X N ( 1 12) en 1 y X N ( 2 22) en 2. Si se tiene una media
muestral X1 de X obtenida sobre una muestra de tama~no n1 en 1 y una media muestral X2
de X obtenida sobre una muestra de tama~no n2 en 2 , entonces
X1 ; X2 N ( 1 ; 2 12=n1 + 22=n2)
Si las varianzas 12 y 22 son conocidas, entonces se obtiene una region cr tica de nivel de
signi cacion = 0:05 para Ho : 1 ; 2 = 0 contra H1 : 1 ; 2 > 0:
2
1
=n1 + 22=n2 )
5 TESTS DE HIPOTESIS
50
Si las varianzas son desconocidas, pero si se supone que son iguales ( 12 = 22 = 2), entonces
se estima esta varianza y se usa un estad stico que sigue una distribucion t de Student. Un
estimador insesgado de 2 es:
S 2 = (n1S12 + n2S22)=(n1 + n2 ; 2)
en que S12 y S22 son las varianzas emp ricas sesgadas de
2
1
y 22 . Entonces
X1 ; X2
2
2
( nn1 S1 +1 +n2n;2 S22 )( nn11+nn22 )
t= r
IP (X1 ; X2 > t
2
2
( nn1 S+1 +n n;2 S22 )( n1n +nn2 )
1
1 2
IP (tn1+n2 ;2 > t ) =
Aqu se hizo el supuesto de igualdad de las varianzas y de independencia de las dos muestras.
Hay situaciones en donde las muestras no son independientes. Es el caso cuando se toman
muestras formadas de pares, es decir cuando cada observacion de una muestra es relacionada
a una observacion de la otra muestra. Por ejemplo, se considera la diferencia de edades
de las parejas en un grupo de matrimonios una muestra esta formada de las esposas y
la otra muestra de sus maridos. La dos muestras no son independientes y son del mismo
tama~no. Sean (X,Y) las v.a. edades de la mujer y su marido y una muestra de n matrimonios
f(xi yi) i = 1 2 ::: ng. La diferencia entre las medias emp ricas Xn y yn es un estimador
insesgado de la diferencia poblacional 1 y 2 en las dos poblaciones apareadas:
E (Xn ; yn ) = E (X ; Y ) = E (X ) ; E (Y ) =
X ;Y
= E (X ; Y
)2 ) = E (X ; 1 )2 + E (Y ; 1 )2 ; 2E (X ; 1 )(Y
= 12 + 12 ; 2Cov (X Y )
Como no se conoce en general las varianzas 12, 12 y la covarianza Cov(X,Y), lo mas simple
es estimar la varianza de la diferencia X2 ;Y considerando que los valores muestrales son las
diferencias di = xi ; yi que provienen de una sola muestra:
P(d ; d )2
i
n
2
^X ;Y =
n
2
X ;Y
5 TESTS DE HIPOTESIS
en donde dn = ndi =
51
Px ; y
i
i
n
^ X ;Y
2
P(x ; y )2
i
i ; d2
=
n
2
El estimador de la varianza de la media diferencia es entonces ^Xn;Y y Xn^X;;yYn=;(n ;1 ;1) 2
sigue una t de Student a n-1 g.l.
Test de comparacion de dos varianzas: la distribucion F
Se quiere comparar las varianzas 12 y 22 de dos poblaciones normales a partir de muestras aleatorias independientes Pde cada poblacion. SiPX1 ::: Xn e Y1 ::: Ym son las muestras
aleatorias respectivas, S12 = n1 (Xi ; X )2 y S22 = n1 (Yi ; Y )2 son las varianzas muestrales
sesgadas.
U = nS12= 12 2n;1 y V = mS22= 22 2m;1 ademas U y V son independientes.
U=(n ; 1) sigue una distribucion F de Fisher a n-1 y m-1
Vimos en el cap tulo anterior que V=
(m ; 1)
grados de libertad.
Consideramos entonces el estad stico
nS12=(n ; 1)
mS22=(m ; 1)
que sigue una distribucion Fn;1 m;1 bajo la hipotesis nula Ho : 1 = 2 .
Se de ne entonces la region cr tica de nivel de signi cacion para Ho : 12 = 22
nS12=(n ; 1) > F ) =
IP ( mS
2=(m ; 1)
2
5.4 TESTS
5 TESTS DE HIPOTESIS
0X
BB X12
Sea X = B
BB :
@ :
Xp
52
1
CC
CC un vector aleatorio
CA
Es decir que si X es un vector normal, toda combinacion lineal de X es una v.a. normal.
Np (
Propiedades:
Tomando como vector u los vectores canonicos, se obtiene las leyes marginales de X,
que son normales pero la rec proca es falsa: un vector formado de variables normales
no es necesariamente un vector normal.
Sea Y una matriz (pxq).
X Np( ;) =) Y = AX Nq (A A;At)
Las v.a. Xi son independientes () ; es diagonal
; es semide nida positiva
En efecto ;(u u) = ut ;u es la varianza de la v.a. u(X ) = ut X .
Si ; es de rango r, existe una matriz (pxr) tal que ; = t. Entonces:
Np (
;) () X = + Y Y
Nr (0 Ir)
es decir que las componentes del vector Y son centradas, normalizadas y independientes
entre si.
Si ; es invertible, es invertible tambien e Y = ;1 (X ; ).
Este ultimo resultado permite calcular la densidad del vector X. En efecto se puede calcular
la densidad del vector Y Np (0 Ip):
X
Y
f (Y ) = f (Yi ) = ( 21 )p=2exp(; 12 Yi2 )) = (1=2 )p=2exp(; 12 Y Y t )
5 TESTS DE HIPOTESIS
53
h(X ) = ( j;j2
Proposicion 5.1 Si X
N(
)p=2exp(; 12 (X ; )t ;;1 (X ; ))
k2;;1
r.
2
5 TESTS DE HIPOTESIS
54
k ;1
Mi 1 2 3 4 5 6 Total
fi 12 11 22 20 16 21 102
Tabla 5.4
>Podemos concluir si el dado esta cargado?
Sea la hipotesis nula Ho : pi = 16 8i
Entonces calculamos el estad stico Q para construir la region cr tica (tabla 5.5).
i
1
2
3
4
5
6
Total
Mi
12
11
22
20
16
21
102
Se obtiene Q=6.589, y IP ( 25 > 6:589) > 5%, por lo cual no se rechaza Ho . Las diferencias
no son su cientemente signi cativas para concluir que el dado esta cargado.
5 TESTS DE HIPOTESIS
55
N o accidentes 0 1 2 3 4 5 6 Total
N o semanas 17 16 10 5 2 1 1 52
Tabla 5.6
Bajo Ho , los numeros de semanas Mo con 0 accidente, M1 con 1 accidente, ..., M6 con 6 o
mas accidentes sigue una distribucion multinomial de parametros n=52, y po = IP (X = 0),
p1 = IP (X = 1), ..., p6 = IP (X 6),
Calculamos los pi = IP (X = i), con X P (1:5).
i
0
1
2
3
4
5
6
Total
Mi
17
16
10
5
2
1
1
52
pi
0.2231
0.3347
0.2510
0.1255
0.0471
0.0141
0.0045
1.0000
Se obtiene Q=7.0563 (tabla 5.7), y IP ( 26 > 7:0563) > 5%, por lo cual no se rechaza Ho .
Ahora
que no se conoce el parametro , se puede estimar por ^ = Xn =
P iM =si52 se= supone
72=52 = 1:385 y proceder como antes. Pero ahora el estad stico Q pierde un
i
grado de libertad debido a la estimacion.
Con el parametro ^, Q=5.62 y IP ( 25 > 5:62) > 5%.
5 TESTS DE HIPOTESIS
56
la muestra Mi que caen en el intervalo Ii . El vector M de los efectivos de los intervalos sigue
una distribucion multinomial de parametros de probabilidad determinados por la hipotesis
nula.
Sea por ejemplo, las temperaturas medias X del mes de septiembre en Urbe durante 60 a~nos
(tabla 5.8). Se quiere probar la hipotesis nula Ho : X normal.
Hay diferentes maneras de de nir la particion de intervalos de IR. Una vez jado el numero
de intervalos, se pueden elegir del mismo largo o de la misma probabilidad. Tomaremos aqu
10 intervalos equiprobables.
Para calcular las probabilidades, hay que estimar previamente los parametros y 2 de la
normal:
^ = Xn = 15:76 ^ 2 = Sn2 = 13:82
Luego los intervalos Ij se obtienen de tal forma que (tabla 5.9):
IP (X 2 Ij ) = 0:10
8j
6.5
14.0
15.4
16.8
18.8
7.5
14.0
15.6
16.9
18.9
Ii
];1,10.96]
]10.96,12.64]
]12.64,13.83]
]13.83,14.83]
]14.83,15.76]
]15.76,16.69]
]16.69,17.69]
]17.69,18.88]
]18.88,20.56]
]20.56,+1]
Total
12.8
15.0
16.4
17.6
22.5
13.5
15.2
16.4
17.9
22.8
13.8
15.2
16.5
18.2
23.9
5 TESTS DE HIPOTESIS
57
APRECIACION
MALA REGULAR BUENA
A
140
100
45
B
50
225
350
C
15
175
500
TOTAL 205
500
895
Tabla 5.10: Tabla de contingencia
TOTAL
285
625
690
1600
Las probabilidades pij se estiman usando las frecuencias marginales de la tabla por ejemplo,
para el NSE A con la apreciacion MALA se obtiene p^11 = 285 205=1600 = 0:0228 y
np^11 = 36:51.
Se obtiene el valor Q=521.46. Como IP ( 4 > 521:46) < 5%, se rechaza la hipotesis de
independencia entre el NSE y la apreciacion.
5 TESTS DE HIPOTESIS
58
Nota: Se puede usar el mismo test para probar la independencia de dos variables continuas
transformandolas en variables discretas.
5.5 EJERCICOS
1. El cocinero del casino preparo la masa para hacer 500 empanadas. Ese mismo d a, en un
grupo de 20 alumnos que almorzaron juntos, alguien propuso contar la cantidad de pasas que
cada uno encontrase en su empanada, encontrandose la siguiente distribucion:
N o de pasas N o de empanadas
0
1
1
3
2
4
3
5
4
4
5
2
8
1
a) Suponiendo que la distribucion de la cantidad de pasa X en una empanada sigue una ley
de Poisson, estime el parametro de esta ley.
b) Justi que la hipotesis: "H0: La distribucion de la cantidad de pasas en una empanada
sigue una ley de Poisson" de las dos formas siguientes:
(i) A priori: Buscando la probabilidad de que una empanada tenga exactamente x pasas.
(ii) A posteriori: comparando los resultados esperados bajo la hipotesis con aquellos observados en la muestra.
c) Se decide que las empanadas son aceptables si en promedio cada empanada tiene 3.5 pasas
el cocinero a rma que esta se la cantidad de pasas por empanadas. Los alumnos, en cambio,
objetan que las empanadas tienen en promedio solo 2.5 pasas.
>Que signi ca la eleccion de los test de hipotesis siguientes:
d) Dar la region cr tica al test H0 vs. H1 al nivel de signi cacion = 0:05. Dar la potencia
de este test y concluir si las empanadas son aceptables.
e) Misma pregunta tomando H00 vs H10 .
f) Comparar las dos decisiones anteriores.
2. Se tienen los pesos de diez parejas antes y despues de 6 meses de matrimonio:
5 TESTS DE HIPOTESIS
59
antes 72 69 81 71 88 78 68 76 86 95
Hombres despues 77 68.5 85 74.5 90.5 76 71 75 87.5 101
antes 52
Mujeres despues 54
56
55
61
58
49
50
57
55
63 66 59
61 64 56
67
70
51
50
>Cual es la in uencia del matrimonio sobre el peso de los hombres y de las mujeres?
3. Se quiere probar si hay una diferencia de ingreso entre hombres y mujeres medicos. Se
hizo una encuesta a n = 200 medicos seleccionados al azar e independientemente. Se obtuvo
la siguiente informacion:
Ingresos bajos Ingresos altos Total
Hombres
20
100
120
Mujeres
70
10
80
Total
90
110
200
a) Sean p1 y p2 las proporciones poblacionales de medicos hombres y mujeres y sean p01 y p02
las proporciones poblacionales de medicos con ingresos bajos y altos. Realice los tests
H0 :
2 vs. H1 : < 2.
Sea Yn = maxfX1 ::: Xng y considerese un procedimiento de contraste tal que la region
cr tica contenga todos los resultados tq. Yn 1:5.
a) Determ nese la funcion de potencia del contraste.
b) Determ nese el tama~no del test.
5. Supongase que se desconoce la proporcion p de art culos defectuosos en una poblacion de
art culos y se desea probar las hipotesis
H0 : p = 0:2 vs H1 : p 6= 0:2.
Supongase ademas que se selecciona una m.a.s. de tama~no 20. Sea Y el numero de art culos
defectuosos en la muestra y considerese un procedimiento para resolver el test tal que la
region cr tica esta dada por Y 7 o Y 1.
5 TESTS DE HIPOTESIS
60
a) Determ nese el funcion de la potencia (p) en los puntos p = 0 0:1 0:2 0:3 0:4 0:5 0:6 0:7 0:8 0:9
y 1.
b) Determine el tama~no del test.
6. Sea X1 :::: Xn una m.a.s. de una distribucion normal de media desconocida y varianza
1. Sea 0 un real dado. Se tienen las hipotesis
H0 : =
vs. H1 : =
6
0.
H0 : = 1 vs H1 : = 2.
a) Demostrar que existe un procedimiento para resolver el test para el cual ( ) = 0 y
( ) < 1.
b) Entre todas las soluciones del test para las cuales ( ) = 0, hallese una para el cual ( )
sea m nimo.
9. Sea X1 ::: Xn una m.a.s. de una Poisson( ), con desconocido. Sean 0 y 1 dados, con
1 > 0 > 0. Se tienen las siguientes hipotesis:
H0 : =
vs. H1 : = 1.
H0 :
vs H1 : > 0 .
5 TESTS DE HIPOTESIS
61
Supongase ademas, que el procedimiento que se va a utilizar ignora los valores observados
en la muestra y, en vez de ello, depende unicamente de una aleatorizacion auxiliar en la que
se lanza una moneda desequilibrada de forma que se obtendra cara con probabilidad 0.05 y
sello con probabilidad 0.95. Si se obtiene una cara, entonces se rechaza H0 , y si se obtiene
sello, no se rechaza H0 . Descr base la funcion de potencia de este procedimiento.
11. Sea X1 ::: Xn una m.a.s. de una distribucion con parametro desconocido y una funcion
de densidad conjunta fn (x= ) que tiene cociente de verosimilitud monotona en el estad stico
T = r(X ). Sea 0 un valor espec co de y supongase que se quieren constrastar las hipotesis
H0 :
vs H1 : < 0 .
H0 :
1 vs H1 : < 1 .
Supongase ademas que el tama~no de la muestra es n = 20. >Para que niveles de signi cacion
0 , con 0 < 0 < 0:03 existen tests UMP?
13. Consideremos una observacion X de una distribucion de Cauchy con un parametro de
localizacion desconocido , esto es, una distribucion cuya funcion de densidad esta dada por:
f (x= ) = 1 + (1x ; )2 ] (8x)
Se desean constrastar las hipotesis
H0 : = 0 vs H1 : > 0.
Demuestre que no existe un test UMP de estas hipotesis a ningun nivel de signi cacion 0 .
14. Sea X1 ::: Xn una m.a.s. de una distribucion N ( 1). Supongase que se desean contrastar las hipotesis
H0 :
0 vs H1 : > 0.
5 TESTS DE HIPOTESIS
62
H0 : = 3 vs H1 : =
6 3.
Considere que H0 se rechaza si c2 maxfX1 ::: Xng c1 y sea ( = ) la funcion de potencia
de . Determine los valores de c1, c2 para que (3= ) = 0:05 y sea insesgado.
1.1 Introduccion
Una asociacion entre variables expresa el grado de in uencia que puede tener
una variable sobre otra. Los ndices que se pueden de nir dependen del tipo
de relacion que se estudia y de la naturaleza de las variables consideradas.
Se presenta en primer lugar ndices descriptivos de asociacion y en seguida
se hace inferencia sobre estos coe cientes.
x y
r = ;1
;1 < r < 0
r =0
0 < r < +1
r = +1
x y
x y
x y
x y
x y
La tendencia lineal aumenta cuando r tiende a 1 (ver gra cos 6.1). Pero
cuando r 6= 1, hay muchos casos muy diferentes que pueden producir
el mismo valor del coe ciente r . De aqu la importancia de tener mucho cuidado en la interpretacion de un coe ciente de correlacion. Un dato
aberrante, una mezcla de poblaciones, una relacion no lineal pueden cambiar
totalmente el valor del coe ciente (ver gra cos 6.2).
Cuando se estudia mas de dos variables, se puede presentar los coe cientes
de correlacion en una matriz cuyo termino general r es el coe ciente de
correlacon relativo a las variables i y j . La matriz de correlaciones asociadas
a la tabla 6.1, en la cual se tiene 6 variables observadas sobre 20 paises, esta
dada en la tabla 6.2. Por ejemplo, el coe ciente de correlacion entre la tasa
de natalidad y la fecundidad es igual a 0.972.
x y
x y
x y
ij
PAIS
% POB.
/ASA
/ASA MOR ESPERAN FECUN MORTALIDAD
URBANA NATALIDAD /ALIDAD ZA VIDA DIDAD
INFANTIL
ARGENTINA
86.2
20.3
8.6
71.0
2.8
28.8
BOLIVIA
51.4
34.4
9.3
54.5
4.6
84.8
BRASIL
76.9
26.1
7.5
65.6
3.2
56.4
COLOMBIA
70.3
25.8
5.9
68.8
2.9
37.0
COSTA RICA
53.6
26.3
3.7
74.9
3.1
13.7
CUBA
74.9
17.4
6.7
75.4
1.9
14.2
CHILE
85.6
22.5
6.4
71.8
2.7
16.9
ECUADOR
56.9
30.9
6.9
66.0
3.9
57.4
EL cALVADOR
44.4
33.5
7.1
64.4
4.0
45.6
GUATEMALA
42.0
38.7
7.6
63.4
5.4
48.5
HAITI
30.3
35.3
11.9
55.7
4.8
86.2
HONDURAS
43.6
37.1
7.2
64.9
4.9
59.7
MEXICO
72.6
27.9
5.4
69.7
3.2
35.2
NICARAGUA
59.8
40.5
6.9
64.8
5.0
53.1
PANAMA
54.8
24.9
5.2
72.4
2.9
20.8
PARAGUAY
47.5
33.0
6.4
67.1
4.3
47.0
PERU
70.2
29.0
7.6
63.0
3.6
75.8
R. DOMINICANA
60.4
28.3
6.2
66.7
3.3
56.5
URUGUAY
85.5
17.1
10.3
72.2
2.3
20.0
VENEZUELA
90.5
28.3
5.4
70.0
3.5
33.2
VARIABLES
12
13
14
15 16 17
12 % POB. URBANA
1.0 -.739 -.179 .588 -.735 -.532
13 TASA .NATALIDAD -.739 1.0 .101 -.723 .972 .682
14 TASA MORTALIDAD -.179 .101 1.0 -.609 .262 .533
15 ESPERANZA VIDA .588 -.723 -.609 1.0 -.769 -.951
16 FECUNDIDAD
-.735 .972 .262 -.769 1.0 .709
17 MORTAL. INFANTIL -.532 .682 .533 -.951 .709 1.0
TABLA 6.2: Matriz de correlaciones asociada a la tabla 6.1
Si se quiere estudiar otro tipo de relacion, se tiene dos alternativas:
Dada una funcion f sobre X, calcular el coe ciente de correlacion entre
f(X) e y. Este metodo es factible cuando se sospecha de la funcion f.
Usar otros ndices, como se vera mas adelante.
Una forma natural de codi car una variable nominal X para medir su ligazon
con una variable cuantitativa Y consiste en buscar la codi cacion de las
modalidades de X que produce la mayor correlacion lineal con la variable Y.
Si X tiene p modalidades, se le puede asociar p variables indicadores fX 1 X 2 ::: X g
tales que
(
X (k) = 10 sisinoel individuo k toma la modalidad j de X
p
X
Se observa que X (k) = 1 (8k). Entonces si a es la codi cacion de
=1
la modalidad j (j=1,...,p), entonces la variable cuantitativa asociada a esta
codi cacion se puede escribir:
p
(k) =
a X (k )
j
Dada f(x y )/i=1,...,ng una muestra de (X,Y), se de ne entonces la codi cacion fa /j=1,...pg que maximiza
X
cor(y a x )
i
nj j
nj
kj
=1
nj
=1
total s2
j k
Xn
2 + X n w2
(
y
;
y
)
n
n
La media ponderada por los efectivos relativos nn de las medias y es igual
a la media total y ( P nn y = y ). Luego la cantidad P nn (y ; y)2 es la
varianza ponderada de las medias y .
Sean b2 = P nn (y ; y)2 la varianza entre los grupos, y w2 = P nn w2 la
varianza promedio dentro de los grupos. La varianza total se descompone
entonces en:
s2 = b2 + w2
Si w2 es nula, todas las varianzas w2 son nulas y todas las observaciones en
un mismo grupo j toman el mismo valor sobre la variable Y, que es igual a
la media y del grupo, y en consecuencias se podra obtener el valor de un
observacion sobre la variable Y conociendo su modalidad sobre X. Se detecto
en este caso una relacion funcional de X hacia Y.
Al contrario si la varianza entre los grupos b2 es nula, entonces todas las medias y son iguales a y: no se podra decir nada sobre el valor de Y conociendo
la modalidad de X. No se detecto ninguna relacion funcional de X hacia Y.
El ndice siguiente permite de medir el grado de asociacion de tipo funcional
de X hacia Y:
2
2 =b
s2
Este coe ciente toma valores entre 0 y 1:
2 =1
relacion funcional estricta
0 < 2 < 1 tendancia funcional
2 =0
ausencia de tendencia funcional
s2 =
y=x
y=x
y=x
y=x
y=x
y=x
sea maximo.
9
1.4.2
de contingencia
Los datos obtenidos sobre las dos variables nominales pueden resumirse en
una tabla de contingencia sin perder informacion, salvo la identi cacion de
las observaciones.
En la eleccion de consejales de 1991, se puede asociar a cada votante la
lista votada y la region. Se puede resumir los resultados en una tabla de
frecuencias (Tabla 6.3), que es la unica informacion que se conoce realmente
en este caso (por el anonimato de la eleccion).
PARTIDO
I
II
III
IV
V METR.
VI
D.C.
30142 63020 16793 58345 226333 759639 90521
RADICAL
19268 19265 9282 14336 39941
59767 21249
A.H. VERDE
2186
0
0
0 1680
43284
784
SOCIALDEMO
596
0
225
562 2817
6351
0
INDEP
346
73
55
86 1608
16493 2383
PPD
5165 11800 7390 21429 56405 295474 30714
SOCIALISTA
3405 15341 18339 28041 33282 177570 35779
INDEP
385
0
0
0
0
0
122
COMUNISTA
36648 13951 11588 21614 51135 171715 19312
LIBERAL
0
248
378
0
512
0
328
R.N.
12236 12424 16795 54648 96224 311801 54439
NACIONAL
0
0
0
0
422
2325
0
INDEP
3971 11669 4202 9385 40126
88614 7877
U.D.I.
8631 17464 8474 14495 71573 314984 33869
INDEP
587
980
47
0 6905
32008 6340
U.C.C.
6460 15428 5623 10671 73163 181913 26395
INDEP
105 5582 6007 1337 12263
37898 12797
IND IQUIQUE 24757
0
0
0
0
0
0
TOTAL
153888 187245 105198 234979 714389 24999836 342909
10
PARTIDO
VII VIII
IX
X
XI XII TOTAL
D.C.
114070 223287 118841 121815 11555 13827 1848188
RADICAL
23416 61962 14420 26815 1602 2209 313562
A.H. VERDE
0 2931 1069
585
0
0 52519
SOCIALDEMO 7076 1110 6761 1291
0
0 26789
INDEP
1211 2631 1942 3572
45
27 30472
PPD
27759 64167 25498 29682 1250 8739 585472
SOCIALISTA
38338 94626 18987 51485 3715 20786 539694
INDEP
0
0
0
0
0
0
507
COMUNISTA
18379 50121 9824 13202 2342 2546 421377
LIBERAL
0
0 13842
0 241
0 15549
R.N.
60524 87849 56951 77702 8760 5807 856160
NACIONAL
0 1467
0
0
0
0
4214
INDEP
13644 29665 45384 23587 277 723 279124
U.D.I.
45905 75230 18194 32183 2065 8273 651340
INDEP
4794 16420 2358 3385 1598 731 76153
U.C.C.
47112 72049 21566 50650 1478 4237 516745
INDEP
13977 26376 9356 9066 119 1443 136326
IND IQUIQUE
0
0
0
0
0
0 24757
TOTAL
416205 809891 364993 445020 35047 69348 6378948
TABLA 6.3: Resultados de la eleccion de consejales de 1991
Sean diversos ejemplos de tablas de contingencia (Tablas 6.4 a 6.7) sobre dos
variables X (en la) e Y (en columna). Se observa en la tabla 6.4, que las
columnas 1 y 2 son proporcionales, lo que signi ca que reparten sus totales
en las mismas proporciones entre las modalidades A1 y A2. Las modalidades
B1 y B2 tienen los mismos per les. Al observar esta tabla no se ve muchas
relaciones entre las dos variables conociendo una modalidad de una variable,
no se puede decir nada sobre la otra variable. No es el caso de la tabla 6.5.
En efecto, si una observacion toma la modalidad B1, tomara la modalidad
A2 de X dada A1, entonces se tendra la modalidad B3 de Y, pero dada A2,
se tendra B1 o B2. Se tiene entonces una relacion funcional de Y hacia X, y
existe una relacion de X hacia Y, pero no de tipo funcional.
En el caso de la tabla 6.7 existe una relacion funcional, pero no hay ninguna
en la tabla 6.6.
11
B1 B2 B3
B1 B2 B3
A1 50 100 10 160
A2 100 200 50 350
A1 0 0 50 50
A2 10 12 0 22
B1 B2 B3
B1 B2 B3
150 200 60
TABLA 6.4
10 12 50
TABLA 6.5
A1 20
A2 40
A3 80
A1 0 20 0 20
A2 30 0 0 30
A3 0 0 25 25
10 7 37
20 14 74
40 28 148
140 70 49
TABLA 6.6
30 20 25
TABLA 6.7
ij
ij
ij
j
La variable Y no in uye sobre la variable X si y solo si los per les condicionalescolumnas son todos iguales:
iq
pj
n = n nn
i
ij
12
ij
ij
2 = X (n
ij
; n n n )2
i
ij
Si transformamos las dos variables cuantitativas en variables nominales podremos usar el 2 de contingencia que nos permite detectar una relacion de
cualquier tipo, no solamente lineal o funcional.
Para hacer las transformaciones se requiere un gran numero de observaciones
para tener una cantidad su ciente de elementos en cada celda de la tabla de
contingencia.
Se observara que las transformaciones producen variables menos precisas que
las originales, pero con estas se puede investigar relaciones no lineales.
Como anteriormente vimos se puede construir codi caciones de ambas variables o ndices.
Sean a , i=1,...,p las codi caciones de las modalidades de X y x , i=1,...,p,
las variables indicadoras de X sean b , i=1,...,q, las codi caciones de las
modalidades de Y e Y , i=1,...,p, las indicadoras de Y.
Aqu las codi caciones deben respetar el orden de nido sobre las modalidades. Entonces se busca las codi caciones que respetan los ordenes y tales
que el coe ciente de correlacion lineal emp rico
i
13
X
X
cor( a x b y )
i
sea maximo.
Este problema no es facil de resolver en general.
xn
R < R () x < x
xi
xj
yi
xi
yi
P S (x x )S (y y )
Se de ne el coe ciente de correlacion de rangos de KENDALL: =
n(n ; 1)
El numerador es igual al numero de pares de observaciones con el mismo
orden menos el numero de pares de observaciones con orden contrario. El
numerador es igual al numero total de pares. Como R , toma valores entre
-1 y +1 y vale +1 si los ordenes son identicos y -1 cuando son totalmente
opuestos.
i j
14
1.6 Inferencia
15
Para estudiar la signi catividad de una razon de correlacion emp rica obtenida
sobre n observaciones entre la variable cuantitativa Y con la variable nominal
X a p modalidades, se plantea la hipotesis nula H0 : = 0.
Se supone entonces distribuciones condicionales de Y dada cada modalidad
de X normales de misma media y misma varianza. Se considera entonces el
estad stico:
2=(p ; 1)
1 ; 2=(n ; p)
que sigue una distribucion de Fisher a p-1 y n-p grados de libertad bajo la
hipotesis de independencia.
1.6.3
de contingencia
>Si dos variables nominales X e Y son independientes, cuales son los valores
mas probables del 2 de contingencia?
n n )2
2 = X (n ;
n
n n
i
ij
n
Si X e Y son independientes, n = n n n para todo par (i,j) en este caso
i
ij
ij
p1
n;3
).
Si X e Y son independientes, cualquiera sean las leyes de X e Y, las dos permutaciones inducidas son independientes. En este caso, si el ordenamiento de
X esta jado, las n! permutaciones de este ordenamiento son equiprobables.
Se tiene tres maneras de obtener la distribucion de R bajo la hipotesis de
independencia:
S
El coe ciente de Spearman entre la Esperanza de Vida y la Tasa de Mortalidad de la tabla 1 vale 0.48.
En las tablas de la distribucion del coe ciente de Spearman encontramos que
IP (jR j > 0:447) = 0.05, lo que nos lleva a rechazar la independencia entre
la Esperanza de Vida y la Tasa de Mortalidad.
S
Como en el caso del coe ciente de correlacion de Spearman, se puede construir emp ricamente la distribucion del de Kendall cuando n es muy
peque~no. Pero
r a partir de n > 8, se puede aproximar a una distribucion
normal N (0 92(2( +5)
;1) )
Para las variables Esperanza de Vida y Tasa de Mortalidad de la Tabla 6.1,
obtenemos
= 0.326.
s
P (j j < 1:96 18090 19 ) = P (j j < 0:317) = 0:05
Nuevamente encontramos signi cativa la relacion entre las dos variables.
n
n n
17
1.7 EJERCICIO
Z T
Y =X
Y =X
Y =X
Y =X
X=Y
X= Y
X= Y
X=Y
Z T =X
Z T
18
2 MODELO LINEAL
2.1 INTRODUCCION
Estudiamos en el cap tulo anterior como detectar una asociacion entre dos
variables generalmente los roles de las variables no son simetricos - una
variable puede in uir sobre la otra y la rec proca no ser cierta - y mas de
una variable pueden intervenir en esta relacion. Aqu nos interesamos no es
solamente en evaluar la intensidad de la asociacion, pero tambien, describir
esta relacion.
Algunas relaciones son faciles a plantear y veri car - como las relaciones
planteadas a partir de leyes f sicas o mecanicas - pero cuando la aleatoriedad
juega un papel importante, el estudio de las relaciones es mas di cil. Se busca
aqu descubrir como un conjunto de variables X 1 X 2 ::: X - llamadas varip
19
E (P=T ) = + T
en que y dependen de los parametros de la distribucion conjunta de P y
T. El peso se escribe entonces:
P= + T+
en que re eja la variabilidad del peso P entre las chilenas de la misma talla
con respecto a la media.
Ejemplo 3: Para decidir la construcion de una nueva central electrica, ENDESA busca prever el consumo total de electricidad en Chile despues del
a~no 2000. Se construye un modelo que liga el consumo de electricidad con
variables economicas y demogra cas, que se estima en base a datos pasados.
Se aplica entonces el modelo para predecir el consumo de electricidad segun
ciertas evoluciones economicas y demogra cas.
Ejempo 4: Para establecer una determinada publicidad a la television, se
cuanti ca el efecto de variables culturales y socio-economicas sobre la audiencia de los diferentes programas.
Ejemplo 5: Ajuste polinomial
El modelo lineal puede ser generalizado tomando funciones de las variables
explicativas y/o de la variable a explicar. Es el caso cuando se tiene una
variable Y a explicar a partir de una sola variable X en un modelo polinomial:
Y = a + a1X 1 + ::: + a X
en donde X es la potencia j de X .
o
Observamos en los distintos ejemplos que las variables pueden ser aleatorias o
no. En el caso que ninguna de las variables es aleatoria, se tiene un problema
de ajuste y se presenta a continuacion el metodo matematico de ajuste de los
m nimos cuadrados, que permite estimar los coe cientes del modelo lineal a
partir de valores observados.
Para el caso de variables aleatorias, se presenta en el parrafo siguiente, el
metodo de maxima verosimilitud, que basado en un modelo probabil stico
normal permite justi car el metodo de m nimos cuadrados y discutir las
propiedades de los estimadores y la precision del ajuste. Finalmente se usara
el modelo para predicciones.
Se enfatizara los aspectos geometricos del problema y como hacer una cr tica
de los supuestos probabil sticos usuales.
Sean f(y x1 x2 ::: x ) (i = 1 ::: n)g los valores obtenidos sobre una
muestra p + 1 dimensional de tama~no n. Se plantea el modelo lineal:
p
y = + 1x1 + ::: + x
y = + 1x1 + ::: + x +
p
j j
i
Maxf g
i
21
Escribiremos matricialmente el
ciones. 0 1
0 1 x1
BB yy12 CC
BB 1 x112
BB CC
Sea y = B : C, X = B
@ :::
B@ : CA
1 x1
y
Entonces el modelo se escribe:
n
x21
x22
:::
x2
0
::: x1 1
::: x2 CCC, = BBB 1
A
@ :::
:::
::: x
p
y=X +
1
0 1
CC
BB 12 CC
CA, = B@ ::: CA
n
22
En el parrafo anterior, se uso un criterio matematico para estimar los coe cientes . Aqu usaremos un modelo probabil stico y el metodo de maxima
verosimilitud para estimarlos. El modelo consiste en la esperanza condicional
de la variable repuesta Y dadas las variables explicativas X 1 X 2 ::: X :
j
con
Y = E (Y=X 1 X 2 ::: X ) +
p
n=
n
i
Ademas
el estimador de maxima verosimilitud de
1 P e2 = 1 P =1(y ; ; ^0 ; ^1x1 ; ::: ; ^ x )2.
n
n
i
es:
Las propiedades del estimador ^ son ligadas a los supuestos hechos sobre los
errores . Supondremos aqu que X es de rango p+1 ( ^ = (X X );1X y).
t
El estimador es insesgado: E ( ) = 0 =) E ( ^) =
23
El estimador es consistente.
El estimador tiene m nima varianza:
24
Los residuos e dan la calidad del ajuste para cada observacion. Pero es una
medida individual que depende de la unidad de medicion. Un ndice que
evita este problema es:
P e2
P y2
i
i
i
que representa el cuadrado del coseno del angulo del vector y con el vector
y^ = Py en IR . Se puede comparar las varianzas:
varianza residual: (1=n) P e2
varianza explicada: (1=n) P(^y ; y)2
varianza total: (1=n) P(y ; y)2
El ndice estad sticamente mas interesante es el coe ciente de correlacion
multiple:
P(^y ; y)2
2
R = P(y ; y)2
que compara el varianza explicada con la varianza total. La ra z cuadrada del
coe ciente de correlacion multiple (R) es el coe ciente de correlacion lineal
entre y e y^ El valor de R esta comprendido entre 0 y 1. Cuando R=0, el
modelo es E(y)= y, la media muestral de los valores y , y cuando R es igual
a 1, el vector y pertenece al subespacio vectorial W, es decir que existe un
modelo lineal que permite escribir las observaciones y como combinacion de
las variables explicativas. Cuando R es cercano de 1, el modelo es bueno
siendo los valores observados y vecinos de los valores estimados y^ .
Si se plantea la hipotesis H : 1 = 2 = ::: = = 0, se usa el estad stico
P (^y ; y)2=(p + 1)
F = P e2=(n ; p ; 1)
que bajo la hipotesis nula H sigue una distribucion de F de Fisher a p+1 y
n-p-1 grados de libertad. 2
Se observara que F = (1; 2) (( +1)
; ;1)
n
R = p
= n
25
2.6 PREDICCION
Si se tiene una nueva observacion para la cual se conoce los valores de las
variables explicativas, sean x1 x2 ::: x , pero se desconoce el valor y de la
variable repuesta, se puede entonces usar el modelo para inferir un valor para
y a traves de su valor esperado:
o
p
o
E (y ) = x
en que x = (1 x1 ::: x ).
Se tiene un estimador insesgado de aplicando el modelo sobre los valores
tomados por las variables explicativas debido a la nueva observacion :
y^ = Ed
(y ) = x ^
o
p
o
yo
sqrtxt X t X
2x
t
o
(X X );1 x +
t
t
o
26
2.8 EJERCICIOS
1. Cuatro medicos estudian los factores que hacen esperar a sus pacientes
np
nn
!
^
1
2. Si X1X2 6= 0 y si se toma ^ = ^ como estimador de , que
2
propiedad pierde bajo el supuesto usual E ( ) = 0.
3. Consideramos tres variables Y X Z observadas sobre una muestra de
tama~no n=40, f(y x z )g. Se busca explicar Y a partir de X y Z .
t
28
29
Residuos 6
04
12
16
Se tiene P x z = 0 y P z = 0.
i
R
3. Construya un intervalo de con anza para 0 f (t)dt.
5. Sea Y 2 IR un vector aleatorio con E(Y)= y Var(Y)= 2I . Se considera
el modelo lineal Y = X + , en que X=(1 X1 ::: X ) y X es de rango
completo. Llameremos W al subespacio de IR generado por las columnas
de X e Y^ al estimador de m nimos cuadrados de = E (Y ).
1. Sea a 2 W y la recta generada por a. Se de ne H = fz 2 W=a z =
0g el suplemento ortogonal de en W. Se tiene entonces
la descomL
posicion en suma directa ortogonal de W: W = H
.
aK
30
-y
a Y
at a
2 ( tt )2 :
b a
a a
=1
2
P 2
4. Se considera el caso particular a = I1 . De la distribucion de P 2 .
n;p
^
Muestre que si las variables son centradas, Y = Y .
n
31
Y
i
p
1.1 INTRODUCCION
Vimos que es practico asociar gra cos a la interpretacion de los coe cientes
de asociacion empiricos permiten visualizar la existencia de ligazon entre
dos variables y de posibles tipologias de las observaciones, mientras que los
coe cientes permiten medir el grado de relacion. Pero la mayoria de los problemas envolucran mas de dos variables. En el capitulo anterior, el modelo lineal permitio estudiar la relacion de una variable a partir de un conjunto de variables explicativas. Veremos en este capitulo una forma de visualizar observaciones y variables para interpretar la estructura que contienen.
de variables y, mediante aproximaciones, llevar a un conjunto de representaciones gra cas. Las nuevas variables -llamadas componentes principales- son
ndices que permiten interpretar mejor los datos.
MORTALIDAD INFANTIL
90 HAITI
BOLIVIA
80 -
70 -
HONDURAS ECUADOR
R. DOMINICANA
BRASIL
NICARAGUA
nUATEMALA
PARAGUAY
EL cALVADOR
COLOMBIA
MEXICO
VENEZUELA
ARGENTINA
60 50 40 30 20 .0 -
PERU
,
55
,
60
,
65
GRAFICO 8.1
0 x 1
1j
B
C
x
B
20
N = fxj = B 2j C
@ ::: CA 2 IR g
x20j
Se observara que si X es de rango igual a 1, entonces existe c 2 IR20 y
u 2 IR6 tal que X = cut. En este caso, existe una recta en IR6 que pasa por
el origen, con u de vector director, a la cual pertenecen los puntos de M si
u es unitario, las componentes ci de c son las coordenadas de los pa ses sobre
esta recta. Sea kck2 = l. Simetricamente, existe una recta en IR20, que pasa
por el origen, con cpde vector director, a la cual pertenecen los puntos de
N . Si kck2 = l, uj = l son las coordenadas de las variables sobre esta recta.
Si X es de rango igual a 2, entonces existe c1 y c2 2 IR20 y u1 y u2 2 IR6
tal que X = c1ut1 + c2ut2. En este caso, los soportes de M en IR6 y de N
en IR20 son planos. Mas generalmente si X es de rango igual a r, entonces
existe c1 ::: cr 2 IR20 y u1 ::: ur 2 IR6 tal que X = c1ut1 + ::: + cr utr. En este
caso, los soportes de M en IR6 y de N en IR20 son de dimension r con estos
vectores como vectores directores. El problemas es encontrar los vectores de
tal descomposicion.
Se distinguen las representaciones en IR6 y en IR20.
1.3.1 Representacion en R6
En este espacio los puntos son los 20 pa ses. Para comparar dos pa ses i e i ,
se considera la distancia entre las las xi y xi correspondientes:
v
u
j
u
X
u
t
d(i i ) =
(xij ; xi j )2
0
j =1
i ij
xij =
3
xi
A
A
A
ciu
-
;
;
;
;
;
;
i ij
H
H
6 HH
HH
H
HH
H
H
HH
HH
H
HH
H
HH
0
H
HH
H
-
;
;
;
;
;
;
X
X
Q = (1=20) c2i ; l( u2j ; 1)
i
j
X
X
Q = (1=20)ut( xixti)u ; l( u2j ; 1)
i
j
X
Q = (1=20)utX tXu ; l( u2j ; 1)
j
(1=20)X t ck = lk uk
(1=20)XX t ck = lk ck
Ademas kck k2 = lk (Se deja mostrarlo como ejercicio).
sea m nimo.
Se tiene vj = dtxj con kdk = 1.
Se obtiene que d es el vector propio normalizado de XX t asociado al mayor
valorppropio l1. Luego d es colineal al vector c1 obtenido en elpestudio en IR6:
c1 = l1d. Los vectores u1 y v son colineales tambien: v = l1u1.
Interpretaremos el criterio en el caso de la representacion e IR20P. El criterio
de m nimos
cuadrados es equivalente a maximizarP = (1=20) j kvj dk2 =
P
2
(1=20) j vj . Como vj = dtxj se obtiene que = j (dtxj )2. Como las variables son centradas y normalizadas dtxj = Cor(d xj ), luego el criterio usado
aqu consiste en buscar una variable d de varianza igual a 1, combinacion
lineal de las variables xj de tal forma que
X 2 j
cor (d x )
j
sea maxima. De hecho vimos en el cap tulo 6 que el coe ciente de correlacion
permite comparar dos variables. Muestre como ejercicio que si dos variables
son centradas y normalizadas entonces el coe ciente de correlacion es igual
al coseno del angulo que forman en IR20 (Gra co 8.4).
Ademas como los vectores dk forman una base ortonormal, se deduce que las
nuevas variables, que son las componentes principales no son correlacionadas
entre si.
7
1.3.3 Interpretacion
xj y c1 (c2) (Tabla 8.4). Este gra co permite entonces interpretar las componentes principales. Se observa que la primera componente principal tiene
una correlacion igual a 0.935 con la ESPERANZA DE VIDA, pero solamente
-0.481 con la TASA DE MORTALIDAD, mientras que la segunda componente principal tiene una correlacion igual a -0.267 con la ESPERANZA DE
VIDA y 0.815 con la TASA DE MORTALIDAD.
Como las variables xj tienen una varianza igual a 1, sus proyecciones en el
plano caen al interior de un circulo de centro 0 y de radio 1. Si la proyeccion de
la variable xj es sobre la circunferencia del circulo, signi ca que xj pertenece
a este plano, es decir que xj puede ser reproducida a partir de c1 y c2.
La distancia de la proyeccion de una variable al origen mide la calidad de
representacion de la variable en el plano principal. Mas aun es igual al
coe ciente de correlacion multiple entre la variable con respecto a c1 c2 (Se
deja como ejercicio la demostracion). Aqu , las seis variables son bastante
bien representada en el plano principal.
Como los cosenos de los angulos son iguales al los coe cientes de correlacion,
se tiene tambien una vizualisacion, aproximada, de la matriz de correlaciones
(Tabla 8.1). FECUNDIDAD y TASA DE NATALIDAD hacen un angulo
peque~no, son altamente correlacionados (0.972), ESPERANZA DE VIDA y
MORTALIDAD INFANTIL, que forman un angulo vecino de , son altamente correlacionados negativamente (-0.951) y TASA DE MORTALIDAD
y TASA DE NATALIDAD, que son casi ortogonal, son muy poco correlacionados (0.101).
Se puede completar el estudio haciendo representaciones planas con otros
pares de ejes principales y las componentes principales correspondientes.
VARIABLES
1
2
3
4
1 % POB. URBANA
1.0 -.739 -.179 .588
2 TASA .NATALIDAD -.739 1.0 .101 -.723
3 TASA MORTALIDAD -.179 .101 1.0 -.609
4 ESPERANZA VIDA .588 -.723 -.609 1.0
5 FECUNDIDAD
-.735 .972 .262 -.769
6 MORTAL. INFANTIL -.532 .682 .533 -.951
TABLA 8.1: Matriz de correlaciones
10
5
-.735
.972
.262
-.769
1.0
.709
6
-.532
.682
.533
-.951
.709
1.0
u1
u2
u3
VALORES PROPIOS
4.15
1.16
0.41
% POB. URBANA
62.87
17.26
0.3810 0.3203 0.7699
TASA NATALIDA
28.86
6.64
-0.4364 -0.3742 0.1920
TASA MORTALIDAD 7.11
1.85
-0.2361 0.7567 -0.3904
ESPERANZA VIDA
67.11
5.52
0.4590 -0.2479 -0.2093
FECUNDIDAD
3.61
0.96
-0.4531 -0.2488 0.0859
MORTAL.INFANTIL 44.54
22.28
-0.4389 0.2405 0.3779
TABLA 8.2: Tres primeros vectores propios normalizados de la matriz de
correlacion
u1
u2
u3
u4
VALORES PROPIOS 4.15
1.16
0.41
0.24
ARGENTINA
1.9029 1.3903 -.0092 0.5067
BOLIVIA
-3.1987 1.1181 .4426 -.4150
BRASIL
.2766 .8794 .6930 -.2980
COLOMBIA
1.1429 -.1561 .2443 -.3948
COSTA RICA
1.8937 -1.9713 -.6418 -.3264
CHILE
2.3727 .2178 .2529 .3686
ECUADOR
-.7182 -.1958 .1244 -.2654
EL SALVADOR
-1.1377 -.5743 -.5380 -.1134
GUATEMALA
-2.3926 -.9928 -.3855 .8457
HAITI
-4.0755 1.6465 -1.0408 -.1406
HONDURAS
-2.0627 -.8537 -.1854 .2504
MEXICO
1.0889 -.5733 .4780 -.1113
NICARAGUA
-1.8157 -.9593 .6089 .9066
PANAMA
1.5675 -1.0166 -.7486 -.4131
PARAGUAY
-.8912 -.9583 -.3161 .0197
PERU
-.8602 .8557 .9236 -.6187
REP.DOMINICANA -.0239 -.1564 .2586 -.7430
URUGUAY
2.3890 2.2318 -.7393 .6895
VENEZUELA
1.3812 -.3757 1.2787 .5232
CUBA
3.1611 .4441 -.7003 -.2704
TABLA 8.3: Tres primeras componentes principales
MEDIA D. TIPICA
11
u4
0.24
0.3797
0.3201
0.4068
0.2282
0.5245
0.5102
VALORES PROPIOS
% ACUMULADO DE
LA VARIABILIDAD
% POB. URBANA
TASA NATALIDA
TASA MORTALIDAD
ESPERANZA VIDA
FECUNDIDAD
MORTAL.INFANTIL
.7.26
6.64
..85
5.52
0.96
22.28
69.24
0.776
-0.889
-0.481
0.935
-0.923
-0.894
88.53
0.345
-0.403
0.815
-0.267
-0.268
0.259
95.22
0.493
0.123
-0.250
-0.134
0.055
0.242
TABLA 8.4: Coordenadas de las variables sobre los 4 primeros factores (rjk )
12
99.23
0.186
0.156
0.199
0.111
0.256
-0.249
SEGUNDO
FACTOR, (19%) ,
2.0 1.5 -
,
? URUGUAY
-
MORTALIDAD
? HAITI
MORTALIDAD
INFANTIL
? BOLIVIA
? PERU
1.0 -
% POB. URBANA
? ARGENTINA
?
BRASIL
0.5 -
CUBA ? ? CHILE
0.0 +
R. DOMINICANA
?
?
COLOMBIA
ECUADOR ?
? VENEZUELA
-0.5 ? EL SALVADOR ? MEXICO
ESPERANZA VIDA
HONDURAS ?
?
? PARAGUAY
-1.0 - GUATEMALA ? NICARAGUA
? PANAMA
FECUNDIDAD
-1.5 -
NATALIDAD
-2.0 -
-4
? COSTA
?
?
?
?
?
-3
-2
-1
0
1
GRAFICO 8.5: Primer plano principal
13
RICA- PRIMER
? FACTOR
3 69%
14
Consideramos ahora cuatro nuevas variables cuyos coe cientes de correlacion con
las dos primeras componentes principales son dados en la tabla 8.6. Las variables
GASTO MILITAR y GASTO EN EDUCACION son muy poco correlacionados
con estas componentes principales, se podria prever que un modelo lineal de estas
variables sobre las seis variables originales no seria bueno. No es el caso de las dos
otras variables suplementarias.
TUNEZ
EGIPTO
(x ; x)= x
(x ; x)= x
% POB. URBANA
54 -0.514
47 -0.92
62.87
TASA NATALIDA
29 0.021
33 0.62
28.86
TASA MORTALIDAD 7
-0.059
10 1.56
7.11
ESPERANZA VIDA 66.7 -0.074
60.3 -1.23
67.11
FECUNDIDAD
3.7 0.094
4.3 0.72
3.61
MORTAL.INFANTIL 48.0 0.155
61.0 0.74
44.54
TABLA 8.5: Valores de las variables para TUNEZ y EGIPTO
x
17.26
6.64
1.85
5.52
0.96
22.28
FACTOR 1 FACTOR 2
PNB
0.814
0.130
GASTO EN EDUCACION -0.140
0.163
GASTO MILITAR
-0.378
-0.061
ALFABETISMO
0.839
0.021
TABLA 8.6: Coe cientes de correlacion
1.4 EJERCICOS
2 1 0 ;1 3
66 0 1 ;1 77
66 ;1 1 0 77
1. Sea X la tabla siguiente: 66 0 ;1 1 77
66
7
4 ;1 0 1 75
1 ;1 0
Consideremos los seis vectores M = fx1 ::: x6g de IR3 dotado de la metrica
euclidiana usual cuyas componentes estan dadas por las las de la matriz X .
a) Muestre que la nube
de los 6 puntos en IR3 esta centrada en el origen.
P
Calcule V = (1=6) x xt.
i i i
15
V1
45
40
32
35
50
55
58
62
48
52
V2
25
30
32
28
33
45
35
28
32
34
V3
30
30
36
37
17
0
7
10
20
14
CLASE
C
B
B
B
A
B
A
A
A
C
V4
160
200
210
250
260
300
320
310
280
300
V1
60
38
35
22
18
15
20
25
22
32
V2
27
37
38
38
33
39
40
35
33
26
V3
13
25
27
40
49
46
40
40
45
42
V4
350
240
220
180
190
185
300
220
225
150
VALORES PROPIOS
% ACUMULADOS DE
LOS VALORES PROPIOS
65.20
100.00
38.20
14.98
0.997
0.076
33.40
5.18
-0.189
-0.982
28.40
14.50
-0.962
0.273
TABLA 8.8: Correlaciones de las variables con las Componentes Principales
cEGUNDO
FACTOR,
,
,
,
,
,
,
,
,
35 %
C
C
..5 C
..0 C C
C
x
V
3
0.5 - +A
C
+A
?B
x V1
0.0 +
C
+A
?B
-0.5 ?B ?B
?
B
?B
-1.0 - ? B +A
-1.5 x V2
-2.0 V1
V2
V3
-2.5 ?
-2.0
V1
V2
V3
relaciones
V1
1.00
-.26
-.94
-1.5
V2
-.26
1.00
-.09
-1.0
-0.5
0.0
GRAFICO 8.7
V3
-.94
-.09
1.00
0.5
C.P. 1
C.P. 2
V4
..0
..5
C.P. 1 C.P. 2
1.00 -.00
-.00
1.00
.69
-.29
?B
?
2.0
PRIMER
FACTOR
65 %
V4
.69
-.29
1.00
3. Sea M = fx1 ::: xn gPun conjunto de n puntos de IRp. Cada punto xi tiene
un peso pi , con pi > 0 pi = 1. Se supone que el centro de gravedad de M
17
18
PARTE 2
PARTE 3
c) Sea un nuevo pez que toma los valores: LARGO: 180, LARGO SIN
CABEZA: 152, ANCHO CABEZA: 40, ANCHO: 38, ANCHO HOCICO:
15, DIAMETRO OJOS: 12. Calcule C1 y C2 para este pez. Prediga su RADIOACTIVIDAD y de un intervalo de con anza.
d) Si se supone que la variable RADIOACTIVIDAD Y Exp( ) y una distribucion a priori Exp( ) para ( ( ) = exp(; ) para positivo), de la
distribucion a posteriori de dada la muestra de los 23 peces.
e) Tomando la funcion de perdida cuadratica, de el estimador de Bayes.
MEDIA
VALORES PROPIOS
% ACUMULADOS DE
LOS VALORES PROPIOS
LARGO
LARGO
LARGO cIN CABEZA
ANCHO CABEZA
ANCHO
ANCHO HOCICO
DIAMETRO OJOS
.90.17
.90.17
.70.70
42.78
39.30
.3.57
9.74
81.62
0.947
0.947
0.939
0.959
0.922
0.816
0.817
89.63
0.226
0.226
0.264
0.133
-0.215
0.071
-0.550
VARIABLES
PESO
RADIOACTIVIDAD
C
C2
10
2
C
C2
1.00 -.44 .98 .00
-.44 1.00 -.41 .23
.98 -.41 1.00 .00
.00 .23 .00 1.00
20
96.10
0.099
0.099
0.128
0.121
0.144
-0.570
0.001
98.23
0.126
0.126
-0.005
0.045
-0.283
-0.040
0.166
RADIOACTIVIDAD
PESO
ACUARIO
1
2
3
TOTAL PESO
EFECTIVO
8
8
7
23
23
MEDIA
15.25 33.50 33.71 27.22 82.09
DESVIACION
TIPICA
7.13 12.13 21.69 16.47
26.5
FACTOR 2
8%
..0 -
.0
.9
0.5 -
-0.5 -
6 .8
7
.4
5
.2
,
-2
.6
,
-1
,
.
GRAFICO 8.8
21
23
,
0
20
.1
4.
+ .5.3
22
-1.0 -1.5 - ,
-3
21
.7
0.0 -
,
2
,
3
,
4
FACTOR .
- 82 %