Sie sind auf Seite 1von 22

E D

UN
ESTADISTICA BASICA

Ejercicios de Autoevaluacion

z.
ere
aP
rc
Ga
so
on

Alfonso Garca Perez


Al f

Universidad Nacional de Educacion a Distancia


E D
UN
z.
ere
aP
rc

c
Copyright 2010 Alfonso Garca Perez

Fotografa de la Portada: 7 llaves de las antiguas 7 puertas de la ciudad. Museo de los Fueros.
Sepulveda.
Ga

No esta permitida la reproduccion total o parcial de este


libro, ni su tratamiento informatico, ni la transmision de
so

ninguna forma o por cualquier medio, ya sea electronico,


mecanico, por fotocopia, por registro u otros medios, sin el
permiso previo y por escrito de los titulares del Copyright.
El contenido de este libro esta registrado por el autor en el
on

Registro de la Propiedad Intelectual con el numero 16/2005/2564


y protegido por la Ley, que establece penas de prision ademas
de las correspondientes indemnizaciones para quien lo plagiara
Al f

Edita: Universidad Nacional de Educacion a Distancia


E D
UN
Captulo 1

z.
Ejercicios de Autoevaluacion

ere
La evaluacion de los alumnos en la asignatura se lleva a cabo mediante
la resolucion de ejercicios practicos. En la Evaluacion Continua se requiere
aP
que los ejercicios sean resueltos con R mientras que en la Prueba Presencial,
no. Por esta razon, los ejercicios resueltos que aparecen a continuacion se han
dividido en dos grupos atendiendo a esta situacion. En ellos nos referiremos
al texto base con el acronimo EBR.
Las soluciones que se dan son, en muchas ocasiones, excesivamente deta-
rc

lladas para que el alumno profundice en las cuestiones que se plantean. No


es necesario que los alumnos resuelvan con tanto detalle los ejercicios ni de la
Evaluacion Continua ni de la Prueba Presencial.
En los textos recomendados Problemas Resueltos de Estadstica Basica y
Ga

Ejercicios de Estadstica Aplicada podra encontrar el alumno mas ejercicios


de ambos tipos.
so
on
Al f

1
D
2 Alfonso Garca Perez

E
Ejercicios tipo Evaluacion Continua

UN
Problema 1.1
Los siguientes datos, obtenidos de Wainwright (1979), corresponden a cantidades
de fragmentos de distintos tipos de ceramica del yacimiento de Mount Pleasant
en Dorset (Inglaterra):

Cuenco Neoltico liso 391


Ceramica Acanalada 657

z.
Campaniformes 1695
Ceramica de Petersborough 6
Edad del Bronce 591

ere
Realizar representaciones graficas de estos datos.

Como se trata de datos de una variable cualitativa, las dos representacio-


nes graficas sugeridas en EBR-seccion 2.3.1 son el Diagrama de sectores y el
aP
Diagrama de rectangulos (tambien denominado por algunos Diagrama de ba-
rras aunque nosotros hemos reservado esta ultima denominacion para el caso
de datos cuantitativos sin agrupar).
Para obtener el Diagrama de sectores primero introducimos los datos crean-
do el vector de datos en (1), el vector de etiquetas que queremos aparezca en
el dibujo en (2) y el vector de colores de cada uno de los sectores en (3),
rc

Cermica acanalada
Ga

Cuenco Neo. liso


so

Campaniformes
on

Edad Bronce

Cerm. Petersborough
Al f

Figura 1.1 : Diagrama de sectores

> x<-c(391,657,1695,6,591) (1)


> eti<-c("Cuenco Neo. liso","Ceramica acanalada","Campaniformes",
D
Captulo 1. Ejercicios de Autoevaluacion 3

E
"Ceram. Petersborough","Edad Bronce") (2)
> c1<-c(2,3,4,5,6) (3)

UN
Ahora ya podemos obtener el grafico buscado mediante la funcion pie
ejecutando (4) con lo que obtenemos el grafico en la Figura 1.1

> pie(x,labels=eti,col=c1) (4)

z.
Para obtener el Diagrama de rectangulos utilizamos la funcion barplot, en
la que observamos el argumento names en lugar de labels que utilizabamos en
la funcion anterior. (Realmente hemos definido un nuevo vector de etiquetas

ere
con nombres abreviados para que estos quepan en la base del grafico).

aP
1500
1000

rc
500

Ga
0

Neo. liso Acanalada Campani. Petersborough Bronce


so

Figura 1.2 : Diagrama de rectangulos


on

El grafico buscado lo obtenemos en la Figura 1.2 ejecutando (5)


> barplot(x,names=eti,col=c1) (5)
Al f

Problema 1.2
Los datos de la siguiente tabla son niveles de colesterol (en mg/100ml) de hom-
bres de mas de 90 kilos de peso, elegidos al azar y clasificados en dos grupos:
Grupo I, formado por personas muy pendientes del reloj, que pasan muchas ho-
ras conduciendo vehculos, y Grupo II, compuesto por individuos mas relajados
y menos competitivos.
D
4 Alfonso Garca Perez

E
Grupo I 233 295 310 249 245 199 270 220 240 240
Grupo II 344 186 260 245 222 210 188 240 145 165

UN
Comparar ambas poblaciones mediante,
a) El test de la t de Student.
b) El test de Wilcoxon-Mann-Whitney.
c) Analizar las suposiciones necesarias para poder aplicar uno u otro test.

Se trata de realizar dos tests de comparacion de dos poblaciones, el primero

z.
parametrico y el segundo no parametrico. En el tercer apartado analizaremos
las condiciones en las que se realiza uno y otro y, en consecuencia, su validez.
a) A partir del enunciado se obtiene que es x1 = 250 1 , S12 = 1115 656 ,

ere
x2 = 220 5 , S22 = 3214 722 .
Estamos ante una situacion del contraste de la media de dos poblacio-
nes normales independientes, muestras pequenas, con varianzas desconocidas,
(EBR-seccion 7.6), por lo que debemos valorar primero si las varianzas, aun-
aP
que desconocidas, pueden considerarse iguales o no. Para ello contrastaremos
la hipotesis nula H0 : 12 = 22 frente a la alternativa de ser distintas (EBR-
seccion 7.5), contraste basado en el estadstico S12 /S22 . De hecho, aceptaremos
esta hipotesis nula cuando y solo cuando sea,

S12
rc

[ Fn1 1,n2 1;1 2 , Fn1 1,n2 1; 2 ].


S22
Como es S12 /S22 = 0 347, si consideramos un nivel de significacion = 0 1,
Ga

sera, a partir de la Tabla 6 de la F de Snedecor, F9,9;10 05 = 1/F9,9;0 05 =


1/3 1789 = 0 3146 , con lo que la region de aceptacion, a nivel = 0 1, es
[0 3136 , 3 1789] , contendra al valor del estadstico y se aceptara la hipotesis
nula de ser iguales ambas varianzas poblacionales, a ese nivel suficientemente
alto.
Si queremos resolver este apartado con R, con las siguientes sentencias
so

obtenemos las medias y cuasivarianzas muestrales, as como el valor del es-


tadstico del contraste S12 /S22 ,
on

> x1<-c(233,295,310,249,245,199,270,220,240,240)
> x2<-c(344,186,260,245,222,210,188,240,145,165)
> mean(x1)
[1] 250.1
Al f

> mean(x2)
[1] 220.5
> var(x1)
[1] 1115.656
> var(x2)
[1] 3214.722
> var(x1)/var(x2)
[1] 0.3470457
D
Captulo 1. Ejercicios de Autoevaluacion 5

E
De hecho, con R podemos obtener el p-valor ejecutando (1)

UN
> 2*pf(0.347,9,9) (1)
[1] 0.1307151

Este p-valor 0 1307 es lo suficientemente alto como para confirmar la acep-


tacion de la igualdad de las varianzas poblacionales.
Si quisieramos ejecutar este test directamente con R deberamos ejecutar
(2), observando que aqu se analiza si la region de aceptacion,

z.
" #
S12 /S22 S12 /S22 0 347 0 347

ere
 
, = , = [0 109 , 1 103]
Fn1 1,n2 1; 2 Fn1 1,n2 1;1 2 3 1789 0 3146

cociente contiene o no al 1. La region de aceptacion se observa en (3) y el


p-valor de este test, igual logicamente al anterior, aparece en (4).
aP
> var.test(x1,x2,conf.level=0.9) (2)

F test to compare two variances

data: x1 and x2
rc

F = 0.347, num df = 9, denom df = 9, p-value = 0.1308 (4)


alternative hypothesis: true ratio of variances is not equal to 1
90 percent confidence interval:
0.1091719 1.1032212 (3)
sample estimates:
Ga

ratio of variances
0.3470457

Apuntamos que, intercambiando los papeles de ambas poblaciones (que


es lo que nos dice la ortodoxia, EBR-seccion 7.5), hubieramos obtenido las
mismas conclusiones.
so

Por tanto, el test para contrastar la igualdad de las medias poblacionales;


es decir, para contrastar la hipotesis nula H0 : 1 = 2 frente a la alternativa
H1 : 1 6= 2 sera el que acepte H0 cuando y solo cuando sea
on

|x1 x2 |
s s tn1 +n2 2;/2
(n1 1)S12
+ (n2 1)S22 1 1
+
Al f

n1 + n2 2 n1 n2
Como es

|x1 x2 | |250 1 220 5|


r r = r r = 1 4224
(n1 1)S12 + (n2 1)S22 1 1 9 1115 656 + 9 3214 722 1 1
+ +
n1 + n2 2 n1 n2 18 10 10
D
6 Alfonso Garca Perez

E
y, a partir de la Tabla de la t de Student, vemos que es 0 05 < P {t18 >
1 4224} < 0 1, podemos aceptar la hipotesis nula de igualdad en los niveles de

UN
colesterol de ambas poblaciones, con un p-valor entre 0 1 y 0 2, es decir, con
suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (5), en
donde indicamos que consideramos las varianzas poblacionales como iguales.
Como el 0 esta incluido en la region de aceptacion dada en (6), aceptamos
la hipotesis nula de igualdad de los niveles medios de ambas poblaciones. El

z.
p-valor 0 172 aparece en (7) (esta entre 0 1 y 0 2 como habamos dicho) e
indica la aceptacion de H0 .

ere
> t.test(x1,x2,var.equal=T) (5)

Two Sample t-test

data: x1 and x2
t = 1.4224, df = 18, p-value = 0.172
aP (7)
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-14.11926 73.31926 (6)
sample estimates:
mean of x mean of y
250.1 220.5
rc

b) Para utilizar el test de Wilcoxon-Mann-Whitney, EBR-seccion 8.4.1, las


hipotesis a contrastar haran referencia a las medianas poblacionales M1 y M2
y seran H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptandose H0
Ga

cuando y solo cuando sea

m n um,n;/2 < U < um,n;/2


siendo U el numero de valores de la segunda muestra que preceden estricta-
mente a cada valor fijo de la primera muestra.
so

Si subrayamos los valores de la segunda muestra en la siguiente union de


ambas muestras ordenadas, en donde los de la segunda muestra que son iguales
a los de la primera los hemos situado detras para hacer mas simple el recuento,
on

145, 165, 186, 188, 199, 210, 220, 222, 233, 240
Al f

240, 240, 245, 245, 249, 260, 270, 295, 310, 344.
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la
segunda muestra (es decir, cuantos valores subrayados) le preceden. Es decir,
miramos el 199 (primer valor no subrayado) y vemos que hay 4 valores sub-
rayados que lo preceden, por lo que el primer sumando de U es 4. El segundo
D
Captulo 1. Ejercicios de Autoevaluacion 7

E
valor no subrayado es 220, al que le preceden 5 valores subrayados, lo que hace
que el segundo valor de U sea 5, y as sucesivamente; vemos que U toma el

UN
valor,

U = 4 + 5 + 6 + 6 + 6 + 7 + 8 + 9 + 9 + 9 = 69.
En la determinacion del punto crtico y el p-valor utilizaremos la aproxi-
macion normal ya que los tamanos muestrales son mayores que 5. En concreto,

z.
si el nivel de significacion es = 0 1, sera

ere
s
10 10 10 10 (10 + 10 + 1)
um,n;/2 = u10,10;0 05 = + 1 645 = 71 76
2 12

y la region de aceptacion,
aP
(m n um,n;/2 , um,n;/2 ) = (10 10 71 76 , 71 76) = (28 24 , 71 76).

Como U = 69 pertenece a ella, deberemos aceptar la hipotesis nula de


igualdad de ambas poblaciones, con un p-valor mayor que el nivel de signifi-
cacion 0 1. En concreto, el p-valor (aproximado por utilizar la aproximacion
rc

normal) sera, utilizando la cola superior, al ser el p-valor el menor nivel de


significacion para el que se rechaza la hipotesis nula,
Ga

( )
69 10 10/2
2 P {U > 69} 2 P Z> p = 2 P {Z > 1 47} = 0 1416
10 10(10 + 10 + 1)/12

que indica aceptar con confianza la hipotesis nula de igualdad.


Para resolver este ejercicio con R, deberamos ejecutar (8) si queremos
so

utilizar las mismas opciones que las que acabamos de emplear. Los resultados
son un poco distintos porque R promedia entre los valores iguales en el calculo
de U . No obstante, el p-valor tambien es indicativo de la aceptacion de la
on

hipotesis nula de igualdad de ambas poblaciones.


> wilcox.test(x1,x2,exact=F,correct=F) (8)

Wilcoxon rank sum test


Al f

data: x1 and x2
W = 70.5, p-value = 0.1205
alternative hypothesis: true location shift is not equal to 0

c) Para utilizar tanto el test de t de Student como el de Wilcoxon-Mann-


Whitney hay que admitir que ambas muestras son aleatorias simples y que
D
8 Alfonso Garca Perez

E
Normal QQ Plot Normal QQ Plot

UN
350
300

300
280
Sample Quantiles

Sample Quantiles

z.
260

250
240

ere
200
220

150
200

1.5 0.5
aP 0.5 1.0 1.5 1.5 0.5 0.5 1.0 1.5

Theoretical Quantiles Theoretical Quantiles

Figura 1.3 Graficos de normalidad de ambas muestras


rc

son independientes la una de la otra. Eso es razonable y lo admitiremos. La


segunda condicion es que los datos procedan de distribuciones de tipo con-
Ga

tinuo. Tambien esto es admisible puesto que los niveles de colesterol pueden
ser cualesquiera en un intervalo. La ultima condicion, habitualmente la mas
restrictiva para el test de la t de Student es que los datos deben proceder de
poblaciones normales. Como son pocos datos no parece razonable utilizar un
test de Kolmogorov-Smirnov para analizarlo, sino metodos graficos.
so

Si hacemos un grafico de normalidad de ambas muestras ejecutando (por


ejemplo EBR-seccion 9.4)
on

> par(mfrow=c(1,2))
> qqnorm(x1)
> qqnorm(x2)

obtenemos la Figura 1.3.


Al f

Si queremos obtener dos diagramas de hojas y ramas ejecutaramos los


siguientes comandos
> stem(x1)

The decimal point is 2 digit(s) to the right of the |


D
Captulo 1. Ejercicios de Autoevaluacion 9

E
UN
350
300
250

z.
200

ere
150

1 2

aP
Figura 1.4 Graficos de cajas de ambas muestras

1 |
rc

2 | 02344
2 | 557
3 | 01
Ga

> stem(x2)

The decimal point is 2 digit(s) to the right of the |

1 |
1 | 5799
2 | 124
so

2 | 56
3 | 4

Ambos tipos de graficos sugieren asimetra y, por tanto, no normalidad de


on

los datos. Lo razonable sera utilizar el segundo test no parametrico puesto


que no requiere su normalidad.
Pero observemos que si queremos que nos haga un diagrama de cajas de
Al f

ambos conjuntos de datos para detectar datos anomalos, la homocedasticidad


contrastada al comienzo del ejercicio y la asimetra, ejecutaramos la siguiente
secuencia, en donde primero juntamos ambos conjuntos de datos y luego crea-
mos unos ndices para hacer la representacion por grupos. Observese como no
replicamos el 1 diez veces sino que ejecutamos rep(1,10).
> muestra<-c(x1,x2)
D
10 Alfonso Garca Perez

E
> poblaciones<-c(rep(1,10),rep(2,10))
> boxplot(muestra~poblaciones)

UN
La Figura 1.4 as obtenida, confirma la homocedasticidad ya que ambas
cajas son semejantes y la simetra, pero vemos como en el segundo conjun-
to de datos aparece un dato anomalo que puede distorsionar el resultado lo
que sugiere utilizar tests robustos de comparacion de poblaciones puesto que
los Metodos no parametricos pueden verse muy afectados al no detectar esas

z.
anomalas, pero eso ya es materia de otro curso.

ere
Problema 1.3
Se cree que el tamano X de los asentamientos prehistoricos puede servir para
predecir el tamano de la poblacion Y del lugar donde aquellos se produjeron.
Por ello se quiere determinar la recta de regresion basandose en datos actuales y,
con ella, hacer estimaciones de tiempos pasados. Con este proposito, Carothers y
McDonald (1979) obtuvieron los siguientes datos de Tamano de Asentamientos
aP
en hectareas, X y Numero de habitantes, Y , de los pueblos actuales del area en
estudio:

X 0 6 1 0 1 1 1 2 1 6 1 9 2 3 3 0 3 1 3 3
Y 20 70 100 130 120 170 195 190 210 360
rc

X 3 7 4 0 4 5 5 4 5 9 6 1 6 4 8 9 10 0 12 0
Y 300 250 500 270 190 630 650 310 730 850

Determinar la recta de regresion y analizar si es significativa.


Ga

Vamos a resolver este ejemplo con R (vease EBR-seccion 10.4). Para ello,
primero introducimos los datos como sigue,
> x<-c(0.6,1,1.1,1.2,1.6,1.9,2.3,3,3.1,3.3,3.7,4,4.5,5.4,5.9,6.1,6.4,8.9,10,12)
> y<-c(20,70,100,130,120,170,195,190,210,360,300,250,500,270,190,630,650,310,730,850)
so

Luego obtenemos la recta de regresion ejecutando (1) y analizamos los resul-


tados ejecutando (2),
on

> recta<-lm(y~x) (1)


> recta
Call:
lm(formula = y ~ x)
Al f

Coefficients:
(Intercept) x
39.79 63.36

> summary(recta) (2)


Call:
D
Captulo 1. Ejercicios de Autoevaluacion 11

E
UN
800
600

z.
y

400

ere
200

aP
0

2 4 6 8 10 12

Figura 1.5 : Nube de puntos y recta de regresion


rc

lm(formula = y ~ x)
Ga

Residuals:
Min 1Q Median 3Q Max
-2.937e+02 -4.072e+01 -7.797e-03 5.154e+01 2.047e+02

Coefficients:
Estimate Std. Error t value Pr(>|t|)
so

(Intercept) 39.792 48.768 0.816 0.425 (3)


x 63.362 9.214 6.877 1.97e-06 *** (4)
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
on

Residual standard error: 127.2 on 18 degrees of freedom


Multiple R-Squared: 0.7243, Adjusted R-squared: 0.709
F-statistic: 47.29 on 1 and 18 degrees of freedom, p-value: 1.969e-006
(5)
Al f

La recta de regresion (o mnimos cuadrados) obtenida con la primera sen-


tencia es

yt = 39 79 + 63 36 x
En la segunda salida vemos un contraste sin interes, el (3), sobre el termino
D
12 Alfonso Garca Perez

E
independiente y un contraste, el (4), sobre el coeficiente de regresion, es decir,
el de la hipotesis nula H0 : = 0 frente a la alternativa H1 : 6= 0. Este con-

UN
traste indica claramente rechazar H0 , es decir, que la covariable independiente
X no sea valida para explicar a la variable dependiente Y (es decir, rechazar
claramente que la recta de regresion no sea valida), al ser el p-valor muy bajo.
Como vemos en la Figura 1.5, obtenida ejecutando las sentencias

z.
> plot(x,y)
> abline(recta,col=2)

ere
el ajuste de la recta es bastante bueno.
Observese que este contraste es exactamente el mismo que el obtenido en
(5) basado en la F de Snedecor, por tratarse de una Regresion Lineal Simple.
Para la Regresion Multiple, el de la F de Snedecor sera un contraste global
aP
del hiperplano ajustado, sin mucho interes, mientras que los contrastes de
interes seran los tests sobre los coeficientes de regresion. Por tanto, para estos
datos vemos que la recta de regresion se ajusta bien, lo que permitira realizar
predicciones sobre tiempos pasados, supuesto que en ellos se daba la misma
relacion de dependencia entre el tamano de los asentamientos y la poblacion.
rc
Ga
so
on
Al f
D
Captulo 1. Ejercicios de Autoevaluacion 13

E
Ejercicios tipo Prueba Presencial

UN
Problema 1.4
El uno por ciento de los ninos sufre efectos secundarios tras la administracion
de un determinado antibiotico. Si este fue aplicado a seis ninos, determinar la
probabilidad de que
a) Ninguno padezca efectos secundarios.
b) Lo padezca mas de un nino.

z.
c) Si se suministrase el antibiotico a 1000 ninos, cual sera el numero medio de
ninos con efectos secundarios?
d) Calcular la probabilidad de que, de esos mil ninos, padezcan efectos secunda-
rios mas de 15.

ere
a) El problema se puede formalizar mediante un modelo binomial (EBR-
seccion 4.4.1) en donde cada prueba de Bernoulli sea el administrar el anti-
biotico en cuestion y el suceso exito el que el nino padezca efectos secundarios.
aP
De esta forma, la variable numero de ninos, de entre los seis, que padecieron
efectos secundarios, se puede modelizar mediante una variable X con distribu-
cion binomial B(6, 0 01), al ser p = 0 01 la probabilidad de que se de el suceso
exito.
La probabilidad pedida sera ahora, utilizando una tabla de la distribucion
rc

binomial,

P {X = 0} = 0 9415.
Ga

b) En la misma situacion que en el apartado anterior, la probabilidad


pedida sera

P {X > 1} = 1 P {X 1} = 1 [P {X = 0} + P {X = 1}]
so

= 1 [0 9415 + 0 0571]
on

= 0 0014.

c) Ahora lo que ocurre es que se aumenta el numero de pruebas de Bernou-


lli, modelizandose el problema con una variable X ; B(1000, 0 01). La media
Al f

de esta distribucion es el producto de los dos parametros, es decir,

E[X] = n p = 1000 0 01 = 10.


Por tanto, el numero medio o numero esperado de ninos con efectos secun-
darios, de entre los mil, sera 10.
D
14 Alfonso Garca Perez

E
d) El calculo de probabilidades de distribuciones binomiales para un gran
numero de ensayos, como aqu ocurre, se realiza aproximando dicha distribu-

UN
cion mediante el teorema central del lmite (EBR-seccion 4.7).
En el caso de una distribucion pbinomial X ; B(n, p) , su aproximacion
mediante una normal Y ; N (np , np(1 p) ) es valida (EBR-seccion 4.7)
cuando supuesto sea p 0 5 (como aqu ocurre) entonces sea tambien np > 5
(como aqu ocurre).
Por tanto, aproximaremos la X ; B(1000, 0 01), por una

z.
 
Y ; N 1000 0 01 , 1000 0 01 0 99 = N (10 , 3 146)

ere
quedando la probabilidad pedida igual a

X 10 15 10
 
P {X > 15} = P > = P {Z > 1 59} = 0 0559
aP 3 146 3 146

siendo Z una variable aleatoria N (0, 1) y en donde la ultima probabilidad la


hemos calculado utilizando la tabla de dicha distribucion.

Problema 1.5
rc

Los saltamontes de la region africana de Asyut se caracterizan por tener una


longitud media de 2 cm, pudiendo admitirse una distribucion normal para la
longitud de tales ortopteros. Elegida una muestra aleatoria de 20 de ellos, sus
longitudes en cm fueron las siguientes:
Ga

1 90, 1 85, 2 01, 1 95, 2 05, 2 00, 1 97, 2 02, 1 89, 2 01,

2 05, 1 95, 1 87, 2 05, 1 97, 1 85, 2 02, 1 95, 1 93, 2 05


Utilizando estos datos, se pide:
so

a) Determinar la estimacion de maxima verosimilitud de la desviacion tpica


poblacional .
b) Calcular la probabilidad de que el estimador de maxima verosimilitud de
subestime el verdadero valor de dicho parametro.
on

Si llamamos X a la longitud de los saltamontes en estudio, del enunciado


se desprende que puede admitirse para X una distribucion N (2, ), siendo la
estimacion de el objetivo del problema.
Al f

a) Para determinar el estimador de maxima verosimilitud de comenza-


remos calculando la funcion de verosimilitud (EBR-seccion 5.2)

n n
( )
Y 1 1 X
L() = f (x1 , ..., xn ) = f (xi ) = n n/2
exp 2 (xi 2)2
i=1
(2) 2 i=1
D
Captulo 1. Ejercicios de Autoevaluacion 15

E
de logaritmo neperiano

UN
n
n 1 X
log L() = n log log(2) 2 (xi 2)2 .
2 2 i=1

Su derivada igualada a cero (ecuacion de verosimilitud) sera

n 4 ni=1 (xi 2)2


P
log L() = + =0
4 4

z.
de donde se obtiene el estimador de maxima verosimilitud

ere
v
n
u1 X
u
= t (Xi 2)2 .
n i=1

(Hacemos aqu la observacion de que los estimadores de maxima verosimili-


tud respetan las transformaciones biyectivas; es decir, que si T es el estimador
aP
de maxima verosimilitud para , entonces g(T ) es el estimador de maxima
verosimilitud para g() siempre que g sea una funcion biyectiva. En este sen-
tido, poda haberse determinado el estimador de maxima verosimilitud para
la varianza poblacional 2 mas habitual y ya determinado en EBR-seccion
5.2 y extrayendo la raz cuadrada obtendramos el de la desviacion tpica ,
rc


al ser la funcion g(x) = x una funcion biyectiva.)
A partir de los datos del enunciado obtenemos que la estimacion de maxima
verosimilitud sera,
Ga

v
u 20
u 1 X
= t (Xi 2)2 = 0 00546 = 0 0739.
20 i=1

b) La probabilidad pedida sera


so

20
( )
1 X
P { < } = P (Xi 2)2 < 2
20 i=1
on

20
( )
1 X
= P (Xi 2)2 < 20
2 i=1
Al f

= P {220 < 20} = 0 5292

al tener 20 2 2 2
P
i=1 (Xi 2) / una distribucion 20 por estar ante un caso de
estimacion de la varianza de una poblacion normal de media conocida (EBR-
seccion 5.6), y en donde la ultima probabilidad se ha calculado por inter-
polacion a partir de las tablas de una 2 . De ella se obtiene que es P {220 <
D
16 Alfonso Garca Perez

E
16 27} = 0 3 y P {220 < 22 78} = 0 7, por lo que para un aumento de abscisa de
22 7816 27 = 6 51 se obtiene un aumento de probabilidad de 0 4; para un au-

UN
mento de abscisa de 2016 27 = 3 73 se obtendra un aumento de probabilidad
de 0 4 3 73/6 51 = 0 2292. Por tanto, P {220 < 20} = 0 3 + 0 2292 = 0 5292.

Problema 1.6
Se quiere estimar, mediante un intervalo de confianza, la diferencia entre los
pesos medios de los cerebros de vacas sanas y de vacas enfermas de una enfer-

z.
medad degenerativa determinada, con objeto de ver si dicho intervalo contiene
o no al cero.
Para ello se seleccionaron al azar n1 = 200 vacas sanas, las cuales proporcionaron

ere
un peso medio cerebral de x1 = 423 gramos y una cuasidesviacion tpica muestral
de 30 gramos e, independientemente de la muestra anterior, n2 = 100 cerebros
de vacas enfermas, que dieron un peso medio cerebral de x2 = 410 gramos y una
cuasidesviacion tpica muestral de 50 gramos.
Determinar el intervalo de confianza deseado, con un coeficiente de confianza de
0 90.
aP
Estamos ante un caso de determinacion del intervalo de confianza para la
diferencia de las medias poblacionales de dos poblaciones no necesariemen-
te normales, pero siendo suficientemente grandes los tamanos muestrales, y
siendo desconocidas las varianzas poblacionales (EBR-seccion 6.7), el cual es
rc

s s
x1 x2 z/2
S12 S22 S12 S22
+ , x1 x2 + z/2 + .
n1 n2 n1 n2
Ga

Del enunciado se obtiene que es, x1 = 423, x2 = 410, n1 = 200, n2 = 100,


S12 = 900 y S22 = 2500. Por ultimo, de la tabla de la N (0, 1), obtenemos que
es z/2 = z0 05 = 1 645, por lo que el intervalo buscado sera, en definitiva,
so

" r r #
900 2500 900 2500
423 410 1 645 + , 423 410 + 1 645 +
200 100 200 100
on

= 4 0654 , 21 9346 .
 

Problema 1.7
Al f

Se este estudiando el tiempo de vida entre los pacientes a una determinada


enfermedad. A tal fin se eligieron al azar 100 fichas de pacientes fallecidos por
la enfermedad en estudio, obteniendose una media muestral de 740 das y una
cuasidesviacion tpica muestral de 32 das.
Puede admitirse para los pacientes de la enfermedad en cuestion un tiempo
medio de vida superior a 730 das?
D
Captulo 1. Ejercicios de Autoevaluacion 17

E
Si representamos por X la variable aleatoria tiempo de vida de los pacientes
con la enfermedad en estudio, y por su media, estamos interesados en analizar

UN
si puede admitirse la hipotesis > 730 la cual, como siempre, se plantea como
hipotesis alternativa H1 , reservando la hipotesis nula al suceso complementario
H0 : 730.
En la situacion que nos movemos de contrastes para la media, , de una
poblacion no necesariamente normal de varianza desconocida siendo el tamano
muestral suficientemente grande (EBR-seccion 7.3), se rechaza H0 : 730

z.
cuando y solo cuando sea

x 730

ere
> z
S/ n

siendo z el valor de la abscisa de una normal N (0, 1) que deja a la derecha


un area de probabilidad , siendo el nivel de significacion del test.
aP
Si fijamos como nivel de significacion = 0 05, la tabla de la normal N (0, 1)
nos proporciona el punto crtico z = z0 05 = 1 645, al obtenerse a partir de
la mencionada tabla que es P {Z > 1 64} = 0 0505 y P {Z > 1 65} = 0 0495.
Al ser la probabilidad cola requerida como nivel de significacion la semisuma
de las dos anteriores, el punto crtico tambien sera la semisuma de las dos
abscisas anteriores: (1 64 + 1 65)/2 = 1 645.
rc

Como es

x 730 740 730


= = 3 125 > 1 645 = z0 05
Ga

S/ n 32/ 100
rechazaremos la hipotesis nula de ser H0 : 730, aceptando la alternativa
H1 : > 730, de ser el tiempo medio de supervivencia entre los pacientes con
la enfermedad en estudio, significativamente mayor de 730 das.
El p-valor del test es
so

x 730
 
P > 3 125 = P {Z > 3 125} = 0 0009
S/ n
on

obtenido, de nuevo a partir de la tabla de la normal, por interpolacion de dos


valores (en este caso iguales). Un p-valor tan pequeno confirma la conclusion
adoptada.
Al f

Problema 1.8
Se clasificaron 218 tumbas de la Edad de Bronce en Ricas y Pobres segun los
objetos de ajuar encontrados en ellas para los 6 Grupos de Edad en los que se
divide la poblacion femenina de aquella epoca. Los resultados obtenidos fueron
los siguientes:
D
18 Alfonso Garca Perez

E
Grupos de Edad
Ricas Pobres

UN
Infantil I 5 24
Infantil II 8 20
Juvenil 12 25
Adulta 29 35
Madura 20 27
Senil 6 7

z.
Existen diferencias significativas entre los seis grupos de edad?

Se trata de un Contraste de homogeneidad de varias muestras (EBR-

ere
seccion 8.2.3). La tabla de frecuencias observadas y esperadas (entre parente-
sis) es

Grupos de Edad
aP Ricas Pobres
Infantil I 5 (10 642) 24 (18 358)
Infantil II 8 (10 275) 20 (17 725)
Juvenil 12(13 578) 25 (23 422)
Adulta 29(23 486) 35 (40 514)
Madura 20(17 248) 27 (29 752)
rc

Senil 6 (4 771) 7 (8 229)

que, como se ve, presenta una celdilla con frecuencia esperada menor que 5,
Ga

pero dado que es por muy poco y los resultados que siguen son suficientemente
claros, no es necesario agrupar las dos ultimas filas.
El valor del estadstico de Pearson es igual a = 9 05 y el p-valor,

P {25 > 9 05}


so

aparece acotado entre 0 1 y 0 3 (bastante cercano a 0 1), lo que conduce a


aceptar la hipotesis nula de homogeneidad de los seis grupos de edad y concluir
con que no existen diferencias significativas entre ellos.
on

Problema 1.9
El origen de la civilizacion etrusca sigue siendo todava un misterio para los
Al f

antropologos. En concreto, una cuestion que se plantea es la de si fueron origi-


narios de la pennsula italiana o si inmigraron a ella procedentes de algun otro
lugar. Se penso que una forma de contestar a esta pregunta sera comparar a
los actuales italianos con los restos arqueologicos etruscos mediante un estudio
antropometrico. Para ello, se midio, en milmetros, la maxima anchura, X , de 8
craneos de restos de varones etruscos y la maxima anchura, Y , de la cabeza de
10 varones italianos, todos ellos elegidos al azar. Los resultados obtenidos fueron
los siguientes (Barnicot y Brothwell, 1959):
D
Captulo 1. Ejercicios de Autoevaluacion 19

E
Etruscos 141 132 154 142 141 150 134 140

UN
Italianos 133 138 136 125 135 130 127 131 116 128

En base a los datos obtenidos y utilizando un contraste de Wilcoxon-Mann-


Whitney, se puede concluir con la existencia de diferencias significativas entre
las dos poblaciones a nivel = 0 05?

Estamos ante un caso de comparacion de dos poblaciones independientes

z.
mediante la comparacion de sus medianas, al realizar el contraste de la hipote-
sis nula H0 : MX = MY frente a la alternativa H1 : MX 6= MY , utilizando el
test de Wilcoxon-Mann-Whitney (EBR-seccion 8.4.1).

ere
La unica suposicion que necesitamos hacer es la de que las variables X =
maxima anchura del craneo de los etruscos, e Y = maxima anchura del craneo
de los italianos, sean de tipo continuo, lo cual es bastante razonable puesto
que ambas variables son mediciones que pueden tomar cualquier valor entre
dos valores dados.
aP
El estadstico del test de Wilcoxon-Mann-Whitney es
8 X
X 10
U= Dij
i=1 j=1
rc

con
(
1 si es Yj < Xi
Dij =
0 si es Yj > Xi
Ga

es decir, el numero de observaciones Yj que preceden a cada Xi fijo. Si subraya-


mos los valores Yj en la muestra combinada de las 18 observaciones, obtenemos

116 , 125 , 127 , 128 , 130 , 131 , 132 , 133 , 134 ,


so

135 , 136 , 138 , 140 , 141 , 141 , 142 , 150 , 154


on

que proporcionan un valor para U de

U = 6 + 7 + 10 + 10 + 10 + 10 + 10 + 10 = 73.
Fijado el nivel de significacion = 0 05, la tabla del estadstico de Wilcoxon-
Al f

Mann-Whitney proporciona el punto crtico c8,10;/2 = c8,10;0 025 = 62 siendo,


por tanto, la region crtica del test igual a

C = {U n m um,n;/2 } {U um,n;/2 }
siendo um,n;/2 = cm,n;/2 + 1 = 63. Es decir,
D
20 Alfonso Garca Perez

E
C = {U 17} {U 63} = [0, 17] [63, 80].

UN
El valor de U obtenido (U = 73), al pertenecer a la region crtica, conduce
a rechazar la hipotesis nula y concluir con que ambas poblaciones presentan
diferencias significativas en los tamanos de sus craneos y que, utilizando esta
caracterstica como definitoria de la poblacion, que la civilizacion etrusca tiene
un origen distinto al de los habitantes actuales de Italia.

z.
Referencias

ere
Barnicot, N.A. y Brothwell, D.R. (1959). The evaluation of metrical data in the comparison
of ancient and modern bones. In Medical biology and Etruscan origins. Wolstenholme,
G.E.W. y OConnor, C.M. (edt.). Little, Brown and Co., 136.
Carothers, J. y McDonald, A. (1979). Size and distribution of the population in Late Bronze
aP
Age Mesenia: some statistical approaches. J. Field Archaeology, 6, 433-454.
Wainwright, G.J. (1979). Mount Pleasant, Dorset: Excavations 1970-71. Society of Anti-
quaries Research Report 37. Thames and Hudson, Londres.
rc
Ga
so
on
Al f

Das könnte Ihnen auch gefallen