Ejercicios de Autoevaluación PDF

E D
UN
ESTADISTICA BASICA
Ejercicios de Autoevaluacion
z.
ere
aP
rc
Ga
so
on
Alfonso Garca Perez

Al f
Universidad Nacional de Educacion a Distancia

E D
UN
z.
ere
aP
rc
c
Copyright 2010 Alfonso Garca Perez
Fotografa de la Portada: 7 llaves de las antiguas 7 puertas de la ciudad. Museo de los Fueros.
Sepulveda.
Ga
No esta permitida la reproduccion total o parcial de este

libro, ni su tratamiento informatico, ni la transmision de
so
ninguna forma o por cualquier medio, ya sea electronico,

mecanico, por fotocopia, por registro u otros medios, sin el
permiso previo y por escrito de los titulares del Copyright.
El contenido de este libro esta registrado por el autor en el
on
Registro de la Propiedad Intelectual con el numero 16/2005/2564

y protegido por la Ley, que establece penas de prision ademas
de las correspondientes indemnizaciones para quien lo plagiara
Al f
Edita: Universidad Nacional de Educacion a Distancia

E D
UN
Captulo 1
z.
Ejercicios de Autoevaluacion
ere
La evaluacion de los alumnos en la asignatura se lleva a cabo mediante
la resolucion de ejercicios practicos. En la Evaluacion Continua se requiere
aP
que los ejercicios sean resueltos con R mientras que en la Prueba Presencial,
no. Por esta razon, los ejercicios resueltos que aparecen a continuacion se han
dividido en dos grupos atendiendo a esta situacion. En ellos nos referiremos
al texto base con el acronimo EBR.
Las soluciones que se dan son, en muchas ocasiones, excesivamente deta-
rc
lladas para que el alumno profundice en las cuestiones que se plantean. No

es necesario que los alumnos resuelvan con tanto detalle los ejercicios ni de la
Evaluacion Continua ni de la Prueba Presencial.
En los textos recomendados Problemas Resueltos de Estadstica Basica y
Ga
Ejercicios de Estadstica Aplicada podra encontrar el alumno mas ejercicios

de ambos tipos.
so
on
Al f
1
D
2 Alfonso Garca Perez
E
Ejercicios tipo Evaluacion Continua
UN
Problema 1.1
Los siguientes datos, obtenidos de Wainwright (1979), corresponden a cantidades
de fragmentos de distintos tipos de ceramica del yacimiento de Mount Pleasant
en Dorset (Inglaterra):
Cuenco Neoltico liso 391

Ceramica Acanalada 657
z.
Campaniformes 1695
Ceramica de Petersborough 6
Edad del Bronce 591
ere
Realizar representaciones graficas de estos datos.
Como se trata de datos de una variable cualitativa, las dos representacio-

nes graficas sugeridas en EBR-seccion 2.3.1 son el Diagrama de sectores y el
aP
Diagrama de rectangulos (tambien denominado por algunos Diagrama de ba-
rras aunque nosotros hemos reservado esta ultima denominacion para el caso
de datos cuantitativos sin agrupar).
Para obtener el Diagrama de sectores primero introducimos los datos crean-
do el vector de datos en (1), el vector de etiquetas que queremos aparezca en
el dibujo en (2) y el vector de colores de cada uno de los sectores en (3),
rc
Cermica acanalada
Ga
Cuenco Neo. liso

so
Campaniformes
on
Edad Bronce
Cerm. Petersborough
Al f
Figura 1.1 : Diagrama de sectores
> x<-c(391,657,1695,6,591) (1)

> eti<-c("Cuenco Neo. liso","Ceramica acanalada","Campaniformes",
D
Captulo 1. Ejercicios de Autoevaluacion 3
E
"Ceram. Petersborough","Edad Bronce") (2)
> c1<-c(2,3,4,5,6) (3)
UN
Ahora ya podemos obtener el grafico buscado mediante la funcion pie
ejecutando (4) con lo que obtenemos el grafico en la Figura 1.1
> pie(x,labels=eti,col=c1) (4)
z.
Para obtener el Diagrama de rectangulos utilizamos la funcion barplot, en
la que observamos el argumento names en lugar de labels que utilizabamos en
la funcion anterior. (Realmente hemos definido un nuevo vector de etiquetas
ere
con nombres abreviados para que estos quepan en la base del grafico).
aP
1500
1000
rc
500
Ga
0
Neo. liso Acanalada Campani. Petersborough Bronce

so
Figura 1.2 : Diagrama de rectangulos

on
El grafico buscado lo obtenemos en la Figura 1.2 ejecutando (5)

> barplot(x,names=eti,col=c1) (5)
Al f
Problema 1.2
Los datos de la siguiente tabla son niveles de colesterol (en mg/100ml) de hom-
bres de mas de 90 kilos de peso, elegidos al azar y clasificados en dos grupos:
Grupo I, formado por personas muy pendientes del reloj, que pasan muchas ho-
ras conduciendo vehculos, y Grupo II, compuesto por individuos mas relajados
y menos competitivos.
D
E
Grupo I 233 295 310 249 245 199 270 220 240 240
Grupo II 344 186 260 245 222 210 188 240 145 165
UN
Comparar ambas poblaciones mediante,
a) El test de la t de Student.
b) El test de Wilcoxon-Mann-Whitney.
c) Analizar las suposiciones necesarias para poder aplicar uno u otro test.
Se trata de realizar dos tests de comparacion de dos poblaciones, el primero
z.
parametrico y el segundo no parametrico. En el tercer apartado analizaremos
las condiciones en las que se realiza uno y otro y, en consecuencia, su validez.
a) A partir del enunciado se obtiene que es x1 = 250 1 , S12 = 1115 656 ,
ere
x2 = 220 5 , S22 = 3214 722 .
Estamos ante una situacion del contraste de la media de dos poblacio-
nes normales independientes, muestras pequenas, con varianzas desconocidas,
(EBR-seccion 7.6), por lo que debemos valorar primero si las varianzas, aun-
aP
que desconocidas, pueden considerarse iguales o no. Para ello contrastaremos
la hipotesis nula H0 : 12 = 22 frente a la alternativa de ser distintas (EBR-
seccion 7.5), contraste basado en el estadstico S12 /S22 . De hecho, aceptaremos
esta hipotesis nula cuando y solo cuando sea,
S12
rc
[ Fn1 1,n2 1;1 2 , Fn1 1,n2 1; 2 ].

S22
Como es S12 /S22 = 0 347, si consideramos un nivel de significacion = 0 1,
Ga
sera, a partir de la Tabla 6 de la F de Snedecor, F9,9;10 05 = 1/F9,9;0 05 =

1/3 1789 = 0 3146 , con lo que la region de aceptacion, a nivel = 0 1, es
[0 3136 , 3 1789] , contendra al valor del estadstico y se aceptara la hipotesis
nula de ser iguales ambas varianzas poblacionales, a ese nivel suficientemente
alto.
Si queremos resolver este apartado con R, con las siguientes sentencias
so
obtenemos las medias y cuasivarianzas muestrales, as como el valor del es-

tadstico del contraste S12 /S22 ,
on
> x1<-c(233,295,310,249,245,199,270,220,240,240)
> x2<-c(344,186,260,245,222,210,188,240,145,165)
> mean(x1)
[1] 250.1
Al f
> mean(x2)
[1] 220.5
> var(x1)
[1] 1115.656
> var(x2)
[1] 3214.722
> var(x1)/var(x2)
[1] 0.3470457
D
E
De hecho, con R podemos obtener el p-valor ejecutando (1)
UN
> 2*pf(0.347,9,9) (1)
[1] 0.1307151
Este p-valor 0 1307 es lo suficientemente alto como para confirmar la acep-

tacion de la igualdad de las varianzas poblacionales.
Si quisieramos ejecutar este test directamente con R deberamos ejecutar
(2), observando que aqu se analiza si la region de aceptacion,
z.
" #
S12 /S22 S12 /S22 0 347 0 347
ere

, = , = [0 109 , 1 103]
Fn1 1,n2 1; 2 Fn1 1,n2 1;1 2 3 1789 0 3146
cociente contiene o no al 1. La region de aceptacion se observa en (3) y el

p-valor de este test, igual logicamente al anterior, aparece en (4).
aP
> var.test(x1,x2,conf.level=0.9) (2)
F test to compare two variances
data: x1 and x2
rc
F = 0.347, num df = 9, denom df = 9, p-value = 0.1308 (4)

alternative hypothesis: true ratio of variances is not equal to 1
90 percent confidence interval:
0.1091719 1.1032212 (3)
sample estimates:
Ga
ratio of variances
0.3470457
Apuntamos que, intercambiando los papeles de ambas poblaciones (que

es lo que nos dice la ortodoxia, EBR-seccion 7.5), hubieramos obtenido las
mismas conclusiones.
so
Por tanto, el test para contrastar la igualdad de las medias poblacionales;

es decir, para contrastar la hipotesis nula H0 : 1 = 2 frente a la alternativa
H1 : 1 6= 2 sera el que acepte H0 cuando y solo cuando sea
on
|x1 x2 |
s s tn1 +n2 2;/2
(n1 1)S12
+ (n2 1)S22 1 1
+
Al f
n1 + n2 2 n1 n2
Como es
|x1 x2 | |250 1 220 5|

r r = r r = 1 4224
(n1 1)S12 + (n2 1)S22 1 1 9 1115 656 + 9 3214 722 1 1
+ +
n1 + n2 2 n1 n2 18 10 10
D
E
y, a partir de la Tabla de la t de Student, vemos que es 0 05 < P {t18 >
1 4224} < 0 1, podemos aceptar la hipotesis nula de igualdad en los niveles de
UN
colesterol de ambas poblaciones, con un p-valor entre 0 1 y 0 2, es decir, con
suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (5), en
donde indicamos que consideramos las varianzas poblacionales como iguales.
Como el 0 esta incluido en la region de aceptacion dada en (6), aceptamos
la hipotesis nula de igualdad de los niveles medios de ambas poblaciones. El
z.
p-valor 0 172 aparece en (7) (esta entre 0 1 y 0 2 como habamos dicho) e
indica la aceptacion de H0 .
ere
> t.test(x1,x2,var.equal=T) (5)
Two Sample t-test
data: x1 and x2
t = 1.4224, df = 18, p-value = 0.172
aP (7)
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-14.11926 73.31926 (6)
sample estimates:
mean of x mean of y
250.1 220.5
rc
b) Para utilizar el test de Wilcoxon-Mann-Whitney, EBR-seccion 8.4.1, las

hipotesis a contrastar haran referencia a las medianas poblacionales M1 y M2
y seran H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptandose H0
Ga
cuando y solo cuando sea
m n um,n;/2 < U < um,n;/2

siendo U el numero de valores de la segunda muestra que preceden estricta-
mente a cada valor fijo de la primera muestra.
so
Si subrayamos los valores de la segunda muestra en la siguiente union de

ambas muestras ordenadas, en donde los de la segunda muestra que son iguales
a los de la primera los hemos situado detras para hacer mas simple el recuento,
on
145, 165, 186, 188, 199, 210, 220, 222, 233, 240
Al f
240, 240, 245, 245, 249, 260, 270, 295, 310, 344.
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la
segunda muestra (es decir, cuantos valores subrayados) le preceden. Es decir,
miramos el 199 (primer valor no subrayado) y vemos que hay 4 valores sub-
rayados que lo preceden, por lo que el primer sumando de U es 4. El segundo
D
E
valor no subrayado es 220, al que le preceden 5 valores subrayados, lo que hace
que el segundo valor de U sea 5, y as sucesivamente; vemos que U toma el
UN
valor,
U = 4 + 5 + 6 + 6 + 6 + 7 + 8 + 9 + 9 + 9 = 69.
En la determinacion del punto crtico y el p-valor utilizaremos la aproxi-
macion normal ya que los tamanos muestrales son mayores que 5. En concreto,
z.
si el nivel de significacion es = 0 1, sera
ere
s
10 10 10 10 (10 + 10 + 1)
um,n;/2 = u10,10;0 05 = + 1 645 = 71 76
2 12
y la region de aceptacion,
aP
(m n um,n;/2 , um,n;/2 ) = (10 10 71 76 , 71 76) = (28 24 , 71 76).
Como U = 69 pertenece a ella, deberemos aceptar la hipotesis nula de

igualdad de ambas poblaciones, con un p-valor mayor que el nivel de signifi-
cacion 0 1. En concreto, el p-valor (aproximado por utilizar la aproximacion
rc
normal) sera, utilizando la cola superior, al ser el p-valor el menor nivel de

significacion para el que se rechaza la hipotesis nula,
Ga
( )
69 10 10/2
2 P {U > 69} 2 P Z> p = 2 P {Z > 1 47} = 0 1416
10 10(10 + 10 + 1)/12
que indica aceptar con confianza la hipotesis nula de igualdad.

Para resolver este ejercicio con R, deberamos ejecutar (8) si queremos
so
utilizar las mismas opciones que las que acabamos de emplear. Los resultados
son un poco distintos porque R promedia entre los valores iguales en el calculo
de U . No obstante, el p-valor tambien es indicativo de la aceptacion de la
on
hipotesis nula de igualdad de ambas poblaciones.

> wilcox.test(x1,x2,exact=F,correct=F) (8)
Wilcoxon rank sum test

Al f
data: x1 and x2
W = 70.5, p-value = 0.1205
alternative hypothesis: true location shift is not equal to 0
c) Para utilizar tanto el test de t de Student como el de Wilcoxon-Mann-

Whitney hay que admitir que ambas muestras son aleatorias simples y que
D
E
Normal QQ Plot Normal QQ Plot
UN
350
300
300
280
Sample Quantiles
Sample Quantiles
z.
260
250
240
ere
200
220
150
200
1.5 0.5
aP 0.5 1.0 1.5 1.5 0.5 0.5 1.0 1.5
Theoretical Quantiles Theoretical Quantiles
Figura 1.3 Graficos de normalidad de ambas muestras

rc
son independientes la una de la otra. Eso es razonable y lo admitiremos. La

segunda condicion es que los datos procedan de distribuciones de tipo con-
Ga
tinuo. Tambien esto es admisible puesto que los niveles de colesterol pueden
ser cualesquiera en un intervalo. La ultima condicion, habitualmente la mas
restrictiva para el test de la t de Student es que los datos deben proceder de
poblaciones normales. Como son pocos datos no parece razonable utilizar un
test de Kolmogorov-Smirnov para analizarlo, sino metodos graficos.
so
Si hacemos un grafico de normalidad de ambas muestras ejecutando (por

ejemplo EBR-seccion 9.4)
on
> par(mfrow=c(1,2))
> qqnorm(x1)
> qqnorm(x2)
obtenemos la Figura 1.3.

Al f
Si queremos obtener dos diagramas de hojas y ramas ejecutaramos los

siguientes comandos
> stem(x1)
The decimal point is 2 digit(s) to the right of the |

D
E
UN
350
300
250
z.
200
ere
150
1 2
aP
Figura 1.4 Graficos de cajas de ambas muestras
1 |
rc
2 | 02344
2 | 557
3 | 01
Ga
> stem(x2)
The decimal point is 2 digit(s) to the right of the |
1 |
1 | 5799
2 | 124
so
2 | 56
3 | 4
Ambos tipos de graficos sugieren asimetra y, por tanto, no normalidad de

on
los datos. Lo razonable sera utilizar el segundo test no parametrico puesto

que no requiere su normalidad.
Pero observemos que si queremos que nos haga un diagrama de cajas de
Al f
ambos conjuntos de datos para detectar datos anomalos, la homocedasticidad

contrastada al comienzo del ejercicio y la asimetra, ejecutaramos la siguiente
secuencia, en donde primero juntamos ambos conjuntos de datos y luego crea-
mos unos ndices para hacer la representacion por grupos. Observese como no
replicamos el 1 diez veces sino que ejecutamos rep(1,10).
> muestra<-c(x1,x2)
D
E
> poblaciones<-c(rep(1,10),rep(2,10))
> boxplot(muestra~poblaciones)
UN
La Figura 1.4 as obtenida, confirma la homocedasticidad ya que ambas
cajas son semejantes y la simetra, pero vemos como en el segundo conjun-
to de datos aparece un dato anomalo que puede distorsionar el resultado lo
que sugiere utilizar tests robustos de comparacion de poblaciones puesto que
los Metodos no parametricos pueden verse muy afectados al no detectar esas
z.
anomalas, pero eso ya es materia de otro curso.
ere
Problema 1.3
Se cree que el tamano X de los asentamientos prehistoricos puede servir para
predecir el tamano de la poblacion Y del lugar donde aquellos se produjeron.
Por ello se quiere determinar la recta de regresion basandose en datos actuales y,
con ella, hacer estimaciones de tiempos pasados. Con este proposito, Carothers y
McDonald (1979) obtuvieron los siguientes datos de Tamano de Asentamientos
aP
en hectareas, X y Numero de habitantes, Y , de los pueblos actuales del area en
estudio:
X 0 6 1 0 1 1 1 2 1 6 1 9 2 3 3 0 3 1 3 3
Y 20 70 100 130 120 170 195 190 210 360
rc
X 3 7 4 0 4 5 5 4 5 9 6 1 6 4 8 9 10 0 12 0
Y 300 250 500 270 190 630 650 310 730 850
Determinar la recta de regresion y analizar si es significativa.

Ga
Vamos a resolver este ejemplo con R (vease EBR-seccion 10.4). Para ello,
primero introducimos los datos como sigue,
> x<-c(0.6,1,1.1,1.2,1.6,1.9,2.3,3,3.1,3.3,3.7,4,4.5,5.4,5.9,6.1,6.4,8.9,10,12)
> y<-c(20,70,100,130,120,170,195,190,210,360,300,250,500,270,190,630,650,310,730,850)
so
Luego obtenemos la recta de regresion ejecutando (1) y analizamos los resul-

tados ejecutando (2),
on
> recta<-lm(y~x) (1)

> recta
Call:
lm(formula = y ~ x)
Al f
Coefficients:
(Intercept) x
39.79 63.36
> summary(recta) (2)

Call:
D
E
UN
800
600
z.
y
400
ere
200
aP
0
2 4 6 8 10 12
Figura 1.5 : Nube de puntos y recta de regresion

rc
lm(formula = y ~ x)
Ga
Residuals:
Min 1Q Median 3Q Max
-2.937e+02 -4.072e+01 -7.797e-03 5.154e+01 2.047e+02
Coefficients:
Estimate Std. Error t value Pr(>|t|)
so
(Intercept) 39.792 48.768 0.816 0.425 (3)

x 63.362 9.214 6.877 1.97e-06 *** (4)
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
on
Residual standard error: 127.2 on 18 degrees of freedom

Multiple R-Squared: 0.7243, Adjusted R-squared: 0.709
F-statistic: 47.29 on 1 and 18 degrees of freedom, p-value: 1.969e-006
(5)
Al f
La recta de regresion (o mnimos cuadrados) obtenida con la primera sen-

tencia es
yt = 39 79 + 63 36 x
En la segunda salida vemos un contraste sin interes, el (3), sobre el termino
D
E
independiente y un contraste, el (4), sobre el coeficiente de regresion, es decir,
el de la hipotesis nula H0 : = 0 frente a la alternativa H1 : 6= 0. Este con-
UN
traste indica claramente rechazar H0 , es decir, que la covariable independiente
X no sea valida para explicar a la variable dependiente Y (es decir, rechazar
claramente que la recta de regresion no sea valida), al ser el p-valor muy bajo.
Como vemos en la Figura 1.5, obtenida ejecutando las sentencias
z.
> plot(x,y)
> abline(recta,col=2)
ere
el ajuste de la recta es bastante bueno.
Observese que este contraste es exactamente el mismo que el obtenido en
(5) basado en la F de Snedecor, por tratarse de una Regresion Lineal Simple.
Para la Regresion Multiple, el de la F de Snedecor sera un contraste global
aP
del hiperplano ajustado, sin mucho interes, mientras que los contrastes de
interes seran los tests sobre los coeficientes de regresion. Por tanto, para estos
datos vemos que la recta de regresion se ajusta bien, lo que permitira realizar
predicciones sobre tiempos pasados, supuesto que en ellos se daba la misma
relacion de dependencia entre el tamano de los asentamientos y la poblacion.
rc
Ga
so
on
Al f
D
E
Ejercicios tipo Prueba Presencial
UN
Problema 1.4
El uno por ciento de los ninos sufre efectos secundarios tras la administracion
de un determinado antibiotico. Si este fue aplicado a seis ninos, determinar la
probabilidad de que
a) Ninguno padezca efectos secundarios.
b) Lo padezca mas de un nino.
z.
c) Si se suministrase el antibiotico a 1000 ninos, cual sera el numero medio de
ninos con efectos secundarios?
d) Calcular la probabilidad de que, de esos mil ninos, padezcan efectos secunda-
rios mas de 15.
ere
a) El problema se puede formalizar mediante un modelo binomial (EBR-
seccion 4.4.1) en donde cada prueba de Bernoulli sea el administrar el anti-
biotico en cuestion y el suceso exito el que el nino padezca efectos secundarios.
aP
De esta forma, la variable numero de ninos, de entre los seis, que padecieron
efectos secundarios, se puede modelizar mediante una variable X con distribu-
cion binomial B(6, 0 01), al ser p = 0 01 la probabilidad de que se de el suceso
exito.
La probabilidad pedida sera ahora, utilizando una tabla de la distribucion
rc
binomial,
P {X = 0} = 0 9415.
Ga
b) En la misma situacion que en el apartado anterior, la probabilidad

pedida sera
P {X > 1} = 1 P {X 1} = 1 [P {X = 0} + P {X = 1}]
so
= 1 [0 9415 + 0 0571]
on
= 0 0014.
c) Ahora lo que ocurre es que se aumenta el numero de pruebas de Bernou-

lli, modelizandose el problema con una variable X ; B(1000, 0 01). La media
Al f
de esta distribucion es el producto de los dos parametros, es decir,
E[X] = n p = 1000 0 01 = 10.

Por tanto, el numero medio o numero esperado de ninos con efectos secun-
darios, de entre los mil, sera 10.
D
E
d) El calculo de probabilidades de distribuciones binomiales para un gran
numero de ensayos, como aqu ocurre, se realiza aproximando dicha distribu-
UN
cion mediante el teorema central del lmite (EBR-seccion 4.7).
En el caso de una distribucion pbinomial X ; B(n, p) , su aproximacion
mediante una normal Y ; N (np , np(1 p) ) es valida (EBR-seccion 4.7)
cuando supuesto sea p 0 5 (como aqu ocurre) entonces sea tambien np > 5
(como aqu ocurre).
Por tanto, aproximaremos la X ; B(1000, 0 01), por una
z.

Y ; N 1000 0 01 , 1000 0 01 0 99 = N (10 , 3 146)
ere
quedando la probabilidad pedida igual a
X 10 15 10

P {X > 15} = P > = P {Z > 1 59} = 0 0559
aP 3 146 3 146
siendo Z una variable aleatoria N (0, 1) y en donde la ultima probabilidad la

hemos calculado utilizando la tabla de dicha distribucion.
Problema 1.5
rc
Los saltamontes de la region africana de Asyut se caracterizan por tener una

longitud media de 2 cm, pudiendo admitirse una distribucion normal para la
longitud de tales ortopteros. Elegida una muestra aleatoria de 20 de ellos, sus
longitudes en cm fueron las siguientes:
Ga
1 90, 1 85, 2 01, 1 95, 2 05, 2 00, 1 97, 2 02, 1 89, 2 01,
2 05, 1 95, 1 87, 2 05, 1 97, 1 85, 2 02, 1 95, 1 93, 2 05

Utilizando estos datos, se pide:
so
a) Determinar la estimacion de maxima verosimilitud de la desviacion tpica

poblacional .
b) Calcular la probabilidad de que el estimador de maxima verosimilitud de
subestime el verdadero valor de dicho parametro.
on
Si llamamos X a la longitud de los saltamontes en estudio, del enunciado

se desprende que puede admitirse para X una distribucion N (2, ), siendo la
estimacion de el objetivo del problema.
Al f
a) Para determinar el estimador de maxima verosimilitud de comenza-

remos calculando la funcion de verosimilitud (EBR-seccion 5.2)
n n
( )
Y 1 1 X
L() = f (x1 , ..., xn ) = f (xi ) = n n/2
exp 2 (xi 2)2
i=1
(2) 2 i=1
D
E
de logaritmo neperiano
UN
n
n 1 X
log L() = n log log(2) 2 (xi 2)2 .
2 2 i=1
Su derivada igualada a cero (ecuacion de verosimilitud) sera
n 4 ni=1 (xi 2)2

P
log L() = + =0
4 4
z.
de donde se obtiene el estimador de maxima verosimilitud
ere
v
n
u1 X
u
= t (Xi 2)2 .
n i=1
(Hacemos aqu la observacion de que los estimadores de maxima verosimili-

tud respetan las transformaciones biyectivas; es decir, que si T es el estimador
aP
de maxima verosimilitud para , entonces g(T ) es el estimador de maxima
verosimilitud para g() siempre que g sea una funcion biyectiva. En este sen-
tido, poda haberse determinado el estimador de maxima verosimilitud para
la varianza poblacional 2 mas habitual y ya determinado en EBR-seccion
5.2 y extrayendo la raz cuadrada obtendramos el de la desviacion tpica ,
rc

al ser la funcion g(x) = x una funcion biyectiva.)
A partir de los datos del enunciado obtenemos que la estimacion de maxima
verosimilitud sera,
Ga
v
u 20
u 1 X
= t (Xi 2)2 = 0 00546 = 0 0739.
20 i=1
b) La probabilidad pedida sera

so
20
( )
1 X
P { < } = P (Xi 2)2 < 2
20 i=1
on
20
( )
1 X
= P (Xi 2)2 < 20
2 i=1
Al f
= P {220 < 20} = 0 5292
al tener 20 2 2 2
P
i=1 (Xi 2) / una distribucion 20 por estar ante un caso de
estimacion de la varianza de una poblacion normal de media conocida (EBR-
seccion 5.6), y en donde la ultima probabilidad se ha calculado por inter-
polacion a partir de las tablas de una 2 . De ella se obtiene que es P {220 <
D
E
16 27} = 0 3 y P {220 < 22 78} = 0 7, por lo que para un aumento de abscisa de
22 7816 27 = 6 51 se obtiene un aumento de probabilidad de 0 4; para un au-
UN
mento de abscisa de 2016 27 = 3 73 se obtendra un aumento de probabilidad
de 0 4 3 73/6 51 = 0 2292. Por tanto, P {220 < 20} = 0 3 + 0 2292 = 0 5292.
Problema 1.6
Se quiere estimar, mediante un intervalo de confianza, la diferencia entre los
pesos medios de los cerebros de vacas sanas y de vacas enfermas de una enfer-
z.
medad degenerativa determinada, con objeto de ver si dicho intervalo contiene
o no al cero.
Para ello se seleccionaron al azar n1 = 200 vacas sanas, las cuales proporcionaron
ere
un peso medio cerebral de x1 = 423 gramos y una cuasidesviacion tpica muestral
de 30 gramos e, independientemente de la muestra anterior, n2 = 100 cerebros
de vacas enfermas, que dieron un peso medio cerebral de x2 = 410 gramos y una
cuasidesviacion tpica muestral de 50 gramos.
Determinar el intervalo de confianza deseado, con un coeficiente de confianza de
0 90.
aP
Estamos ante un caso de determinacion del intervalo de confianza para la
diferencia de las medias poblacionales de dos poblaciones no necesariemen-
te normales, pero siendo suficientemente grandes los tamanos muestrales, y
siendo desconocidas las varianzas poblacionales (EBR-seccion 6.7), el cual es
rc
s s
x1 x2 z/2
S12 S22 S12 S22
+ , x1 x2 + z/2 + .
n1 n2 n1 n2
Ga
Del enunciado se obtiene que es, x1 = 423, x2 = 410, n1 = 200, n2 = 100,

S12 = 900 y S22 = 2500. Por ultimo, de la tabla de la N (0, 1), obtenemos que
es z/2 = z0 05 = 1 645, por lo que el intervalo buscado sera, en definitiva,
so
" r r #
900 2500 900 2500
423 410 1 645 + , 423 410 + 1 645 +
200 100 200 100
on
= 4 0654 , 21 9346 .

Problema 1.7
Al f
Se este estudiando el tiempo de vida entre los pacientes a una determinada

enfermedad. A tal fin se eligieron al azar 100 fichas de pacientes fallecidos por
la enfermedad en estudio, obteniendose una media muestral de 740 das y una
cuasidesviacion tpica muestral de 32 das.
Puede admitirse para los pacientes de la enfermedad en cuestion un tiempo
medio de vida superior a 730 das?
D
E
Si representamos por X la variable aleatoria tiempo de vida de los pacientes
con la enfermedad en estudio, y por su media, estamos interesados en analizar
UN
si puede admitirse la hipotesis > 730 la cual, como siempre, se plantea como
hipotesis alternativa H1 , reservando la hipotesis nula al suceso complementario
H0 : 730.
En la situacion que nos movemos de contrastes para la media, , de una
poblacion no necesariamente normal de varianza desconocida siendo el tamano
muestral suficientemente grande (EBR-seccion 7.3), se rechaza H0 : 730
z.
cuando y solo cuando sea
x 730
ere
> z
S/ n
siendo z el valor de la abscisa de una normal N (0, 1) que deja a la derecha

un area de probabilidad , siendo el nivel de significacion del test.
aP
Si fijamos como nivel de significacion = 0 05, la tabla de la normal N (0, 1)
nos proporciona el punto crtico z = z0 05 = 1 645, al obtenerse a partir de
la mencionada tabla que es P {Z > 1 64} = 0 0505 y P {Z > 1 65} = 0 0495.
Al ser la probabilidad cola requerida como nivel de significacion la semisuma
de las dos anteriores, el punto crtico tambien sera la semisuma de las dos
abscisas anteriores: (1 64 + 1 65)/2 = 1 645.
rc
Como es
x 730 740 730

= = 3 125 > 1 645 = z0 05
Ga
S/ n 32/ 100
rechazaremos la hipotesis nula de ser H0 : 730, aceptando la alternativa
H1 : > 730, de ser el tiempo medio de supervivencia entre los pacientes con
la enfermedad en estudio, significativamente mayor de 730 das.
El p-valor del test es
so
x 730

P > 3 125 = P {Z > 3 125} = 0 0009
S/ n
on
obtenido, de nuevo a partir de la tabla de la normal, por interpolacion de dos

valores (en este caso iguales). Un p-valor tan pequeno confirma la conclusion
adoptada.
Al f
Problema 1.8
Se clasificaron 218 tumbas de la Edad de Bronce en Ricas y Pobres segun los
objetos de ajuar encontrados en ellas para los 6 Grupos de Edad en los que se
divide la poblacion femenina de aquella epoca. Los resultados obtenidos fueron
los siguientes:
D
E
Grupos de Edad
Ricas Pobres
UN
Infantil I 5 24
Infantil II 8 20
Juvenil 12 25
Adulta 29 35
Madura 20 27
Senil 6 7
z.
Existen diferencias significativas entre los seis grupos de edad?
Se trata de un Contraste de homogeneidad de varias muestras (EBR-
ere
seccion 8.2.3). La tabla de frecuencias observadas y esperadas (entre parente-
sis) es
Grupos de Edad
aP Ricas Pobres
Infantil I 5 (10 642) 24 (18 358)
Infantil II 8 (10 275) 20 (17 725)
Juvenil 12(13 578) 25 (23 422)
Adulta 29(23 486) 35 (40 514)
Madura 20(17 248) 27 (29 752)
rc
Senil 6 (4 771) 7 (8 229)
que, como se ve, presenta una celdilla con frecuencia esperada menor que 5,
Ga
pero dado que es por muy poco y los resultados que siguen son suficientemente
claros, no es necesario agrupar las dos ultimas filas.
El valor del estadstico de Pearson es igual a = 9 05 y el p-valor,
P {25 > 9 05}

so
aparece acotado entre 0 1 y 0 3 (bastante cercano a 0 1), lo que conduce a

aceptar la hipotesis nula de homogeneidad de los seis grupos de edad y concluir
con que no existen diferencias significativas entre ellos.
on
Problema 1.9
El origen de la civilizacion etrusca sigue siendo todava un misterio para los
Al f
antropologos. En concreto, una cuestion que se plantea es la de si fueron origi-

narios de la pennsula italiana o si inmigraron a ella procedentes de algun otro
lugar. Se penso que una forma de contestar a esta pregunta sera comparar a
los actuales italianos con los restos arqueologicos etruscos mediante un estudio
antropometrico. Para ello, se midio, en milmetros, la maxima anchura, X , de 8
craneos de restos de varones etruscos y la maxima anchura, Y , de la cabeza de
10 varones italianos, todos ellos elegidos al azar. Los resultados obtenidos fueron
los siguientes (Barnicot y Brothwell, 1959):
D
E
Etruscos 141 132 154 142 141 150 134 140
UN
Italianos 133 138 136 125 135 130 127 131 116 128
En base a los datos obtenidos y utilizando un contraste de Wilcoxon-Mann-

Whitney, se puede concluir con la existencia de diferencias significativas entre
las dos poblaciones a nivel = 0 05?
Estamos ante un caso de comparacion de dos poblaciones independientes
z.
mediante la comparacion de sus medianas, al realizar el contraste de la hipote-
sis nula H0 : MX = MY frente a la alternativa H1 : MX 6= MY , utilizando el
test de Wilcoxon-Mann-Whitney (EBR-seccion 8.4.1).
ere
La unica suposicion que necesitamos hacer es la de que las variables X =
maxima anchura del craneo de los etruscos, e Y = maxima anchura del craneo
de los italianos, sean de tipo continuo, lo cual es bastante razonable puesto
que ambas variables son mediciones que pueden tomar cualquier valor entre
dos valores dados.
aP
El estadstico del test de Wilcoxon-Mann-Whitney es
8 X
X 10
U= Dij
i=1 j=1
rc
con
(
1 si es Yj < Xi
Dij =
0 si es Yj > Xi
Ga
es decir, el numero de observaciones Yj que preceden a cada Xi fijo. Si subraya-

mos los valores Yj en la muestra combinada de las 18 observaciones, obtenemos
116 , 125 , 127 , 128 , 130 , 131 , 132 , 133 , 134 ,

so
135 , 136 , 138 , 140 , 141 , 141 , 142 , 150 , 154

on
que proporcionan un valor para U de
U = 6 + 7 + 10 + 10 + 10 + 10 + 10 + 10 = 73.
Fijado el nivel de significacion = 0 05, la tabla del estadstico de Wilcoxon-
Al f
Mann-Whitney proporciona el punto crtico c8,10;/2 = c8,10;0 025 = 62 siendo,

por tanto, la region crtica del test igual a
C = {U n m um,n;/2 } {U um,n;/2 }
siendo um,n;/2 = cm,n;/2 + 1 = 63. Es decir,
D
E
C = {U 17} {U 63} = [0, 17] [63, 80].
UN
El valor de U obtenido (U = 73), al pertenecer a la region crtica, conduce
a rechazar la hipotesis nula y concluir con que ambas poblaciones presentan
diferencias significativas en los tamanos de sus craneos y que, utilizando esta
caracterstica como definitoria de la poblacion, que la civilizacion etrusca tiene
un origen distinto al de los habitantes actuales de Italia.
z.
Referencias
ere
Barnicot, N.A. y Brothwell, D.R. (1959). The evaluation of metrical data in the comparison
of ancient and modern bones. In Medical biology and Etruscan origins. Wolstenholme,
G.E.W. y OConnor, C.M. (edt.). Little, Brown and Co., 136.
Carothers, J. y McDonald, A. (1979). Size and distribution of the population in Late Bronze
aP
Age Mesenia: some statistical approaches. J. Field Archaeology, 6, 433-454.
Wainwright, G.J. (1979). Mount Pleasant, Dorset: Excavations 1970-71. Society of Anti-
quaries Research Report 37. Thames and Hudson, Londres.
rc
Ga
so
on
Al f

Ejercicios de Autoevaluación PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Ejercicios de Autoevaluación PDF

Hochgeladen von

Copyright:

Verfügbare Formate

E D

Alfonso Garca Perez

Universidad Nacional de Educacion a Distancia

No esta permitida la reproduccion total o parcial de este

ninguna forma o por cualquier medio, ya sea electronico,

Registro de la Propiedad Intelectual con el numero 16/2005/2564

Edita: Universidad Nacional de Educacion a Distancia

lladas para que el alumno profundice en las cuestiones que se plantean. No

Ejercicios de Estadstica Aplicada podra encontrar el alumno mas ejercicios

Cuenco Neoltico liso 391

Como se trata de datos de una variable cualitativa, las dos representacio-

Cuenco Neo. liso

Figura 1.1 : Diagrama de sectores

> x<-c(391,657,1695,6,591) (1)

> pie(x,labels=eti,col=c1) (4)

Neo. liso Acanalada Campani. Petersborough Bronce

Figura 1.2 : Diagrama de rectangulos

El grafico buscado lo obtenemos en la Figura 1.2 ejecutando (5)

Se trata de realizar dos tests de comparacion de dos poblaciones, el primero

[ Fn1 1,n2 1;1 2 , Fn1 1,n2 1; 2 ].

sera, a partir de la Tabla 6 de la F de Snedecor, F9,9;10 05 = 1/F9,9;0 05 =

obtenemos las medias y cuasivarianzas muestrales, as como el valor del es-

Este p-valor 0 1307 es lo suficientemente alto como para confirmar la acep-

cociente contiene o no al 1. La region de aceptacion se observa en (3) y el

F test to compare two variances

F = 0.347, num df = 9, denom df = 9, p-value = 0.1308 (4)

Apuntamos que, intercambiando los papeles de ambas poblaciones (que

Por tanto, el test para contrastar la igualdad de las medias poblacionales;

|x1 x2 | |250 1 220 5|

Two Sample t-test

b) Para utilizar el test de Wilcoxon-Mann-Whitney, EBR-seccion 8.4.1, las

cuando y solo cuando sea

m n um,n;/2 < U < um,n;/2

Si subrayamos los valores de la segunda muestra en la siguiente union de

Como U = 69 pertenece a ella, deberemos aceptar la hipotesis nula de

normal) sera, utilizando la cola superior, al ser el p-valor el menor nivel de

que indica aceptar con confianza la hipotesis nula de igualdad.

hipotesis nula de igualdad de ambas poblaciones.

Wilcoxon rank sum test

c) Para utilizar tanto el test de t de Student como el de Wilcoxon-Mann-

Theoretical Quantiles Theoretical Quantiles

Figura 1.3 Graficos de normalidad de ambas muestras

son independientes la una de la otra. Eso es razonable y lo admitiremos. La

Si hacemos un grafico de normalidad de ambas muestras ejecutando (por

obtenemos la Figura 1.3.

Si queremos obtener dos diagramas de hojas y ramas ejecutaramos los

The decimal point is 2 digit(s) to the right of the |

The decimal point is 2 digit(s) to the right of the |

Ambos tipos de graficos sugieren asimetra y, por tanto, no normalidad de

los datos. Lo razonable sera utilizar el segundo test no parametrico puesto

ambos conjuntos de datos para detectar datos anomalos, la homocedasticidad

Determinar la recta de regresion y analizar si es significativa.

Luego obtenemos la recta de regresion ejecutando (1) y analizamos los resul-

> recta<-lm(y~x) (1)

> summary(recta) (2)

Figura 1.5 : Nube de puntos y recta de regresion

(Intercept) 39.792 48.768 0.816 0.425 (3)

Residual standard error: 127.2 on 18 degrees of freedom

La recta de regresion (o mnimos cuadrados) obtenida con la primera sen-

b) En la misma situacion que en el apartado anterior, la probabilidad

c) Ahora lo que ocurre es que se aumenta el numero de pruebas de Bernou-

de esta distribucion es el producto de los dos parametros, es decir,

E[X] = n p = 1000 0 01 = 10.