Beruflich Dokumente
Kultur Dokumente
UN
ESTADISTICA BASICA
Ejercicios de Autoevaluacion
z.
ere
aP
rc
Ga
so
on
c
Copyright
2010 Alfonso Garca Perez
Fotografa de la Portada: 7 llaves de las antiguas 7 puertas de la ciudad. Museo de los Fueros.
Sepulveda.
Ga
z.
Ejercicios de Autoevaluacion
ere
La evaluacion de los alumnos en la asignatura se lleva a cabo mediante
la resolucion de ejercicios practicos. En la Evaluacion Continua se requiere
aP
que los ejercicios sean resueltos con R mientras que en la Prueba Presencial,
no. Por esta razon, los ejercicios resueltos que aparecen a continuacion se han
dividido en dos grupos atendiendo a esta situacion. En ellos nos referiremos
al texto base con el acronimo EBR.
Las soluciones que se dan son, en muchas ocasiones, excesivamente deta-
rc
1
D
2 Alfonso Garca Perez
E
Ejercicios tipo Evaluacion Continua
UN
Problema 1.1
Los siguientes datos, obtenidos de Wainwright (1979), corresponden a cantidades
de fragmentos de distintos tipos de ceramica del yacimiento de Mount Pleasant
en Dorset (Inglaterra):
z.
Campaniformes 1695
Ceramica de Petersborough 6
Edad del Bronce 591
ere
Realizar representaciones graficas de estos datos.
Cermica acanalada
Ga
Campaniformes
on
Edad Bronce
Cerm. Petersborough
Al f
E
"Ceram. Petersborough","Edad Bronce") (2)
> c1<-c(2,3,4,5,6) (3)
UN
Ahora ya podemos obtener el grafico buscado mediante la funcion pie
ejecutando (4) con lo que obtenemos el grafico en la Figura 1.1
z.
Para obtener el Diagrama de rectangulos utilizamos la funcion barplot, en
la que observamos el argumento names en lugar de labels que utilizabamos en
la funcion anterior. (Realmente hemos definido un nuevo vector de etiquetas
ere
con nombres abreviados para que estos quepan en la base del grafico).
aP
1500
1000
rc
500
Ga
0
Problema 1.2
Los datos de la siguiente tabla son niveles de colesterol (en mg/100ml) de hom-
bres de mas de 90 kilos de peso, elegidos al azar y clasificados en dos grupos:
Grupo I, formado por personas muy pendientes del reloj, que pasan muchas ho-
ras conduciendo vehculos, y Grupo II, compuesto por individuos mas relajados
y menos competitivos.
D
4 Alfonso Garca Perez
E
Grupo I 233 295 310 249 245 199 270 220 240 240
Grupo II 344 186 260 245 222 210 188 240 145 165
UN
Comparar ambas poblaciones mediante,
a) El test de la t de Student.
b) El test de Wilcoxon-Mann-Whitney.
c) Analizar las suposiciones necesarias para poder aplicar uno u otro test.
z.
parametrico y el segundo no parametrico. En el tercer apartado analizaremos
las condiciones en las que se realiza uno y otro y, en consecuencia, su validez.
a) A partir del enunciado se obtiene que es x1 = 250 1 , S12 = 1115 656 ,
ere
x2 = 220 5 , S22 = 3214 722 .
Estamos ante una situacion del contraste de la media de dos poblacio-
nes normales independientes, muestras pequenas, con varianzas desconocidas,
(EBR-seccion 7.6), por lo que debemos valorar primero si las varianzas, aun-
aP
que desconocidas, pueden considerarse iguales o no. Para ello contrastaremos
la hipotesis nula H0 : 12 = 22 frente a la alternativa de ser distintas (EBR-
seccion 7.5), contraste basado en el estadstico S12 /S22 . De hecho, aceptaremos
esta hipotesis nula cuando y solo cuando sea,
S12
rc
> x1<-c(233,295,310,249,245,199,270,220,240,240)
> x2<-c(344,186,260,245,222,210,188,240,145,165)
> mean(x1)
[1] 250.1
Al f
> mean(x2)
[1] 220.5
> var(x1)
[1] 1115.656
> var(x2)
[1] 3214.722
> var(x1)/var(x2)
[1] 0.3470457
D
Captulo 1. Ejercicios de Autoevaluacion 5
E
De hecho, con R podemos obtener el p-valor ejecutando (1)
UN
> 2*pf(0.347,9,9) (1)
[1] 0.1307151
z.
" #
S12 /S22 S12 /S22 0 347 0 347
ere
, = , = [0 109 , 1 103]
Fn1 1,n2 1; 2 Fn1 1,n2 1;1 2 3 1789 0 3146
data: x1 and x2
rc
ratio of variances
0.3470457
|x1 x2 |
s s tn1 +n2 2;/2
(n1 1)S12
+ (n2 1)S22 1 1
+
Al f
n1 + n2 2 n1 n2
Como es
E
y, a partir de la Tabla de la t de Student, vemos que es 0 05 < P {t18 >
1 4224} < 0 1, podemos aceptar la hipotesis nula de igualdad en los niveles de
UN
colesterol de ambas poblaciones, con un p-valor entre 0 1 y 0 2, es decir, con
suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (5), en
donde indicamos que consideramos las varianzas poblacionales como iguales.
Como el 0 esta incluido en la region de aceptacion dada en (6), aceptamos
la hipotesis nula de igualdad de los niveles medios de ambas poblaciones. El
z.
p-valor 0 172 aparece en (7) (esta entre 0 1 y 0 2 como habamos dicho) e
indica la aceptacion de H0 .
ere
> t.test(x1,x2,var.equal=T) (5)
data: x1 and x2
t = 1.4224, df = 18, p-value = 0.172
aP (7)
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-14.11926 73.31926 (6)
sample estimates:
mean of x mean of y
250.1 220.5
rc
145, 165, 186, 188, 199, 210, 220, 222, 233, 240
Al f
240, 240, 245, 245, 249, 260, 270, 295, 310, 344.
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la
segunda muestra (es decir, cuantos valores subrayados) le preceden. Es decir,
miramos el 199 (primer valor no subrayado) y vemos que hay 4 valores sub-
rayados que lo preceden, por lo que el primer sumando de U es 4. El segundo
D
Captulo 1. Ejercicios de Autoevaluacion 7
E
valor no subrayado es 220, al que le preceden 5 valores subrayados, lo que hace
que el segundo valor de U sea 5, y as sucesivamente; vemos que U toma el
UN
valor,
U = 4 + 5 + 6 + 6 + 6 + 7 + 8 + 9 + 9 + 9 = 69.
En la determinacion del punto crtico y el p-valor utilizaremos la aproxi-
macion normal ya que los tamanos muestrales son mayores que 5. En concreto,
z.
si el nivel de significacion es = 0 1, sera
ere
s
10 10 10 10 (10 + 10 + 1)
um,n;/2 = u10,10;0 05 = + 1 645 = 71 76
2 12
y la region de aceptacion,
aP
(m n um,n;/2 , um,n;/2 ) = (10 10 71 76 , 71 76) = (28 24 , 71 76).
( )
69 10 10/2
2 P {U > 69} 2 P Z> p = 2 P {Z > 1 47} = 0 1416
10 10(10 + 10 + 1)/12
utilizar las mismas opciones que las que acabamos de emplear. Los resultados
son un poco distintos porque R promedia entre los valores iguales en el calculo
de U . No obstante, el p-valor tambien es indicativo de la aceptacion de la
on
data: x1 and x2
W = 70.5, p-value = 0.1205
alternative hypothesis: true location shift is not equal to 0
E
Normal QQ Plot Normal QQ Plot
UN
350
300
300
280
Sample Quantiles
Sample Quantiles
z.
260
250
240
ere
200
220
150
200
1.5 0.5
aP 0.5 1.0 1.5 1.5 0.5 0.5 1.0 1.5
tinuo. Tambien esto es admisible puesto que los niveles de colesterol pueden
ser cualesquiera en un intervalo. La ultima condicion, habitualmente la mas
restrictiva para el test de la t de Student es que los datos deben proceder de
poblaciones normales. Como son pocos datos no parece razonable utilizar un
test de Kolmogorov-Smirnov para analizarlo, sino metodos graficos.
so
> par(mfrow=c(1,2))
> qqnorm(x1)
> qqnorm(x2)
E
UN
350
300
250
z.
200
ere
150
1 2
aP
Figura 1.4 Graficos de cajas de ambas muestras
1 |
rc
2 | 02344
2 | 557
3 | 01
Ga
> stem(x2)
1 |
1 | 5799
2 | 124
so
2 | 56
3 | 4
E
> poblaciones<-c(rep(1,10),rep(2,10))
> boxplot(muestra~poblaciones)
UN
La Figura 1.4 as obtenida, confirma la homocedasticidad ya que ambas
cajas son semejantes y la simetra, pero vemos como en el segundo conjun-
to de datos aparece un dato anomalo que puede distorsionar el resultado lo
que sugiere utilizar tests robustos de comparacion de poblaciones puesto que
los Metodos no parametricos pueden verse muy afectados al no detectar esas
z.
anomalas, pero eso ya es materia de otro curso.
ere
Problema 1.3
Se cree que el tamano X de los asentamientos prehistoricos puede servir para
predecir el tamano de la poblacion Y del lugar donde aquellos se produjeron.
Por ello se quiere determinar la recta de regresion basandose en datos actuales y,
con ella, hacer estimaciones de tiempos pasados. Con este proposito, Carothers y
McDonald (1979) obtuvieron los siguientes datos de Tamano de Asentamientos
aP
en hectareas, X y Numero de habitantes, Y , de los pueblos actuales del area en
estudio:
X 0 6 1 0 1 1 1 2 1 6 1 9 2 3 3 0 3 1 3 3
Y 20 70 100 130 120 170 195 190 210 360
rc
X 3 7 4 0 4 5 5 4 5 9 6 1 6 4 8 9 10 0 12 0
Y 300 250 500 270 190 630 650 310 730 850
Vamos a resolver este ejemplo con R (vease EBR-seccion 10.4). Para ello,
primero introducimos los datos como sigue,
> x<-c(0.6,1,1.1,1.2,1.6,1.9,2.3,3,3.1,3.3,3.7,4,4.5,5.4,5.9,6.1,6.4,8.9,10,12)
> y<-c(20,70,100,130,120,170,195,190,210,360,300,250,500,270,190,630,650,310,730,850)
so
Coefficients:
(Intercept) x
39.79 63.36
E
UN
800
600
z.
y
400
ere
200
aP
0
2 4 6 8 10 12
lm(formula = y ~ x)
Ga
Residuals:
Min 1Q Median 3Q Max
-2.937e+02 -4.072e+01 -7.797e-03 5.154e+01 2.047e+02
Coefficients:
Estimate Std. Error t value Pr(>|t|)
so
yt = 39 79 + 63 36 x
En la segunda salida vemos un contraste sin interes, el (3), sobre el termino
D
12 Alfonso Garca Perez
E
independiente y un contraste, el (4), sobre el coeficiente de regresion, es decir,
el de la hipotesis nula H0 : = 0 frente a la alternativa H1 : 6= 0. Este con-
UN
traste indica claramente rechazar H0 , es decir, que la covariable independiente
X no sea valida para explicar a la variable dependiente Y (es decir, rechazar
claramente que la recta de regresion no sea valida), al ser el p-valor muy bajo.
Como vemos en la Figura 1.5, obtenida ejecutando las sentencias
z.
> plot(x,y)
> abline(recta,col=2)
ere
el ajuste de la recta es bastante bueno.
Observese que este contraste es exactamente el mismo que el obtenido en
(5) basado en la F de Snedecor, por tratarse de una Regresion Lineal Simple.
Para la Regresion Multiple, el de la F de Snedecor sera un contraste global
aP
del hiperplano ajustado, sin mucho interes, mientras que los contrastes de
interes seran los tests sobre los coeficientes de regresion. Por tanto, para estos
datos vemos que la recta de regresion se ajusta bien, lo que permitira realizar
predicciones sobre tiempos pasados, supuesto que en ellos se daba la misma
relacion de dependencia entre el tamano de los asentamientos y la poblacion.
rc
Ga
so
on
Al f
D
Captulo 1. Ejercicios de Autoevaluacion 13
E
Ejercicios tipo Prueba Presencial
UN
Problema 1.4
El uno por ciento de los ninos sufre efectos secundarios tras la administracion
de un determinado antibiotico. Si este fue aplicado a seis ninos, determinar la
probabilidad de que
a) Ninguno padezca efectos secundarios.
b) Lo padezca mas de un nino.
z.
c) Si se suministrase el antibiotico a 1000 ninos, cual sera el numero medio de
ninos con efectos secundarios?
d) Calcular la probabilidad de que, de esos mil ninos, padezcan efectos secunda-
rios mas de 15.
ere
a) El problema se puede formalizar mediante un modelo binomial (EBR-
seccion 4.4.1) en donde cada prueba de Bernoulli sea el administrar el anti-
biotico en cuestion y el suceso exito el que el nino padezca efectos secundarios.
aP
De esta forma, la variable numero de ninos, de entre los seis, que padecieron
efectos secundarios, se puede modelizar mediante una variable X con distribu-
cion binomial B(6, 0 01), al ser p = 0 01 la probabilidad de que se de el suceso
exito.
La probabilidad pedida sera ahora, utilizando una tabla de la distribucion
rc
binomial,
P {X = 0} = 0 9415.
Ga
P {X > 1} = 1 P {X 1} = 1 [P {X = 0} + P {X = 1}]
so
= 1 [0 9415 + 0 0571]
on
= 0 0014.
E
d) El calculo de probabilidades de distribuciones binomiales para un gran
numero de ensayos, como aqu ocurre, se realiza aproximando dicha distribu-
UN
cion mediante el teorema central del lmite (EBR-seccion 4.7).
En el caso de una distribucion pbinomial X ; B(n, p) , su aproximacion
mediante una normal Y ; N (np , np(1 p) ) es valida (EBR-seccion 4.7)
cuando supuesto sea p 0 5 (como aqu ocurre) entonces sea tambien np > 5
(como aqu ocurre).
Por tanto, aproximaremos la X ; B(1000, 0 01), por una
z.
Y ; N 1000 0 01 , 1000 0 01 0 99 = N (10 , 3 146)
ere
quedando la probabilidad pedida igual a
X 10 15 10
P {X > 15} = P > = P {Z > 1 59} = 0 0559
aP 3 146 3 146
Problema 1.5
rc
1 90, 1 85, 2 01, 1 95, 2 05, 2 00, 1 97, 2 02, 1 89, 2 01,
n n
( )
Y 1 1 X
L() = f (x1 , ..., xn ) = f (xi ) = n n/2
exp 2 (xi 2)2
i=1
(2) 2 i=1
D
Captulo 1. Ejercicios de Autoevaluacion 15
E
de logaritmo neperiano
UN
n
n 1 X
log L() = n log log(2) 2 (xi 2)2 .
2 2 i=1
z.
de donde se obtiene el estimador de maxima verosimilitud
ere
v
n
u1 X
u
= t (Xi 2)2 .
n i=1
al ser la funcion g(x) = x una funcion biyectiva.)
A partir de los datos del enunciado obtenemos que la estimacion de maxima
verosimilitud sera,
Ga
v
u 20
u 1 X
= t (Xi 2)2 = 0 00546 = 0 0739.
20 i=1
20
( )
1 X
P { < } = P (Xi 2)2 < 2
20 i=1
on
20
( )
1 X
= P (Xi 2)2 < 20
2 i=1
Al f
al tener 20 2 2 2
P
i=1 (Xi 2) / una distribucion 20 por estar ante un caso de
estimacion de la varianza de una poblacion normal de media conocida (EBR-
seccion 5.6), y en donde la ultima probabilidad se ha calculado por inter-
polacion a partir de las tablas de una 2 . De ella se obtiene que es P {220 <
D
16 Alfonso Garca Perez
E
16 27} = 0 3 y P {220 < 22 78} = 0 7, por lo que para un aumento de abscisa de
22 7816 27 = 6 51 se obtiene un aumento de probabilidad de 0 4; para un au-
UN
mento de abscisa de 2016 27 = 3 73 se obtendra un aumento de probabilidad
de 0 4 3 73/6 51 = 0 2292. Por tanto, P {220 < 20} = 0 3 + 0 2292 = 0 5292.
Problema 1.6
Se quiere estimar, mediante un intervalo de confianza, la diferencia entre los
pesos medios de los cerebros de vacas sanas y de vacas enfermas de una enfer-
z.
medad degenerativa determinada, con objeto de ver si dicho intervalo contiene
o no al cero.
Para ello se seleccionaron al azar n1 = 200 vacas sanas, las cuales proporcionaron
ere
un peso medio cerebral de x1 = 423 gramos y una cuasidesviacion tpica muestral
de 30 gramos e, independientemente de la muestra anterior, n2 = 100 cerebros
de vacas enfermas, que dieron un peso medio cerebral de x2 = 410 gramos y una
cuasidesviacion tpica muestral de 50 gramos.
Determinar el intervalo de confianza deseado, con un coeficiente de confianza de
0 90.
aP
Estamos ante un caso de determinacion del intervalo de confianza para la
diferencia de las medias poblacionales de dos poblaciones no necesariemen-
te normales, pero siendo suficientemente grandes los tamanos muestrales, y
siendo desconocidas las varianzas poblacionales (EBR-seccion 6.7), el cual es
rc
s s
x1 x2 z/2
S12 S22 S12 S22
+ , x1 x2 + z/2 + .
n1 n2 n1 n2
Ga
" r r #
900 2500 900 2500
423 410 1 645 + , 423 410 + 1 645 +
200 100 200 100
on
= 4 0654 , 21 9346 .
Problema 1.7
Al f
E
Si representamos por X la variable aleatoria tiempo de vida de los pacientes
con la enfermedad en estudio, y por su media, estamos interesados en analizar
UN
si puede admitirse la hipotesis > 730 la cual, como siempre, se plantea como
hipotesis alternativa H1 , reservando la hipotesis nula al suceso complementario
H0 : 730.
En la situacion que nos movemos de contrastes para la media, , de una
poblacion no necesariamente normal de varianza desconocida siendo el tamano
muestral suficientemente grande (EBR-seccion 7.3), se rechaza H0 : 730
z.
cuando y solo cuando sea
x 730
ere
> z
S/ n
Como es
S/ n 32/ 100
rechazaremos la hipotesis nula de ser H0 : 730, aceptando la alternativa
H1 : > 730, de ser el tiempo medio de supervivencia entre los pacientes con
la enfermedad en estudio, significativamente mayor de 730 das.
El p-valor del test es
so
x 730
P > 3 125 = P {Z > 3 125} = 0 0009
S/ n
on
Problema 1.8
Se clasificaron 218 tumbas de la Edad de Bronce en Ricas y Pobres segun los
objetos de ajuar encontrados en ellas para los 6 Grupos de Edad en los que se
divide la poblacion femenina de aquella epoca. Los resultados obtenidos fueron
los siguientes:
D
18 Alfonso Garca Perez
E
Grupos de Edad
Ricas Pobres
UN
Infantil I 5 24
Infantil II 8 20
Juvenil 12 25
Adulta 29 35
Madura 20 27
Senil 6 7
z.
Existen diferencias significativas entre los seis grupos de edad?
ere
seccion 8.2.3). La tabla de frecuencias observadas y esperadas (entre parente-
sis) es
Grupos de Edad
aP Ricas Pobres
Infantil I 5 (10 642) 24 (18 358)
Infantil II 8 (10 275) 20 (17 725)
Juvenil 12(13 578) 25 (23 422)
Adulta 29(23 486) 35 (40 514)
Madura 20(17 248) 27 (29 752)
rc
que, como se ve, presenta una celdilla con frecuencia esperada menor que 5,
Ga
pero dado que es por muy poco y los resultados que siguen son suficientemente
claros, no es necesario agrupar las dos ultimas filas.
El valor del estadstico de Pearson es igual a = 9 05 y el p-valor,
Problema 1.9
El origen de la civilizacion etrusca sigue siendo todava un misterio para los
Al f
E
Etruscos 141 132 154 142 141 150 134 140
UN
Italianos 133 138 136 125 135 130 127 131 116 128
z.
mediante la comparacion de sus medianas, al realizar el contraste de la hipote-
sis nula H0 : MX = MY frente a la alternativa H1 : MX 6= MY , utilizando el
test de Wilcoxon-Mann-Whitney (EBR-seccion 8.4.1).
ere
La unica suposicion que necesitamos hacer es la de que las variables X =
maxima anchura del craneo de los etruscos, e Y = maxima anchura del craneo
de los italianos, sean de tipo continuo, lo cual es bastante razonable puesto
que ambas variables son mediciones que pueden tomar cualquier valor entre
dos valores dados.
aP
El estadstico del test de Wilcoxon-Mann-Whitney es
8 X
X 10
U= Dij
i=1 j=1
rc
con
(
1 si es Yj < Xi
Dij =
0 si es Yj > Xi
Ga
U = 6 + 7 + 10 + 10 + 10 + 10 + 10 + 10 = 73.
Fijado el nivel de significacion = 0 05, la tabla del estadstico de Wilcoxon-
Al f
C = {U n m um,n;/2 } {U um,n;/2 }
siendo um,n;/2 = cm,n;/2 + 1 = 63. Es decir,
D
20 Alfonso Garca Perez
E
C = {U 17} {U 63} = [0, 17] [63, 80].
UN
El valor de U obtenido (U = 73), al pertenecer a la region crtica, conduce
a rechazar la hipotesis nula y concluir con que ambas poblaciones presentan
diferencias significativas en los tamanos de sus craneos y que, utilizando esta
caracterstica como definitoria de la poblacion, que la civilizacion etrusca tiene
un origen distinto al de los habitantes actuales de Italia.
z.
Referencias
ere
Barnicot, N.A. y Brothwell, D.R. (1959). The evaluation of metrical data in the comparison
of ancient and modern bones. In Medical biology and Etruscan origins. Wolstenholme,
G.E.W. y OConnor, C.M. (edt.). Little, Brown and Co., 136.
Carothers, J. y McDonald, A. (1979). Size and distribution of the population in Late Bronze
aP
Age Mesenia: some statistical approaches. J. Field Archaeology, 6, 433-454.
Wainwright, G.J. (1979). Mount Pleasant, Dorset: Excavations 1970-71. Society of Anti-
quaries Research Report 37. Thames and Hudson, Londres.
rc
Ga
so
on
Al f