Sie sind auf Seite 1von 7

Estadstica II

Examen Final 26/06/2013

Responda a las preguntas siguientes en los cuadernillos de la Universidad


Utilice diferentes cuadernillos para responder a cada uno de los ejercicios
Indique claramente en cada cuadernillo su nombre, n
umero de orden y grupo reducido de clase
La duracion del examen ser
a de 2 h. y 45 min.

1. (2,5 puntos) Se dispone de una muestra con datos de ventas de una compa
na en 19 ciudades norteamericanas de tama
no medio durante los a
nos 2008 (Y ) y 2009 (X). Para este conjunto de 19 datos
(por cada a
no) se obtuvo la siguiente informacion resumen en Excel (con valores medidos en millones
de dolares):

Contesta a las preguntas siguientes:


a) (0,7 puntos) Que debemos asumir para poder calcular un intervalo de confianza para X ? Calcule
un intervalo de confianza al 99 % para X . Como interpretara este intervalo?
b) (0,3 puntos) Si sospech
asemos que las ventas promedio en ciudades de este tipo durante 2009
son menores de 0,57 (millones de dolares), que contraste de hipotesis planteara? Establezca
claramente el par
ametro de interes y las hipotesis nula y alternativa correspondiente.
c) (0,7 puntos) Resuelva el contraste anterior al 5 % de significacion indicando: el estadstico del
contraste, su distribuci
on bajo la hipotesis nula y su decision/conclusion.
d ) (0,3 puntos) Podemos cometer errores de tipo I y de tipo II simultaneamente en el contraste
anterior? Justifique su respuesta.
e) (0,5 puntos) Si quisieramos ahora contrastar si se ha producido un incremento en las ventas entre
el a
no 2008 y el 2009, indique el contraste que planteara, que sera necesario asumir para llevar
a cabo dicho contraste, el estadstico del contraste a utilizar y su distribucion bajo la hip
otesis
nula.

Soluci
on.
a) Supuestos: MAS, poblaci
on normal.
El intervalo de confianza viene dado por

0,5321

2,878

0,0598

z}|{

= (0,5321 0,0395) = (0,4926; 0,5716)

|{z}

z}|{ z }| { s

IC99 % (X ) = x
tn1;0,005

n
19

Bajo los supuestos anteriores, el valor de la media de las ventas anuales para la poblaci
on se
encuentra en el intervalo indicado con una confianza del 99 %. Si el experimento (la adquisici
on
de informaci
on) se repitiese un n
umero suficientemente elevado de veces, el valor de la media en
la poblaci
on estara dentro del intervalo un 99 % de las veces.
0
z}|{

b) El contraste a llevar a cabo sobre la media de la poblacion para X, X , sera H0 : X 0,57


frente a H1 : X < 0,57 (contraste unilateral)
c) Estadstico del contraste y su distribucion:
T =

0
X
H0 tn1 .
s/ n

Valor observado:
0 = 0,57
n = 19
x
= 0,5321
x
0
0,5321 0,57

=
t=
= 2,7626
s/ n
0,0598/ 19

s = 0,0598

Valor crtico: t18;0,05 = 1,734


El valor observado est
a en la region crtica, y por tanto para un nivel de significacion del 5 %
rechazamos H0 y concluimos que el valor promedio de las ventas es inferior a 0,57 millones de
dolares.
d ) No, ya que los errores de Tipo I se cometen cuando la hipotesis nula es verdadera, mientras que
los errores de Tipo II se cometen cuando H0 es falsa.
e) Contraste a realizar: H0 : X Y frente a H1 : X > Y (contraste unilateral).
Hipotesis: dos MAS, muestras pareadas, diferencias normales.
Definimos D X Y . El estadstico del contraste y su distribucion vendran dados por:
T =

d0
D
H0 tn1 ,
sD / n

donde en nuestro caso d0 = 0 y n es el tama


no de cada una de las muestras.
2. (2,5 puntos) Se sospecha que el salario bruto medio anual en el Pas Vasco (PV) puede exceder el
salario medio bruto anual en la Comunidad de Madrid (CM) en mas de 100 euros. Para juzgar dicha
afirmacion se tomaron muestras aleatorias simples de 1000 individuos en las dos comunidades. Se
obtuvieron los siguientes resultados (en euros):

Corroboran los datos obtenidos la afirmacion sobre los salarios en el Pas Vasco y en la Comunidad
de Madrid para un nivel de significaci
on del 5 %? Responda a esta pregunta indicando claramente:
a) (0,6 puntos) Las hip
otesis nula y alternativa del contraste.
b) (1,1 puntos) La expresi
on del estadstico de contraste (y su distribucion bajo la nula), el p-valor
del contraste y la conclusi
on a la que llega con respecto a la afirmacion sobre los salarios.
c) (0,2 puntos) Que supuestos sobre la poblacion y las muestras aseguran la validez del procedimiento empleado?

d ) (0,2 puntos) Cu
al es la probabilidad de rechazar la hipotesis nula del contraste anterior cuando
la nula es correcta? C
omo se llama este tipo de error?

0.8
0.6

(400,0.38)

0.0

0.2

0.4

f ) (0,2 puntos) A la derecha aparece la curva de potencia (aproximada) del contraste anterior en funcion de la diferencia
entre las medias poblacionales, P V CM . Seg
un el grafico,
cual es la probabilidad de no rechazar la hipotesis nula cuando en realidad P V CM = 400? Justifique su respuesta.

1.0

e) (0,2 puntos) Cu
al es la definici
on del error de Tipo II? Explique su relacion con la potencia de
un contraste.

100 0

100

300

500

700

900

PV CM

Soluci
on.
a) El contraste de hip
otesis que nos piden es:
H0 : X Y 100
H1 : X Y > 100
donde X es el salario bruto anual de los trabajadores del Pas Vasco e Y representa el salario
bruto anual de los trabajadores de la Comunidad de Madrid, siendo X y Y sus respectivas
medias.
b) Se trata de muestras grandes en ambos casos, nX = nY = 1000, por tanto el estadstico de
contraste es:
Y 100
X
Z= r
H0 ,approx. N (0, 1)
s2Y
s2Y
nX + nY
Su valor observado es:

26730,51 26179,64 100


= 1,9961
z= q
26282962,09
24738938,78
+
1000
1000

El p-valor del contraste (donde Z N (0, 1)) es:


P (Z > z) = P (Z > 1,9961) = 0,0228
Como el p-valor = 0,0228 < = 0,05, tenemos suficiente evidencia estadstica para rechazar H0
al nivel de significaci
on de 5 % (y todos niveles por encima de 0,0228) y, por tanto, la muestra
obtenida proporciona evidencia de que el salario medio bruto en el Pas Vasco excede en m
as que
100 euros al salario medio en Madrid.
c) Al tratarse de muestras grandes no es necesario suponer nada sobre la distribucion de X e Y .
Sobre las muestras s: deben ser cada una de ellas aleatorias y simples y deben ser independientes
entre si.
d ) La probabilidad pedida es:
P (rechazar H0 |H0 es correcta) = = 0,05
El error se llama de Tipo I.
e) El error de Tipo II se produce al no rechazar la nula cuando la alternativa es correcta. La potencia
es igual a 1 menos la probabilidad del error de Tipo II (equivalentemente, la probabilidad del
error de Tipo II es 1 menos la potencia).

f ) La probabilidad pedida es:


P V CM = 400
P (no rechazar H0 |

}|

H1 es correcta ) = 1 potencia(400) = 1 0,38 = 0,62

3. (3,5 puntos) El director de la empresa SA nos ha solicitado una prediccion de los ingresos por ventas
anuales (y) a partir de nuestros gastos en publicidad (x) (ambos en miles de euros). Utilizando un
modelo de regresi
on lineal con los datos de los 10 u
ltimos a
nos, hemos obtenido la siguiente salida
incompleta del An
alisis de Datos de Excel:

Sabemos adem
as que

i xi

= 5847 y

2
i xi

= 3426945. Se pide que conteste a las preguntas siguientes:

a) (0,4 puntos) A partir de estos datos, obtenga el coeficiente de determinacion R2 y la varianza


residual s2R . Explique el significado del valor de R2 obtenido.
b) (0,5 puntos) Calcule un intervalo de confianza al 95 % para la varianza del error ( 2 ). Cu
al sera
la relaci
on entre 2 y s2R ?
c) (0,3 puntos) De un intervalo de confianza al 95 % del intercepto de la recta de regresion (poblacional) e interpretelo.
d ) (0,2 puntos) Que distribuciones siguen el estimador 0 , y el cociente del estimador por su error
estandar (estimado), es decir, 0 /s(0 )?
e) (0,7 puntos) Efect
ue el contraste de hipotesis de que las ventas dependen linealmente de los gastos
en publicidad con un nivel de significacion del 5 %.
f ) (0,6 puntos) Calcule un intervalo de confianza al 95 % para el promedio de los ingresos por ventas,
dado un gasto en publicidad de 580 (miles de euros).
g) (0,2 puntos) Para que gasto en publicidad la longitud del intervalo del apartado 3f sera mnima?
h) (0,3 puntos) Si hubiesemos sospechado que la relacion entre las ventas (y) y la inversion en publicidad (x) no fuese lineal, sino que responda a una relacion del tipo y = abx , que transformaci
on
propondra para su linealizaci
on?
i ) (0,3 puntos) Para este problema de regresion planteado en forma matricial, indique los valores
que apareceran en la diagonal de la matriz (X T X)1 .

Soluci
on.
a) Los valores que faltan en la salida de Excel son

Para los valores pedidos tenemos:


R2 =

SCM
874010
=
= 0,53348.
SCT
1638294

Este valor representa la proporci


on de la variacion de las ventas explicada por los gastos en
publicidad.
SCR
764283,6
s2R =
=
= 95535,45
n2
8
b) El intervalo viene dado por
(n 2)s2R
(n 2)s2R
2

2n2;/2
2n2;1/2
Como 28;0,025 = 17,53, 28;0,975 = 2,18 y s2R = 95535,45, el intervalo es
8 95535,45
8 95535,45
2
17,53
2,18

43598,6 2 350588,8.

El valor de s2R proporciona una estimacion insesgada de la varianza del error poblacional del
modelo de regresi
on, 2 .
c) Con los datos de la salida y t8;0,025 = 2,306 tenemos
3507,22 2,306 1997,654

IC95 % (0 ) = (1099,38 ; 8113,81)

El intervalo contiene el 0, por lo que no podemos rechazar que 0 sea igual a cero.
d ) 0 se distribuye normalmente y 0 /s(0 ) lo hace como una t de Student con 8 grados de libertad.
P
e) s2 = ( x2 10
x2 )/9 = 911,566, 1 = 10,321 y
x

s(1 ) =

s2R
=
(n 1)s2x

95535,45
= 3,41.
9 911,566

El contraste a llevar a cabo es


H0 : 1 = 0
H1 : 1 6= 0
Como t = 10,321/3,41 = 3,02 > t8;0,025 = 2,306, rechazamos H0 y concluimos que 1 es significativamente diferente de cero.
f ) x0 = 580 y la estimaci
on puntual de interes viene dada por y0 = 3507,22 + 10,32 580 = 9492,82.
El intervalo pedido es
s

IC95 % (
y0 ) = y0 tn2;/2 s2R

1
(x0 x
)2
+
n (n 1)s2x

1
(580 584,7)2
= 9492,82 2,306 95535,45
+
10
9 911,566
= (9264, 41 ; 9721, 22).


g) El intervalo sera mnimo cuando x0 fuese igual a la media, x0 = x


= 584,7.
h) Para el modelo y = abx la transformacion que linealiza dicho modelo sera y 0 = log y = log a +
x log b.
i ) La diagonal de la matriz (X T X)1 toma valores


(X X)

(X T X)1

00

11

s2 (0 )
1
x
2
=
+
n (n 1)s2X
s2R
!
s2 (1 )
1
=
.
s2R
(n 1)s2X

El valor de s2R se obtuvo en el apartado 3a, s(0 ) aparece en la salida de Excel (= 1997,6545),
mientras que s(1 ) est
a calculada en el apartado 3e. Tenemos que



(X T X)1

(X T X)1

00

11

=
=

1997,65452
= 41,77,
95535,45
3,412
= 0,000122.
95535,45

4. (1,5 puntos) Supongamos que, en un estudio de los determinantes de la inversion, hemos estimado la
siguiente ecuaci
on utilizando mnimos cuadrados:
log(Yt ) = 1,37 + 1,14 log(Z1,t ) 0,83Z2,t ,

t = 1, . . . , 17

donde: (Yt ) es la inversi


on anual en millones de euros, (Z1,t ) es el PIB en millones de euros, y (Z2,t ) es
el tipo de interes (en tanto por uno). Tambien hemos obtenido que eT e = 0,0028 y los elementos de la
matriz (X T X)1 son:

510,89 245,35
0,42

132,70 6,82
245,35
0,42
6,82
7,11
Se pide que:
a) (0,4 puntos) Interprete los coeficientes 1 y 2 del modelo de regresion ajustado.
b) (0,7 puntos) Estime las varianzas de los estimadores de mnimos cuadrados de los coeficientes 0 ,
1 , 2 del modelo de regresi
on lineal y contraste la significatividad individual los (tres) coeficientes
(a un nivel de significaci
on del 5 %).
c) (0,4 puntos) Nos informan adem
as que el valor del estadstico F es 23,8. Calcule el valor de R2
y la tabla de descomposici
on de la varianza (ANOVA).

Soluci
on.
a) Interpretaci
on de los coeficientes:
(1 ): Cuando el PIB aumenta un 1 %, manteniendo constante el tipo de interes, la inversi
on
anual aumenta en media (aproximadamente) un 1,14 %. Alternativamente, cuando el logaritmo del PIB aumenta en una unidad, manteniendo constante el tipo de interes, el logaritmo
de la inversi
on anual aumenta en 1,14 unidades en promedio.

(2 ): Cuando el tipo de interes aumenta en un 1 %, manteniendo constante el PIB, la inversi


on
anual disminuye en media (aproximadamente) un 0,83 %. Alternativamente, cuando el tipo de
interes aumenta en una unidad, esto es, un 100 %, manteniendo constante el PIB, el logaritmo
de la inversi
on anual disminuye en promedio en 0,83 unidades.

b) Tenemos s2R = i e2i /(n k 1) = 0,0028/(17 3) = 0,0002. Las varianzas y los valores de los
estadsticos para los contrastes de significacion individual se obtienen como
P

s2 (i1 ) = s2R (X T X)1


ii

ti = q

i
s2 (i )

y los valores correspondientes para nuestros datos son:


s2 (0 ) = 0,1021,
t0 = 4,287,

s2 (1 ) = 0,02654, s2 (2 ) = 0,00142
t1 = 6,997,
t2 = 22,027
t14 (0,025) = 2,145

Como en los tres casos tenemos ti > t14 (0,025), rechazamos la hipotesis nula de no significatividad
al 95 % en los tres casos.
c) La tabla ANOVA se puede obtener de los siguientes calculos
Suma de cuadrados residual
Grados de libertad de los residuos

Varianza residual
Estadstico F

Varianza explicada
Grados de libertad

Suma de cuadrados explicada


Suma de cuadrados residual

Varianza residual
Varianza explicada (por el modelo)
Suma de cuadrados explicada
Suma de cuadrados total

resultando
F. variaci
on
Modelo
Residual
Total

Suma cuadrados
0,00952
0,0028
0,0123

Grados de libertad
2
14
16

Varianza
0,00476
0,0002

Estadstico F
23,8

El coeficiente de determinaci
on m
ultiple es R2 = SCM/SCT = 0,00952/0,0123 = 0,774.