Inferencial - Pintarelli

Parte 2 – Estimación puntual Prof. María B.
Pintarelli
8- Estimación puntual
8. 1 – Introducción
Supongamos la siguiente situación: en una fábrica se producen artículos, el interés está en la produc-
ción de un día, específicamente, de todos los artículos producidos en un día nos interesa una caracte-
rística determinada, si el artículo es o no defectuoso. Sea p la proporción de artículos defectuosos en
la población, es decir en la producción de un día.
Tomamos una muestra de 25 artículos, podemos definir la v.a. X: “número de artículos defectuosos
en la muestra”, y podemos asumir que X ~ B ( 25, p ) .
En Probabilidades se conocían todos los datos sobre la v.a. X, es decir conocíamos p. De esa forma
podíamos responder preguntas como: ¿cuál es la probabilidad que entre los 25 artículos halla 5 de-
fectuosos?. Si, por ejemplo, p = 0.1 entonces calculábamos P ( X = 5) donde X ~ B ( 25, 0.1) .
En Estadística desconocemos las características de X total o parcialmente, y a partir de la muestra
de 25 artículos tratamos de inferir información sobre la distribución de X, o dicho de otra forma tra-
tamos de inferir información sobre la población.
Por ejemplo, en estadística sabremos que X tiene distribución binomial pero desconocemos p, y a
partir de la muestra de 25 artículos trataremos de hallar información sobre p.
En Estadística nos haremos preguntas tales como: si en la muestra de 25 artículos se encontraron 5
defectuosos, ¿ese hecho me permite inferir que el verdadero p es 0.1?.
El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones
o para obtener conclusiones sobre el o los parámetros de una población. Estos métodos utilizan la
información contenida en una muestra de la población para obtener conclusiones.
La inferencia estadística puede dividirse en dos grandes áreas: estimación de parámetros y pruebas
de hipótesis.
8.2 – Muestreo aleatorio
En muchos problemas estadísticos es necesario utilizar una muestra de observaciones tomadas de la

población de interés con objeto de obtener conclusiones sobre ella. A continuación se presenta la
definición de algunos términos
Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto
interés
En muchos problemas de inferencia estadística es poco práctico o imposible, observar toda la pobla-
ción, en ese caso se toma una parte o subconjunto de la población
Una muestra es un subconjunto de observaciones seleccionada de una población
Para que las inferencias sean válidas, la muestra debe ser representativa de la población. Se seleccio-
na una muestra aleatoria como el resultado de un mecanismo aleatorio. En consecuencia, la selección
de una muestra es un experimento aleatorio, y cada observación de la muestra es el valor observado
de una variable aleatoria. Las observaciones en la población determinan la distribución de probabili-
dad de la variable aleatoria.
Para definir muestra aleatoria, sea X la v.a. que representa el resultado de tomar una observación de
la población. Sea f (x) la f.d.p. de la v.a. X. supongamos que cada observación en la muestra se ob-
134
Parte 2 – Estimación puntual Prof. María B. Pintarelli
tiene de manera independiente, bajo las mismas condiciones. Es decir, las observaciones de la mues-
tra se obtienen al observar X de manera independiente bajo condiciones que no cambian, digamos n
veces.
Sea X i la variable aleatoria que representa la i-ésima observación. Entonces X 1 , X 2 ,..., X n constitu-
yen una muestra aleatoria, donde los valores numéricos obtenidos son x1 , x2 ,..., xn . Las variables
aleatorias en una muestra aleatoria son independientes, con la misma distribución de probabilidad
f(x) debido a que cada observación se obtiene bajo las mismas condiciones. Es decir las funciones de
densidad marginales de X 1 , X 2 ,..., X n son todas iguales a f(x) y por independencia, la distribución de
probabilidad conjunta de la muestra aleatoria es el producto de las marginales f ( x1 ) f ( x2 )... f ( xn )
Las variables aleatorias ( X 1 , X 2 ,..., X n ) constituyen una muestra aleatoria de tamaño n de una
v.a. X si X 1 , X 2 ,..., X n son independientes idénticamente distribuidas
El propósito de tomar una muestra aleatoria es obtener información sobre los parámetros desconoci-
dos de la población. Por ejemplo, se desea alcanzar una conclusión acerca de la proporción de artícu-
los defectuosos en la producción diaria de una fábrica. Sea p la proporción de artículos defectuosos
en la población, para hacer una inferencia con respecto a p, se selecciona una muestra aleatoria (de
un tamaño apropiado) y se utiliza la proporción observada de artículos defectuosos en la muestra
para estimar p.
La proporción de la muestra p̂ se calcula dividiendo el número de artículos defectuosos en la mues-
tra por el número total de artículos de la muestra. Entonces p̂ es una función de los valores observa-
dos en la muestra aleatoria. Como es posible obtener muchas muestras aleatorias de una población,
el valor de p̂ cambiará de una a otra. Es decir p̂ es una variable aleatoria. Esta variable aleatoria se
conoce como estadístico.
Un estadístico es cualquier función de la muestra aleatoria
Estadísticos usuales
Sea X 1 , X 2 ,..., X n una muestra aleatoria de una v.a. X donde E ( X ) = µ y V ( X ) = σ 2

Si desconocemos µ un estadístico que se utiliza para estimar ese parámetro es la media o promedio
1 n
muestral X = ∑ X i
n i =1
Análogamente si se desconoce σ 2 un estadístico usado para tener alguna información sobre ese pa-
1 n
rámetro es la varianza muestral que se define como S 2 = ∑ (X i − X )2
n − 1 i =1
1 n
Otro estadístico es la desviación estándar muestral S= ∑ (X i − X )2
n − 1 i =1
Como un estadístico es una variable aleatoria, éste tiene una distribución de probabilidad, esperanza
y varianza.
Una aplicación de los estadísticos es obtener estimaciones puntuales de los parámetros desconoci-
dos de una distribución. Por ejemplo como se dijo antes se suelen estimar la media y la varianza de
una población.
135
Cuando un estadístico se utiliza para estimar un parámetro desconocido se lo llama estimador pun-
tual. Es habitual simbolizar en forma genérica a un parámetro con la letra θ y al estadístico que se
utiliza como estimador puntual de θ , simbolizarlo con Θ̂ .
ˆ = h( X , X ,..., X )
Por lo tanto Θ̂ es una función de la muestra aleatoria: Θ 1 2 n
Al medir la muestra aleatoria se obtienen x1 , x2 ,..., xn , y entonces el valor que toma Θ̂ es

θˆ = h( x , x ,..., x ) y se denomina estimación puntual de θ
1 2 n
El objetivo de la estimación puntual es seleccionar un número, a partir de los valores de la muestra,
que sea el valor más probable de θ .
Por ejemplo, supongamos que X 1 , X 2 , X 3 , X 4 es una muestra aleatoria de una v.a. X. Sabemos que X
tiene distribución normal pero desconocemos µ .
Tomamos como estimador de µ al promedio muestral X , es decir µ̂ = X
Tomamos la muestra (medimos X 1 , X 2 , X 3 , X 4 ) y obtenemos x1 = 24, x2 = 30, x3 = 27, x4 = 32
24 + 30 + 27 + 32
Entonces la estimación puntual de µ es x = = 28.25
4
Si la varianza σ 2 de X también es desconocida, un estimador puntual usual de σ 2 es la varianza
1 n
muestral, es decir S 2 = ∑ (X i − X )2 , para la muestra dada la estimación de σ 2 es 12.25.
n − 1 i =1
Otro parámetro que a menudo es necesario estimar es la proporción p de objetos de una población
que cumplen una determinada característica.
1 n
En este caso el estimador puntual de p sería pˆ = ∑ X i donde
n i =1
1 si la í − ésima observación tiene la característica de int erés

Xi =  i = 1,2,..., n
0 caso contrario

1 n
Por lo tanto pˆ = ∑ X i es la proporción de objetos en la muestra cumplen la característica de inte-
n i=1
rés
Puede ocurrir que se tenga más de un estimador para un parámetro, por ejemplo para estimar la me-
dia muestral se pueden considerar el promedio muestral, o también la semisuma entre X 1 y X n , es
X + Xn
decir µˆ = 1 . En estos casos necesitamos de algún criterio para decidir cuál es mejor estima-
2
dor de µ .
8.3 – Criterios para evaluar estimadores puntuales
Lo que se desea de un estimador puntual es que tome valores “próximos” al verdadero parámetro.
Se dice que el estimador puntual Θ̂ es un estimador insesgado del parámetro θ si E Θ̂ = θ ()

cualquiera sea el valor verdadero de θ
Podemos exigir que el estimador Θ̂ tenga una distribución cuya media sea θ .
()
La deferencia E Θ̂ − θ se conoce como sesgo de estimador Θ̂ . Anotamos b Θ ˆ −θ
ˆ =EΘ () ()
136
Notar que si un estimador es insesgado entonces su sesgo es cero
Ejemplos:
1- Sea X 1 , X 2 ,..., X n una muestra aleatoria de una v.a. X donde E ( X ) = µ y V ( X ) = σ 2
Si desconocemos µ un estadístico que se utiliza usualmente para estimar este parámetro es la media
1 n
o promedio muestral X = ∑ X i . Veamos si es un estimador insesgado de µ . Debemos ver si
n i =1
E (X ) = µ .
Usamos las propiedades de la esperanza, particularmente la propiedad de linealidad.
( ) 1 n  1  n  1 n
E X = E ∑ X i  = E ∑ X i  = ∑ E(X i ).
 n i =1  n  i =1  n i =1
Pero, tratándose de las componentes de una muestra aleatoria es:
E(X i ) = E(X ) = µ ∀i = 1,2 ,...,n . Luego:
EX = ( ) 1
n
nµ = µ .
2- Sea X una variable aleatoria asociada con alguna característica de los individuos de una población
( )
2
1 n
y sean E ( X ) = µ y V ( X ) = σ 2 . Sea S 2 = ∑ i X − X la varianza muestral (con
n − 1 i =1
 n 
X =  ∑ X i  / n la esperanza muestral) para una muestra aleatoria de tamaño n, ( X 1 , X 2 ,..., X n ) .
 i =1 
( )
2
( )
Entonces E S 2 = σ 2 es decir S 2 =
1 n
∑
n − 1 i =1
X i − X es un estimador insesgado de V ( X ) = σ 2
pues:
 1 n
( )  = n 1− 1 E ∑ (X 
)
2 2
( )
n
 n −1∑
E S 2 = E Xi − X − X .
i 
 i =1   i =1 
Reescribiremos la suma de una forma más conveniente. Sumamos y restamos µ y desarrollamos el
cuadrado:
[ ])
2 2 2
∑ (X ) = ∑ (X ) = ∑ ([X
n n n
i −X i −µ+µ−X i − µ ]+ µ − X =
i =1 i =1 i =1
n  2
[ ] [ ] [ ] ∑ [X [ ]
n n
= ∑  [ X i − µ ] + 2[ X i − µ ] µ − X + µ − X  = ∑ [ X i − µ ] + 2 µ − X − µ ]+ n µ − X
2 2 2
i =
i =1   i=1 i =1
[ ][ ] [ ] = ∑ [X [ ] [ ]
n n
= ∑ [X i − µ ] + 2 µ − X n X − µ + n µ − X − µ ] − 2n µ − X + n µ − X .
2 2 2 2 2
i
i =1 i =1
Esto es:
137
∑ (X ) = ∑ [X [ ]
n 2 n
− µ] − n µ − X
2
−X
2
i i
i =1 i =1
Entonces:
1  n
)  = n 1− 1 E ∑ [X [ ]
2
( ) ( 2
n
= E ∑ Xi − X − µ] − n µ − X  =
2 2
ES
n − 1  i =1
i
  i =1 
=
1  n 2
 ∑ E [X i − µ ] − nE X − µ  =
n − 1  i=1
2
[ ]

=
1  n 2
 ∑V ( X i ) − nE X − E X  = [1  n
( )] 
 ∑V ( X i ) − nV X  =
1  2
 nσ − n
σ2 
,
n 
( )
n − 1  i =1  n − 1  i =1  n −1
donde en la última igualdad tuvimos en cuenta que V (X i ) = V (X ) = σ 2 ∀i = 1,2,...,n y que
V X =( ) σ2
n
. Luego llegamos a lo que se deseaba demostrar: E S 2 = σ 2 . ( )
2
1 n
3- Supongamos que tomamos como estimador de σ a σˆ = ∑ X i − X
n i =1
2 2
( )
n
2
n −1 ∑
(X −X)
2
(
n −1 2
)
n i
1
Entonces notar que podemos escribir σˆ 2 = ∑
n i =1
Xi − X =
n
i =1
n −1
=
n
S
 n −1 2  n −1 n −1 2
( )
Por lo tanto E σˆ 2 = E  S = E S2 = σ ≠σ 2 ( )
 n  n n
Es decir σˆ no es un estimador insesgado de σ , es sesgado, y su sesgo es
2 2
 n −1  2
( ) ( )
b σˆ 2 = E σˆ 2 − σ 2 = 
1 2
σ − σ = − σ
2
 n  n
Como el sesgo es negativo el estimador tiende a subestimar el valor de verdadero parámetro
En ocasiones hay más de un estimador insesgado de un parámetro θ

Por lo tanto necesitamos un método para seleccionar un estimador entre varios estimadores insesga-
dos.
Varianza y error cuadrático medio de un estimador puntual
Supongamos que Θ̂1 y Θ̂ 2 son dos estimadores insegados de un parámetro θ . Esto indica que la
distribución de cada estimador está centrada en el verdadero parámetro θ . Sin embargo las varianzas
de estas distribuciones pueden ser diferentes. La figura siguiente ilustra este hecho.
138
0.4
0.3 Distribución de Θ̂1
0.2
0.1
Distribución de Θ̂ 2
-15 -10 -5 5 10 15
Como Θ̂1 tiene menor varianza que Θ̂ 2 , entonces es más probable que el estimador Θ̂1 produzca
una estimación más cercana al verdadero valor de θ . Por lo tanto si tenemos dos estimadores inses-
gados se seleccionará aquel te tenga menor varianza.
Ejemplo: Sea X 1 , X 2 ,..., X n una muestra aleatoria de una v.a. X donde E ( X ) = µ y V ( X ) = σ 2

Suponemos µ desconocido.
1 n
Estimamos al parámetro µ con la media o promedio muestral X = ∑ X i . Sabemos que es un
n i =1
n
1
estimador insesgado de µ . Anotamos µ̂1 = X = ∑ X i
n i =1
X + Xn
Supongamos que tomamos otro estimador para µ , lo anotamos µˆ 2 = 1
2
Entonces como
 X + Xn  1 1 1
E (µˆ 2 ) = E  1  = (E ( X 1 ) + E ( X 2 )) = (µ + µ ) = 2µ = µ ,
 2  2 2 2
X1 + X n
µˆ 2 = es también un estimador insesgado de µ
2
¿Cuál de los dos estimadores es mejor?
Calculamos la varianza de cada uno utilizando las propiedades de la varianza.
1 n
Ya sabemos cuál es la varianza de X = ∑ X i (se la halló para T.C.L.):
n i =1
( ) 1  1   1 n
n n
V X = V  ∑ X i  = 2 V  ∑ X i  = 2 ∑ V ( X i ),
 n i =1  n  i =1  n i =1
donde en la última igualdad hemos tenido en cuenta que, por tratarse de una muestra aleatoria, las
X i con i=1,2,…,n son variables aleatorias independientes y, en consecuencia, la varianza de la suma
de ellas es la suma de las varianzas. Si tenemos en cuenta que además todas tienen la misma distri-
bución que X y por lo tanto la misma varianza:
V (X i ) = V (X ) = σ 2 ∀i = 1,2 ,...,n , tenemos
( )
V X =
1
n2
n σ 2
=
σ2
n
.
X1 + X n
Análogamente calculamos la varianza de µˆ 2 = :
2
139
 X + Xn  1 σ2
V (µˆ 2 ) = V  1 ( 1 2
 = (V ( X 1 ) + V ( X 2 ) ) = σ + σ =
2
)
 2  4 4 2
Vemos que si n > 2 entonces V ( µˆ1 ) < V ( µˆ 2 ) . Por lo tanto si n > 2 es mejor estimador µ̂1
Supongamos ahora que Θ̂1 y Θ̂ 2 son dos estimadores de un parámetro θ y alguno de ellos no es
insesgado.
A veces es necesario utilizar un estimador sesgado. En esos casos puede ser importante el error cua-
drático medio del estimador.
El error cuadrático medio de un estimador Θ̂ de un parámetro θ está definido como

ECM Θ ()
ˆ = E Θ

(
ˆ −θ 2 

)
El error cuadrático medio puede escribirse de la siguiente forma:
ˆ =V Θ
ECM Θ ( ) ( ) ( ( ))
ˆ + bΘ
ˆ 2
ˆ = E Θ
Dem.) Por definición ECM Θ

() ( )
ˆ − θ 2  . Sumamos y restamos el número E Θ̂ :

()
ECM (Θ
ˆ ) = E (Θˆ − E (Θ
ˆ ) + E (Θ
ˆ ) − θ )  , y desarrollamos el cuadrado:
2
 
ECM Θ ()
ˆ = E Θ

(
ˆ −E Θ
ˆ +E Θ () () )
ˆ −θ 2  = E Θ
 
ˆ −E Θ
ˆ ( ( )) + (E (Θˆ )− θ ) + 2(Θˆ − E (Θˆ ))(E (Θˆ )− θ ) =
2 2
Aplicamos propiedades de la esperanza:

(
= E Θˆ −E Θ ( )) ( ( ) ) ( ( ) ) (
ˆ 2 + E Θ
ˆ −θ 2 + 2 E Θ
 14243
ˆ −θ E Θ
ˆ −E Θ
14243
ˆ =V Θ ( )) ( ) ( ( ))
ˆ + bΘ
ˆ 2
1442443 b (Θ
ˆ )2 0
V (Θ
ˆ)
El error cuadrático medio es un criterio importante para comparar estimadores.
Si Θ̂1 y Θ̂ 2 son dos estimadores de un parámetro θ .
La eficiencia relativa de Θ̂ 2 con respecto a Θ̂1 se define como

ECM (Θˆ )
1
ECM (Θˆ )
2
Si la eficiencia relativa es menor que 1 entonces Θ̂1 tiene menor error cuadrático medio que Θ̂ 2
Por lo tanto Θ̂1 es más eficiente que Θ̂ 2
Observaciones:
1- Si Θ̂ es un estimador insesgado de θ , entonces ECM Θ
ˆ =V Θ
ˆ () ()
140
2- A veces es preferible utilizar estimadores sesgados que estimadores insesgados, si es que tienen
un error cuadrático medio menor.
En el error cuadrático medio se consideran tanto la varianza como el sesgo del estimador.
Si Θ̂1 y Θ̂ 2 son dos estimadores de un parámetro θ , tales que E Θ ˆ =θ ; E Θ
1
ˆ ≠θ y
2 ( ) ( )
( ) ( )
ˆ ˆ
V Θ < V Θ , habría que calcular el error cuadrático medio de cada uno, y tomar el que tenga me-
2 1
nor error cuadrático medio. Pues puede ocurrir que Θ̂ 2 , aunque sea sesgado, al tener menor varianza
tome valores mas cercanos al verdadero parámetro que Θ̂1
0.4
0.3 Distribución de Θ̂ 2
0.2
0.1
Distribución de Θ̂1
-7.5 -5 -2.5 2.5 5 7.5
Ejemplo:
Supóngase que Θ̂1 , Θ̂ 2 y Θ̂ 3 son dos estimadores de un parámetro θ , y que
EΘ( ) ( )
ˆ =EΘ
1
ˆ = θ; E Θ
2 3 ( )
ˆ ≠ θ , V (θˆ ) = 10 , V (Θ
1 2
ˆ − θ 2  = 4 . Haga una comparación
ˆ ) = 6 y E Θ
 3 
( )
de estos estimadores. ¿Cuál prefiere y por qué?
Solución: Calculamos el error cuadrático medio de cada estimador

( ) ( )
ECM Θ ˆ =V Θ
1
ˆ = 10 pues Θ̂ es insesgado
1 1
( ) ( )
ECM Θ ˆ =V Θ
2
ˆ = 6 pues Θ̂ es insesgado
2 2
ECM (Θ
ˆ ) = E (Θˆ −θ )  = 4 2
es dato
3   3
En consecuencia Θ̂ 3 es el mejor estimador de los tres dados porque tiene menor error cuadrático
medio.
Consistencia de estimadores puntuales
Sea Θ̂ n un estimador del parámetro θ , basado en una muestra aleatoria ( X 1 , X 2 ,..., X n ) de tama-
ño n. Se dice que Θ̂ n es un estimador consistente de θ si
lim P Θ
n →∞
n (
ˆ −θ ≥ ε = 0 ) para todo ε > 0
Observación:
141
Este tipo de convergencia, que involucra a una sucesión de variables aleatorias, se llama convergen-
cia en probabilidad y es la misma que consideramos en relación a la ley de los grandes números
P
Suele escribirse también Θ̂ n →θ .
Este tipo de convergencia debe distinguirse de la considerada en relación al teorema central del lími-
te. En este último caso teníamos una sucesión de distribuciones: FZ n (z ) = P (Z n ≤ z ) y se considera
el límite lim FZ n (z ) = lim P (Z n ≤ z ) = Φ ( z ) .
n →∞ n→∞
d
Se habla, entonces, de convergencia en distribución y suele indicarse Z n → Z ∼ N (0 ,1) .
Teorema. Sea Θ̂ n un estimador del parámetro θ basado en una muestra aleatoria ( X 1 , X 2 ,..., X n ) .
n →∞
n ( )
ˆ = θ y lim V Θ
Si lim E Θ n
n →∞
( )
ˆ = 0 , entonces Θ̂ es un estimador consistente de θ .
n
Dem.)
Utilizamos la desigualdad de Chebyshev ∀ε > 0 :
ˆ −θ ≥ ε )≤ (
P (Θ
)
2
( ) ( ) ( )
ˆ −θ
EΘ 1
n
= ˆ = 1 V Θ
ECM Θ ˆ 2
ˆ +b Θ
2  n 
n
ε 2
ε 2 n
ε  n

n→∞
n
n →∞
( )
ˆ = θ y lim V Θ
Entonces, al tomar el límite lim y teniendo presente que lim E Θ n
n →∞
( )
ˆ = 0 , vemos que
lim P Θ
n →∞
n ( )
ˆ − θ ≥ ε = 0 ∀ε > 0 , es decir Θ̂ es un estimador convergente de θ .
n
Ejemplo:
Sea X una variable aleatoria que describe alguna característica numérica de los individuos de una
población y sean µ = E ( X ) y σ 2 = V ( X ) la esperanza poblacional y la varianza poblacional, res-
1 n
pectivamente. Sea X = ∑ X i la esperanza muestral basada en una muestra aleatoria
n i =1
( X 1 , X 2 ,..., X n ) . Entonces X es un estimador consistente de la esperanza poblacional µ = E ( X ) .
Sabemos que
a) E (X ) = µ = E ( X ) ∀n
V (X )
2
b) V (X ) =
σ
= ∀n
n n
La propiedad a) ya me dice que X es un estimador insesgado de µ = E ( X ) .
Por otra parte si a) vale para todo n, también vale en particular en el límite n → ∞ :
lim E (X ) = µ = E ( X ) .
n →∞
Además, de b) deducimos inmediatamente que
lim V (X ) = 0 .
n →∞
Por lo tanto vemos que X es un estimador consistente de µ = E ( X ) .
8.4 – Métodos de estimación puntual

142
Los criterios anteriores establecen propiedades que es deseable que sean verificadas por los estima-
dores. Entre dos estimadores posibles para un dado parámetro poblacional es razonable elegir aquél
que cumple la mayor cantidad de criterios o alguno en particular que se considera importante para el
problema que se esté analizando. Sin embargo estos criterios no nos enseñan por sí mismos a cons-
truir los estimadores. Existen una serie de métodos para construir estimadores los cuales en general
se basan en principios básicos de razonabilidad. Entre éstos podemos mencionar:
- Método de los momentos
- Método de máxima verosimilitud
Método de los momentos
Se puede probar usando la desigualdad de Chebyshev el siguiente resultado:
Ley débil de los grandes números:

Sean ( X 1 , X 2 ,..., X n ) n variables aleatorias independientes todas las cuales tienen la misma espe-
1 n
ranza µ = E ( X ) y varianza σ 2 = V ( X ) . Sea X = ∑ X i . Entonces
n i =1
( )
lim P X − µ ≥ ε = 0
n →∞
p
Decimos que X converge a µ en probabilidad y lo indicamos: X → µ .
Definimos los momentos de orden k de una variable aleatoria como:
( ) ∑ x p( x )
µk = E X k = i
k
i (k = 0,1,2,...) Si X es discreta
x i ∈R X
+∞
( ) ∫ x f (x )dx
µk = E X k = k
(k = 0,1,2,...) Si X es continua,
−∞
y definimos los correspondientes momentos muestrales de orden k como:
1 n k
Mk = ∑ Xi (k = 0,1,2,...) ,
n i =1
Entonces la ley débil de los grandes números se puede generalizar:
lim P( M k − µ k ≥ ε ) = 0 (k = 0,1,2,...) .
n →∞
De acuerdo con esto parece razonable estimar los momentos poblacionales de orden k mediante los
momentos muestrales de orden k: µk ∼ M k (k = 0 ,1,2 ,...) .
143
Supongamos, entonces, una variable aleatoria X y supongamos que la distribución de X depende de r

parámetros θ1 ,θ 2 ,...,θ r , esto es la fdp poblacional es p (xi ,θ1 ,θ 2 ,...,θ r ) si X es discreta o
f ( x,θ1 ,θ 2 ,...,θ r ) si es continua. Sean µ1 , µ2 ,..., µr los primeros r momentos poblacionales:
µ k = E (X k ) = ∑ x p ( x ,θ ,θ
i
k
i 1 2 ,...,θ r ) (k = 1,2,...,r ) Si X es discreta
xi ∈R X
+∞
µ k = E (X k
) = ∫ x f ( x, θ , θ
k
1 2 ,...,θ r )dx (k = 1,2,...,r ) Si X es continua,
−∞
y sean
1 n k
Mk = ∑ X i (k = 1,2,...,r ) los r primeros momentos maestrales para una muestra de tamaño n
n i =1
( X 1 , X 2 ,..., X n ) . Entonces el método de los momentos consiste en plantear el sistema de ecuaciones:
 µ1 = M1
µ = M2
 2
M M M


 µr = Mr
Es decir
 1 n 1
 ∑ i x p ( x i , θ 1 , θ 2 ,..., θ r ) = ∑ Xi
n i =1
 xi ∈R X
n
 x 2 p( x ,θ ,θ ,...,θ ) = 1 X 2
 ∑ i i 1 2 r ∑
n i =1
i
 xi ∈RX Si X es discreta,
 M M M

 1 n r
 ∑ x i
r
p ( x i , θ 1 , θ 2 ,..., θ r ) = ∑ Xi
 xi ∈RX n i =1
 +∞ 1 n 1
 ∫ xf (x,θ1 ,θ 2 ,...,θ r )dx = ∑ X i
 −∞ n i =1
+∞
 2 1 n 2
 ∫ x f ( x,θ1 ,θ 2 ,...,θ r )dx = ∑ X i
−∞ n i =1 Si X es continua.
 M M M

+∞ r 1 n r
∫ x f ( x , θ 1 , θ 2 ,..., θ r )dx = ∑ Xi
 −∞ n i =1
144
Resolviendo estos sistema de ecuaciones para los parámetros desconocidos θ1 ,θ 2 ,...,θ r en función de
la muestra aleatoria ( X 1 , X 2 ,..., X n ) obtenemos los estimadores:
Θˆ = H ( X , X ,..., X )
1 1 1 2 n
ˆ
Θ
 2 = H 2 ( X 1 , X 2 ,..., X n)

 M
Θˆ = H ( X , X ,..., X )
 r r 1 2 n
Observación:
En la forma que presentamos aquí el método necesitamos conocer la forma de la fdp poblacional, por
lo tanto estamos frente a un caso de estimación puntual paramétrica.
Ejemplos:
1- Sea X una variable aleatoria. Supongamos que X tiene distribución gama con parámetros σ y λ :
X ∼ Γ (σ , λ ) , es decir su fdp está dada por:
 1  x  λ −1 − x
   e σ x>0
f ( x ) =  σΓ ( λ )  σ 
 0 demás valores

∞
con σ > 0 ; λ > 0 y Γ( λ ) = ∫ x λ −1e − x dx .
0
Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n. Deseamos calcular los estimadores de σ y λ
dados por el método de los momentos.
Solución:
Como tenemos dos parámetros desconocidos a estimar, planteamos el sistema de ecuaciones:
 µ1 = M 1

 µ2 = M 2
Se puede probar que
µ1 = λ.σ
µ 2 = λ 2 .σ 2 + λ .σ 2
Tenemos, entonces, el sistema de ecuaciones
 1 n  λ.σ = X
 λ .σ = ∑ Xi
n i =1 
 ⇒  1 n 2
∑ Xi
n
 λ2 .σ 2 + λ.σ 2 = 1 ∑ X i2 λ σ + λ σ =
2 2 2
 . .
 n i =1  n i=1
145
1 n
∑ Xi − X 2
2
n
1 n
Reemplazando en la segunda ecuación: X 2 + σX = ∑ X i ⇒ σ = i =1
2
n i=1 X
Y despejando λ de la primera ecuación y reemplazando la expresión hallada para σ
ˆ nX 2
 λ = n

 ∑ (X i − X )2
i =1
 n

 ∑ ( Xi − X )
2
σˆ =
i =1
nX
2- Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n de una v.a. X donde X ~ U [0,θ ] , θ des-
conocido. Hallar el estimador de θ por el método de los momentos.
Solución:
Planteamos la ecuación: µ1 = M 1
0 +θ θ θ
Sabemos que µ1 = E ( X ) = = . Entonces = X ⇒ Θ ˆ = 2X
2 2 2
Observación: notar que el estimador Θ ˆ = 2 X es un estimador consistente de θ , pues
()
ˆ = E (2 X ) = 2 E ( X ) = 2 θ = θ ˆ = V (2 X ) = 4V ( X ) = 4 (θ − 0 ) = θ → 0
()
2 2
EΘ y V Θ
2 12n 3n n→∞
3- Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de una v.a. X~ N ( µ , σ 2 ) .

Encuentra los estimadores de µ y σ por el método de momentos.
Solución:
Planteamos las ecuaciones
 µ=X
 µ1 = M 1 
⇒ 
E (X 2 ) = ∑ X i
 1 n 2
 µ2 = M 2  n i =1
pero en general es válido que V ( X ) = E ( X 2 ) − µ 2 ⇒ E( X 2 ) = V ( X ) + µ

Entonces las ecuaciones quedan
 µ=X  µˆ = X
 
σ 2 + µ 2 = 1 n
⇒ σˆ 2 = 1 n
 ∑ i
n i =1
X
2
 ∑ X i2 − X 2
n i =1
4- Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de una v.a. X~ N ( 0 , σ 2

).
Hallar un estimador por el método de los momentos de σ 2
Solución: en este caso no es conveniente plantear µ1 = M 1 pues quedaría

146
la ecuación 0 = X que no conduce a nada.

Entonces podemos plantear µ 2 = M 2 es decir
1 n 1 n 1 n
E( X 2 ) = ∑ X i ⇒ σ 2 + 0 = ∑ Xi ⇒ σˆ 2 = ∑ X i
2 2 2
n i =1 n i =1 n i =1
Observación: si Θ̂ es un estimador por el método de los momentos de un parámetro θ , el estimador

()
de los momentos de g (θ ) es g Θ̂ , si g (x) es una función inyectiva.
Por ejemplo, en el ejemplo anterior un estimador de σ por el método de los momentos sería
1 n
σˆ = σˆ 2 = ∑
2
X i . Notar que g ( x) = x es inyectiva para los reales positivos.
n i =1
Método de máxima verosimilitud
Uno de los mejores métodos para obtener un estimador puntual de un parámetro es el método de
máxima verosimilitud.
Supongamos que X es una v.a. discreta con función de distribución de probabilidad p ( x,θ ) , don-
de θ es un parámetro desconocido. Sean x1 , x2 ,..., xn los valores observados de una muestra alea-
toria de tamaño n.
Se define la función de verosimilitud como la función de distribución conjunta de las observa-
ciones:
L( x1 , x2 ,..., xn ,θ ) = P( X 1 = x1 ) P ( X 2 = x2 )...P( X n = xn ) = p ( x1 ,θ ). p ( x2 ,θ )..... p ( xn ,θ )
Notar que la función de verosimilitud es una función de θ .
El estimador de máxima verosimilitud de θ es aquel valor de θ que maximiza la función de vero-
similitud
La interpretación del método sería: el estimador de máxima verosimilitud es aquel valor del pa-
rámetro que maximiza la probabilidad de ocurrencia de los valores muestrales
La adaptación para el caso en que X es una v.a. continua sería la siguiente
Supongamos que X es una v.a. continua con función de densidad de probabilidad f ( x,θ ) , donde
θ es un parámetro desconocido. Sean x1 , x2 ,..., xn los valores observados de una muestra aleato-
ria de tamaño n.
Se define la función de verosimilitud como la función de distribución conjunta de las observa-
ciones:
L( x1 , x2 ,..., xn ,θ ) = f ( x1 ,θ ). f ( x2 ,θ )..... f ( xn ,θ )
La función de verosimilitud es una función de θ .
El estimador de máxima verosimilitud de θ es aquel valor de θ que maximiza la función de vero-
similitud
Notación: abreviamos estimador de máxima verosimilitud con EMV
147
Ejemplos:
1- Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de una v.a. X~ B (1 , p )
Por ejemplo, se eligen al azar n objetos de una línea de producción, y cada uno se clasifica como
defectuoso (en cuyo caso xi = 1 ) o no defectuoso (en cuyo caso xi = 0 ).
Entonces p = P( X i = 1) , es decir es la verdadera proporción de objetos defectuosos en la producción
total.
Queremos hallar el EMV de p
Solución:
1
Si X~ B (1 , p ) entonces P( X = k ) =   p k (1 − p )1−k k = 0,1
k 
Planteamos la función de verosimilitud
[
L ( x1 , x 2 ,.., x n ; p ) = p ( x1 ; p ) p ( x 2 ; p )... p ( x n ; p ) = p x1 (1 − p )
1− x1
][p x2
(1 − p )1− x 2
]... [p xn
(1 − p )1− x n
]
Esto puede escribirse:
n
∑ xi n
L( x1 , x2 ,..., xn ; p ) = p i =1 (1 − p ) ∑
n − xi
i =1
Para maximizar la función de verosimilitud y facilitar los cálculos tomamos el logaritmo natural de L
Pues maximizar L es equivalente a maximizar ln(L) y al tomar logaritmos transformamos productos
en sumas.
Entonces
 n   n

ln (L( x1 , x2 ,..., xn ; p )) =  ∑ xi  ln p +  n − ∑ xi  ln (1 − p )
 i =1   i =1 
Y ahora podemos maximizar la función derivando e igualando a cero
n n
∂ ln L( x1 , x2 ,..., xn ; p ) ∑ xii =1
n − ∑ xi
i =1
= − =0
∂p p 1− p
de donde despejando p
n
∑x
i =1
i
p= =x la proporción de defectuosos en la muestra
n
1 n
Por lo tanto se toma como estimador a pˆ = X = ∑ Xi
n i =1
2- El tiempo de fallar T de una componente tiene una distribución exponencial con parámetro λ :
T∼ Exp(λ ) , es decir la fdp es
 λe − λt 0≤t <∞

f (t ; λ ) = 
0 demás valores
Recordemos que la esperanza y varianza son:
148
E (T ) = 1
λ y V (T ) = λ2 , respectivamente.
1
Se desea calcular el estimador de máxima verosimilitud del parámetro λ para una muestra de tama-
ño n.
Solución:
La función de probabilidad es:
[ ][ ] [
L(t1 , t 2 ,..., t n ; λ ) = f (t1 ; λ ) f (t 2 ; λ )... f (t n ; λ ) = λe − λt1 × λe − λt2 × ... × λe − λtn , ]
que puede escribirse:
n
−λ ∑ ti
L(t1 , t 2 ,..., t n ; λ ) = (λ ) e
n i =1
Nuevamente tomamos logaritmo natural
ln L(t1 , t 2 ,..., t n ;σ ) = n ln λ − λ ∑ t i
n
i =1
∂ ln L(t1 , t 2 ,..., t n ; λ ) 1 n
= n − ∑ Ti = 0
∂λ λ i =1
de donde podemos despejar λ :
n n
λ= n
=t , entonces el estimador de λ es λ̂ = n
∑t
i =1
i ∑T
i =1
i
El método de máxima verosimilitud presenta, algunas veces, dificultades para maximizar la función
d
de verosimilitud debido a que la ecuación obtenida a partir de L(θ ) = 0 no resulta fácil de resol-
dθ
ver. O también puede ocurrir que los métodos de cálculo para maximizar L (θ ) no son aplicables.
Por ejemplo:
Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n de una v.a. X donde X ~ U [0,θ ] , θ descono-
cido. Hallar el estimador de θ por el método máxima verosimilitud.
Solución:
La f.d.p. de X es
 1
 si 0 < x < θ
f ( x) =  θ
0 caso contrario

Planteamos la función de verosimilitud
1 1
θ n si 0 < xi < θ ∀i  n si max ( xi ) < θ
L( x1 , x2 ,...xn ,θ ) =  = θ i
 0 caso contrario 0 caso contrario

 
149
d −n n
Si derivamos con respecto a θ obtenemos θ = − n+1 que es siempre menor que cero. Por lo
dθ θ
tanto la función de verosimilitud es una función decreciente para todos los θ > max( xi )
i
Si hacemos un gráfico de la función de verosimilitud
L (θ )
max( xi ) θ
i
Vemos que donde la función tiene el máximo hay una discontinuidad no evitable.
ˆ = max( x )
Por lo tanto Θ i
i
El método de máxima verosimilitud puede emplearse en el caso donde hay más de un parámetro
desconocido para estimar. En ese caso la función de verosimilitud es una función de varias variables.
Específicamente si tenemos para estimar k parámetros θ1 ,θ 2 ,...θ k , entonces la función de verosimili-
tud es una función de k variables L( x1 , x2 ,..., xn ,θ1 ,θ 2 ,...θ k ) y los estimadores de máxima verosimili-
tud Θˆ ,Θ
ˆ ,...Θ
ˆ se obtienen al plantear ( si existen las derivadas parciales) y resolver el sistema de k
1 2 k
ecuaciones con k incógnitas θ1 ,θ 2 ,...θ k

d
L( x1 , x2 ,..., xn ,θ1 ,θ 2 ,...θ k ) = 0 i = 1,2,..k
dθ i
Ejemplo:
( )
La variable aleatoria X tiene distribución N µ ,σ 2 con µ y σ 2 ambos parámetros desconocidos para
los cuales se desea encontrar los estimadores máxima verosimilitud. La fdp es
2
1 x−µ 
( )
1 −  
f x ; µ ,σ 2 = e 2 σ  −∞ < x < ∞,
2π σ
La función de verosimilitud para una muestra aleatoria de tamaño n es
2 2 2
1  x1 − µ  1  x2 − µ  1  xn − µ 
( ) 1 −   1 −   1 −  
σ  σ  σ 
L x1 , x2 ,..., xn ; µ ,σ 2
= e 2 e 2 ... e 2 =
2π σ 2π σ 2π σ
2
1 n  xi − µ 
− ∑  
( )
n
2 −2 2 i =1  σ 
= 2πσ e
Luego
150
2
1 n  x −µ
( ) n
( )
ln L x1 , x2 ,..., xn ; µ ,σ = − ln 2πσ 2 − ∑  i
2
2

2 i =1  σ 
y el sistema de ecuaciones de verosimilitud queda:
( )
 ∂ ln L x1 , x2 ,..., xn ; µ ,σ 2 n
= ∑ i
 x −µ 
=0

 ∂µ i =1  σ 

( )
 ∂ ln L x1 , x2 ,..., xn ; µ ,σ = − n + 1 (xi − µ ) = 0
2 n 2
 ∂σ 2
∑
2σ 2 2 i =1 σ 4
Resolvemos con respecto a µ y σ 2 :
 1 n
 µ = ∑ xi = x
n i =1
 n n
σ 2 = 1 ∑ (xi − µ )2 = 1 ∑ ( xi − x )2
 n i =1 n i =1
Entonces los estimadores máxima verosimilitud de µ y σ 2 son
 1 n
 µˆ = ∑ Xi = X
n i =1
 n
σˆ 2 = 1 ∑ ( X i − X )2
 n i =1
Propiedades de los estimadores máxima verosimilitud
1- Los EMV pueden ser sesgados, pero en general si Θ̂ es el EMV de un parámetro θ basado en
ˆ ) = θ , es decir son asintóticamente insesgados
una muestra de tamaño n, entonces lim E (Θ
n →∞
2- Bajo condiciones bastantes generales se puede probar que los EMV son asintóticamente consis-
tentes
3- Bajo condiciones bastantes generales se puede probar que los EMV asintóticamente tienen va-
rianza mínima
4-Los EMV cumplen la propiedad de invarianza es decir:
()
si Θ̂ es un EMV de un parámetro θ , el EMV de g (θ ) es g Θ̂ , si g (x) es una función inyectiva.
Ejemplos:
1- Si consideramos nuevamente la situación considerada en el Ejemplo 2, donde teníamos una v.a. T
cuya distribución es una exponencial: T∼ Exp(λ ) , entonces, si queremos el EMV de la varianza po-
blacional, podemos calcularlo recordando que V (T ) = 1 2 , es decir, V (T ) = g (λ ) = 1 2 . Vimos que
λ λ
n 1 1
λˆ = n = . Por lo tanto el EMV de la varianza es σˆ 2 = 2 .
T λˆ
∑Ti
i =1
151
1 n
∑ Xi
2- Sea X 1 , X 2 ,........, X n una muestra aleatoria de una v.a. B(1, p ) . Un EMV de p es pˆ = X =
n i =1
Se selecciona una muestra aleatoria de n cascos para ciclistas fabricados por cierta compañía.
Sea X : “ el número entre los n que tienen defectos” , y p = P(el casco tiene defecto).
Supongamos que solo se observa X ( el número de cascos con defectos).
3
Si n = 20 y x = 3, es la estimación de p es pˆ =
20
El E.M.V. de la probabilidad (1-p)5, de que ninguno de los siguientes cinco cascos que se examinen
5
 3 
tenga defectos será (1 − pˆ )
5
y su estimación en este caso 1 − 
 20 
152
Parte 2 – Intervalos de confianza Prof. María B. Pintarelli
9- Intervalos de confianza
9.1 – Introducción
Se ha visto como construir a partir de una muestra aleatoria un estimador puntual de un parámetro
desconocido. En esos casos necesitábamos dar algunas características del estimador, como por
ejemplo si era insesgado o su varianza.
A veces resulta más conveniente dar un intervalo de valores posibles del parámetro desconocido,
de manera tal que dicho intervalo contenga al verdadero parámetro con determinada probabilidad.
Específicamente, a partir de una muestra aleatoria se construye un intervalo Θ ˆ ,Θ
1 (
ˆ donde los
2 )
1 2 ( (ˆ
1 2 ))
extremos Θ̂ y Θ̂ son dos estadísticos, tal que P θ ∈ Θ , Θ = 1 − α donde θ es el parámetro
ˆ
desconocido a estimar y α es un valor real entre cero y uno dado de antemano. Por ejemplo si
α = 0.05 , se quiere construir un intervalo Θ (
ˆ ,Θ
1 2 )
ˆ tal que P θ ∈ Θ
ˆ ,Θ
1 ( ( ))
ˆ = 0.95 , o escrito de otra
2
(
forma P Θ ≤ θ ≤ Θ = 0.95
ˆ
1
ˆ
2 )
Esta probabilidad tiene el siguiente significado: como Θ̂1 y Θ̂ 2 son estadísticos, los valores que
ellos toman varían con los valores de la muestra, es decir si x1 , x 2 ,..., x n son los valores medidos de
la muestra entonces el estadístico Θ̂1 tomará el valor θ 1 y el estadístico Θ̂ 2 tomará el valor θ 2 . Si
´, , ,
medimos nuevamente la muestra obtendremos ahora valores x1 , x 2 ,..., x n y por lo tanto Θ̂1 toma-
rá el valor θ 1 y el estadístico Θ̂ 2 tomará el valor θ 2 , diferentes en general de los anteriores. Esto
, ,
significa que si medimos la muestra 100 veces obtendremos 100 valores diferentes para Θ̂1 y Θ̂ 2
y por lo tanto obtendremos 100 intervalos distintos, de los cuales aproximadamente 5 de ellos no
contendrán al verdadero parámetro.
Al valor 1 − α se lo llama nivel de confianza del intervalo. También se suele definir como nivel de
confianza al (1 − α )100%
La construcción repetida de un intervalo de confianza para µ se ilustra en la siguiente figura
153
9.2 – Intervalo de confianza para la media de una distribución normal, varianza conocida.
El método general para construir intervalos de confianza es el siguiente llamado método del pivo-
te:
Supongamos el siguiente caso particular, sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n de
una v.a. X donde X ~ N ( µ , σ 2 ) , σ 2 conocido, se quiere construir un intervalo de confianza para
µ de nivel 1 − α . Supongamos α = 0.05 .
1- tomamos un estimador puntual de µ , sabemos que µ̂ = X es un estimador con buenas propie-
dades.
X −µ
2- a partir de µ̂ = X construimos el estadístico Z = . Notar que Z (pivote) contiene al ver-
σ
n
dadero parámetro µ y que bajo las condiciones dadas Z ~ N (0,1)
3- como conocemos la distribución de Z, podemos plantear: hallar un número z tal que
P(− z ≤ Z ≤ z ) = 0.95
Por la simetría de la distribución normal estándar podemos escribir
P(− z ≤ Z ≤ z ) = Φ (z ) − Φ(− z ) = 2Φ( z ) − 1 = 0.95 ⇒ Φ( z ) = 0.975 ⇒ z = 1.96
 
 X −µ 
Por lo tanto P(− 1.96 ≤ Z ≤ 1.96 ) = P − 1.96 ≤ ≤ 1.96  = 0.95
 σ 
 n 
Despejamos µ :
 
 X −µ   σ σ 
P − 1.96 ≤ ≤ 1.96  = P − 1.96 ≤ X − µ ≤ 1.96  =
 σ   n n
 n 
 σ σ   σ σ 
= P − 1.96 − X ≤ − µ ≤ 1.96 − X  = P X − 1.96 ≤ µ ≤ X + 1.96  = 0.95
 n n   n n
Entonces
 σ σ    σ σ 
P X − 1.96 ≤ µ ≤ X + 1.96  = P µ ∈  X − 1.96 ; X + 1.96   = 0.95
 n n   n n  
 σ σ 
Es decir el intervalo de confianza para µ es  X − 1.96 ; X + 1.96  y tiene nivel de confian-
 n n
za 0.95 o 95%.
ˆ = X − 1.96 σ y Θ
Aquí Θ ˆ = X + 1.96 σ
1 2
n n
Repetimos el procedimiento anterior y construimos un intervalo de confianza para µ con nivel de

confianza 1 − α
154
1 n
1-Partimos de la esperanza muestral X = ∑ X i para una muestra aleatoria ( X 1 , X 2 ,..., X n ) de
n 1=1
tamaño n. Sabemos que es un estimador insesgado y consistente de µ .
2-Construimos el estadístico
X−µ
Z= ~ N (0,1)
σ/ n
La variable aleatoria Z cumple las condiciones necesarias de un pivote

Para construir un intervalo de confianza al nivel de confianza 1- α partiendo del pivote Z, comen-
zamos por plantear la ecuación
P(− z ≤ Z ≤ z ) = 1- α ,
donde la incógnita es el número real z.
Si reemplazamos la v.a. Z por su expresión tenemos:
 X −µ   σ σ   σ σ 
P − z ≤ ≤ z  = P − z ≤ X −µ≤z  = P − X − z ≤ −µ ≤ −X + z  = 1- α
 σ/ n   n n  n n
Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros se invierte)
llegamos a:
 σ σ 
P X − z ≤ µ≤ X +z  = 1- α
 n n
Evidentemente, si definimos
ˆ σ
 Θ1 = X − z n
 σ
ˆ ≤µ≤Θ
, hemos construido dos estadísticos Θ̂1 y Θ̂ 2 tales que P Θ 1 (
ˆ = 1- α ,
2 )
Θ 2 = X + z
ˆ
 n
es decir hemos construido el intervalo de confianza bilateral deseado Θ ˆ ,Θ [ ]
ˆ . Todos los elemen-
1 2
tos que forman los estadísticos Θ̂1 y Θ̂ 2 son conocidos ya que el número z verifica la ecuación
anterior, es decir (ver figura):
zα z = zα
2
α
2 α
2
− zα zα
2 2
155
P(− z ≤ Z ≤ z ) = Φ ( z ) − Φ (− z ) =1- α donde Φ (z ) es la Fda para la v.a. Z ~ N (0,1)
Recordando que Φ(− z ) = 1 − Φ( z ) , esta ecuación queda:

Φ( z ) − Φ (− z ) = 2Φ ( z ) − 1 =1- α , o bien (ver figura anterior),
α α
Φ(z ) = 1 − o de otra forma P ( Z > z ) = .
2 2
Al valor de z que verifica esta ecuación se lo suele indicar z α . En consecuencia, el intervalo de
2
confianza bilateral al nivel de significación 1- α queda:
[Θˆ , Θˆ ] =  X − z
1 2 α
σ
, X + zα
σ 

 2 n 2 n
En consecuencia:
Si ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n de una v.a. X donde X ~ N ( µ , σ 2 ) , σ 2

conocido, un intervalo de confianza para µ de nivel 1 − α es
 σ σ 
 X − zα , X + zα  (8.1)
 2 n 2 n
Ejemplo:
Un ingeniero civil analiza la resistencia a la compresión del concreto. La resistencia está distribui-
da aproximadamente de manera normal, con varianza 1000 (psi)2. Al tomar una muestra aleatoria
de 12 especímenes, se tiene que x = 3250 psi.
a) Construya un intervalo de confianza del 95% para la resistencia a la compresión promedio.
b) Construya un intervalo de confianza del 99% para la resistencia a la compresión promedio.
Compare el ancho de este intervalo de confianza con el ancho encontrado en el inciso a).
Solución:
La v. a. de interés es Xi: “resistencia a la compresión del concreto en un espécimen i”
Tenemos una muestra de n = 12 especímenes.
Asumimos que X i ~ N ( µ , σ 2 ) para i = 1,2,3,...,12 con σ 2 = 1000
a) Queremos un intervalo de confianza para µ de nivel 95%. Por lo tanto α = 0.05
 σ σ 
El intervalo a utilizar es  X − z α , X + zα .
 2 n 2 n 
Buscamos en la tabla de la normal estándar el valor de z α = z 0.025 = 1.96
2
Reemplazando:
 1000 1000   
3250 − 1.96 × ,3250 + 1.96 ×  = 3232.10773, 3267.89227 
 12 12   
b) repetimos lo anterior pero ahora α = 0.01
156
 σ σ 
El intervalo a utilizar es  X − z α , X + zα .
 2 n 2 n
Buscamos en la tabla de la normal estándar el valor de z α = z 0.005 = 2.58
2
Reemplazando:
 1000 1000   
3250 − 2.58 × ,3250 + 2.58 ×  = 3226.44793, 3273.55207 
 12 12   
La longitud del intervalo encontrado en a) es: 35.78454

La longitud del intervalo encontrado en b) es: 47.10414
Notar que la seguridad de que el verdadero parámetro se encuentre en el intervalo hallado es ma-
yor en el intervalo b) que en el a), pero la longitud del intervalo b) es mayor que la del intervalo a).
Al aumentar el nivel de confianza se perdió precisión en la estimación, ya que a menor longitud
hay mayor precisión en la estimación.
σ
En general la longitud del intervalo es L = 2 z α
2 n
Notar que:
a) si n y σ están fijos, a medida que α disminuye tenemos que z α aumenta, por lo tanto L
2
aumenta.
b) si α y σ están fijos, entonces a medida que n aumenta tenemos que L disminuye.
Podemos plantearnos la siguiente pregunta relacionada con el ejemplo anterior: ¿qué tamaño n de
muestra se necesita para que el intervalo tenga nivel de confianza 95% y longitud la mitad de la
longitud del intervalo hallado en a)?
Solución: el intervalo hallado en a) tiene longitud 35.78454, y queremos que el nuevo intervalo
tenga longitud 17.89227 aproximadamente. Planteamos:
σ 1000
L = 2 zα / 2 ≤ 17.89227 ⇒ 2 × 1.96 × ≤ 17.89227
n n
Despejando n :
2
 1000 
 2 × 1.96 ×  ≤n ⇒ n ≥ 48
 17.89227 
 
O sea, hay que tomar por lo menos 84 especímenes para que el intervalo tenga la longitud pedida.
σ
En general, si queremos hallar n tal que L = 2 z α ≤ l , donde l es un valor dado, entonces
2 n
despejando n
2
 2zα σ 
 
n≥ 2 
 l 
 
157
Si estimamos puntualmente al parámetro µ con X estamos cometiendo un error en la estimación

L σ
menor o igual a = z α , que se conoce como precisión del estimador
2 2 n
Ejemplo: Se estima que el tiempo de reacción a un estímulo de cierto dispositivo electrónico está
distribuido normalmente con desviación estándar de 0.05 segundos. ¿Cuál es el número de medi-
ciones temporales que deberá hacerse para que la confianza de que el error de la estimación de la
esperanza no exceda de 0.01 sea del 95%?
L σ
Nos piden calcular n tal que = zα < 0.01 con α = 0.05 .
2 2 n
2
 0.05 
Por lo tanto n ≥  z 0.025  .
 0.01 
2
 0.05 
 = (1.96 × 5) = 96.04 .
2
Además z 0, 025 =1.96. Entonces n ≥  z 0.975
 0 . 01 
O sea hay que tomar por lo menos 97 mediciones temporales.
Para muestras tomadas de una población normal, o para muestras de tamaño n ≥ 30 , de una
población cualquiera, el intervalo de confianza dado anteriormente en (8.1), proporciona buenos
resultados.
En el caso de que la población de la que se extrae la muestra no sea normal pero n ≥ 30 , el ni-
vel de confianza del intervalo (8.1) es aproximadamente 1 − α .
Pero para muestras pequeñas tomadas de poblaciones que no son normales no se puede garanti-
zar que el nivel de confianza sea 1 − α si se utiliza (8.1).
Ejemplo:
Supongamos que X representa la duración de una pieza de equipo y que se probaron 100 de esas
piezas dando una duración promedio de 501.2 horas. Se sabe que la desviación estándar poblacio-
nal es σ =4 horas. Se desea tener un intervalo del 95% de confianza para la esperanza poblacional
E(X ) = µ .
Solución:
En este caso, si bien no conocemos cuál es la distribución de X tenemos que el tamaño de la mues-
tra es n = 100 > 30 (muestra grande) por lo tanto el intervalo buscado es
 σ σ 
 X − zα , X + zα 
 2 n 2 n
α
Puesto que 1- α =0.95 → α = 1 − 0.95 = 0.05 → = 0.025
2
De la tabla de la normal estandarizada obtenemos z 0, 025 =1.96. Entonces reemplazando:
 4 4 
 X − 1.96 , X + 1.96 
 100 100 
Para el valor particular x =501.2 tenemos el intervalo
158
 4 4   4 4  
 x − 1.96 , x + 1.96  = 501.2 − 1.96 10 ,501.2 + 1.96 10  = 500.4, 502.0 .
 100 n    
 
Al establecer que 500.4 , 502.0 es un intervalo al 95% de confianza de µ estamos diciendo que
 
 
la probabilidad de que el intervalo 500.4 , 502.0 contenga a µ es 0.95. O, en otras palabras, la
 
probabilidad de que la muestra aleatoria ( X 1 , X 2 ,..., X n ) tome valores tales que el intervalo aleato-
 4 4 
rio  X − 1.96 , X + 1.96  defina un intervalo numérico que contenga al parámetro fijo
 100 100 
desconocido µ es 0.95.
9.3 - Intervalo de confianza para la media de una distribución normal, varianza desconocida
Nuevamente como se trata de encontrar un intervalo de confianza para µ nos basamos en la espe-
1 n
ranza muestral X = ∑ X i que sabemos es un buen estimador de µ . Pero ahora no podemos
n 1=1
usar como pivote a
X−µ
Z=
σ/ n
porque desconocemos σ y una condición para ser pivote es que, excepto por el parámetro a esti-
mar ( en este caso µ ), todos los parámetros que aparecen en él deben ser conocidos. Entonces pro-
ponemos como pivote una variable aleatoria definida en forma parecida a Z pero reemplazando σ
por un estimador adecuado.
Ya vimos que la varianza muestral definida
∑ (X i − X ) ,
1 n
S =
2
n − 1 1=1
donde X es la esperanza muestral, es un estimador insesgado de la varianza poblacional V ( X ) , es
( )
decir, E S 2 = V ( X ) = σ 2 ∀n . Entonces estimamos σ con S y proponemos como pivote a la va-
riable aleatoria
X −µ
T = .
S/ n
Pero para poder usar a T como pivote debemos conocer su distribución.

Se puede probar que la distribución de T es una distribución llamada Student con parámetro n-1.
Nota: Una v.a. continua tiene distribución Student con k grados de libertad, si su f.d.p. es de la
forma
159
 (k + 1) 
Γ
2 
f ( x) = 
1
k +1
−∞ < x < ∞
k
πk Γ   x 2   2
 2    + 1
 k  
Notación: T ~ t k
La gráfica de la f.d.p. de la distribución Student tiene forma de campana como la normal, pero
tiende a cero más lentamente. Se puede probar que cuando k → ∞ la fdp de la Student tiende a la
fdp de la N (0, 1) .
En la figura siguiente se grafica f(x) para diferentes valores de k
k =1
0.4 k =6
0.3
----- k =∞
0.2
0.1
-3 -2 -1 1 2 3
Anotaremos tα ,k al cuantil de la Student con k grados de libertad que deja bajo la fdp a derecha un
área de α , y a su izquierda un área de 1 − α .
Luego, para construir el intervalo de confianza buscado a partir del pivote T procedemos como en
los casos anteriores:
Comenzamos por plantear la ecuación
P (− t ≤ T ≤ t ) = 1- α ,
donde la incógnita es el número real t.
Si reemplazamos la v.a. T por su expresión, tenemos sucesivamente (multiplicando por S / n y

restando X ):
 X −µ   S S   S S 
P − t ≤ ≤ t  = P − t ≤ X −µ≤t  = P − X − t ≤ −µ ≤ −X + t  = 1- α
 S/ n   n n  n n
llegamos a:
160
 S S 
P X − t ≤ µ ≤ X +t  = 1- α
 n n
ˆ S
 Θ1 = X − t n
 , hemos construido dos estadísticos Θ̂1 y Θ̂ 2 tales que P Θˆ ≤µ≤Θ
1
ˆ = 1- α ,
2 ( )
Θ ˆ = X +t S
 2
n
veamos quien es el número t que verifica la ecuación, es decir (ver figura):
k = 4 grados de libertad
α
α
2
2
− tα tα
2 2
P (− t ≤ T ≤ t ) = F (t ) − F (− t ) =1- α donde F (t ) es la Fda para la v.a. T ∼ t n−1 .
Por la simetría de la distribución t de Student se deduce fácilmente de la figura anterior que

F (− t ) = 1 − F (t ) , entonces:
F (t ) − F (− t ) = 2 F (t ) − 1 =1- α , o bien (ver figura anterior),
α
F (t ) = 1 − .
2
Al valor de t que verifica esta ecuación se lo suele indicar t α . En consecuencia, el intervalo de
, n −1
2
confianza bilateral al nivel de significación 1- α queda:
 S S    α
 X − t α ,n −1 , X + tα  con F  t α  = 1 − .
 2 n 2
, n −1 n  2 , n −1 2
En consecuencia:
Si ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n de una v.a. X donde X ~ N ( µ , σ 2 ) ,

σ 2 desconocido, un intervalo de confianza para µ de nivel 1 − α es
 S S 
 X − tα , X + tα  (8.2)
 2 n 2 n
161
Ejemplo:
Se hicieron 10 mediciones sobre la resistencia de cierto tipo de alambre que dieron valores
1 10 1 10
x1 , x2 ,..., x10 tales que x = ∑ x i = 10 .48 ohms y S = ∑ (xi − x )2 = 1.36 ohms. Supóngase
10 i =1 9 i =!
que X~N(µ,σ2).
Se desea obtener un intervalo de confianza para la esperanza poblacional µ al 90 %.
Tenemos que 1 − α = 0.90 → α = 0.1 → α / 2 = 0.05

De la Tabla de la t de Student tenemos que t 0.05,9 = 1.8331 . Entonces el intervalo de confianza
buscado es:
 S S   1.36 1.36 
 X − t α , n−1 , X + tα  = 10.48 − 1.8331 ,10.48 + 1.8331 
 2 n 2
, n −1 n  10 10 
Esto es: [9.69, 11.27] .
Si la muestra aleatoria se toma de una distribución normal, σ2 es desconocido y el tamaño de la

muestra grande, entonces se puede probar que al reemplazar σ por S, el estadístico
X −µ
Z= ∼ N (0 ,1) aproximadamente
S/ n
y puedo construir el intervalo para µ como antes:

 S S 
 X − zα , X + zα  , pero su nivel es aproximadamente 1 − α
 2 n 2 n 
9.4 – Intervalo de confianza para la diferencia de dos medias, varianzas conocidas
Supongamos que tenemos dos variables aleatorias independientes normalmente distribuidas:

(
 X 1 ~ N µ1 , σ12 )
y suponemos que las varianzas σ 12 y σ 22 son conocidas.

X
 2 ~ N µ 2 , σ(2
2 )
Sean además
( )
X 11 , X 12 ,..., X 1n1 una muestra aleatoria de tamaño n1 de X 1
(X 21 , X 22 ,..., X 2 n2) una muestra aleatoria de tamaño n 2 de X 2 .
Deseamos construir un intervalo al nivel de confianza 1 − α para la diferencia de esperanzas

µ1 − µ 2 .
Ya sabemos cuál es la distribución del promedio de variables aleatorias normales independientes:
162
 1 n1  σ 12 
 X 1 = ∑ X 1i ~ N  µ1 , 
 n1 i =1  n1 

X = 1
n2
 σ 22 
 2 n2 ∑
X 2i ~ N 
 2 n 
µ ,
 i =1  2 
Consideremos ahora la diferencia Y = X 1 − X 2 . Si X 1 y X 2 tienen distribución normal y son in-

dependientes, su diferencia también es normal, con esperanza igual a la diferencia de las esperan-
zas y la varianza es la suma de las varianzas:
 σ2 σ2 
X 1 − X 2 ~ N µ1 − µ 2 , 1 + 2  .
 n1 n2 
Por lo tanto
X 1 − X 2 − (µ 1 − µ 2 )
Z= ~ N (0,1) , es decir, tiene distribución normal estandarizada.
σ 12 σ 22
+
n1 n2
La v.a. Z cumple con toda las condiciones para servir de pivote y construiremos nuestro intervalo
en forma análoga a cómo hicimos en los casos anteriores:
Comenzamos por plantear la ecuación
P(− z ≤ Z ≤ z ) = 1- α ,
donde la incógnita es el número real z.
Reemplazamos la v.a. Z por su expresión y tenemos sucesivamente (multiplicando por σ / n y

restando X ):
 
 
 X − X 2 − (µ1 − µ 2 )   σ2 σ2 σ2 σ2 
P − z ≤ 1 ≤ z  = P  − z 1 + 2 ≤ X 1 − X 2 − (µ 1 − µ 2 ) ≤ z 1 + 2  =
 σ 12 σ 22   n1 n 2 n1 n 2 
+ 
 n1 n 2 
 
 σ 12 σ 22 σ 12 σ 22 
= P − (X 1 − X 2 ) − z
 + ≤ − (µ 1 − µ 2 ) ≤ − ( X 1 − X 2 ) + z + = 1−α
 n1 n 2 n1 n 2 

llegamos a:
 σ2 σ2 σ2 σ2 
P  X 1 − X 2 − z 1 + 2 ≤ (µ 1 − µ 2 ) ≤ X 1 − X 2 + z 1 + 2  = 1 − α
 n1 n2 n1 n 2 

163

ˆ = X − X − z σ1 + σ 2
2 2
Θ 1 1 2
 n1 n2

ˆ = X − X − z σ1 + σ 2 ,
2 2
Θ
 2 1 2
n1 n2

ˆ ≤ (µ − µ ) ≤ Θ
habremos construido dos estadísticos Θ̂1 y Θ̂ 2 tales que P Θ 1 1 2 (
ˆ = 1- α , es decir
2 )
[ ]
habremos construido el intervalo de confianza bilateral deseado Â1 , Â2 . Todos los elementos que
forman los estadísticos Θ̂1 y Θ̂ 2 son conocidos ya que el número z verifica la ecuación anterior,
es decir:
P(− z ≤ Z ≤ z ) = Φ ( z ) − Φ (− z ) =1- α donde Φ (z ) es la Fda para la v.a. Z ~ N (0,1)
o bien, según vimos:

α
Φ( z ) = 1 − que anotamos z α
2 2
En consecuencia, el intervalo de confianza bilateral al nivel de significación 1- α queda:
 σ 12 σ 22 σ 12 σ 22 
 X 1 − X 2 − zα + , X 1 − X 2 + zα + 
 2
n1 n2 2
n1 n2 
Por lo tanto
Si X 1 y X 2 son dos variables aleatorias independientes normalmente distribuidas:

( 2
) ( 2
)
X 1 ~ N µ1 , σ 1 , X 2 ~ N µ 2 , σ 2 y suponemos que las varianzas σ12 y σ 22 son conocidas. Un
intervalo de confianza para la diferencia µ1 − µ 2 de nivel 1 − α es
 σ12 σ22 r σ12 σ22 

X1 − X2 −zα + , X1 − X2 +zα +  (8.3)
 2
n1 n2 2
n1 n2 
Ejemplo:
Se utilizan dos máquinas para llenar botellas de plástico con detergente para máquinas lavaplatos.
Se sabe que las desviaciones estándar de volumen de llenado son σ 1 = 0.10 onzas de líquido y
σ 2 = 0.15 onzas de líquido para las dos máquinas respectivamente. Se toman dos muestras aleato-
rias, n1 = 12 botellas de la máquina 1 y n 2 = 10 botellas de la máquina 2. Los volúmenes prome-
dio de llenado son x1 = 30.87 onzas de líquido y x 2 = 30.68 onzas de líquido.
Asumiendo que ambas muestras provienen de distribuciones normales
Construya un intervalo de confianza de nivel 90% para la diferencia entre las medias del volumen
de llenado.
Solución:
Como 1 − α = 0.90 entonces α = 0.10
164
Por lo tanto z α = z 0.05 = 1.65

2
 0.10 2 0.15 2 0.10 2 0.15 2 

El intervalo será (30.87 − 30.68) − 1.65 + ; (30.87 − 30.68) + 1.65 + 
 12 10 12 10 
 
O sea 0.09837; 0.281620
 
Si se conocen las desviaciones estándar y los tamaños de las muestras son iguales (es decir
n1 = n 2 = n ), entonces puede determinarse el tamaño requerido de la muestra de manera tal que la
longitud del intervalo sea menor que l
2
 2zα 
 
σ1 σ2
( )
2 2
 σ1 + σ 2
2 2
L = 2zα + ≤l ⇒ n≥ 2
2
n n  l 
 
Si las muestras aleatorias se toma de una distribución normal, donde σ 1 y σ 2 son desconocidos,
n1 ≥ 30 y n 2 ≥ 30 , entonces se puede probar que al reemplazar σ 1 por S1 y σ 2 por S2, el esta-
dístico
X 1 − X 2 − ( µ1 − µ 2 )
≈ N (0,1) . aproximadamente
S12 S12
+
n1 n1
y puedo construir el intervalo para µ1 − µ 2 como antes:

 S12 S12 S12 S12 
 X 1 − X 2 − zα + , X 1 − X 2 + zα + , (8.4)
 2
n1 n1 2
n1 n1 
pero su nivel es aproximadamente 1 − α
Para muestras tomadas de dos poblaciones normales, o para muestras de tamaño n1 ≥ 30 y

n 2 ≥ 30 , de dos poblaciones cualesquiera, el intervalo de confianza dado anteriormente en
(8.3), proporciona buenos resultados.
En el caso de que la población de la que se extrae la muestra no sea normal pero n1 ≥ 30 y
n 2 ≥ 30 , el nivel de confianza del intervalo (8.3) es aproximadamente 1 − α .
Ejemplo:
De una muestra de 150 lámparas del fabricante A se obtuvo una vida media de 1400 hs y una des-
viación típica de 120 hs. Mientras que de una muestra de 100 lámparas del fabricante B se obtuvo
una vida media de 1200 hs. y una desviación típica de 80 hs.
Halla los límites de confianza del 95% para la diferencia las vidas medias de las poblaciones A y
B.
165
Solución:
Sean las variables aleatorias:
X 1 : “duración en horas de una lámpara del fabricante A”
X 2 : “duración en horas de una lámpara del fabricante B”
No se dice cuál es la distribución de estas variables, pero como n1 = 150 y n 2 = 100
podemos usar el intervalo dado en (8.4)
Tenemos que x1 = 1400 , x 2 = 1200 , s1 = 120 y s 2 = 80 .

Además 1 − α = 0.95 → z α = z 0.025 = 1.96
2
Entonces el intervalo es
 120 2 80 2 120 2 80 2   
1400 − 1200 − 1.96 + ; 1400 − 1200 − 1.96 +  = 175.2077; 224.7922
 150 100 150 100   
Observación: como este intervalo no contiene al cero, podemos inferir que hay diferencia entre las
medias con probabilidad 0.95, es más, podemos inferir que la media del tiempo de duración de las
lámparas del fabricante A es mayor que la media del tiempo de duración de las lámparas del fabri-
cante B con probabilidad 0.95 .
9.5 – Intervalo de confianza para la diferencia de dos medias, varianzas desconocidas
Nuevamente supongamos que tenemos dos variables aleatorias independientes normalmente dis-
tribuidas:
 X 1 ~ N (µ1 , σ12 )
 y suponemos que las varianzas σ 12 y σ 22 son desconocidas .
 X 2 ~ N (µ 2 , σ 2 )
2
Sean además
( )
(X 21 , X 22 ,..., X 2 n2) una muestra aleatoria de tamaño n 2 de X 2 .
Pero ahora n1 o n 2 no son mayores que 30
Supongamos que es razonable suponer que las varianzas desconocidas son iguales, es decir
σ1 = σ 2 = σ
Deseamos construir un intervalo al nivel de confianza 1 − α para la diferencia de esperanzas
µ1 − µ 2
Sean X 1 y X 2 las medias muestrales y S12 y S 22 las varianzas muestrales. Como S12 y S 22 son
los estimadores de la varianza común σ 2 , entonces construimos un estimador combinado de σ 2 .
Este estimador es
(n1 − 1)S12 + (n2 − 1)S 22

S p2 =
n1 + n 2 − 2
Se puede comprobar que es un estimador insesgado de σ 2 .
Se puede probar que el estadístico
166
r
X 1 − X 2 − (µ 1 − µ 2 )
T= tiene distribución Student con n1 + n 2 − 2 grados de libertad
1 1
Sp +
n1 n 2
Por lo tanto se plantea la ecuación
 
P − t α ≤ T ≤ tα  = 1−α
, n1 + n2 − 2 
 2 ,n1 + n2 − 2 2 
o
 
 r 
 X 1 − X 2 − (µ 1 − µ 2 ) 
P − t α
, n1 + n2 − 2
≤ ≤ tα
, n1 + n2 − 2
 = 1−α
 1 1 

2
Sp + 2

 n 1 n 2 
Despejamos µ1 − µ 2 y queda la expresión
 1 1 1 1 
P X 1 − X 2 − t α Sp + ≤ µ1 − µ 2 ≤ t α Sp +  = 1−α
 2
, n1 + n2 − 2 n1 n 2 2
, n1 + n2 − 2 n1 n 2 
Entonces

( )
X 1 ~ N µ1 , σ 1 , X 2 ~ N µ 2 , σ 2
2
( 2
)
y suponemos que las varianzas σ 12 y σ 22 son desconocidas
e iguales, es decir σ 1 = σ 2 = σ
Un intervalo de confianza para la diferencia µ1 − µ 2 de nivel 1 − α es
1 1 1 1
X 1 − X 2 − t α / 2,n1+ n 2− 2 S p + ; X 1 − X 2 + t α / 2,n1+ n2 − 2 S p +
n1 n2 n1 n2
(8.5)
Ejemplo:
Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es afecta-
da por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación es-
tándar de la concentración activa es de 3 g/l, sin importar el tipo de catalizador utilizado. Se reali-
zan 10 observaciones con cada catalizador, y se obtienen los datos siguientes:
Catalizador 1: 57.9, 66.2, 65.4, 65.4, 65.2, 62.6, 67.6, 63.7, 67.2, 71.0
Catalizador 2: 66.4, 71.7, 70.3, 69.3, 64.8, 69.6, 68.6, 69.4, 65.3, 68.8
a) Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de las concen-
traciones activas para los dos catalizadores. Asumir que ambas muestras fueron extraídas de po-
blaciones normales con varianzas iguales.
b) ¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del cata-
lizador utilizado?
167
Solución:
Sean las variables aleatorias
X 1 : “ concentración del ingrediente activo con catalizador 1”
X 2 : “ concentración del ingrediente activo con catalizador 2”
Asumimos que ambas variables tienen distribución normal con varianzas iguales
Estamos e3n las condiciones para usar (8.5)
Tenemos que x1 = 65.22 , x 2 = 68.42 , s1 = 3.444 , s 2 = 2.224 , n1 = n2 = 10
Calculamos S p2 =
(n1 − 1)S12 + (n2 − 1)S 22 9 × 3.444 2 + 9 × 2.224 2
= = 8.4036
n1 + n 2 − 2 10 + 10 − 2
Por lo tanto S p = 8.4036 = 2.89890
Buscamos en la tabla de la Student t α = t 0.025,18 = 2.060
, n1 + n 2 − 2
2
 1 1 1 1
65.22 − 68.42 − 2.060 × 2.89890 + ;65.22 − 68.42 − 2.060 × 2.89890 + =
 10 10 10 10 
= [− 5.8706;−0.52935]
b) Existe alguna evidencia que indique que las concentraciones activas medias dependen del cata-
lizador utilizado, pues el 0 no pertenece al intervalo.
En muchas ocasiones no es razonable suponer que las varianzas son iguales. Si no podemos ga-
rantizar que las varianzas son iguales, para construir un intervalo de confianza de nivel 1 − α para
µ1 − µ 2 utilizamos es estadístico
X 1 − X 2 − ( µ1 − µ 2 )
T* =
S12 S12
+
n1 n1
Se puede probar que T * tiene aproximadamente una distribución Student con ν grados de liber-
tad donde
ν=
(S 1
2
n1 + S 22 n2 )
2
si ν no es entero, se toma el entero más próximo a ν

(S 1
n1
1 S2 n
+ 2 2
) (
2
)
2
n1 − 1 n2 − 1
Por lo tanto planteamos la ecuación
 
P − t α ≤ T * ≤ t α  = 1−α

 2 ,ν 2
,ν

Y despejando µ1 − µ 2 el intervalo es
168
 S12 S 22 S12 S 22 
X1 − X 2 − tα + , X 1 − X 2 + tα + 
,ν ,ν
 2
n1 n 2 2
n1 n 2 
Entonces

( )
X 1 ~ N µ1 , σ 1 , X 2 ~ N µ 2 , σ 2
2
( 2
)
y suponemos que las varianzas σ12 y σ 22 son desconocidas
y distintas
Un intervalo de confianza para la diferencia µ1 − µ 2 de nivel aproximadamente 1 − α es
 S12 S 22 S12 S 22 
X1 − X 2 − tα + , X 1 − X 2 + tα +  (8.6)
,ν ,ν
 2
n1 n2 2
n1 n 2 
Donde
ν=
(S 1
2
n1 + S 22 n2 )2
(S 1
n1
1 S2 n
+ 2 2
) (
2
) 2
n1 − 1 n2 − 1
Ejemplo:
Una muestra de 6 soldaduras de un tipo tenía promedio de prueba final de resistencia de 83.2 ksi y
desviación estándar de 5.2. Y una muestra de 10 soldaduras de otro tipo tenía resistencia promedio
de 71.3 ksi y desviación estándar de 3.1. supongamos que ambos conjuntos de soldaduras son
muestras aleatorias de poblaciones normales. Se desea encontrar un intervalo de confianza de 95%
para la diferencia entre las medias de las resistencias de los dos tipos de soldaduras.
Solución:
Ambos tamaños muestrales son pequeños y las muestras provienen de poblaciones normales. No
podemos asumir igualdad de varianzas. Entonces aplicamos (8.6)
Tenemos que x1 = 83.2 , x 2 = 71.3 , s1 = 5.2 , s 2 = 3.1 , n1 = 6; n2 = 10
α
Como 1 − α = 0.95 entonces = 0.025
2
2
 5.2 2 3.12 
 + 
Además ν =
(
S12 n1 + S 22 n 2
2
=
)
 6 10 
= 7.18 ≈ 7
(
S11 n1
2
+
) (
S 22 n 2
2
5.2 )2
6 +
3. 1
10
( ) (
2
)
n1 − 1 n2 − 1 5 9
Entonces buscamos en la tabla de la Student t 0.025, 7 = 2.365
Por lo tanto el intervalo es
 S12 S 22 S12 S 22 
X1 − X 2 − tα + , X 1 − X 2 + tα + =
,ν ,ν
 2
n1 n2 2
n1 n 2 
 5.2 2 3.12 5.2 2 3.12   
= 83.2 − 71.3 − 2.365 + ; 83.2 − 71.3 + 2.365 +  = 6.37, 17.43
 6 10 6 10   
169
9.6 – Intervalo de confianza para µ1 − µ 2 para datos pareados
Hasta ahora se obtuvieron intervalos de confianza para la diferencia de medias donde se tomaban
dos muestras aleatorias independientes de dos poblaciones de interés. En ese caso se tomaban n1
observaciones de una población y n 2 observaciones de la otra población.
En muchas situaciones experimentales, existen solo n unidades experimentales diferentes y los
datos están recopilados por pares, esto es cada unidad experimental está formada por dos observa-
ciones.
Por ejemplo, supongamos que se mide el tiempo en segundos que un individuo tarda en hacer una
maniobra de estacionamiento con dos automóviles diferentes en cuanto al tamaño de la llanta y la
relación de vueltas del volante. Notar que cada individuo es la unidad experimental y de esa unidad
experimental se toman dos observaciones que no serán independientes. Se desea obtener un inter-
valo de confianza para la diferencia entre el tiempo medio para estacionar los dos automóviles.
En general, supongamos que tenemos los siguientes datos ( X 11 , X 21 ); ( X 12 , X 22 );...; X 1n1 , X 2 n . ( )
Las variables aleatorias X 1 y X 2 tienen medias µ1 y µ 2 respectivamente.
Sea D j = X 1 j − X 2 j con j = 1,2,..., n .
Entonces
E (D j ) = E (X 1 j − X 2 j ) = E (X 1 j ) − E (X 2 j ) = µ1 − µ 2
y
V (D j ) = V (X 1 j − X 2 j ) = V (X 1 j ) + V (X 2 j ) − 2Cov (X 1 j , X 2 j ) = σ 12 + σ 22 − 2Cov( X 1 , X 2 )
Estimamos E (D j ) = µ1 − µ 2 con D =
1 n
∑ j n∑
D =
1 n
(X 1 j − X 2 j ) = X 1 − X 2
n j =1 j =1
En lugar de tratar de estimar la covarianza, estimamos la V (D j ) con S D =

1 n
∑ (D j − D )2
n − 1 j =1
Anotamos µ D = µ1 − µ 2 y σ 2 D = V (D j )
Asumimos que D j ~ N µ D , σ D ( 2
) con j = 1,2,..., n
Las variables aleatorias en pares diferentes son independientes, no lo son dentro de un mismo par.
Para construir el intervalo de confianza notar que
D − µD
T= ∼ t n −1
SD / n
entonces al plantear la ecuación P(− t ≤ T ≤ t ) = 1- α , deducimos que t = t α

, n −1
2
Por lo tanto el intervalo de confianza para µ D = µ1 − µ 2 de nivel 1 − α se obtendrá al sustituir T

en la ecuación anterior y despejar µ D = µ1 − µ 2
El intervalo resultante es
170
 SD SD 
 D − t α ,n −1 ; D + tα
, n −1

 2 n 2 n
Entonces
( )
Cuando las observaciones se dan de a pares ( X 11 , X 21 ); ( X 12 , X 22 );...; X 1n1 , X 2 n , y las diferen-
cias
( )
D j = X 1 j − X 2 j son tales que D j ~ N µ D , σ D para j = 1,2,..., n , un intervalo de confianza
2
de nivel 1 − α para µ D = µ1 − µ 2 es
 SD SD 
 D − t α ,n −1 ; D + tα
, n −1
 (8.7)
 2 n 2 n
Ejemplo:
Consideramos el ejemplo planteado al comienzo. Deseamos un intervalo de nivel 0.90
X 1 j : “tiempo en segundos que tarda el individuo j en estacionar automóvil 1” con j = 1,2,..., n
X 2 j : “tiempo en segundos que tarda el individuo j en estacionar automóvil 2” con j = 1,2,..., n
Medimos estas variables de manera que tenemos las siguientes observaciones
Automóvil 1 Automóvil 2 diferencia

sujeto (observación x1 j ) (observación x 2 j ) Dj
1 37.0 17.8 19.2
2 25.8 20.2 5.6
3 16.2 16.8 -0.6
4 24.2 41.4 -17.2
5 22.0 21.4 0.6
6 33.4 38.4 -5.0
7 23.8 16.8 7.0
8 58.2 32.2 26.0
9 33.6 27.8 5.8
10 24.4 23.2 1.2
11 23.4 29.6 -6.2
12 21.2 20.6 0.6
13 36.2 32.2 4.0
14 29.8 53.8 -24.0
A partir de la columna de diferencias observadas se calcula D = 1.21 y S D = 12.68
Además t α = t 0.05,13 = 1.771 , entonces el intervalo para la diferencia µ D = µ1 − µ 2 de nivel 0.90

, n −1
2
es
 12.68 12.68   
1.21 − 1.771 × ; 1.21 + 1.771 ×  = − 4.79; 7.21
 14 14   
171
9.7 – Intervalo de confianza para la varianza de una distribución normal
Supongamos que se quiere hallar un intervalo de confianza para la varianza σ 2 de una distribu-
ción normal.
Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de una v.a. X, donde X ~ N ( µ , σ 2 ) .
2
∑ (X i − X )
1 n
Tomamos como estimador puntual de σ 2 a S 2 =
n − 1 1=1
Luego a partir de este estimador puntual construimos el estadístico X =

(n − 1)S 2
σ2
Este estadístico contiene al parámetro desconocido a estimar σ 2 y tiene una distribución conocida,
se puede probar que X tiene una distribución llamada ji-cuadrado con n-1 grados de libertad
Observación: Si X es una v.a. continua se dice que tiene distribución ji-cuadrado con k grados de
libertad si su f.d.p. es
1 (k )−1 − x
f ( x) = x 2 e 2 x>0
k k
2 2 Γ 
2
Notación: X~ χ k
2
La distribución ji-cuadrdo es asimétrica. En la figura siguiente se grafica la densidad para diferen-

tes valores de k
0.12
k =2
0.1
k = 15
0.08
k = 30
0.06
0.04
0.02
10 20 30 40 50 60
Anotaremos χ 2 α ,k al cuantil de la ji-cuadrado con k grados de libertad que deja bajo la fdp a dere-
cha un área de α , y a su izquierda un área de 1 − α .
Propiedades:
1- Se puede probar que si X 1 , X 2 ,..., X n son variables aleatorias independientes con distribución
N (0,1) entonces Z = X 1 + X 2 + ... + X n tiene distribución ji-cuadrado con n grados de libertad.
2 2 2
172
2- Si X 1 , X 2 ,..., X n son variables aleatorias independientes tal que X i tiene distribución ji-
cuadrado con k i grados de libertad, entonces Z = X 1 + X 2 + ... + X n tiene distribución ji-cuadrado
con k grados de libertad donde k = k1 + k 2 + ... + k n
 
3- Si X ~ χ k2 entonces para k grande 2 X ~ N  2k − 1, 1 aproximadamente.
 
Para desarrollar el intervalo de confianza planteamos hallar dos números a y b tales que
P(a ≤ X ≤ b ) = 1 − α es decir

P a ≤
(n − 1)S 2 ≤ b  = 1 − α
σ2 
 
Se puede probar que la mejor elección de a y b es: a = χ 2 α y b = χ α2

1− , n −1 , n −1
2 2
k =5
1−α
α
2 α
2
χ2α χ α2
1− , n −1 , n −1
2 2
Por lo tanto

P χ 2 α ≤
(n − 1)S 2 ≤ χ 2  = 1 − α
, n −1 
α
 1− 2 ,n −1 σ2 2 
y despejando σ 2 se llega a
 
 (n − 1)S 2 (n − 1)S 2 
P ≤ σ 2
≤  = 1−α
 χ α ,n −1 χ2α
2
1− , n −1

 2 2 
Entonces
173
Si ( X 1 , X 2 ,..., X n ) es una muestra aleatoria de una v.a. X, donde X ~ N ( µ , σ 2 ) , un intervalo de

confianza para σ 2 de nivel 1 − α es
 
 (n − 1)S 2 (n − 1)S 2 
 ;  (8.8)
 χ α , n−1 χ2α
2
1− , n −1

 2 2 
 
 (n − 1)S 2 ; (n − 1)S 2 
Observación: un intervalo de confianza para σ de nivel 1 − α , es 
 χ α2 χ2 α 
, n −1 1− , n −1
 2 2 
Ejemplo:
Un fabricante de detergente líquido está interesado en la uniformidad de la máquina utilizada para
llenar las botellas. De manera específica, es deseable que la desviación estándar σ del proceso de
llenado sea menor que 0.15 onzas de líquido; de otro modo, existe un porcentaje mayor del desea-
ble de botellas con un contenido menor de detergente. Supongamos que la distribución del volu-
men de llenado es aproximadamente normal. Al tomar una muestra aleatoria de 20 botellas, se ob-
tiene una varianza muestral S 2 = 0.0153 . Hallar un intervalo de confianza de nivel 0.95 para la
verdadera varianza del volumen de llenado.
Solución:
La v.a. de interés es X: “ volumen de llenado de una botella”
Se asume que X ~ N ( µ , σ 2 ) con σ desconocido.
Estamos en las condiciones para aplicar (8.8)
Tenemos que 1 − α = 0.95 → α = 0.05 → χ 2 α = χ 02.975,19 = 8.91 y χ α2 = χ 02.025,19 = 32.85

1− , n −1 , n −1
2 2
Además S = 0.0153
2
 
 (n − 1)S 2 (n − 1)S 2  =  (20 − 1) × 0.0153 ; (20 − 1) × 0.0153  = (0.00884;
 ;    0.0326 )
 χ α , n−1 χ2α
2
  32.85 8.91 
1− , n −1
 2 2 
Y un intervalo para σ es ( 0.00884 ; )

0.0326 = (0.09; 0.1805)
Por lo tanto con un nivel de 0.95 los datos no apoyan la afirmación que σ < 0.15
9.8 – Intervalo de confianza para el cociente de varianzas de dos distribuciones normales
174
Supongamos que se tienen dos poblaciones normales e independientes con varianzas desconocidas
σ 12 y σ 22 respectivamente. Se desea encontrar un intervalo de nivel 1 − α para el cociente de las
σ 12
dos varianzas 2 .
σ2
Se toma una muestra aleatoria de tamaño n1 de una de las poblaciones y una muestra de tamaño
n 2 de la otra población. Sean S12 y S 22 las dos varianzas muestrales.
Consideramos el estadístico
S 22
σ 22
F=
S12
σ 12
σ 12 S 22 × σ 12
Notar que F contiene al parámetro de interés , pues F=
σ 22 S12 × σ 22
Se puede probar que F tiene una distribución llamada Fisher con n 2 − 1 y n1 − 1 grados de libertad.
Observación:
Sea X una variable aleatoria continua, se dice que tiene distribución Fisher con u grados de libertad
en el numerador y v grados de libertad en el denominador si su fdp es de la forma
u
u
 u + v  u  2 2 −1
Γ   x
f ( x) =  2  v  0< x<∞
u +v
 u   v   u   2
Γ Γ    x + 1
 2   2   v  
En particular si W e Y son variables aleatorias independientes ji-cuadrado con u y v grados de liber-

tad respectivamente, entonces el cociente
W
F= u
Y
v
Tiene una distribución Fisher con u grados de libertad en el numerador y v grados de libertad en el
denominador.
Notación: F ~ Fu ,v
La gráfica de una distribución Fisher es similar a la de una ji-cuadrado, es asimétrica. Anotamos

f α ,u ,v al cuantil que deja a su derecha un área de α bajo la curva de densidad.
u = 15; v = 20
α
175
f α ,u ,v
Existe la siguiente relación entre los cuantiles de una Fu ,v y de una Fv ,u
1
f1−α ,u ,v =
f α ,v ,u
Planteamos la siguiente ecuación P(a ≤ F ≤ b ) = 1 − α y se pede probar que la mejor elección de

a y b es : a= f α y
1− , n2 −1, n1 −1
2
b = fα
, n2 −1, n1 −1
2
u = 15; v = 20
α
α
2
2
f α
1− , n2 −1, n1 −1
2
fα ,n2 −1,n1 −1
 S2 σ 2 
Entonces P f α ≤ 22 22 ≤ f α  = 1−α
, n2 −1, n1 −1 
 1− 2 ,n2 −1,n1 −1 S1 σ 1 2 
σ 12
Despejando el cociente queda :
σ 22
S2 σ 2 S2 
P 12 f α ≤ 12 ≤ 12 f α  = 1−α
S 1− , n2 −1, n1 −1 σ S , n2 −1, n1 −1 
 2 2 2 2 2 
Por lo tanto
176
Si se tienen dos poblaciones normales e independientes con varianzas desconocidas σ 12 y σ 22

respectivamente, entonces un intervalo de nivel 1 − α para el cociente de las dos varianzas
σ 12
es
σ 22
 S12 S12 
 2 f 1− α ,n −1, n −1 ; 2 f α ,n −1,n −1  (8.9)
 S2 2
2 1 S2 2 2 1 
Ejemplo:
Una compañía fabrica propulsores para uso en motores de turbina. Una de las operaciones consiste
en esmerilar el terminado de una superficie particular con una aleación de titanio. Pueden emplear-
se dos procesos de esmerilado, y ambos pueden producir partes que tienen la misma rugosidad
superficial promedio. Interesaría seleccionar el proceso que tenga la menor variabilidad en la rugo-
sidad de la superficie. Para esto se toma una muestra de 12 partes del primer proceso, la cual tiene
una desviación estándar muestral S1 = 5.1 micropulgadas, y una muestra aleatoria de 15 partes del
segundo proceso, la cual tiene una desviación estándar muestral S 2 = 4.7 micropulgadas. Se desea
encontrar un intervalo de confianza de nivel 90% para el cociente de las dos varianzas.
Suponer que los dos procesos son independientes y que la rugosidad de la superficie está distribui-
da de manera normal.
Solución:
Estamos en las condiciones para aplicar (8.9)
1 1
Buscamos en la tabla de la Fisher f α = f 0.95,14,11 = = = 0.39
1− , n2 −1, n1 −1
2
f 0.05,11,14 2.58
y fα = f 0.05,14,11 = 2.74
, n2 −1, n1 −1
2
 5.12 5.12 
 2 0 . 39; 2
2.74  = [0.46; 3.23]
 4.7 4.7 
Como este intervalo incluye al 1, no podemos afirmar que las desviaciones estándar de los dos
procesos sean diferentes con una confianza de 90%.
9.9 – Intervalo de confianza para una proporción
Sea una población de tamaño N (eventualmente puede ser infinito) de cuyos individuos nos inter-
esa cierta propiedad A. Supongamos que la probabilidad de que un individuo de la población veri-
fique A es p = P( A) .El significado del parámetro p es, en consecuencia, el de proporción de indi-
viduos de la población que verifican la propiedad A. Podemos definir una variable
aleatoria X i que mide a los individuos de la población la ocurrencia o no de la propiedad A .
La variable aleatoria tendrá la distribución:
177
 p (1) = P( X i = 1) = p

p (x ) = 
 p(0 ) = P( X i = 0 ) = 1 − p,
es decir, Xi es una v.a. que toma sólo dos valores: 1 (si el individuo verifica A) con probabilidad p
y 0 (cuando no verifica A) con probabilidad 1-p. Esto es equivalente a decir que Xi tiene una distri-
bución binomial con parámetros 1 y p: Xi ~ B(1,p).
Supongamos que consideramos una muestra aleatoria ( X 1 , X 2 ..., X n ) de tamaño n . Si formamos

el estadístico X = X 1 + X 2 + ... + X n , es evidente que esta v.a. mide el número de individuos de la
muestra de tamaño n que verifican la propiedad A. Por lo tanto por su significado X es una v.a.
cuya distribución es binomial con parámetros n y p: X~B(n,p). De acuerdo con esto, la variable
X
aleatoria P̂ definida: P̂ = representa la proporción de individuos de la muestra que verifican la
n
propiedad A.
Observemos que siendo Xi ~ B(1,p) es E ( X i ) = p . Y, dado que X~B(n,p), también es
() X 1 1
E P̂ = E   = E ( X ) = np = p , es decir P̂ es un estimador insesgado de p . Esto es de espe-
n n n
n
X 1
rar pues Pˆ = = ∑ Xi .
n n i =1
Pero además, es fácil ver que P̂ es estimador consistente de p . En efecto, tenemos que E P̂ = p ,()
pero también es
p (1 − p )
() X 1
V P̂ = V   = 2 np (1 − p ) = .
n n n
Deseamos construir un intervalo de confianza de p. Es razonable basarnos en el estimador insega-

do P̂ . Consideramos como pivote a la variable aleatoria
P̂ − p
Z= cuya distribución es, para n suficientemente grande, aproximadamente N(0,1). En
p(1 − p )
n
efecto:
 X  p (1 − p )
() X 
()
n n
X X X
Siendo Pˆ = 1 + 2 + ... + n , es E Pˆ = ∑ E  i  = p y V Pˆ = ∑ V  i  =
n n n i =1  n  i =1  n  n
Por lo tanto:
Pˆ − p
Z= ~ N (0,1) ,
p(1 − p ) n grande
El pivote puede ponerse en una forma más conveniente si tenemos en cuenta que, según vimos
recién, P̂ es estimador consistente de p y en consecuencia, en el denominador reemplazamos el
parámetro desconocido p por su estimador P̂ , y se puede probar que :
178
Pˆ − p
Z= ≈ N(0,1). aproximadamente si n es grande
(
Pˆ 1 − Pˆ )
n
Partiendo de este pivote podemos seguir los mismos pasos de los casos anteriores para llegar al
siguiente intervalo de confianza al nivel 1 − α de p:

 Pˆ − z α
(
Pˆ 1 − Pˆ ˆ)
, P + zα
( )
Pˆ 1 − Pˆ 


con Φ z α
 α
 = 1− .
 n n   2
2 2   2 
Entonces
Si P̂ es la proporción de observaciones de una muestra aleatoria de tamaño n que verifican una

propiedad de interés, entonces un intervalo de confianza para la proporción p de la población
que cumple dicha propiedad de nivel aproximadamente 1 − α es

 Pˆ − z α
(
Pˆ 1 − Pˆ )
, Pˆ + z α
( )
Pˆ 1 − Pˆ 
 (8.10)
 2
n 2
n 

Observaciones:
1- Este procedimiento depende de la aproximación normal a la distribución binomial. Por lo tanto
el intervalo (8.10) se puede utilizar si nPˆ > 10 y n(1 − Pˆ ) > 10 , es decir, la muestra debe contener
un mínimo de diez éxitos y diez fracasos.
2- La longitud del intervalo es L = 2 z α

Pˆ 1 − Pˆ ( )
, pero esta expresión está en función de P̂
2
n
Si nos interesa hallar un valor de n de manera tal que la longitud L sea menor que un valor deter-
minado, podemos hacer dos cosas:
a) tomar una muestra preliminar, con ella estimar p con P̂ y de la expresión anterior despejar n, lo
que lleva a
2
 2zα 
L = 2zα
(
Pˆ 1 − Pˆ
≤l
) 
⇒ n≥ 2

(
 Pˆ 1 − Pˆ )
2
n  l 
 
( )
b) si no tomamos una muestra preliminar, entonces acotamos Pˆ 1 − Pˆ ≤ 0.5 × (1 − 0.5) , entonces
2
 zα 
L = 2zα
(
Pˆ 1 − Pˆ )
≤ 2zα
0.5(1 − 0.5)
≤l

⇒ n≥ 2


2
n 2
n  l 
 
Ejemplo:
179
Un fabricante de componentes compra un lote de dispositivos de segunda mano y desea saber la

proporción de la población que están fallados. Con ese fin experimenta con 140 dispositivos elegi-
dos al azar y encuentra que 35 de ellos están fallados.
a) Calcular un intervalo de confianza del 99% para la proporción poblacional p.
b) ¿De qué tamaño deberá extraerse la muestra a fin de que la proporción muestral no difiera de la
proporción poblacional en más de 0.03 con un 95% de confianza?
Solución:
a) El tamaño de la muestra es n = 140 (muestra grande)
35
La proporción muestral es Pˆ = = 0.25
140
α
El nivel de confianza es 1 − α = 0.99 → α = 0.01 → = 0.005 .
2
De la tabla de la normal estandarizada vemos que z 0.005 = 2.58 . Entonces el intervalo buscado es:
 0.25(1 − 0.25) 0.25(1 − 0.25) 

0.25 − 2.58 , 0.25 + 2.58  = [0.15558, 0.34441]
 140 140 
b) Buscamos el tamaño n de la muestra tal que con un 95% de confianza la proporción muestral P̂
esté a una distancia 0.03 de la proporción poblacional p, es decir buscamos n tal que
L α
≤ 0.03 , por lo tanto como α = 0.05 → = 0.025 si tomamos la muestra anterior como pre-
2 2
liminar :
2
 2zα 
 
( )
2
 2 × 1.96 
n≥ 2  ˆ
P 1 − ˆ
P =   0.25(1 − 0.25) = 800.3333
 l   2 × 0.03 
 
Por lo tanto hay que tomar una muestra de tamaño por lo menos 801. como ya se tomó una mues-
tra de tamaño 140, hay que tomar otra adicional de tamaño 801 − 140 = 661
Supongamos que no tomamos una muestra inicial, entonces directamente planteamos
2
 zα 
   1.96 
2
n≥ 2  =  = 1067.1111
 l   2 × 0.03 
 
Entonces hay que tomar una muestra de tamaño 1068 por lo menos.
9.10 – Intervalo de confianza para la diferencia entre dos proporciones
Supongamos que existen dos proporciones de interés p1 y p 2 y es necesario obtener un intervalo

de confianza de nivel 1 − α para la diferencia p1 − p 2 .
180
Supongamos que se toman dos muestras independientes de tamaños n1 y n 2 respectivamente de

dos poblaciones.
X 1 : “número de observaciones en la primera muestra que tienen la propiedad de interés”
X 2 : “número de observaciones en la segunda muestra que tienen la propiedad de interés”
Entonces X 1 y X 2 son variables aleatorias independientes y X1~B(n1,p1) ; X2~B(n2,p2)
X X
Además Pˆ1 = 1 y Pˆ2 = 2 son estimadores puntuales de p1 y p 2 respectivamente.
n1 n2
p (1 − p1 ) p 2 (1 − p 2 )
( )
Vemos que E Pˆ1 − Pˆ2 = p1 − p 2 y V Pˆ1 − Pˆ2 = 1
n1
(
+
n2
)
Aplicando la aproximación normal a la binomial podemos decir que
Pˆ1 − Pˆ2 − ( p1 − p 2 )
Z= ≈ N (0,1) , y como en el caso de intervalo para una proporción estima-
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
mos
p1 (1 − p1 ) p2 (1 − p2 )
+ con
( ) (
Pˆ1 1 − Pˆ1 Pˆ2 1 − Pˆ2
+
)
y entonces
n1 n2 n1 n2
Pˆ1 − Pˆ2 − ( p1 − p 2 )
Z= ≈ N (0,1) aproximadamente.
(
Pˆ1 1 − Pˆ1
+
) (
Pˆ2 1 − Pˆ2 )
n1 n2
Planteamos la ecuación P(− z ≤ Z ≤ z ) = Φ( z ) − Φ(− z ) =1- α , lo que lleva a
z = z α , y con una deducción análoga a las anteriores se llega al intervalo
2

 Pˆ1 − Pˆ2 − z α
( ) (
Pˆ1 1 − Pˆ1 Pˆ2 1 − Pˆ2
+
)
; Pˆ1 − Pˆ2 + z α
( ) (
Pˆ1 1 − Pˆ1 Pˆ2 1 − Pˆ2 
+ 
)
 2
n1 n2 2
n1 n2 
Entonces
Si P̂1 y P̂2 son las proporciones muestrales de una observación de dos muestras aleatorias inde-
pendientes de tamaños n1 y n 2 respectivamente que verifican la propiedad de interés, entonces
un intervalo de confianza de nivel 1 − α aproximadamente es

 Pˆ1 − Pˆ2 − z α
( ) (
Pˆ1 1 − Pˆ1 Pˆ2 1 − Pˆ2
+
)
; Pˆ1 − Pˆ2 + z α
( ) ( )
Pˆ1 1 − Pˆ1 Pˆ2 1 − Pˆ2 
+  (8.11)
 2
n1 n2 2
n1 n2 
Ejemplo:
Se lleva a cabo un estudio para determinar la efectividad de una nueva vacuna contra la gripe. Se
administra la vacuna a una muestra aleatoria de 3000 sujetos, y de ese grupo 13 contraen gripe.
Como grupo de control se seleccionan al azar 2500 sujetos, a los cuales no se les administra la va-
cuna, y de ese grupo 170 contraen gripe. Construya un intervalo de confianza de nivel 0.95 para la
diferencia entre las verdaderas proporciones de individuos que contraen gripe.
181
Solución:
X 1 : “número de personas que contraen gripe del grupo que recibió la vacuna”
X 2 : “número de personas que contraen gripe del grupo que no recibió la vacuna”
Entonces X1~B(n1,p1) ; X2~B(n2,p2) donde n1 = 3000 ; n 2 = 2500
13 170
Además Pˆ1 = ; Pˆ2 =
3000 2500
Y 1 − α = 0.95 → z α = z 0.025 = 1.96
2
Entonces

 Pˆ1 − Pˆ2 − z α
( ) (
Pˆ1 1 − Pˆ1 Pˆ2 1 − Pˆ2
+
); Pˆ1 − Pˆ2 + z α
( ) ( )
Pˆ1 1 − Pˆ1 Pˆ2 1 − Pˆ2 
+ =
 2
n1 n2 2
n1 n2 
13  13  170  170 
1 −  1 − 
 13 170 3000  3000  2500  2500 
= − − 1.96 + ;
 3000 2500 3000 2500
13  13  170  170  
1 −  1 − 
13 170 3000  3000  2500  2500    
− + 1.96 + = − 0.0738112; − 0.0535222
3000 2500 3000 2500   


182
Parte 2 – Test de hipótesis Prof. María B. Pintarelli
10- Test o prueba de hipótesis

Hasta ahora hemos estudiado el problema de estimar un parámetro desconocido a partir de una muestra
aleatoria.
En muchos problemas se requiere tomar una decisión entre aceptar o rechazar una proposición sobre
algún parámetro. Esta proposición recibe el nombre de hipótesis estadística, y el procedimiento de toma
de decisión sobre la hipótesis se conoce como prueba o test de hipótesis.
Como se emplean distribuciones de probabilidad para representar poblaciones, también podemos decir
que una hipótesis estadística es una proposición sobre la distribución de probabilidad de una variable
aleatoria, donde la hipótesis involucra a uno más parámetros de esta distribución.
Por ejemplo, supongamos que cierto tipo de motor de automóvil emite una media de 100 mg de óxidos
de nitrógeno (NOx) por segundo con 100 caballos de fuerza. Se ha propuesto una modificación al diseño
del motor para reducir las emisiones de NOx. El nuevo diseño se producirá si se demuestra que la media
de su tasa de emisiones es menor de 100 mg/s. Se construye y se prueba una muestra de 50 motores
modificados. La media muestral de emisiones de NOx es de 92 mg/s, y la desviación estándar muestral
es de 21 mg/s.
La variable aleatoria de interés en este caso es X: “tasa de emisión de un motor modificado tomado al
azar”.
La preocupación de los fabricantes consiste en que los motores modificados no puedan reducir todas la
emisiones; es decir que la media poblacional pudiera ser 100 o mayor que 100.
Entonces, la pregunta es: ¿es factible que esta muestra pueda provenir de una v.a. con media 100 o
mayor?
Éste es el tipo de preguntas que las pruebas de hipótesis están diseñadas para responder. Veremos cómo
construir una prueba de hipótesis, pero podemos decir que en general se basa en construir a partir de la
muestra aleatoria un estadístico, y según el valor que tome este estadístico de prueba se aceptará o se
rechazará la hipótesis.
Se ha observado una muestra con media X = 92 .
Hay dos interpretaciones posibles de esta observación:
1- La media poblacional es realmente mayor o igual que 100, y la media muestral es menor que 100
debido a la variabilidad propia de la variable aleatoria X
2- La media poblacional es en realidad menor que 100, y la media muestral refleja este hecho.
Estas dos explicaciones tienen nombres: la primera se llama hipótesis nula; la segunda es la hipótesis
alternativa.
En la mayoría de las situaciones la hipótesis nula dice que el efecto que indica la muestra es atribuible
solamente a la variación aleatoria del estadístico de prueba.
La hipótesis alternativa establece que el efecto que indica la muestra es verdadero.
Para hacer las cosas más precisas, todo se expresa mediante símbolos. La hipótesis nula se denota por
H 0 , la hipótesis alternativa se denota con H 1 . Como es usual la media poblacional se anota µ . Por lo
tanto se tiene
H 0 : µ ≥ 100 contra H 1 : µ < 100 (hipótesis alternativa unilateral)
Esencialmente, para realizar una prueba de hipótesis se pone la hipótesis nula en juicio. Se asume que
H 0 es verdadera, de la misma manera como se empieza en un juicio bajo el supuesto de que un acusado
es inocente. La muestra aleatoria proporciona la evidencia.
182
Las hipótesis son siempre proposiciones sobre los parámetros de la población o distribución bajo
estudio, no proposiciones sobre la muestra.
Otros tipos de hipótesis que podrían formularse son
H 0 : µ ≤ 100 contra H 1 : µ > 100 (hipótesis alternativa unilateral)

o
H 0 : µ = 100 contra H 1 : µ ≠ 100 (hipótesis alternativa bilateral)
En el ejemplo tenemos X 1 , X 2 ,..., X 50 muestra aleatoria de la v.a. X definida anteriormente.

Como estamos haciendo una hipótesis sobre la media poblacional es razonable tomar como estadístico
de prueba a X . El valor observado de la media muestral es X = 92 .
Si el valor de X es muy “menor” que 100 entonces se considera que hay evidencia en contra H 0 y se la
rechaza, aceptando la hipótesis alternativa.
Si el valor de X no es “muy menor” que 100 entonces se considera que no hay evidencia en contra H 0
y se rechaza la hipótesis alternativa.
Ya veremos como construir una regla de decisión, supongamos ahora que tenemos la siguiente regla:
se rechaza H 0 si X < 95



 se acepta H 0 si X ≥ 95

 
El intervalo  95, ∞  es la zona de aceptación.
 
 
La región  − ∞; 95  es la zona de rechazo o región crítica.
 
Mientras que 95 es el punto crítico.
Como estamos tomando una decisión basados en el valor de un estadístico podemos cometer dos tipos
de errores: rechazar H 0 cuando ésta es verdadera, es decir el estadístico toma valores en la zona de
rechazo cuando H 0 es verdadera; o aceptar H 0 cuando ésta es falsa, es decir que el estadístico tome
valores en la zona de aceptación cuando H 0 es falsa.
El primero se conoce como error de tipo I, y el segundo como error de tipo II.
Debido a que la decisión se basa en variables aleatorias es posible asociar probabilidades a los errores de
tipo I y II, específicamente anotamos
α = P(error de tipo I )
β = P(error de tipo II )
A α = P(error de tipo I ) se lo conoce como nivel de significancia del test.
Para calcular estas probabilidades debemos conocer la distribución del estadístico de prueba en el caso
de ser H 0 verdadera, es decir debemos conocer la distribución del estadístico de prueba “bajo H 0 ”.
183
En el ejemplo anterior la muestra es grande, ya sabemos que por T.C.L. el estadístico
X − 100 X − 100
Z= ≈ N (0,1) si H 0 es verdadera, o sea Z = ≈ N (0,1)
s 21
n 50
Entonces para calcular α planteamos:
 
α = P(error de tipo I ) = P rechazar H 0 / H 0 es V  = P( X < 95 / µ = 100 ) =
 
   
 X − 100 95 − 100   95 − 100 
= P <  ≈ Φ 21  = Φ(− 1.6835) = 1 − 0.95352 = 0.04648
 21 21   
 50 50   50 
Esto significa que el 4.64% de las muestras aleatorias conducirán al rechazo de la hipótesis H 0 : µ ≥ 100
cuando el verdadero µ sea mayor o igual que 100.
En este caso el gráfico de la zona de rechazo es
 212 
N 100, 
 50 
α = 0.04648
Del gráfico anterior vemos que podemos reducir α al aumentar la zona de aceptación. Por ejemplo
supongamos que ahora la regla de decisión es
se rechaza H 0 si X < 93



 se acepta H 0 si X ≥ 93

 
Entonces α = P(error de tipo I ) = P rechazar H 0 / H 0 es V  = P( X < 93 / µ = 100) =
 
   
 X − 100 93 − 100   93 − 100 
= P <  ≈ Φ 21  = Φ (− 2.357 ) = 1 − 0.99061 = 0.00939
 21 21   
 50 50   50 
184
También se puede reducir α aumentando el tamaño de la muestra. Supongamos que n = 85 , entonces
 
α = P (error de tipo I ) = P rechazar H 0 / H 0 es V  = P ( X < 95 / µ = 100 ) =
 
   
 X − 100 95 − 100   95 − 100 
= P <  ≈ Φ 21  = Φ (− 2.195) = 1 − 0.98574 = 0.01426
 21 21   
 85 85   85 
También es importante examinar la probabilidad de cometer error de tipo II, esto es
β = P(error de tipo II ) = P (aceptar H 0 / H 0 es falsa )

Pero en este caso para llegar a un valor numérico necesitamos tener una alternativa específica pues en
nuestro ejemplo:
β = P(error de tipo II ) = P(aceptar H 0 / H 0 es falsa ) = P( X ≥ 95 / µ ≠ 100 ) =
   
 X −µ 95 − µ   95 − µ 
= P ≥  = 1 − Φ 21  = β (µ )
 21 21   
 50 50   50 
Donde anotamos con µ a la verdadera media poblacional desconocida.

Podemos entonces calcular β para un valor particular de µ , por ejemplo nos puede interesar como se
comporta el test cuando la verdadera media es µ = 94 , entonces
   
 X − 94 95 − 94   95 − 94 
β (94) = P ≥  = 1 − Φ 21  = 1 − Φ(0.3367 ) = 1 − 0.62930 = 0.3707
 21 21   
 50 50   50 
Gráficamente:
bajo H 1 : µ = 94
bajo H 0 : µ = 100
zona de rechazo
β (94) = 0.3707
185
La probabilidad β de cometer error de tipo II crece a medida que el valor verdadero de µ se acerca al
valor hipotético. Por ejemplo si el verdadero valor de µ fuera 94.7 entonces
   
 X − 94.7 95 − 94.7   95 − 94.7 
β (94.7 ) = P ≥  = 1 − Φ  = 1 − Φ(0.101015) = 1 − 0.53983 = 0.46017
 21 21   21 
 50 50   50 
bajo H 1 : µ = 94.7
bajo H 0 : µ = 10'0
β (94.7) = 0.46017
zona de rechazo
Además, la probabilidad β de cometer error de tipo II disminuye a medida que el valor verdadero de µ
se aleja del valor hipotético. Por ejemplo si el verdadero valor de µ fuera 90 entonces
   
 X − 90 95 − 90   95 − 90 
β (90 ) = P ≥  = 1 − Φ  21  = 1 − Φ(1.6835) = 1 − 0.95352 = 0.04648
 21 21   
 50 50   50 
bajo H 1 : µ = 90
bajo H 0 : µ = 100
β (90 ) = 0.04648
zona de rechazo
186
También se puede reducir la probabilidad de cometer error de tipo II con el tamaño de la muestra. Por
ejemplo si n = 85 entonces y µ = 94
   
 X − 94 95 − 94   95 − 94 
β (94) = P ≥  = 1 − Φ  21  = 1 − Φ(0.4390) = 1 − 0.67003 = 0.32997
 21 21   
 85 85   85 
Lo que se ha visto en los ejemplos anteriores se puede generalizar. Podemos recalcar los siguientes
puntos importantes:
1- El tamaño de la región crítica, y en consecuencia la probabilidad α de cometer error de tipo I,
siempre pueden reducirse mediante una selección apropiada de los valores críticos.
2- Los errores tipo I y II están relacionados. Una disminución en la probabilidad en un tipo de error
siempre da como resultado un aumento en la probabilidad del otro, siempre que el tamaño de la
muestra no cambie.
3- En general, un aumento en el tamaño de la muestra reduce tanto a α como a β , siempre que los
valores críticos se mantengan constantes.
4- Cuando la hipótesis nula es falsa, β aumenta a medida que el valor verdadero del parámetro tiende
al valor hipotético propuesto por la hipótesis nula. El valor de β disminuye a medida que aumenta
la deferencia entre el verdadero valor medio y el propuesto.
En general el investigador controla la probabilidad α del error de tipo I cuando selecciona los valores
críticos. Por lo tanto el rechazo de la hipótesis nula de manera errónea se puede fijar de antemano. Eso
hace que rechazar la hipótesis nula sea una conclusión fuerte.
La probabilidad β de error de tipo II no es constante, sino que depende del valor verdadero del paráme-
tro. También depende β del tamaño de la muestra que se haya seleccionado. Como β está en función
del tamaño de la muestra y del valor verdadero del parámetro, la decisión de aceptar la hipótesis nula se
la considera una conclusión débil, a menos que se sepa que β es aceptablemente pequeño. Por lo tanto
cuando se acepta H 0 en realidad se es incapaz de rechazar H 0 . No se puede rechazar H 0 pues no
hay evidencia en contra H 0 .
Un concepto importante es el siguiente:
La potencia de un test es la probabilidad de rechazar la hipótesis nula. La simbolizamos π (µ ) . Para los
valores de µ tal que la alternativa es verdadera se tiene
 
π (µ ) = P rechazar H 0 / H 0 es falsa  = 1 − β (µ )
 
Las pruebas estadísticas se comparan mediante la comparación de sus propiedades de potencia.

La potencia es una medida de la sensibilidad del test, donde por sensibilidad se entiende la capacidad de
una prueba para detectar diferencias.
En el ejemplo anterior, la sensibilidad de la prueba para detectar la diferencia entre una tasa de emisión
media de 100 y otra de 94 es π (94) = 1 − β (94 ) = 1 − 0.3707 = 0.6293 . Es decir si el valor verdadero de la
tasa de emisión media es 94, la prueba rechazará de manera correcta H 0 y detectará esta diferencia el
62.93% de las veces. Si el investigador piensa que este valor es bajo entonces el investigador puede
aumentar α o el tamaño de la muestra.
187
10.2 – Prueba de hipótesis sobre la media, varianza conocida
Veamos ahora cómo construir una regla de decisión sobre la media de una población.
Supongamos que la variable aleatoria de interés X tiene una media µ y una varianza σ 2 conocida.
Asumimos que X tiene distribución normal, es decir X ~ N ( µ , σ 2 ) .
Nuevamente, como en el ejemplo introductorio, es razonable tomar como estadístico de prueba al pro-
 σ2 
medio muestral X . Bajo las suposiciones hechas tenemos que X ~ N  µ , .
 n 
Supongamos que tenemos las hipótesis
H 0 : µ = µ0 contra H1 : µ ≠ µ0
Donde µ 0 es una constante específica. Se toma una muestra aleatoria X 1 , X 2 ,..., X n de la población.
 σ2 
Si H 0 : µ = µ 0 es verdadera, entonces X ~ N  µ 0 ,  , por lo tanto el estadístico
 n 
X − µ0
Z= tiene distribución N (0,1) si H 0 : µ = µ 0 es verdadera
σ
n
Tomamos a Z como estadístico de prueba
 
Si H 0 : µ = µ 0 es verdadera entonces P − z α ≤ Z ≤ z α  =1−α

 2 2 
N (0,1)
α α
−
2 2
− zα 0 zα
2 2
Zona de aceptación
Es evidente que una muestra que produce un valor del estadístico de prueba que cae en las colas de la
distribución de Z será inusual si H 0 : µ = µ 0 es verdadera, por lo tanto esto es un indicador que H 0 es
falsa.
Entonces la regla de decisión es:
rechazar H 0 si Z > z α

 2
 aceptar H 0 si Z ≤ z α
 2
188
Notar que la probabilidad que la estadística de prueba tome un valor que caiga en la zona de rechazo si
H 0 es verdadera es igual a α , es decir la probabilidad de cometer error de tipo I es α pues
 
   X − µ0 
P(error de tipo I ) = P rechazar H 0 / H 0 es V  = P > zα µ = µ0  =
   σ 2 
 n 
   
 X − µ0   X − µ0  α α
= P > z α  + P < − zα  = + = α
 σ 2   σ 2 
2 2
 n   n 
Ejemplo:
El porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso es 5.5. Para probar si el verdadero
promedio de porcentaje es 5.5 para una planta de producción en particular, se analizaron 16 muestras
obtenidas de manera independiente. Supongamos que el porcentaje de SiO2 en una muestra está nor-
malmente distribuido con σ = 3 , y que x = 5.25 .
¿Indica esto de manera concluyente que el verdadero promedio de porcentaje difiere de 5.5?. Utilice
α = 0.01
Solución:
La v.a. de interés es X: “porcentaje de SiO2 en cierto tipo de cemento aluminoso”
Asumimos que X ~ N ( µ , 3 2 )
Podemos plantear las hipótesis
H 0 : µ = 5.5 contra H 1 : µ ≠ 5.5
Tenemos una muestra de tamaño n = 16 que dio un promedio muestral x = 5.25

Como α = 0.01 entonces z α = z 0.005 = 2.575
2

 X − 5. 5
rechazar H 0 si 3 > 2.575
 16
Por lo tanto la regla de decisión es 
 X − 5.5
 aceptar H 0 si ≤ 2.575
 3
 16
X − 5.5 5.25 − 5.5

El estadístico toma el valor z 0 = = 0.333333
3 3
16 16
Como z 0 = 0.333333 < 2.575 = z 0.01 se acepta H 0

2
También podemos desarrollar tests o pruebas de hipótesis para el caso de que la hipótesis alternativa es
unilateral.
189
Supongamos las hipótesis
H 0 : µ = µ0 contra H1 : µ > µ0
En este caso la región crítica debe colocarse en la cola superior de la distribución normal estándar y el
rechazo de H 0 se hará cuando el valor calculado de z 0 sea muy grande, esto es la regla de decisión será
 X − µ0
rechazar H 0 si σ > zα
 n

 aceptar H si X − µ 0
≤ zα
 0
σ
 n
N (0,1)
zona de aceptacion 0 zα
De manera similar para las hipótesis
H 0 : µ = µ0 contra H1 : µ < µ0
se calcula el valor del estadístico de prueba z 0 y se rechaza H 0 si el valor de z 0 es muy pequeño, es

decir la regla de decisión será
 X − µ0
rechazar H 0 si σ < − zα
 n

 aceptar H si X − µ 0
≥ − zα
 0
σ
 n
190
N (0,1)
− zα zona de aceptacion
0
Ejemplo:
Se sabe que la duración, en horas, de un foco de 75 watts tiene una distribución aproximadamente nor-
mal, con una desviación estándar de σ = 25 horas. Se toma una muestra aleatoria de 20 focos, la cual
resulta tener una duración promedio de x = 1040 horas
¿Existe evidencia que apoye la afirmación de que la duración promedio del foco es mayor que 1000
horas?. Utilice α = 0.05 .
Solución:
La v.a. de interés es X: “duración en horas de un foco tomado al azar”
Asumimos X ~ N ( µ , 25 2 )
Podemos plantear las hipótesis
H 0 : µ = 1000 contra H 1 : µ > 1000
Tenemos una muestra de tamaño n = 20 que dio un promedio muestral x = 1040

Como α = 0.05 entonces zα = z 0.05 = 1.645
 X − 1000
rechazar H 0 si 25 > 1.645
 20
Por lo tanto la regla de decisión es 
 aceptar H 0 si X − 1000
≤ 1.645
 25
 20
X − 1000 1040 − 1000
El estadístico toma el valor Z = toma el valor z 0 = = 7.1554
25 25
20 20
Como z 0 = 7.1554 > 1.645 = z 0.05 se rechaza H 0
P- valor
Hasta ahora se dieron los resultados de una prueba de hipótesis estableciendo si la hipótesis nula fue o
no rechazada con un valor especificado de α o nivel de significancia.
A menudo este planteamiento resulta inadecuado, ya que no proporciona ninguna idea sobre si el valor
calculado del estadístico está apenas en la región de rechazo o bien ubicado dentro de ella. Además, esta
forma de establecer los resultados impone a otros usuarios el nivel de significancia predeterminado.
191
Para evitar estas dificultades, se adopta el enfoque del p-valor. El valor p o p-valor es la probabilidad de
que el estadístico de prueba tome un valor que sea al menos tan extremo como el valor observado del
estadístico de prueba cuando la hipótesis nula es verdadera. Es así como el p-valor da mucha informa-
ción sobre el peso de la evidencia contra H 0 , de modo que el investigador pueda llegar a una conclusión
para cualquier nivel de significancia especificado.
La definición formal del p-valor es la siguiente:
El valor p es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula H 0
Para las pruebas de distribuciones normales presentadas hasta el momento, es sencillo calcular el p-
valor.
Si z 0 es el valor calculado del estadístico de prueba Z, entonces el p-valor es
a) si las hipótesis son H 0 : µ = µ0 contra H1 : µ ≠ µ0
p − valor = P( Z > z 0 ) = 1 − P( Z < z 0 ) = 1 − [Φ ( z 0 ) − Φ (− z 0 )] = 1 − [2Φ ( z 0 ) − 1] = 2[1 − Φ ( z 0 )]
b) si las hipótesis son H 0 : µ = µ0 contra H1 : µ > µ0
p − valor = P(Z > z 0 ) = 1 − P(Z ≤ z 0 ) = 1 − Φ (z 0 )
c) si las hipótesis son H 0 : µ = µ0 contra H1 : µ < µ0
p − valor = P(Z < z 0 ) = Φ ( z 0 )
Un p-valor muy chico significa mucha evidencia en contra de H 0 ; un p-valor alto significa que no hay
evidencia en contra H 0
Notar que:
Si α < p − valor entonces se acepta H 0 con nivel de significancia α
Si α > p − valor entonces se rechaza H 0 con nivel de significancia α
Esto se ilustra en las siguientes figuras:
p − valor
z 0 zα
zα z0
zona de rechazo
zona de rechazo
Ejemplos:
1- En el ejemplo anteúltimo referido al porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso
las hipótesis eran: H 0 : µ = 5.5 contra H 1 : µ ≠ 5.5 ; y el estadístico de prueba tomó el valor
z 0 = 0.333333 < 2.575 = z 0.01 ; por lo tanto se aceptaba H 0 .
2
192
En esta caso p − valor = P( Z > z 0 ) = 2[1 − Φ ( z 0 )] = 2[1 − Φ(0.33333)] = 2[1 − 0.62930] = 0.7414
Como el p-valor es muy alto no hay evidencia en contra H 0 . Se necesitaría tomar un valor de α
mayor a 0.7414 para rechazar H 0 .
2- En el último ejemplo, sobre la duración, en horas, de un foco de 75 watts, las hipótesis eran
H 0 : µ = 1000 contra H 1 : µ > 1000 ; y el estadístico Z tomó el valor z 0 = 7.1554 > 1.645 = z 0.05 ;
por lo tanto se rechazaba H 0 .
En este caso
p − valor = P(Z > z 0 ) = 1 − Φ ( z 0 ) = 1 − Φ (7.1554 ) ≈ 0
Como el p-valor es casi cero hay mucha evidencia en contra de H 0 . Prácticamente para ningún
valor de α se acepta H 0
Error de tipo II y selección del tamaño de la muestra
En la prueba de hipótesis el investigador selecciona directamente la probabilidad del error de tipo I. Sin
embargo, la probabilidad β de cometer error de tipo II depende del tamaño de la muestra y del valor
verdadero del parámetro desconocido.
H 0 : µ = µ 0 contra H 1 : µ ≠ µ 0
Entonces si anotamos con µ al valor verdadero del parámetro
 
 X − µ0 
β = P(aceptar H 0 H 0 es falsa ) = P ≤ zα µ ≠ µ0 
 σ 2 
 n 
X − µ0
Como la hipótesis nula es falsa, entonces no tiene distribución N (0,1)
σ
n
Por lo tanto hacemos lo siguiente:
X − µ0 X − µ + µ − µ0 X −µ µ − µ0 X −µ
= = + ; y ahora como ~ N (0,1) pues se estandarizó a
σ σ σ σ σ
n n n n n
X con el verdadero µ , entonces

   
 X − µ0   X − µ0 
β = P ≤ zα µ ≠ µ 0  = P − z α ≤ ≤ zα µ ≠ µ0  =
 σ 2   2 σ 2 
 n   n 
   

= P − z α ≤
X − µ µ − µ0
+ ≤ zα
 
µ ≠ µ 0  = P − z α −
(µ − µ0 ) X − µ
≤ ≤ zα −
(µ − µ0 ) 
=
 2 σ σ 2   2 σ σ 2
σ 
 n n   n n n 
193
   

= Φ z α −
(µ − µ0 )  
− Φ − z α −
( µ − µ0 )  
= Φ z α −
(µ − µ 0 ) n  − Φ − z − (µ − µ 0 ) n 
σ  σ    α 
 2   2   2 σ   2 σ 
 n   n 
En consecuencia
Si las hipótesis son H 0 : µ = µ 0 contra H 1 : µ ≠ µ 0 , entonces


β (µ ) = Φ zα −
(µ − µ 0 )  
n  − Φ − zα −
(µ − µ0 ) n 
σ σ 
 2   2 
Para un valor específico de µ y un valor de α dado, podemos preguntarnos qué tamaño de muestra se
necesita para que β sea menor que un valor dado en particular β 0 .

Por ejemplo si µ − µ 0 > 0 entonces podemos aproximar Φ − z α −
(µ − µ 0 ) n  ≈ 0 , y planteamos que
σ 
 2 

β (µ ) = Φ z α −
(µ − µ 0 ) n  < β . Buscamos en la tabla de la N (0,1) para qué z se cumple que
σ  0
 2 
Φ ( z ) = β 0 , lo anotamos − z β 0 , y entonces podemos escribir
2
 
 zα + zβ  σ 2
(µ − µ 0 ) (µ − µ 0 )  0 
zα − n < − z β0 ⇒ z α + z β0 < n ⇒ n> 2 

2
σ 2
σ (µ − µ 0 )2
En el caso de ser µ − µ 0 < 0 entonces podemos aproximar Φ z α −

 (µ − µ 0 ) n  ≈ 1 , y planteamos que
σ 
 2 

β (µ ) = 1 − Φ − z α −
(µ − µ 0 ) n  < β . Es decir 1 − β < Φ − z − (µ − µ 0 ) n 
σ  0 0  α σ 
 2   2 
Buscamos en la tabla de la N (0,1) para qué z se cumple que Φ ( z ) = 1 − β 0 , lo anotamos z β 0 , y enton-
ces podemos escribir
2
 
 zα + zβ  σ 2
(µ − µ 0 ) (µ − µ 0 )  0 
− zα − n > z β0 ⇒ z α + z β0 < − n ⇒
{ n> 2 
2
σ 2
σ µ - µ 0 <0 (µ − µ 0 )2
En consecuencia queda la misma fórmula que la anterior
Por lo tanto
Si las hipótesis son H 0 : µ = µ 0 contra H 1 : µ ≠ µ 0 , entonces

2
 z + z  σ 2
α β0
n> 2 
(µ − µ 0 )2
194
En forma análoga se pude probar que si las hipótesis son
H 0 : µ = µ0 contra H1 : µ > µ0
Entonces
 
 X − µ0 
β = P(aceptar H 0 H 0 es falsa ) = P ≤ zα µ ≠ µ0  =
 σ 
 n 
     
 X − µ µ − µ0  X −µ (µ − µ 0 )   (µ − µ 0 )   (µ − µ 0 ) 
= P + ≤ zα µ ≠ µ 0  = P ≤ zα −  = Φ zα −  = Φ zα − n
σ σ   σ σ   σ   σ 
 n n   n n   n 
Entonces
Si las hipótesis son : H 0 : µ = µ0 contra H 1 : µ > µ 0 entonces
 (µ − µ 0 ) 
β (µ ) = Φ zα − n
 σ 
Y si tenemos las hipótesis H 0 : µ = µ 0 contra H1 : µ < µ 0

 
 X − µ0 
β = P(aceptar H 0 H 0 es falsa ) = P ≥ − zα µ ≠ µ0  =
 σ 
 n 
   
 X − µ µ − µ0
= P + ≥ − zα
  X −µ
µ ≠ µ 0  = P ≥ − zα −
( µ − µ0 )   (µ − µ 0 ) n 
 = 1 − Φ  − zα − 
σ σ   σ σ   σ 
 n n   n n 
Entonces
Si las hipótesis son : H 0 : µ = µ0 contra H 1 : µ < µ 0 entonces
 (µ − µ 0 ) 
β (µ ) = 1 − Φ  − z α − n
 σ 
Y además con una deducción análoga al caso de alternativa bilateral:
Si las hipótesis son H 0 : µ = µ 0 contra H 1 : µ > µ 0 , (o H1 : µ > µ 0 ) entonces
n>
(z α )
+ z β0 σ 2
2
(µ − µ 0 )2
195
Ejemplos:
1- En el ejemplo referido al porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso las
hipótesis eran: H 0 : µ = 5. 5 contra H 1 : µ ≠ 5.5 ; y el estadístico de prueba tomó el valor
z 0 = 0.333333 < 2.575 = z 0.01 ; por lo tanto se aceptaba H 0 . Teníamos n = 16 y σ = 3
2
Si el verdadero promedio de porcentaje es µ = 5.6 y se realiza una prueba de nivel α = 0.01 con
base en n = 16, ¿cuál es la probabilidad de detectar esta desviación?
¿Qué valor de n se requiere para satisfacer α = 0.01 y β (5.6) = 0.01 ?
Solución:
La probabilidad de detectar la desviación es la potencia del test cuando µ = 5.6 , es decir
 
π (5.6 ) = P rechazar H 0 / H 0 es falsa  = 1 − β (5.6)
 
Como estamos con hipótesis alternativa bilateral, calculamos
 (5.6 − µ 0 )  (5.6 − µ 0 ) 
β (5.6) = Φ z α − n  − Φ − z α − n =
 2 σ   2 σ 

= Φ 2.575 −
(5.6 − 5.5) 16  − Φ − 2.575 − (5.6 − 5.5) 16  = Φ(2.441) − Φ(− 2.708) =
  
 3   3 
= 0.99266 − (1 − 0.99664 ) = 0.9893 ⇒ π (5.6 ) = 0.0107
Ahora se quiere hallar n tal que β (5.6) = 0.01 , como el test es bilateral podemos usar directamente la
fórmula con z β 0 = z 0.01 = 2.33
2
 
 zα + zβ  σ 2
 0 
(2.575 + 2.33)2 32 = 21653.1225
n> 2  = ⇒ n ≥ 21654
(µ − µ 0 )2 (5.6 − 5.5)2
2- En el último ejemplo, sobre la duración, en horas, de un foco de 75 watts, las hipótesis eran
H 0 : µ = 1000 contra H 1 : µ > 1000 ; y el estadístico Z tomó el valor z 0 = 7.1554 > 1.645 = z 0.05 ;
por lo tanto se rechazaba H 0 .
En este caso σ = 25 y n = 20
Si la verdadera duración promedio del foco es 1015 horas, ¿cuál es la probabilidad de error de tipo
II para la prueba?
¿Qué tamaño de muestra es necesario para asegurar que el error de tipo II no es mayor que 0.10 si la
duración promedio verdadera del foco es 1015 hs. ?
Solución:
Como las hipótesis son H 0 : µ = 1000 contra H 1 : µ > 1000 entonces
() 
β µ = Φ  zα −
(µ − µ )
0
n
 
 = Φ1.645 − (1015 − 1000) 20

( )
 = Φ − 1.038 = 0.1515 + 0.1492
 σ   25  2
   
= 0.15035
( )
Para hallar n tal que β 1015 ≤ 0.1 aplicamos la fórmula con z β 0 = z 0.1 = 1.285
196
(z + z ) σ
α β0
2 2
(1.645 + 1.285) 25 2 2
n>
(µ − µ ) 0
2
=
(1015 − 1000) 2
= 23.8469 ⇒ n ≥ 24
Relación entre test de hipótesis e intervalos de confianza
Existe una estrecha relación entre la prueba de hipótesis bilateral sobre un parámetro µ y el intervalo de
confianza de nivel 1 − α para µ .
Específicamente supongamos que tenemos las hipótesis
H 0 : µ = µ0 contra H1 : µ ≠ µ0
La regla de decisión es

 X − µ0
rechazar H 0 si σ > zα
 n
2

 X − µ0
 aceptar H 0 si ≤ zα
 σ 2
 n
X − µ0 X − µ0
Aceptar H 0 si ≤ zα es equivalente a: aceptar H 0 si − z α ≤ ≤ z α ; y esto es a
σ 2 2
σ 2
n n
su vez equivalente, despejando µ 0 , a:
aceptar H 0 si X − zα / 2 σ ≤ µ 0 ≤ X + zα / 2 σ ; es decir si
n n
 
µ 0 ∈  X − zα / 2 σ ; X + zα / 2 σ 
n n
 
 
Pero resulta que  X − zα / 2 σ ; X + zα / 2 σ  es el intervalo de confianza que se construiría para
 n n 
el verdadero parámetro µ de nivel 1 − α .
Por lo tanto la regla de decisión queda:
  
rechazar H si µ ∉  X − z σ ; X + z σ 
α α
 0 0

/ 2
n / 2
n 


  
σ ; X + zα / 2 σ
 aceptar H 0 si µ 0 ∈  X − zα / 2 n n 

 
 
197
Ejemplo:
En el ejemplo referido al porcentaje deseado de SiO2 en cierto tipo de cemento aluminoso las
hipótesis eran: H 0 : µ = 5.5 contra H 1 : µ ≠ 5.5 ;
y teníamos n = 16 ; σ = 3 ; un promedio muestral x = 5.25
Como α = 0.01 entonces z α = z 0.005 = 2.575
2
Construimos un intervalo de confianza de nivel 1 − α = 1 − 0.01 = 0.99
   
 X − zα / 2 σ ; X + zα / 2 σ  = 5.25 − 2.575
3
; 5.25 + 2.575
3
[
 = 3.31875; 7.18125 ]
 n n   16 16 

Entonces la regla de decisión es:
rechazar H 0 si 5.5 ∉ [3.31875; 7.18125]


 aceptar H si 5.5 ∈ [3.31875; 7.18125]
 0
Como 5.5 ∈ [3.31875; 7.18125], entonces se acepta H 0 .
10.3 – Prueba de hipótesis sobre la media, varianza desconocida para muestras grandes
Hasta ahora se ha desarrollado el procedimiento de test de hipótesis para la hipótesis nula

H 0 : µ = µ 0 suponiendo que σ 2 es conocida, pero en la mayoría de las situaciones prácticas σ 2 es
desconocida. En general si n ≥ 30 , entonces la varianza muestral S 2 está próxima a σ 2 en la mayor
parte de las muestras, de modo que es posible sustituir S 2 por σ 2 . Es decir el estadístico
X − µ0
Z= ≈ N (0,1) aproximadamente, si n ≥ 30 si H 0 : µ = µ 0
S
n
Además, si no podemos decir que la muestra aleatoria proviene de una población normal, sea σ 2 cono-
cida o no, por T.C.L. los estadísticos
X − µ0
Z= ≈ N (0,1) aproximadamente, si n ≥ 30 si H 0 : µ = µ 0
S
n
Y
X − µ0
Z= ≈ N (0,1) aproximadamente, si n ≥ 30 si H 0 : µ = µ0
σ
n
Las pruebas de hipótesis tendrán entonces un nivel de significancia aproximadamente de α
Ejemplo:
198
Un inspector midió el volumen de llenado de una muestra aleatoria de 100 latas de jugo cuya etiqueta
afirmaba que contenían 12 oz. La muestra tenía una media de volumen de 11.98 oz y desviación están-
dar de 0.19 oz. Sea µ la verdadera media del volumen de llenado para todas las latas de jugo reciente-
mente llenadas con esta máquina. El inspector probará H 0 : µ = 12 contra H 1 : µ ≠ 12
a) Determinar el p-valor
b) ¿Piensa que es factible que la media del volumen de llenado es de 12 oz?
Solución:
La v.a. de interés sería X: “volumen de llenado de una lata tomada al azar”
No se especifica ninguna distribución para X. Anotamos E ( X ) = µ y V ( X ) = σ 2 , ambas desconocidas.
Se toma una muestra de n = 100 latas y se obtiene x = 11.98 y s = 0.19
Las hipótesis son H 0 : µ = 12 contra H 1 : µ ≠ 12
El estadístico de prueba es
X − µ0 X − 12
Z = = y si H 0 : µ = 12 es verdadera entonces Z ≈ N (0,1)
S S
n 100
11.98 − 12
El estadístico Z toma el valor z 0 = = −1.0526
0.19
100
Como la hipótesis alternativa es bilateral entonces
p − valor = P( Z > z 0 ) ≈ 2[1 − Φ (1.0526 )] = 2[1 − 0.85314] = 0.29372
Como el p-valor es mayor que 0.05 se considera que no hay evidencia en contra de H 0 : µ = 12
Por lo tanto es factible que la media del volumen de llenado sea de 12 oz
10.4 – Prueba de hipótesis sobre la media de una distribución normal, varianza desconocida
Cuando se prueban hipótesis sobre la media µ de una población cuando σ 2 es desconocida es posible
utilizar los procedimientos de prueba dados anteriormente siempre y cuando el tamaño de la muestra sea
grande ( n ≥ 30 ). Estos procedimientos son aproximadamente válidos sin importar si la población de
interés es normal o no. Pero si la muestra es pequeña y σ 2 es desconocida debe suponerse que la distri-
bución de la variable de interés es normal.
Específicamente, supongamos que la v.a. de interés tiene distribución N ( µ ,σ 2 ) donde µ y σ 2 son
desconocidas.
Supongamos las hipótesis H 0 : µ = µ 0 contra H 1 : µ ≠ µ 0
Sea X 1 ; X 2 ,..., X n una muestra aleatoria de tamaño n de la v.a. X y sean X y S 2 la media y la varianza
muestrales respectivamente.
El procedimiento se basa en el estadístico
X − µ0
T=
S/ n
El cual, si la hipótesis nula es verdadera, tiene distribución Student con n-1 grados de libertad.
Entonces, para un nivel α prefijado, la regla de decisión es
199

 X − µ0
 rechazar H 0 si > tα
rechazar H 0 si T > t α S , n−1
 ,n −1  n
2
 2
es decir 
 aceptar H 0 si T ≤ t α 
 , n −1 X − µ0
2
 aceptar H 0 si ≤ tα
 S 2
,n −1
 n
La lógica sigue siendo la misma, si el estadístico de prueba toma un valor inusual, entonces se consi-
dera que hay evidencia en contra H 0 y se rechaza la hipótesis nula. Como ahora la distribución del
estadístico es Student, nos fijamos si T toma un valor t 0 en las colas de la distribución Student con n-1
grados de libertad.
rechazar H 0 si T > tα ,n−1


Si la alternativa es H 1 : µ > µ 0 entonces la regla de decisión es  aceptar H si T ≤ t
 0 α , n −1
rechazar H 0 si T < −tα ,n−1


Si la alternativa es H 1 : µ < µ 0 entonces la regla de decisión es  aceptar H si T ≥ −t
 0 α ,n −1
Ejemplo:
Antes de que una sustancia se pueda considerar segura para enterrarse como residuo se deben caracteri-
zar sus propiedades químicas. Se toman 6 muestras de lodo de una planta de tratamiento de agua resi-
dual en una región y se les mide el pH obteniéndose una media muestral de 6.68 y una desviación están-
dar muestral de 0.20. ¿Se puede concluir que la media del pH es menor que 7.0? Utilizar α = 0.05 y
suponer que la muestra fue tomada de una población normal.
Solución:
La v.a. de interés es X: “pH de una muestra de lodo tomada al azar”
Asumimos que X tiene distribución N ( µ ,σ 2 )
Las hipótesis serían H 0 : µ = 7.0 contra H 1 : µ < 7.0
X − 7.0 6.68 − 7.0
El estadístico de prueba es T = y toma el valor t 0 = = −3.919
S/ 6 0.20 / 6
Buscamos en la tabla de la distribución Student tα ,n −1 = t 0.05,5 = 2.015
Entonces como t 0 = −3.919 < −tα ,n−1 = −t 0.05,5 = −2.015 se rechaza H 0 , por lo tanto hay evidencia que
µ < 7.0
P-valor de un test t
En este caso el cálculo del p- valor se realiza considerando:

Si t 0 es el valor calculado del estadístico de prueba T, entonces el p-valor es
a) las hipótesis son H 0 : µ = µ0 contra H1 : µ ≠ µ0
p − valor = P(T > t 0 ) = 1 − P (T ≤ t 0 ) = 2(1 − P(T ≤ t 0 ))
b) las hipótesis son H 0 : µ = µ0 contra H1 : µ > µ0
p − valor = P(T > t 0 ) = 1 − P(T ≤ t 0 )
200
c) las hipótesis son H 0 : µ = µ0 contra H1 : µ < µ0

p − valor = P(T ≤ t 0 )
Para calcular el p-valor en una prueba t nos encontramos con la dificultad que las tablas de la Student no
son completas, por lo tanto en algunas ocasiones se deberá acotar el p-valor
En el ejemplo anterior para calcular el p-valor de la prueba como es un test con alternativa unilateral
p − valor = P(T ≤ t 0 ) = P(T ≤ −3.919 )
Buscamos en la tabla de la distribución Student la fila donde figuran ν = 5 grados de libertad y vemos
que el valor 3.919 no está tabulado.
Pero 3.365 < 3.919 < 4.032 , y P(T5 > 3.365) = 0.01 y P(T5 > 4.032 ) = 0.005
Por lo tanto 0.005 < P(T5 > 3.919 ) < 0.01 , es decir
0.005 < p − valor = P(T5 < −3.919) < 0.01
Podemos deducir que existe evidencia de que la media del pH es menor que 0.7
10.5 – Prueba de hipótesis sobre la diferencia de dos medias, varianzas conocidas

 X 1 ~ N µ1 , σ12( )
y suponemos que las varianzas σ 12 y σ 22 son conocidas.

X
 2 ~ N µ 2 , σ (
2
2 )
Sean además
( )
(X 21 , X 22 ,..., X 2 n2 ) una muestra aleatoria de tamaño n 2 de X 2 .
El interés recae en probar que µ1 − µ 2 = ∆ 0 donde ∆ 0 es un valor fijado, por ejemplo si ∆ 0 = 0

entonces se querrá probar que µ1 − µ 2 = 0 es decir que las medias son iguales.
Ya sabemos que bajo las suposiciones anteriores
 1 n1  σ 12 
 X 1 = ∑ X 1i ~ N  µ1 , 
 n1 i =1  n1 

X = 1
n2
 σ 22 
 2 n2 ∑
X 2i ~ N 
 2 n 
µ ,
 i =1  2 
Y además
 σ2 σ2
X 1 − X 2 ~ N µ1 − µ 2 , 1 + 2  .
 n1 n2 
Por lo tanto
X 1 − X 2 − (µ 1 − µ 2 )
Z= ~ N (0,1) , es decir, tiene distribución normal estandarizada.
σ 12 σ 22
+
n1 n2
201
Si consideramos las hipótesis
H 0 : µ1 − µ 2 = ∆ 0 contra H 1 : µ1 − µ 2 ≠ ∆ 0
X1 − X 2 − ∆0
Entonces usamos como estadístico de prueba a Z =
σ 12 σ 22
+
n1 n2
X1 − X 2 − ∆0
Y Z= ~ N(0,1) si H 0 : µ1 − µ 2 = ∆ 0 es verdadera
σ 12 σ 22
+
n1 n2
Por lo tanto la regla de decisión será
 X1 − X 2 − ∆0
 2
donde Z=
 aceptar H 0 si Z ≤ z α σ 12 σ 22
 2 +
n1 n2
rechazar H 0 si Z > zα

Si H 1 : µ 1 − µ 2 > ∆ 0 entonces la regla de decisión es 
aceptar H 0 si Z ≤ zα

rechazar H 0 si Z < − zα

Si H 1 : µ 1 − µ 2 < ∆ 0 entonces la regla de decisión es 
aceptar H 0 si Z ≥ − zα

Ejemplos:
1- Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura tapaporos.
Se prueban dos fórmulas de pintura. La fórmula 1 tiene el contenido químico estándar, y la fórmula 2
tiene un nuevo ingrediente secante que debe reducir el tiempo de secado. De la experiencia se sabe que
la desviación estándar del tiempo de secado es 8 minutos, y esta variabilidad no debe verse afectada
por la adición del nuevo ingrediente. Se pintan 10 especímenes con la fórmula 1 y otros 10 con la fór-
mula 2. los tiempos promedio de secado muestrales fueron x1 = 121 minutos y x2 = 112 minutos res-
pectivamente.
¿A qué conclusiones debe llegar el diseñador del producto sobre la eficacia del nuevo ingrediente uti-
lizando α = 0.05 ?
Solución:
Aquí las hipótesis son H 0 : µ1 − µ 2 = 0 contra H 1 : µ1 − µ 2 > 0
X1 − X 2 121 − 112
El estadístico de prueba es Z = y toma el valor z0 = = 2.52
82 82 82 82
+ +
10 10 10 10
202
Buscamos en la tabla de la normal estándar zα = z 0.05 = 1.645
Como z 0 = 2.52 > zα = z 0.05 = 1.645 se rechaza H 0 al nivel 0.05 y se concluye que el nuevo ingredien-
te disminuye el tiempo de secado.
El cálculo del p-valor y la deducción de β la probabilidad de cometer error de tipo II se obtienen de

manera análoga a los casos anteriores. Por ejemplo para la alternativa bilateral la expresión para β
es la siguiente donde anotamos µ1 − µ 2 − ∆ = ∆ 0 − ∆ = δ
   
   
 δ   δ 
β = P(aceptar H 0 H 0 es falsa ) = Φ z α −  − Φ − z α − 
 2 σ 12 σ 22   2 σ 12 σ 22 
 + +
 n1 n2  
 n1 n2 
En el ejemplo anterior el p − valor = P(Z > z 0 ) = P(Z > 2.52 ) = 1 − Φ(2.52 ) = 0 − 0059
También es posible obtener fórmulas para el tamaño de la muestra necesario para obtener una β espe-
cífica para una diferencia dada en las medias µ1 − µ 2 − ∆ = ∆ 0 − ∆ = δ y α . Si asumimos que
n1 = n2 = n entonces
( )
2
 z + z  σ 2 + σ 2
α β0
n> 2  1 2
Para H 1 : µ 1 − µ 2 ≠ ∆ 0 es
δ2
Para H 1 : µ 1 − µ 2 > ∆ 0 o H 1 : µ 1 − µ 2 < ∆ 0 es n>

(z α + z β0 ) (σ
2
1
2
+σ2
2
)
δ 2
10.6 – Prueba de hipótesis sobre la diferencia de dos medias, varianzas desconocidas
Caso 1: σ 12 ≠ σ 22
(
 X 1 ~ N µ1 , σ 12 ) y las varianzas σ 12 y σ 22 son desconocidas .

(
 X 2 ~ N µ 2 ,σ 2
2
)
y además
203
(X 11 )
, X 12 ,..., X 1n1 es una muestra aleatoria de tamaño n1 de X 1
(X 21 , X 22 ,..., X 2 n2 ) es una muestra aleatoria de tamaño n 2 de X 2 .
Si las muestras aleatorias se toma de una distribución normal, donde σ 1 y σ 2 son desconocidos,
n1 ≥ 30 y n 2 ≥ 30 , entonces se puede probar que al reemplazar σ 1 por S1 y σ 2 por S2, el estadístico
X 1 − X 2 − ( µ1 − µ 2 )
≈ N (0,1) . aproximadamente
S12 S12
+
n1 n1
X1 − X 2 − ∆0
Por lo tanto si anotamos Z = valen las reglas de decisión vistas en la sección anterior,
S12 S 12
+
n1 n1
con la diferencia que el nivel de significancia del test será aproximadamente 1 − α
Si ahora n1 o n 2 no son mayores que 30, entonces

X − X 2 − ∆0
T* = 1
S 12 S 12
+
n1 n1
tiene distribución aproximadamente Student con ν grados de libertad bajo la hipótesis
H 0 : µ1 − µ 2 = ∆ 0 donde
ν=
(S 1
2
n1 + S 22 n2 )
2
si ν no es entero, se toma el entero más próximo a ν

(S 1
n1
1 S2 n
+ 2 2
) (
2
)
2
n1 − 1 n2 − 1
Por lo tanto, si las hipótesis son
H 0 : µ1 − µ 2 = ∆ 0 contra H 1 : µ 1 − µ 2 ≠ ∆ 0 entonces la regla de decisión es
rechazar H 0 si T * > t α
 ,ν

2
 aceptar H 0 si T ≤ t α ,ν
*
 2
rechazar H 0 si T * > t α ,ν

 aceptar H 0 si T ≤ t α ,ν
*
rechazar H 0 si T * < −t α ,ν

 aceptar H 0 si T ≥ −t α ,ν
*
Ejemplo:
204
Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si producen un flujo
de corriente equivalente. El departamento de ingeniería ha obtenido los datos siguientes:
Diseño 1 n1 = 15 x1 = 24.2 s12 = 10

Diseño 2 n 2 = 10 x 2 = 23.9 s 22 = 20
Con α = 0.10 se desea determinar si existe alguna diferencia significativa en el flujo de corriente me-
dio entre los dos diseños, donde se supone que las poblaciones son normales.
Solución:
Las variables aleatorias de interés son
X 1 : “flujo de corriente en diseño 1”
X 2 : “flujo de corriente en diseño 2”
( ) ( )
Asumimos que X 1 ~ N µ 1 , σ 12 y X 2 ~ N µ 2 , σ 22 donde los parámetros son desconocidos
Las hipótesis serían H 0 : µ 1 − µ 2 = 0 contra H 1 : µ1 − µ 2 ≠ 0
El estadístico de prueba es
X1 − X 2 24.2 − 23.9
T* = que en este caso toma el valor t 0 =
*
= 0.18
2 2
S S 10 20
+ 1 1 +
15 10 15 10
Debemos buscar en la tabla de la distribución Student t α = t 0.10 entonces calculamos
,ν ,ν
2 2
ν=
(S 1
2
n1 + S 22 n 2 )2
=
(10 15 + 20 10)2 = 14.9333 ⇒ ν = 15
(S 1
n1
1 S2 n
+ 2 2
) ( 2
)2
(10 15)2 (20 10)2
+
n1 − 1 n2 − 1 15 − 1 10 − 1
Por lo tanto t α = t 0.05,15 = 1.753

,ν
2
Como t 0 = 0.18 < t 0.05,15 = 1.753 entonces se acepta H 0 : µ1 − µ 2 = 0

*
No hay evidencia fuerte que las medias de los dos flujos de corriente sean diferentes.
Si calculamos el p-valor
(
p − valor = P T * > t 0* = P T * > 0.18 > 0.40 ) ( )
Caso 2: σ 12 = σ 22 = σ 2
 X 1 ~ N (µ1 , σ12 )
 y las varianzas σ 12 y σ 22 son desconocidas pero iguales.
 X 2 ~ N (µ 2 , σ 2 )
2
y además
205
(X 11 )
(X 21 , X 22 ,..., X 2 n2) es una muestra aleatoria de tamaño n 2 de X 2 .
Sean X 1 y X 2 las medias muestrales y S12 y S 22 las varianzas muestrales. Como S12 y S 22 son los
estimadores de la varianza común σ 2 , entonces construimos un estimador combinado de σ 2 . Este
estimador es
(n1 − 1)S12 + (n2 − 1)S 22

S =2
p
n1 + n 2 − 2
Se puede comprobar que es un estimador insesgado de σ 2 .
Ya vimos que se puede probar que el estadístico
r
X1 − X 2 − ∆0
T= tiene distribución Student con n1 + n 2 − 2 grados de libertad
1 1
Sp +
n1 n 2
Por lo tanto, si las hipótesis son
H 0 : µ1 − µ 2 = ∆ 0 contra H 1 : µ 1 − µ 2 ≠ ∆ 0 entonces la regla de decisión es
rechazar H 0 si T > t α
 , n1 + n 2 − 2
 2
 aceptar H 0 si T ≤ t α , n1 + n2 − 2
 2
rechazar H 0 si T > tα ,n1 + n2 −2


aceptar H 0 si T ≤ tα ,n1 + n2 −2

rechazar H 0 si T < −tα ,n1 + n2 −2


aceptar H 0 si T ≥ −tα ,n1 + n2 − 2

Ejemplo:
Se tienen las mediciones del nivel de hierro en la sangre de dos muestras de niños: un grupo de niños
sanos y el otro padece fibrosis quística. Los datos obtenidos se dan en la siguiente tabla:
sanos n1 = 9 x1 = 18.9 s12 = 5.9 2

enfermos n 2 = 13 x 2 = 11.9 s 22 = 6.3 2
Podemos asumir que las muestras provienen de poblaciones normales independientes con iguales va-
rianzas.
Es de interés saber si las dos medias del nivel de hierro en sangre son iguales o distintas. Utilizar
α = 0.05
Solución:
206
Las variables de interés son

X 1 : “nivel de hierro en sangre de un niño sano tomado al azar”
X 2 : “nivel de hierro en sangre de un niño con fibrosis quística tomado al azar”
( )
Asumimos que X 1 ~ N µ1 , σ 2 y X 2 ~ N µ 2 , σ 2 ( )
Consideramos las hipótesis
H 0 : µ 1 − µ 2 = 0 contra H 1 : µ 1 − µ 2 ≠ 0
Para calcular el valor del estadístico de prueba, primero calculamos
(n1 − 1)S12 + (n 2 − 1)S 22 (9 − 1)5.9 2 + (13 − 1)6.3 2

S p = S p2 = = = 6.14
n1 + n 2 − 2 9 + 13 − 2
r
X1 − X 2 18.9 − 11.9
El estadístico de prueba es T = y toma el valor t 0 = = 2.63
1 1 1 1
Sp + 6.14 +
9 13 9 13
Buscamos en la tabla de la distribución Student t α = t 0.025, 20 = 2.086

, n1 + n2 − 2
2
Como t 0 = 2.63 > t 0.025, 20 = 2.086 entonces se rechaza H 0 : µ 1 − µ 2 = 0
Si calculamos el p-valor de la prueba
p − valor = 2(1 − P(T < t 0 )) = 2(1 − P(T < 2.63)) = 2 P(T > 2.63)
Vemos de la tabla de la Student que t 0.01, 20 = 2.528 y t 0.005, 20 = 2.845 por lo tanto
2 × 0.005 < p − valor = 2 P(T > 2.63) < 2 × 0.01 es decir 0.01 < p − valor < 0.02
10.7 – Prueba de hipótesis sobre la diferencia de dos medias para datos de a pares
Ya se vio el caso, cuando se habló de intervalos de confianza para una diferencia de medias, de datos
(
dados de a pares, es decir ( X 11 , X 21 ); ( X 12 , X 22 );...; X 1n1 , X 2 n . )
Las variables aleatorias X 1 y X 2 tienen medias µ1 y µ 2 respectivamente.
Consideramos D j = X 1 j − X 2 j con j = 1,2,..., n .
Entonces
E (D j ) = E (X 1 j − X 2 j ) = E (X 1 j ) − E (X 2 j ) = µ1 − µ 2
y
V (D j ) = V (X 1 j − X 2 j ) = V (X 1 j ) + V (X 2 j ) − 2Cov (X 1 j , X 2 j ) = σ 12 + σ 22 − 2Cov( X 1 , X 2 )
207
Estimamos E (D j ) = µ1 − µ 2 con D = D j = ∑ (X 1 j − X 2 j ) = X 1 − X 2
1 n 1 n
∑
n j =1 n j =1
En lugar de tratar de estimar la covarianza, estimamos la V (D j ) con S D =

1 n
∑ (D j − D )2
n − 1 j =1
Anotamos µ D = µ1 − µ 2 y σ 2 D = V (D j )
Asumimos que D j ~ N µ D , σ D( 2
) con j = 1,2,..., n
Las variables aleatorias en pares diferentes son independientes, no lo son dentro de un mismo par.
Para construir una regla de decisión nuevamente, consideramos el estadístico
D − µD
T= con distribución t n −1
SD / n
Si tenemos las hipótesis
H 0 : µ1 − µ 2 = ∆ 0 contra H 1 : µ1 − µ 2 ≠ ∆ 0
Entonces el estadístico de prueba es

D − ∆0
T= y tiene distribución t n −1 si H 0 : µ1 − µ 2 = ∆ 0 es verdadera
SD / n
 ,n −1 D − ∆0
Por lo tanto, la regla de decisión es  2
donde T =
 aceptar H 0 si T ≤ t α ,n−1 SD / n
 2
rechazar H 0 si T > tα ,n−1


Si H 1 : µ1 − µ 2 > ∆ 0 entonces la regla de decisión es  aceptar H 0 si T ≤ tα ,n−1

rechazar H 0 si T < −tα ,n−1

Si H 1 : µ1 − µ 2 < ∆ 0 entonces la regla de decisión es  aceptar H 0 si T ≥ −tα ,n−1

Ejemplo:
Se comparan dos microprocesadores en una muestra de 6 códigos de puntos de referencia para determi-
nar si hay una diferencia en la rapidez. Los tiempos en segundos utilizados para cada procesador en cada
código están dados en la siguiente tabla:
Código
1 2 3 4 5 6
Procesador A 27.2 18.1 27.2 19.7 24.5 22.1
Procesador B 24.1 19.3 26.8 20.1 27.6 29.8
¿Puede concluir que las medias de la rapidez de ambos procesadores son diferentes con nivel de signifi-
cancia 0.05?
208
Solución:
X 1 : “rapidez del procesador A en un código tomado al azar”
X 2 : “rapidez del procesador B en un código tomado al azar”
Como ambas variables se miden sobre un mismo código no podemos asumir que son independientes.
Las hipótesis son H 0 : µ1 − µ 2 = 0 contra H 1 : µ1 − µ 2 ≠ 0
Necesitamos la muestra de las diferencias D j :
3.1, -1.2; 0.4; -0.4; -3.1; -7.7
De esta muestra obtenemos d = −1.483333 y s D = 3.66246
Además α = 0.05 → t α = t 0.025,5 = 2.571

,n −1
2
D − 1.483333
El estadístico de prueba es T = y toma el valor t 0 = = 0.99206
SD / 6 3.66246 / 6
Como t 0 = 0.99206 < t α = t 0.025,5 = 2.571 entonces se acepta la hipótesis nula. No hay evidencia de que
,n −1
2
las medias de la rapidez de ambos procesadores sean diferentes.
10.8 – Tests de hipótesis sobre la varianza
Supongamos que se desea probar la hipótesis de que la varianza de una población normal es igual a un
valor específico, por ejemplo σ 0 .
2
Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n de una v.a. X, donde X ~ N ( µ , σ 2 ) .

2
∑ (X i − X )
1 n
Tomamos como estimador puntual de σ a S = 2 2
n − 1 1=1
Luego a partir de este estimador puntual construimos el estadístico X =

(n − 1)S 2
σ2
Este estadístico contiene al parámetro desconocido a estimar σ 2 y ya sabemos que tiene una distribu-
ción llamada ji-cuadrado con n-1 grados de libertad
H 0 : σ 2 = σ 02 contra H 1 : σ 2 ≠ σ 02
Tomamos como estadístico de prueba a
X=
(n − 1)S 2 y si H 0 : σ 2 = σ 02 es verdadera , entonces X =
(n − 1)S 2 ~ χ n2−1
σ0 2
σ0 2
Nuevamente, el razonamiento es: si el estadístico X que bajo H 0 : σ 2 = σ 02 tiene distribución χ n2−1 toma
un valor “inusual”, se considera que hay evidencia en contra H0
Recordar que la distribución χ n2−1 es asimétrica. Entonces la regla de decisión es
209
recahzar H 0 si X > χ α2 ó X < χ2α

 , n −1 1− ,n −1
X=
(n − 1)S 2
 2 2
donde
 aceptar H 0 si χ 2
α ≤ X ≤ χ 2
α σ 02
1− , n −1 ,n −1
 2 2
recahzar H 0 si X > χ α2 ,n−1


Si H 1 : σ > σ entonces la regla de decisión es 
2 2
 aceptar H 0 si X ≤ χ α ,n−1
0 2
recahzar H 0 si X < χ12−α ,n−1


Si H 1 : σ < σ entonces la regla de decisión es 
2 2
 aceptar H 0 si X ≥ χ1−α ,n−1

0 2
Para calcular el p-valor, si el estadístico X tomó el valor x0 , y teniendo en cuenta que no hay simetría en
la distribución ji-cuadrado, hacemos:
Si H 1 : σ 2 > σ 02 entonces p − valor = P ( X > x0 )

Si H 1 : σ < σ
2 2
0 entonces p − valor = P ( X < x0 )
 
Si H 1 : σ 2 ≠ σ 02 entonces p − valor = 2 min  P ( X < x0 ) , P ( X > x0 )
 
Ejemplo:
Consideremos nuevamente el ejemplo visto en la sección de intervalos de confianza para la varianza
sobre la máquina de llenado de botellas. Al tomar una muestra aleatoria de 20 botellas se obtiene una
varianza muestral para el volumen de llenado de s 2 = 0.0153 oz2.
Si la varianza del volumen de llenado es mayor que 0.01 oz2, entonces existe una proporción inaceptable
de botellas que serán llenadas con una cantidad menor de líquido. ¿Existe evidencia en los datos mues-
trales que sugiera que el fabricante tiene un problema con el llenado de las botellas? Utilice α = 0.05
Solución:
La variable de interés es X: “volumen de llenado de una botella tomada al azar”
Asumimos X ~ N ( µ , σ 2 )
Los datos son s 2 = 0.0153 de una muestra de tamaño n = 20
Las hipótesis son H 0 : σ 2 = 0.01 contra H 1 : σ 2 > 0.01
α = 0.05 → χ α2 ,n−1 = χ 02.05,19 = 30.14
El estadístico de prueba es X=
(n − 1)S 2 =
19 × S 2
y toma el valor
σ 02 0.01
19 × S 2 19 × 0.0153
x0 = = = 29.07
0.01 0.01
210
Como x0 = 29.07 < χ 02.05,19 = 30.14 entonces no hay evidencia fuerte de que la varianza del volumen
de llenado sea menor que 0.01
Para calcular el p-valor
p − valor = P ( X > x0 ) = P ( X > 29.07 )
Buscamos en la tabla de la distribución ji-cuadrado y vemos que en la fila con ν = 19 no figura 29.07,
pero 27.20 < 29.07 < 30.14, y además
 P( X > 27.20 ) = 0.10

 ⇒ 0.05 < p − valor < 0.10
 P( X > 30.14 ) = 0.05
En la figura siguiente se ilustra la situación
10.9 – Tests de hipótesis sobre la igualdad de dos varianzas
Supongamos que tenemos interés en dos poblaciones normales independientes, donde las medias y las
varianzas de la población son desconocidas. Se desea probar la hipótesis sobre la igualdad de las dos
varianzas, específicamente:
 X 1 ~ N (µ1 , σ12 )
 y µ1 ; µ 2 ; σ 12 y σ 22 son desconocidos
 X 2 ~ N (µ 2 , σ 2 )
2
y además
(X 11 )
(X 21 , X 22 ,..., X 2 n2) es una muestra aleatoria de tamaño n 2 de X 2 .
Sean S y S las varianzas muestrales, S y S son los estimadores de σ 12 y σ 22 respectivamente.
1
2 2
2 1
2 2
2
Consideramos el estadístico
211
S12
σ 12
F=
S 22
σ 22
Sabemos que F tiene una distribución llamada Fisher con n1 − 1 y n 2 − 1 grados de libertad.
Sean las hipótesis H 0 : σ 1 = σ 22 H 1 : σ 1 ≠ σ 22

2 2
contra
S12
Tomamos como estadístico de prueba a F =
S 22
S12
~ Fn1 −1,n2 −1 si H 0 : σ 1 = σ 22 es verdadera
2
Vemos que F = 2
S2
Recordando que la distribución Fisher es asimétrica, la regla de decisión es
recahzar H 0 si F > f α2 ó F < f 2α

 , n1 −1, n2 −1 1− ,n1 −1, n2 −1
 2 2
 aceptar H 0 si f 2
α ≤ F ≤ f α
2
1− , n1 −1,n2 −1 ,n1 −1, n2 −1
 2 2
recahzar H 0 si F > f α2,n1 −1,n2 −1


Si H 1 : σ 1 > σ entonces la regla de decisión es 
2 2
 aceptar H 0 si F ≤ f α ,n1 −1,n2 −1

2 2

recahzar H 0 si F < f1−2α ,n1 −1,n2 −1

Si H 1 : σ 1 < σ 22 entonces la regla de decisión es 
2
 aceptar H 0 si F ≥ f1−α ,n1 −1,n2 −1

2

Para calcular el p-valor, si el estadístico F tomó el valor f 0 , y teniendo en cuenta que no hay simetría
en la distribución Fisher, hacemos:
Si H 1 : σ 1 > σ 22 entonces p − valor = P (F > f 0 )

2
Si H 1 : σ 1 < σ p − valor = P (F < f 0 )

2 2
2 entonces
 
Si H 1 : σ 1 ≠ σ 22 entonces p − valor = 2 min P (F < f 0 ) , P (F > f 0 )
2
 
Ejemplo:
En una serie de experimentos para determinar la tasa de absorción de ciertos pesticidas en la piel se
aplicaron cantidades medidas de dos pesticidas a algunos especímenes de piel. Después de un tiempo
se midieron las cantidades absorbidas (en µg ). Para el pesticida A la varianza de las cantidades absor-
bidas en 6 muestras fue de 2.3; mientras que para el B la varianza de las cantidades absorbidas en 10
especímenes fue de 0.6. Suponga que para cada pesticida las cantidades absorbidas constituyen una
muestra aleatoria de una población normal. ¿Se puede concluir que la varianza en la cantidad absorbi-
da es mayor para el pesticida A que para el B? Utilizar α = 0.05
212
Solución:
X 1 : “cantidad absorbida de pesticida A en un espécimen de piel tomado al azar”
X 2 : “cantidad absorbida de pesticida B en un espécimen de piel tomado al azar”
Asumimos que X 1 ~ N µ1 ,σ 1 ( 2
)y (
X 2 ~ N µ 2 ,σ 2
2
)
Las hipótesis son H 0 : σ 1 = σ 22 H 1 : σ 1 < σ 22
2 2
contra
Los datos son s12 = 2.3 y s22 = 0.6
n1 = 6 ; n2 = 10
S12 2.3
El estadístico de prueba es F = 2
y toma el valor f 0 = = 3.83
S2 0. 6
Buscamos en la tabla de la distribución Fisher f 0.05,5,9 = 3.48
2.3
= 3.83 > 3.48 = f 0.05,5,9 se rechaza H 0 : σ 1 = σ 22
2
Como f 0 =
0. 6
Para saber cuánta evidencia hay contra la hipótesis nula, calculamos el p-valor
De la tabla de la Fisher vemos que f 0.05,5,9 = 3.48 < 3.83 < f 0.01,5,9 = 6.06
Por lo tanto 0.01 < p − valor < 0.05
En la figura siguiente se ilustra la situación
10.10 – Tests de hipótesis sobre una proporción
En muchos problemas se tiene interés en una variable aleatoria que sigue una distribución binomial.
Por ejemplo, un proceso de producción que fabrica artículos que son clasificados como aceptables o
defectuosos. Lo más usual es modelar la ocurrencia de artículos defectuosos con la distribución bino-
mial, donde el parámetro binomial p representa la proporción de artículos defectuosos producidos.
En consecuencia, muchos problemas de decisión incluyen una prueba de hipótesis con respecto a p.
Consideremos las hipótesis
213
H 0 : p = p0 contra H 1 : p ≠ p0
Supongamos que consideramos una muestra aleatoria ( X 1 , X 2 ..., X n ) de tamaño n , donde Xi tiene
una distribución binomial con parámetros 1 y p: Xi ~ B(1,p).
Ya sabemos que X = X 1 + X 2 + ... + X n , es una v.a. cuya distribución es binomial con parámetros n
X
y p: X~B(n,p). De acuerdo con esto, la variable aleatoria P̂ definida: P̂ = representa la proporción
n
de individuos de la muestra que verifican la propiedad de interés.
Además
p (1 − p )
() X 1 1
()
X 1
E P̂ = E   = E ( X ) = np = p , y V P̂ = V   = 2 np (1 − p ) =
n n n n n n
Consideramos el estadístico de prueba
Pˆ − p0
Z=
p0 (1 − p0 )
n
Pˆ − p0
Si H 0 : p = p0 es verdadera entonces Z = ≈ N (0,1) aproximadamente por T.C.L.
p0 (1 − p0 )
n
Por lo tanto la regla de decisión es
 Pˆ − p0
 2
donde Z=
 aceptar H 0 si Z ≤ z α p0 (1 − p0 )
 2
n

Si H 1 : p > p0 entonces la regla de decisión es 


Si H 1 : p < p0 entonces la regla de decisión es 

Observaciones:
1- La prueba descrita anteriormente requiere que la proporción muestral esté normalmente distribuida.
Esta suposición estará justificada siempre que np0 > 10 y n(1 − p0 ) > 10 , donde p0 es la proporción
poblacional que se especificó en la hipótesis nula.
X − np0
2- También se podía haber tomado como estadístico de prueba a Z = donde X~B(n,p)
np0 (1 − p0 )
Ejemplo:
214
Un fabricante de semiconductores produce controladores que se emplean en aplicaciones de motores

automovilísticos. El cliente requiere que la fracción de controladores defectuosos en uno de los pasos
de manufactura críticos no sea mayor que 0.05, y que el fabricante demuestre esta característica del
proceso de fabricación con este nivel de calidad, utilizando α = 0.05 . E fabricante de semiconductores
toma una muestra aleatoria de 200 dispositivos y encuentra que 4 de ellos son defectuosos. ¿El fabri-
cante puede demostrar al cliente la calidad del proceso?
Solución:
Sea la v.a. X: “número de controladores defectuosos en la muestra”
Entonces X ~ B(200, p) donde p es la proporción de controladores defectuosos en el proceso
Las hipótesis son H 0 : p = 0.05 contra H 1 : p < 0.05
Como α = 0.05 entonces − zα = − z0.05 = −1.645
Pˆ − p0 Pˆ − 0.05
El estadístico de prueba es Z = = y toma el valor z 0 = −1.95
p0 (1 − p0 ) 0.05(1 − 0.05)
n 200
Como z 0 = −1.95 < − zα = − z0.05 = −1.645 entonces se rechaza H 0 , y se concluye que la fracción de
controladores defectuosos es menor que 0.05.
Calculamos el p-valor
p − valor = P(Z < z 0 ) = P(Z < −1.95) = Φ (− 1.95) = 0.0256
Valor de β y selección del tamaño de la muestra
Podemos obtener expresiones aproximadas para la probabilidad de cometer error de tipo II de manera
análoga a las obtenidas para los test para la media
Si H 1 : p ≠ p0 entonces
 
β ( p ) = P aceptar H 0 H 0 es falsa  ≈
 
 p0 (1 − p0 )   p0 (1 − p0 ) 
 p0 − p + z α   p0 − p + z α 
 n   n 
≈ Φ 2
 − Φ
2

 p(1 − p )   p(1 − p ) 
 n   n 
   
Si H 1 : p < p0 entonces
 p0 (1 − p0 ) 
 p0 − p − zα 
   
β ( p ) = P aceptar H 0 H 0 es falsa  ≈ 1 − Φ

n

 

p (1 − p ) 
 n 
Si H 1 : p > p0 entonces
215
 p0 (1 − p0 ) 
 p0 − p + zα 
   
β ( p ) = P aceptar H 0 H 0 es falsa  ≈ Φ

n

 

p (1 − p ) 
 n 
Estas ecuaciones pueden resolverse para encontrar el tamaño aproximado de la muestra n para que con
un nivel de significancia de α la probabilidad de cometer error de tipo II sea menor o igual que un
valor específico β 0 . Las ecuaciones se deducen como en casos anteriores y son
p0 (1 − p0 ) + z β0 p(1 − p ) 
2
 zα
 
Si H 1 : p ≠ p0 entonces n≥ 2 
 p − p0 
 
p0 (1 − p0 ) + z β 0 p (1 − p ) 
2
 zα
Si H 1 : p < p0 ó H 1 : p > p0 entonces n ≥  
 p − p0 
 
Ejemplo:
Volviendo al ejemplo anterior, supongamos que la verdadera proporción de componentes defectuosos
en el proceso es p = 0.03 , ¿cuál es el valor de β si n = 200 y α = 0.05 ?
Solución:
Ya que la alternativa es H 1 : p < p0 aplicamos la fórmula
 p0 (1 − p0 ) 
 p 0 − p − zα 
   =
β ( p ) = P aceptar H 0 H 0 es falsa  ≈ 1 − Φ

n

  p (1 − p )
 
 n 
 0.05(1 − 0.05) 
 0.05 − 0.03 − 1.645 
=1− Φ  n  = 1 − Φ(− 0.44 ) = 0.67
 0.03(1 − 0.03) 
 
 200 
Como la probabilidad de aceptar que el proceso tiene la calidad deseada cuando en realidad p = 0.03
es bastante alta, podemos preguntar qué tamaño de muestra se necesita para que en el test anterior sea
β < 0.1 si la verdadera proporción de defectuosos es p = 0.03 . En este caso aplicamos la fórmula
donde z β 0 = z 0.1 = 1.28
p0 (1 − p0 ) + z β 0 p (1 − p )   1.645 0.05(1 − 0.05) + 1.28 0.03(1 − 0.03) 

2 2
 zα
n≥  =  ≈ 832
 p − p0   0 . 03 − 0 . 05 
   
La muestra requerida es muy grande, pero la diferencia a detectar p − p0 = 0.03 − 0.05 es bastante pe-
queña.
216
10.11 – Tests de hipótesis sobre dos proporciones
Las pruebas de hipótesis sobre diferencia de medias pueden adaptarse al caso donde tenemos dos pa-
rámetros binomiales p1 y p2 de interés.
Específicamente, supongamos que se toman dos muestras aleatorias
( )
X 11 , X 12 ,..., X 1n1 es una muestra aleatoria de tamaño n1 de X 1
(X 21 , X 22 ,..., X 2 n2) es una muestra aleatoria de tamaño n 2 de X 2
Donde X 1 ~ B (1, p1 ) ; X 2 ~ B(1, p2 ) y X 1 y X 2 independientes.
1 n1 1 n2
Ya sabemos que Pˆ1 = ∑ X 1i y Pˆ2 = ∑ X 2i son estimadores insesgados de p1 y p 2 respecti-
n1 i =1 n2 i =1
p (1 − p1 ) p (1 − p 2 )
vamente, con varianzas V Pˆ1 = 1
n1
( ) y V Pˆ2 = 2
n2
( )
H 0 : p1 − p2 = 0 contra H 1 : p1 − p 2 ≠ 0
Notar que si la hipótesis nula es verdadera entonces p1 = p 2 = p , donde p es desconocido.

Pˆ1 − Pˆ2
El estadístico Z = tiene distribución aproximadamente N (0,1) por T.C.L. si
1 1
p(1 − p ) + 
 n1 n2 
n1 n2
∑X 1i + ∑ X 2i
H 0 : p1 − p2 = 0 es verdadera. Tomamos como estimador de p a Pˆ = i =1 i =1
y lo reempla-
n1 + n2
zamos en Z
Pˆ1 − Pˆ2
Entonces el estadístico de prueba es Z = que bajo H 0 : p1 − p 2 = 0 se puede pro-
(
1 1
Pˆ 1 − Pˆ  +  )
 n1 n2 
bar que tiene distribución aproximadamente N (0,1)
 Pˆ1 − Pˆ2
Entonces la regla de decisión es  2
donde Z =
aceptar H si Z ≤ z


0 α
2 ( )
1 1
Pˆ 1 − Pˆ  + 
 n1 n2 

Si H 1 : p1 − p 2 > 0 entonces la regla de decisión es 

217

Si H 1 : p1 − p 2 < 0 entonces la regla de decisión es 

Ejemplo:
En una muestra de 100 lotes de un producto químico comprado al distribuidor A, 70 satisfacen una
especificación de pureza. En una muestra de 70 lotes comprada al distribuidor B, 61 satisfacen la es-
pecificación. ¿Pude concluir que una proporción mayor de los lotes del distribuidor B satisface la es-
pecificación?
Solución:
Los parámetros de interés son p1 y p2 las verdaderas proporciones de lotes que cumplen las especifi-
caciones de pureza.
( ) 1 n1
Tenemos una muestra aleatoria X 11 , X 12 ,..., X 1n1 de tamaño n1 = 100 donde Pˆ1 = ∑ X 1i =
n1 i =1
70
100
= 0. 7
( )
n2
1 61
Y otra muestra X 21 , X 22 ,..., X 2 n2 de tamaño n2 = 70 donde Pˆ2 =
n2
∑X
i =1
2i =
70
Las hipótesis son H 0 : p1 − p2 = 0 contra H 1 : p1 − p2 < 0
n1 n2
Pˆ1 − Pˆ2 ∑ X 1i + ∑ X 2i
El estadístico de prueba es Z = donde Pˆ = i =1 i =1
n1 + n2
( )
1 1
Pˆ 1 − Pˆ  + 
 n1 n2 
n1 n2
∑ X 1i + ∑ X 2i 70 + 61 131
En este caso Pˆ = i =1 i =1
= =
n1 + n2 100 + 70 170
70 61
−
El estadístico toma el valor z 0 = 100 70 = −2.6163
131  131  1 1 
1 −  + 
170  170  100 70 
Para saber cuánta evidencia hay contra H 0 : p1 − p 2 = 0 calculamos el p-valor

p − valor = P(Z < z 0 ) = Φ(− 2.6163) = 0.0045
Como el p-valor es menor que 0.05, se considera que hay mucha evidencia contra H 0 : p1 − p2 = 0 y
se rechaza la hipótesis nula.
Valor de β
Cuando H 0 : p1 − p2 = 0 es falsa, la varianza de Pˆ1 − Pˆ2 es
218
p (1 − p1 ) p 2 (1 − p 2 )
( ) ( ) ( )
V Pˆ1 − Pˆ2 = V Pˆ1 + V Pˆ2 = 1
n1
+
n2
p1 (1 − p1 ) p 2 (1 − p 2 )
1 2
( ) ( ) ( )
Anotamos σ Pˆ − Pˆ = V Pˆ1 − Pˆ2 = V Pˆ1 + V Pˆ2 =
n1
+
n2
Entonces
Si H 1 : p1 − p 2 ≠ 0
 1 1   1 1 
z p q  +  − ( p − p )  −z p q  +  − ( p − p ) 
 α2 n n  1 2
  α n n  1 2

 1 2 
2
 1 2 
β ≈ Φ  − Φ 
 σ Pˆ1 − Pˆ2   σ Pˆ1 − Pˆ2 
   
   
Donde p = Pˆ y q = 1 − Pˆ
 
 z pq  1 + 1  − ( p − p ) 
 ε n n  1 2

 1 2 
Si H 1 : p1 − p 2 > 0 entonces β ≈ Φ 
 σ Pˆ1 − Pˆ2 
 
 
 
 − z pq  1 + 1  − ( p − p ) 
 α n n  1 2

 1 2 
Si H 1 : p1 − p 2 < 0 entonces β ≈ 1 − Φ 
 σ Pˆ1 − Pˆ2 
 
 
Podemos deducir fórmulas para el tamaño de la muestra, nuevamente asumiendo que n1 = n2 = n
219
Parte 2 – Regresión lineal simple Prof. María B. Pintarelli
11 – REGRESIÓN LINEAL SIMPLE

En muchos problemas existe una relación entre dos o más variables, y resulta de interés estudiar
la naturaleza de esa relación. El análisis de regresión es la técnica estadística para el modelado y
la investigación de la relación entre dos o más variables. Veamos un ejemplo.
Los resortes se usan en aplicaciones por su capacidad para alargarse (contraerse) bajo carga. La
rigidez de un resorte se mide con la constante del resorte, que es la longitud del resorte que se
alargará por unidad de la fuerza o de la carga. Para asegurarse de que un resorte dado funciona
adecuadamente es necesario calcular la constante de resorte con exactitud y precisión.
En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo, y los pe-
sos se cuelgan uno tras otro del otro extremo. Después de colgar cada peso se mide la longitud
del resorte. Sean x1 , x 2 ,..., x n los pesos, y sea l i la longitud del resorte bajo la carga xi .
La ley de Hooke establece que
l i = β 0 + β 1 xi
donde β 0 representa la longitud del resorte cuando no tiene carga y β1 es la constante del resor-
te.
Sea y i la longitud medida del resorte bajo la carga xi . Debido al error de medición y i será dife-
rente de la longitud verdadera l i . Se escribe como
yi = li + ε i
donde ε i es el error en la i-ésima medición. Al combinar ambas ecuaciones se obtiene
y i = β 0 + β 1 xi + ε i (10.1)
En la ecuación (10.1), y i es la variable dependiente, xi es la variable independiente, β 0 y β1

son los coeficientes de regresión, y ε i se denomina error. A la ecuación (10.1) se la llama mo-
delo de regresión lineal simple.
La tabla siguiente presenta los resultados del experimento y la figura el diagrama de dispersión
de y contra x.
Peso (lb) Longitud medida (pulg) Peso (lb) Longitud medida (pulg)
x y x y
0,0 5,06 2,0 5,40
0,2 5,01 2,2 5,57
0,4 5,12 2,4 5,47
0,6 5,13 2,6 5,53
0,8 5,14 2,8 5,61
1,0 5,16 3,0 5,59
1,2 5,25 3,2 5,61
1,4 5,19 3,4 5,75
1,6 5,24 3,6 5,68
1,8 5,46 3,8 5,80
220
5,8
Longitud(pulg) 5,6
5,4
5,2
5
0 1 2 3 4
Peso(lb)
La idea es utilizar estos datos para estimar los coeficientes de regresión. Si no hubiese error en la
medición, los puntos se encontrarían en una línea recta con pendiente β1 y ordenada al origen
β 0 , y estas cantidades serían fáciles de determinar. La idea es entonces que los puntos están dis-
persos de manera aleatoria alrededor de una recta que es la recta de regresión lineal l = β 0 + β 1 x .
En general podemos decir que al fijar el valor de x observamos el valor de la variable Y. Si bien x
es fijo, el valor de Y está afectado por el error aleatorio ε . Por lo tanto ε determina las propie-
dades de Y. Escribimos en general
Y = β 0 + β1 x + ε
donde x es, por ahora, una variable no aleatoria, ε es la v.a. del error y asumimos que
E (ε ) = 0 y V (ε ) = σ 2
Entonces Y es una variable aleatoria tal que
E (Y x ) = E (β 0 + β1 x + ε ) = β 0 + β1 x + E (ε ) = β 0 + β 1 x
V (Y x ) = V (β 0 + β1 x + ε ) = V (ε ) = σ 2
En consecuencia, el modelo de regresión verdadero E (Y x ) = β 0 + β1 x es una recta de valores

promedio.
Notar que lo anterior implica que existe una distribución de valores de Y para cada x, y que la
varianza de esta distribución es la misma para cada x. La siguiente figura ilustra esta situación
Notar que se utilizó una distribución normal para describir la variación aleatoria en ε . Por lo
tanto la distribución de Y también será normal. La varianza σ 2 determina la variabilidad en las
observaciones Y. por lo tanto, cuando σ 2 es pequeño, los valores observados de Y caen cerca de
la línea, y cuando σ 2 es grande, los valores observados de Y pueden desviarse considerablemen-
te de la línea. Dado que σ 2 es constante, la variabilidad en Y para cualquier valor de x es la
misma.
221
E (Y x ) = β 0 + β1 x
β 0 + β1 x2
β 0 + β1 x1
x1 x2 x
11.2 – Regresión lineal simple- Estimación de parámetros
Para estimar los coeficientes de regresión se utiliza el método de mínimos cuadrados.

Supongamos que se tienen n pares de observaciones ( x1 , y1 ); ( x 2 , y 2 );....; ( x n , y n ) . Realizamos
una gráfica representativa de los datos y una recta como posible recta de regresión
Anotamos a la recta de regresión estimada con yˆ = βˆ0 + βˆ1 x
yi Recta de regresión
estimada
ŷ i
xi
222
Las estimaciones de β 0 y β1 deben dar como resultado una línea que en algún sentido se “ajuste
mejor” a los datos. El método de mínimos cuadrados consiste en estimar β 0 y β1 de manera tal
que se minimice la suma de los cuadrados de las desviaciones verticales mostradas en la figura
anterior.
La suma de los cuadrados de las desviaciones de las observaciones con respecto a la recta de
regresión es
( )
n
L = ∑ y i − βˆ0 − βˆ1 xi
2
i =1
Los estimadores de mínimos cuadrados de β 0 y β1 , que anotamos β̂ 0 y β̂1 , deben satisfacer las
siguientes ecuaciones
 ∂L
( )
n
 ∂β = −2 ∑i =1
y i − βˆ 0 − βˆ1 xi = 0
 ∂L
0
(10.2)
( )
n
 = −2∑ y i − βˆ 0 − βˆ1 xi xi = 0
 ∂β 1 i =1
Después de simplificar las expresiones anteriores, se llega a
 n n
β 1∑ i ∑
n ˆ + βˆ x = yi
 0
i =1 i =1
 n n n (10.3)
βˆ 0 ∑ xi + βˆ1 ∑ xi2 = ∑ xi y i
 i =1 i =1 i =1
Las ecuaciones (10.3) reciben el nombre de ecuaciones normales de mínimos cuadrados.

La solución de estas ecuaciones dan como resultado las estimaciones de mínimos cuadrados β̂ 0
y β̂1
βˆ0 = y − βˆ1 x (10.4)
 n  n 
n
 ∑ xi  ∑ y i 
∑ y i xi −   i =1 
i =1
n
β̂1 = i =1
2
(10.5)
 n 
n
 ∑ xi 
∑ xi −  
2 i =1
i =1 n
n n
∑y
i =1
i ∑x
i =1
i
donde y = y x=
n n
223
Las diferencias ei = y i − yˆ icon i = 1,..., n se llaman residuos. El residuo ei describe el error

en el ajuste del modelo en la i-ésima observación y i .
Para agilizar la notación son útiles los siguientes símbolos
2
 n 
n n
 ∑ xi 
S xx = ∑ ( xi − x ) = ∑ xi −  i =1 
2 2
(10.6)
i =1 i =1 n
 n  n 
n n
 ∑ xi  ∑ y i 
S xy = ∑ y i ( xi − x ) = ∑ xi y i −  i =1  i =1  (10.7)
i =1 i =1 n
S xy
Entonces con esta notación podemos escribir β̂1 =
S xx
Ejemplo:
Ajustamos un modelo de regresión lineal a los datos del ejemplo anterior. La estimación de la
constante del resorte es β̂1 y β̂ 0 la estimación de la longitud sin carga.
De la tabla obtenemos
x = 1.9 y = 5.3885
S xx = 26.6 S xy = 5.4430
S xy 5.4430
Entonces βˆ1 = = = 0.2046 y βˆ0 = y − βˆ1 x = 5.3885 − 0.2046 × 1.9 = 4.9997
S xx 26.6
La ecuación de la recta estimada es
yˆ = βˆ0 + βˆ1 x ⇒ yˆ = 4.9997 − 0.2046 x
La figura siguiente muestra el gráfico de dispersión con la recta de regresión estimada
5,8
5,6
Y
5,4
5,2
5
0 1 2 3 4
X
224
Podemos utilizar la recta de regresión estimada para predecir la longitud del resorte bajo una
carga determinada, por ejemplo con una carga de 1.3 lb:
yˆ = 4.9997 − 0.2046(1.3) = 5.27 pulg.
Podemos también estimar la longitud del resorte bajo una carga de 1.4 lb:
yˆ = 4.9997 − 0.2046(1.4) = 5.29pulg.

Notar que la longitud medida para una carga de 1.4 lb es 5.19 pulg., pero la estimación de míni-
mos cuadrados de 5.29 pulg. Está basada en todos los datos y es más precisa (tiene menor incer-
tidumbre). Mas adelante calcularemos la varianza de estos estimadores.
Observaciones:
1- Las estimaciones de mínimos cuadrados β̂1 y β̂ 0 son valores de variables aleatorias y dicho
valor varía con las muestras. Los coeficientes de regresión β 0 y β1 son constantes desconocidas
que estimamos con β̂1 y β̂ 0 .
2- Los residuos ei no son lo mismo que los errores ε i . Cada residuo es la diferencia ei = y i − yˆ i
entre el valor observado y el valor ajustado, y se pueden calcular a partir de los datos. Los errores
ε i representan la diferencia entre los valores medidos y i y los valores β 0 + β1 xi . Como los va-
lores verdaderos de β 0 y β1 no se conocen entonces, los errores no se pueden calcular.
3- ¿Qué sucede si se quisiera estimar la longitud del resorte bajo una carga de 100 lb? La esti-
mación de mínimos cuadrados es yˆ = 4.9997 − 0.2046(100) = 25.46pulg. pero esta estimación no
es confiable, pues ninguno de los pesos en el conjunto de datos es tan grande. Es probable que el
resorte se deformara, por lo que la ley de Hooke no valdría. Para muchas variables las relaciones
lineales valen dentro de cierto rango, pero no fuera de él. Si se quiere saber cómo respondería el
resorte a una carga de 100 lb se deben incluir pesos de 100 lb o mayores en el conjunto de datos.
Por lo tanto no hay que extrapolar una recta ajustada fuera del rango de los datos. La relación
lineal puede no ser válida ahí.
11.3 – Propiedades de los estimadores de mínimos cuadrados y estimación de σ 2
Los estimadores de β1 y β 0 los anotamos

n
S ∑ Y (x i i − x)
βˆ0 = Y − βˆ1 x β̂1 = xY = i =1
(10.8)
S xx S xx
Como β̂1 y β̂ 0 son estimadores de β1 y β 0 respectivamente, son variables aleatorias, por lo
tanto podemos calcular su esperanza y varianza. Como estamos asumiendo que x no es v.a. en-
tonces β̂1 y β̂ 0 son funciones de la v.a. Y.
Recordemos que el modelo es Y = β 0 + β 1 x + ε , si medimos n veces la variable Y tenemos
Yi = β 0 + β1 xi + ε i
donde asumimos E (ε i ) = 0 ; V (ε i ) = σ 2 i = 1,2,..., n y ε 1 , ε 2 ,..., ε n independientes
225
Por lo tanto
E (Y xi ) = E (β 0 + β1 xi + ε ) = β 0 + β 1 xi + E (ε ) = β 0 + β1 xi
V (Y x i ) = V (β 0 + β1 xi + ε i ) = V (ε i ) = σ 2
S ∑ Y (x i i − x)
Consideramos β̂1 = xY = i =1
. Podemos ver a β̂1 como una combinación lineal de las
S xx S xx
variables Yi , entonces
 n 
 ∑ Yi ( xi − x ) 
( )  S xy   = 1 E  Y ( x − x ) = 1
n n
 = E  i =1 ∑ E (Yi )(xi − x ) =
 S xx  ∑
E β̂ 1 = E 
 S xx   S xx i =1
i i
 S xx i =1
 
 
1 n 1  n n
 1
= ∑ ( β 0 + β x
1 i )( x i − x ) =  0∑ i
β ( x − x ) + β 1 ∑ x i ( x i − x ) = β1 S xx = β1
S xx i =1 S xx  i =1 i =1  S xx
 n 
n n n
 ∑ xi 
Notar que ∑ ( xi − x ) = ∑ xi − nx = ∑ xi − n i =1 =0
i =1 i =1 i =1
 n 
 
 
n n
y ∑ x (x
i =1
i i − x ) = ∑ ( xi − x )(xi − x ) = S xx
i =1
S xy ∑ Y (x i i − x)
Por lo tanto β̂1 = = i =1
es un estimador insesgados de β1
S xx S xx
Veamos ahora la varianza de β̂1
 n 
 ∑ Yi ( xi − x ) 
( )  S xy   = 1 V  Y ( x − x ) = 1
n n
 = V  i =1 ∑V (Y )(x − x) =
 S xx2  ∑
V β̂1 = V 
2
 S xx   S xx i =1
i i 2
 S xx i =1
i i
 
 
1 n 2 1 σ2
= 2 ∑ σ ( xi − x ) = 2 σ 2 S xx =
2
S xx i =1 S xx S xx
Por lo tanto
( )
E βˆ1 = β 1 y ( )
V βˆ1 =
σ2
S xx
(10.9)
226
Con un enfoque similar calculamos la esperanza y la varianza de β̂ 0
 n 
 ∑ Yi 
( ) ( ) ( )
n
E β 0 = E Y − β1 x = E ( y ) − E β1 x = E  i =1  − β x = 1 E (Y ) − β x =
ˆ ˆ ˆ
 n  1 ∑ i 1
n i =1
 
 
1 n
= ∑ (β 0 + β 1 x i ) − β 1 x = β 0 + β 1 x − β 1 x = β 0
n i=
Calculamos la varianza de β̂ 0 , para esto planteamos:
( ) ( ) ( )
V βˆ0 = V Y − βˆ1 x = V (Y ) + V βˆ1 ( x ) − 2Cov Y , βˆ1 x ( )
Tenemos que
σ2
() 1 n  1
r n
1 n
V Y = V  ∑ Yi  = 2
 n i =1  n
∑V (Yi ) =
i =1 n2
∑σ 2 =
i =1 n
Y Cov (Yi , Y j ) = 0 por indep.
( ) ( ) 1 n n
(x − x )  1 n
Cov Y , βˆ1 x = x Cov Y , βˆ1 = x Cov ∑ Yi , ∑ Yi i
S xx 
= x ∑ Cov(Yi , Yi (xi − x )) =
 n i =1 i =1 nS xx i =1
(xi − x )Cov(Yi , Yi ) = x 1 ∑ (xi − x )σ 2 = x σ ∑ (xi − x ) = 0

2
1 n n n
=x ∑
nS xx i =1 nS xx i =1 nS xx i =1
Por lo tanto
( ) ( ) () ( ) (
V βˆ 0 = V Y − βˆ1 x = V Y + V βˆ1 (x )2 − 2Cov Y , βˆ1 x =
σ2
n
+ x2
σ2
)
S xx
1 x2
− 0 = σ 2  +



 n S xx 
Entonces
( )
E βˆ0 = β 0 y ( ) 1 x2
V βˆ 0 = σ 2  +
n S



( 10.10)
 xx 
Necesitamos estimar la varianza desconocida σ 2 que aparece en las expresiones de V β̂ 0 y ( )

( )
V βˆ .
1
Los residuos ei = y i − yˆ i se emplean para estimar σ 2 . La suma de los cuadrados de los residuos
es
n
SS R = ∑ ( y i − yˆ i )
2
(10.11)
i =1
227
 SS   SS 
Puede demostrarse que E  2R  = n − 2 , en consecuencia E  R  = σ 2 .
σ  n−2
Entonces se toma como estimador de σ a
2
SS R
σˆ 2 = (10.12)
n−2
Puede obtenerse una fórmula más conveniente para el cálculo de SS R , para esto primero notar
que las ecuaciones normales (10.2) se pueden escribir como
 n
(
 ∑ y i − β 0 − β1 xi = 0
ˆ ˆ )  n
 ∑ e i = 0
n
i =1
⇒ n
i =1
 i =1
(
∑ y i − βˆ 0 − βˆ1 xi xi = 0 ) ∑ e i x i = 0
 i =1
Entonces
( )
n n n n
SS R = ∑ ( y i − yˆ i ) = ∑ ( y i − yˆ i )( y i − yˆ i ) = ∑ ei ( y i − yˆ i ) = ∑ ei y i − βˆ 0 − βˆ1 xi =
2
i =1 i =1 i =1 i =1
( ) ( ) ( )
n n n n
= ∑ ei y i − βˆ 0 − ∑ βˆ1 ei xi = ∑ ei y i − βˆ 0 = ∑ ei y i − y − βˆ1 x = ∑ ei ( y i − y )
i =1 i =1 i =1 i =1
Por lo tanto
( ) ( )
n n n
SS R = ∑ ei ( y i − y ) = ∑ y i − βˆ0 − βˆ1 xi ( y i − y ) = ∑ y i − y + βˆ1 x − βˆ1 xi ( y i − y ) =
i =1 i =1 i =1
n n
= ∑ ( y i − y )( y i − y ) − ∑ βˆ1 (xi − x )( y i − y ) = S yy − βˆ1 S xy
i =1 i =1
También se puede escribir
ˆ S xy S xy2
SS R = S yy − β1 S xy = S yy − S xy = S yy −
S xx S xx
S xy2
En resumen SS R = S yy − βˆ1 S xy ó SS R = S yy − (10.13)
S xx
S xy2
S yy −
S xx
Por lo tanto σˆ 2 =
n−2
Y si anotamos a la desviación estándar estimada de β̂ 0 y β̂1 con s βˆ y s βˆ respectivamente

0 0
entonces
228
σˆ 2 1 x2 
s βˆ = y s βˆ = σˆ 2  +  (10.14)
n S 
S xx  xx 
1 0
Ejemplo:
En el ejemplo anterior se calculó, x = 1.9 , y = 5.3885 , S xx = 26.6 , S xy = 5.4430 .
20
Calculamos ahora S yy = ∑ ( y i − y ) = 1.1733 y entonces
2
i =1
S xy2 5.4430 2
S yy − 1.1733 −
S xx 26.6 = 0.003307
σˆ 2 = =
n−2 18
σˆ 2 0.003307
s βˆ = = = 0.000124 = 0.0111
1
S xx 26.6
 1 x2   2 
s βˆ = σˆ 2  +  = 0.003307 1 + 1.9  = 0.02478219
  20 26.6 
 n S xx   
0
Observación:
La varianza de β̂ 0 y β̂1 se puede disminuir tomando valores xi muy dispersos con respecto a
x pues de esta forma aumenta S xx
Para construir intervalos de confianza para los coeficientes de regresión o para construir pruebas
de hipótesis con respecto a β 0 o β1 necesitamos asumir que los errores ε i tienen distribución
normal. Entonces ε i ~ N (0, σ 2 )
Observación:
Si ε i ~ N (0, σ 2 ) entonces, como Yi = β 0 + β 1 xi + ε i , resulta que Yi ~ N ( β 0 + β1 xi , σ 2 ) . Se
pueden calcular entonces los EMV de los parámetros y llegaríamos a que son los mismos que
los encontrados usando mínimos cuadrados. De modo que la función que cumple la suposi-
ción de normalidad de los ε i no es otra que la de justificar el uso del método de mínimos cua-
drados, que es el mas sencillo de calcular.
Ya vimos que β̂ 0 y β̂1 pueden considerarse combinaciones lineales de las Yi , por lo tanto β̂ 0 y
β̂1 son combinación lineal de variables aleatorias independientes con distribución normal y eso
implica que
 1 x2   σ2 
βˆ 0 ~ N  β 0 , σ 2  +  y βˆ1 ~ N  β 1 ,  (10.15)

 n S xx 
  S 
xx 
229
Y entonces
βˆ 0 - β 0 βˆ1 − β1
~ N (0,1) y ~ N (0,1) (10.16)
1 x2 
2 σ2
σ  + 
n S 
 xx  S xx
Bajo la suposición que los errores tienen distribución normal, se puede probar que
SS R
~ χ n2-2 (10.17)
σ 2
Y también se puede probar que
βˆ 0 - β 0 βˆ1 − β1
~ t n -2 y ~ t n -2 (10.18)
 x 2 
2 1 σˆ 2
σˆ  + 
 n S xx  S xx
11.4 – Inferencias estadísticas sobre los parámetros de regresión
Suponemos que los errores tiene distribución normal, con media cero, varianza σ 2 y son in-
dependientes.
Inferencias sobre β1
Tests de hipótesis sobre β1

Se desea probar la hipótesis de que la pendiente β1 es igual a una constante, por ejemplo β10 .
H 0 : β1 = β 10 contra H 0 : β1 ≠ β10
βˆ1 − β 10
El estadístico de prueba es T= que bajo H 0 tiene distribución Student con n-2 gra-
σˆ 2
S xx
dos de libertad.
 ,´n − 2
Por lo tanto la regla de decisión es  2
 aceptar H 0 si T ≤ t α ,n − 2
 2
Si H 1 : β 1 > β10 se rechaza H 0 : β1 = β 10 si T > tα ,n − 2

Si H 1 : β 1 < β 10 se rechaza H 0 : β1 = β 10 si T < −tα ,n − 2
230
Un caso especial importante es cuando H 0 : β 1 = 0 contra H 0 : β1 ≠ 0

Estas hipótesis están relacionadas con la significancia de la regresión.
Aceptar H 0 : β 1 = 0 es equivalente a concluir que no hay ninguna relación lineal entre x e Y.
Si H 0 : β 1 = 0 se rechaza implica que x tiene importancia al explicar la variabilidad en Y. Tam-
bién puede significar que el modelo lineal es adecuado, o que aunque existe efecto lineal pueden
obtenerse mejores resultados agregando términos polinomiales de mayor grado en x.
Ejemplos:
1- El fabricante del resorte de los datos de la ley de Hooke afirma que la constante del resorte β1
es al menos 0.23 pulg/lb. Se ha calculado que la constante del resorte es βˆ = 0.2046 pulg/lb. ¿Se
1
puede concluir que la afirmación del fabricante es falsa?
Solución:
Se requiere una prueba de hipótesis para contestar la pregunta. Las hipótesis serían
H 0 : β1 = 0.23 contra H 0 : β1 < 0.23
βˆ1 − β 10 βˆ1 − 0.23

El estadístico de prueba es T = =
σˆ 2 σˆ 2
S xx S xx
σˆ 2
Se calculó anteriormente = 0.0111 , entonces el valor t 0 que toma el estadístico es
S xx
0.2046 − 0.23
t0 = = −2.28
0.0111
Calculamos el p-valor recordando que bajo H 0 : β1 = 0.23 , T ~ t n - 2 :
p − valor = P(T < −2.28)
Vemos en la tabla de la distribución Student que en la fila ν = 18 grados de libertad
 P (T > 2.101) = 0.025

 ⇒ 0.01 < p − valor < 0.025
 P (T > 2.552 ) = 0.01
Por lo tanto se rechaza H 0 : β1 = 0.23
2- La capacidad de una unión soldada de alongarse bajo tensión está afectada por el compuesto
químico del metal de soldadura. En un experimento para determinar el efecto del contenido de
carbono (x) sobre la elongación (y) se alongaron 39 soldaduras hasta la fractura, y se midió tanto
el contenido de carbono (en partes por mil) como la elongación (en %). Se calcularon los si-
guientes resúmenes estadísticos:
S xx = 0.6561 ; S xy = −3.9097 ; σˆ = 4.3319
231
Suponiendo que x e y siguen un modelo lineal, calcular el cambio estimado en la elongación de-
bido a un aumento de una parte por mil en el contenido de carbono. ¿Se debe utilizar el modelo
lineal para pronosticar la elongación del contenido de carbono?
Solución:
El modelo lineal es y = β 0 + β1 x + ε , y el cambio de elongación debido a un aumento de una
parte por mil en el contenido de carbono es β1 .
Las hipótesis serían H 0 : β1 = 0 contra H 0 : β1 ≠ 0
La hipótesi nula establece que incrementar el contenido de carbono no afecta la elongación,

mientras que la hipótesis alternativa establece que sí afecta la elongación.
βˆ1 − β 10 βˆ1
El estadístico de prueba T = = si H 0 : β1 = 0 es verdadera tiene distribución
σˆ 2 σˆ 2
S xx S xx
Student con n − 2 gados de libertad.
S xy ∑ y (x i i − x)
− 3.9097
Calculamos βˆ1 = = i =1
= = −5.959
S xx S xx 0.6561
σˆ 2 σˆ 4.3319
= = = 5.348
S xx S xx 0.6561
− 5.959
El valor que toma el estadístico de prueba es t 0 = = 1.114
5.348
Y p − valor = P (T > 1.114) > 2 × 0.10 = 0.20
Por lo tanto no hay evidencia en contra de la hipótesis nula. No se puede concluir que el modelo
lineal sea útil para pronosticar la elongación a partir del contenido de carbono.
Intervalos de confianza para β1

Podemos construir intervalos de confianza para β1 de nivel 1 − α utilizando el hecho que el es-
tadístico
βˆ 1 − β 1
~ t n - 2 . El intervalo sería
σˆ 2
S xx
 σˆ 2 ˆ σˆ 2 
 βˆ1 − t α ; β1 + t α  (10.19)
 2
,n − 2 S xx 2
,n − 2 S xx 
232
Ejemplo:
Determinar un intervalo de confianza de nivel 0.95 para la constante del resorte de los datos de la
ley de Hooke.
Solución:
σˆ 2
Se calculó antes βˆ1 = 0.2046 y = 0.0111
S xx
El número de grados de libertad es 20 − 2 = 18 , y α = 0.05 por lo tanto
tα = t 0.025,18 = 2.101
,n −2
2
[0.2046 − 2.101(0.0111); 0.2046 − 2.101(0.0111)] = [0.181; 0.228]
Inferencias sobre β 0
De manera similar a lo visto sobre β1 , se pueden deducir intervalos de confianza y tests de hipó-
tesis para β 0
Específicamente, si tenemos las hipótesis
H 0 : β 0 = β 00 contra H 0 : β 0 ≠ β 00
βˆ 0 - β 00
El estadístico de prueba es T y bajo H 0 : β 0 = β 00 tenemos que T ~ t n -2
1 x2 
σˆ 2  + 

 n S xx 
 ,´n − 2
Por lo tanto la regla de decisión es  2
 aceptar H 0 si T ≤ t α ,n − 2
 2
Si H 1 : β 0 > β 00 se rechaza H 0 : β 0 = β 00 si T > tα ,n − 2

Si H 1 : β 0 < β 00 se rechaza H 0 : β 0 = β 00 si T < −tα ,n − 2
Intervalos de confianza de nivel 1 − α se deducen de manera análoga a lo visto anteriormente,

βˆ 0 - β 0
donde usamos el hecho que el estadístico T ~ t n-2
 1 x 2 
σˆ 2  + 

n S xx 
  1 x2  ˆ  1 x2  
El intervalo es  βˆ 0 − t α σˆ 2  + ; β 0 + tα σˆ 2  +   (10.20)
 ,n − 2  ,n−2  
 2  n S xx  2  n S xx  
233
Ejemplo:
En los datos de la ley de Hooke determine un intervalo de confianza de nivel 0.99 para la longi-
tud del resorte no cargado.
Solución:
La longitud del resorte no cargado es β 0 . Se ha calculado anteriormente βˆ0 = 4.9997 y
 1 x2 
s βˆ = σˆ 2  +  = 0.02478219

 n S xx 
0
El número de gados de libertad es 20 − 2 = 18 y como α = 0.01 entonces

tα = t 0.005,18 = 2.878
,n −2
2

[4.9997 − 2.878(0.024782193); 4.9997 − 2.878(0.02478219) ] = [4.9283; 5.071023]
11.5 – Intervalo de confianza para la respuesta media
A menudo es de interés estimar mediante un intervalo de confianza β 0 + β 1 x0 , es decir estimar

la media E (Y x0 ) para un valor específico x0 .
Un estimador puntual razonable para β 0 + β1 x0 es βˆ0 + βˆ1 x0 .
(
Sabemos que E βˆ + βˆ x = β + β x .
0 1 0 ) 0 1 0
Como de costumbre necesitamos construir un estadístico a partir de βˆ0 + βˆ1 x0 que contenga al
parámetro de interés, (en este caso β 0 + β1 x0 ) y del cual conozcamos la distribución de probabi-
lidad.
Pensamos en el estadístico 0
βˆ + βˆ1 x0 − E βˆ0 + βˆ1 x 0 ( )
V βˆ0 + βˆ1 x0 ( )
( 0 1 0 )
Nos falta calcular V βˆ + βˆ x . Para esto nuevamente observamos que βˆ + βˆ x es una com- 0 1 0
binación lineal de las variables Yi
1 n 1 n S
βˆ0 + βˆ1 x 0 = Y − βˆ1 x + βˆ1 x0 = ∑ Yi + βˆ1 ( x 0 − x ) = ∑ Yi + xY ( x0 − x ) =
n i =1 n i =1 S xx
n
∑ Y (x − x)
(x0 − x ) = ∑ Yi  1 + (xi − x ) (x0 − x )
1 n i i n
 
= ∑ Yi + i =1
n i =1 S xx i =1 n S xx 
Por lo tanto:
234
 n  1 (x − x )
(x0 − x )  = ∑V (Yi ) 1 + (xi − x ) (x0 − x ) =
2
 n
( )
V βˆ0 + βˆ1 x 0 = V  ∑ Yi  + i
 
 i =1  n S xx   i =1 n S xx 
 1 (x − x )
(x0 − x ) = ∑ σ 2  12 + (xi −2 x ) (x0 − x )2 + 2 (xi − x ) (x0 − x ) =
2
n
 n  2

= ∑σ  + i 2
i =1 n S xx  i =1  n S xx nS xx 
 ( x − x )2 n
( x0 − x ) n 
= σ 21 + 0 2 ∑ (x − x ) i
2
+2 ∑ (x − x ) =
i
n S xx i =1 nS xx i =1 
n n
Notar que ∑ ( xi − x ) = 0
i =1
y ∑ (x
i =1
i − x ) = S xx entonces
2
 1 (x − x )2 
=σ 2 + 0 
n S xx 
Por lo tanto
 1 (x0 − x )2  
βˆ0 + βˆ1 x0 ~ N  β 0 + β1 x 0 ; σ 2  +  (10.21)

  n S xx  
SS R
Como σ 2 es desconocido lo reemplazamos por σˆ 2 = , y puede probarse que
n−2
βˆ 0 + βˆ1 x 0 − (β 0 + β 1 x 0 ) tiene distribución Student con n − 2 grados de libertad

1
σˆ 2  +
( x 0 − x )2 

n S xx 
Razonando como en casos anteriores, el intervalo de confianza para β 0 + β 1 x0 de nivel 1 − α es
  1 ( x − x )2   1 ( x − x )2  
 βˆ0 + βˆ1 x0 − t α σˆ 2  + 0  ; βˆ0 + βˆ1 x 0 + t α σˆ 2  + 0   (10.22)
 ,n −2

 n S xx  ,n− 2

 n S xx  
 2 2

Ejemplo:
Mediante los datos de la ley de Hooke calcular un intervalo de confianza de nivel 0.95 para la
longitud media de un resorte bajo una carga de 1.4 lb
Solución:
Para aplicar (10.22) necesitamos calcular βˆ0 + βˆ1 x0 ; σˆ 2 ; x ; S xx .
En este caso x0 = 1.4 y α = 0.05 , por lo tanto t α = t 0.025,18 = 2.101
,n −2
2
Ya tenemos calculado de ejemplos anteriores:
σˆ = 0.0575
x = 1. 9
235
S xx = 26.6
βˆ0 = 4.9997 y βˆ1 = 0.2046
De aquí ya calculamos βˆ0 + βˆ1 x 0 = 4.9997 + 0.2046 × 1.4 = 5.286
Entonces el intervalo es:

  1 (1.4 − 1.9 )2   1 (1.4 − 1.9)2  
5.286 − 2.101 0.0575 2  +  ; 5 . 286 + 2 .101 0. 0575 2
 +  =
  20 26 .6   20 26.6  
 
= [5.26; 5.32]
Observaciones:
1- Notar que el ancho del intervalo de confianza para E (Y x 0 ) depende del valor de x0 . El an-
cho del intervalo es mínimo cuando x0 = x y crece a medida que x0 − x aumenta.
2- Al repetir los cálculos anteriores para varios valores diferentes de x0 pueden obtenerse inter-
valos de confianza para cada valor correspondiente de E (Y x 0 ) .
En la figura siguiente se presenta el diagrama de dispersión con la recta estimada y los corres-
pondientes intervalos de confianza de nivel 0.95 graficados con las líneas inferior y superior re-
feridos al ejemplo anterior. Se origina entonces una banda de confianza que envuelve a la recta
estimada.
5,8
5,6
Y
5,4
5,2
5
0 1 2 3 4
X
11.6 – Intervalos de predicción para futuras observaciones
Una aplicación importante de un modelo de regresión es la predicción de observaciones nuevas o

futuras de Y, correspondientes a un nivel especificado de la variable x.
Si x0 es el valor de x de interés, entonces una estimación puntual de la observación
Y = β + β x + ε es Yˆ = βˆ + βˆ x .
0 0 1 0 0 0 0 1 0
236
Para hallar un intervalo de predicción para Y0 = β 0 + β1 x 0 de nivel 1 − α debemos construir un

estadístico a partir de Yˆ = βˆ + βˆ x .
0 0 1 0
Primero notamos que si Y0 es una nueva observación, entonces Y0 es independiente de las ob-
servaciones utilizadas para desarrollar el modelo de regresión.
Consideramos Y0 − Yˆ0 . Calculamos su esperanza y varianza:
( ) ( ( ))
E Y0 − Yˆ0 = E β 0 + β1 x 0 + ε 0 − βˆ0 + βˆ1 x0 = β 0 + β1 x 0 + E (ε 0 ) − (β 0 + β 1 x0 ) = 0
 1 ( x − x )2 
( ) ( ) ( )
V Y0 − Yˆ0 = V (Y0 ) + V Yˆ0 = V (β 0 + β 1 x0 + ε 0 ) + V βˆ0 + βˆ1 x0 = σ 2 + σ 2  + 0 =
 n S xx 
 1 ( x 0 − x )2 
= σ 1 + +
2

 n S xx 
Por lo tanto
  1 ( x − x )2  
Y0 − Yˆ0 ~ N  0; σ 2 1 + + 0   (10.23)

  n S xx  
En consecuencia
Y0 − Yˆ0
~ N (0; 1) (10.24)
 1 ( x 0 − x )2 
σ 1 + +
2

 n S xx 
Si reemplazamos σ 2 por su estimación σˆ 2 se puede probar que
Y0 − Yˆ0
~ t n -2 (10.25)
 1 ( x 0 − x )2 
σˆ 1 + +
2

 n S xx 
Por el argumento usual llegamos al siguiente intervalo de predicción de nivel 1 − α para Y0 :
  1 ( x 0 − x )2   1 ( x − x )2  
Yˆ0 - t α σˆ 1 + + ; Yˆ0 + t α σˆ 2 1 + + 0
2
  (10.26)
  n S xx   n S xx  
,n -2 , n -2
2 2
Ejemplo:
Calcular el intervalo de predicción con nivel 0.95 para la elongación de un resorte bajo una car-
ga de 1.4 lb.
Solución:
El intervalo es
237
  1 (1.4 − 1.9 ) 
2
 1 (1.4 − 1.9 ) 
2 
5.286 − 2.101 0.0575 2 1 + +  ; 5.286 + 2.101 0.0575 1 +
2
+  =
  20 26.6   20 26.6  
 
= [5.16165; 5.41034]
Observaciones:
1- Un intervalo de confianza es un intervalo que contiene, con un nivel de confianza fijado, un
parámetro determinado de interés. Un intervalo de predicción es un intervalo que contiene, con
un nivel de confianza fijado, una variable aleatoria de interés.
2- El ancho del intervalo de predicción es mínimo cuando x0 = x y crece a medida que x0 − x
aumenta.
Al comparar (10.25) con (10.21) se observa que el intervalo de predicción en el punto x0 siem-
pre es más grande que el intervalo de confianza en x0 . Esto se debe a que el intervalo de predic-
ción depende tanto del error del modelo ajustado como del error asociado con las observaciones
futuras.
3- Al repetir los cálculos anteriores para varios valores diferentes de x0 pueden obtenerse los
intervalos de predicción. En la figura siguiente se presenta el diagrama de dispersión con la recta
estimada y los correspondientes intervalos de confianza y de predicción de nivel 0.95 graficados
con las líneas inferior y superior referidos al ejemplo anterior. Se originan entonces una banda
de confianza (línea continua) y otra banda de predicción (línea entrecortada) que envuelven a la
recta estimada. Esto ilustra que los intervalos de confianza son menos amplios que los intervalos
de predicción.
5,8
5,6
Y
5,4
5,2
5
0 1 2 3 4
X
11.7 – Índice de ajuste
Si consideramos el ajuste por mínimos cuadrados de los pares de datos (xi , Yi ) al modelo
Y = β0 + ε
238
Entonces es fácil verificar que el estimador de mínimos cuadrados de β 0 es Y , y la suma de

n
residuos al cuadrado es S YY = ∑ (Yi − Y ) . Por otro lado si consideramos el modelo lineal
2
i =1
Y = β 0 + β1 x + ε
n
Entonces tenemos un valor de SS R = ∑ ( y i − yˆ i ) que será menor o igual a S YY = ∑ (Yi − Y ) .
n
2 2
i =1 i =1
2
La cantidad R se define como
SS R
R2 = 1− (10.27)
S YY
y es llamado coeficiente de determinación. Vemos que R 2 será cero si β1 = 0 y será uno si

n
SS R = ∑ ( y i − yˆ i ) = 0 , lo que significa ajuste lineal perfecto.
2
i =1
En general 0 ≤ R 2 ≤ 1 . El valor de R 2 se interpreta como la proporción de variación de la res-

puesta Y que es explicada por el modelo. La cantidad R 2 es llamada índice de ajuste, y es a
menudo usada como un indicador de qué tan bien el modelo de regresión ajusta los datos. Pero
un valor alto de R no significa necesariamente que el modelo de regresión sea correcto.
Ejemplo:
20
S yy = ∑ ( y i − y ) = 1.1733 ,
2
En el ejemplo de la ley de Hooke, tenemos y
i =1
5.4430 2
SS R = 1.1733 − = 0.059526
26.6
SS R 0.059526
Por lo tanto R 2 = 1 − = 1− = 0.949266
S YY 1.1733
El índice de ajuste R es a menudo llamado coeficiente de correlación muestral. Si la variable

fijada x es una variable aleatoria, entonces tendríamos una v.a. bidimensional ( X , Y ) con una
distribución de probabilidad conjunta, y tenemos una muestra de pares ( X i , Yi ) i = 1,..., n . Su-
pongamos que estamos interesados en estimar ρ el coeficiente de correlación entre X e Y. Es
decir
E [( X − E ( X ))(Y − E (Y ))]
ρ=
V ( X )V (Y )
Es razonable estimar
∑ (X − X )(Y i − Y )
n
E [( X − E ( X ))(Y − E (Y ))]
1
con i
n i =1
1 n
(X i − X )2 ∑ (Y )
n
1
V ( X ) con ∑
n i =1
y V (Y ) con
n i =1
i −Y
239
Por lo tanto un estimador natural de ρ es
∑ (X − X )(Yi − Y )
n
i
S XY
ρ̂ = i =1
= =R (10.28)
∑ (X − X) ∑ (Y −Y )
n n
2 2 S XX S YY
i i
i =1 i =1
Es decir el índice de ajuste estima la correlación entre X e Y
Si X es una variable aleatoria, entonces se observan pares independientes ( X i , Yi ) con i = 1,..., n

que cumplen el modelo
Yi = β 0 + β1 X i + ε i
Si asumimos que X i y ε i son independientes y que las ε i tienen todas la misma distribución
con E (ε i ) = 0 , entonces E (Yi X i ) = β 0 + β1 X i
Si además suponemos que ε i ~ N (0, σ 2 ) entonces se puede probar que los estimadores de
máxima verosimilitud para los parámetros β 0 y β1 son
βˆ0 = Y − βˆ1 X
y
∑ Y (X − X)
n
i i
S XY
β̂1 = i =1
=
∑ (X −X)
n
2 S XX
i
i =1
Es decir son los mismos estimadores a los dados por el método de mínimos cuadrados en el caso
de suponer que X es una variable matemática.
También se puede probar que bajo las suposiciones hechas (10.17) y (10.18) siguen siendo
válidas.
Las distribuciones de los estimadores dependen ahora de las distribuciones de las X i . Puede
probarse que siguen siendo insesgados, y que su distribución condicional en las X i es normal,
pero en general su distribución no será normal.
11.8 – Análisis de residuos
El ajuste de un modelo de regresión requiere varias suposiciones. La estimación de los paráme-

tros del modelo requiere la suposición de que los errores son variables aleatorias independientes
con media cero y varianza constante. Las pruebas de hipótesis y la estimación de intervalos re-
quieren que los errores estén distribuidos de manera normal. Además se supone que el grado del
240
modelo es correcto, es decir, si se ajusta un modelo de regresión lineal simple, entonces se supo-
ne que el fenómeno en realidad se comporta de una manera lineal.
Se debe considerar la validez de estas suposiciones como dudosas y examinar cuán adecuado es
el modelo que se propone. A continuación se estudian métodos que son útiles para este propósi-
to.
Los residuos de un modelo de regresión son ei = y i − yˆ i i = 1,2,..., n . A menudo el análisis de

los residuos es útil para verificar la hipótesis de que los errores tienen una distribución que es
aproximadamente normal con varianza constante, y también para determinar la utilidad que tiene
la adición de más términos al modelo.
ei
Es posible estandarizar los residuos mediante el cálculo de i = 1,2,..., n .
σˆ 2
También se puede probar que la varianza del i-ésimo residuo ei es igual a
  1 ( x − x )2 
V (ei ) = σ 2 1 −  + i 
 
  n S xx 
Y entonces podemos considerar al i-ésimo residuo estudentizado que se define como
ei
ri =
 1 (xi − x )2 
σˆ 2 1 −  + 
 n S xx 
y tiene desviación estándar unitaria.
Si los errores tienen una distribución normal, entonces aproximadamente el 95% de los residuos
estandarizados deben caer en el intervalo (−2; 2) . Los residuos que se alejan mucho de este
intervalo pueden indicar la presencia de un valor atípico, es decir, una observación que no es
común con respecto a los demás datos.
A menudo es útil hacer una gráfica de residuos contra la variable independiente x. En este caso la
gráfica tendría que ser una nube de puntos sin ningún patrón en el intervalo (−2; 2) ; pues
ei = y i − yˆ i sería lo que queda de y i al quitarle la influencia de xi . Si en la gráfica aparece al-
gún patrón quiere decir que no estamos quitando de las y toda la influencia de las x.
Patrones usuales para las gráficas de residuos suelen ser los de las siguientes figuras: en la figura
a) se representa la situación ideal, una nube de puntos sin ningún patrón en el intervalo (−2; 2) .
Las figuras b) , c) y d) representan anomalías. Si los residuos aparecen como en b) o c) indican
que el modelo es inadecuado. La figura d) muestra residuos que indican que la varianza de las
observaciones varía con la magnitud de x. Comúnmente se utiliza una transformación de datos
sobre la respuesta y para eliminar este problema. Las transformaciones más utilizadas para esta-
bilizar la varianza son y , ln ( y ) o 1 .
y
En la figura d) la varianza de las observaciones disminuye con el aumento de x
241
a)
2,3
1,3
residuos
0,3
-0,7
-1,7
0 0,4 0,8 1,2 1,6 2
x
b)
4,7
2,7
residuos
0,7
-1,3
-3,3
0 0,4 0,8 1,2 1,6 2
x
c)
4,7
2,7
residuos
0,7
-1,3
-3,3
0 0,4 0,8 1,2 1,6 2
x
242
d)
4,7
residuos 2,7
0,7
-1,3
-3,3
0 0,4 0,8 1,2 1,6 2
x
Ejemplo:
Para los datos sobre la ley de Hooke la gráfica de residuos es
2,5
1,5
residuos
0,5
-0,5
-1,5
-2,5
0 1 2 3 4
X
Para el caso en que ( X , Y ) es una v.a. bidimensional, no siempre se está interesado en la relación
lineal que defina E (Y / X ) . Si no, únicamente saber si X e Y son variables aleatorias independien-
tes. Si asumimos que la distribución conjunta de ( X , Y ) es una distribución llamada normal bi-
variada, entonces probar que ρ = 0 es equivalente a probar que X e Y son independientes.
Se puede probar que si la distribución conjunta de ( X , Y ) es normal bivariada, entonces R es el
estimador de máxima verosimilitud de ρ . Pero es difícil obtener la distribución de probabilidad
para R. Se puede superar esta dificultad en muestras bastante grandes al utilizar el hecho que el
( )
estadístico 1 ln
1+ R 
2  1 − R 
tiene aproximadamente una distribución normal con media
( ) 1+ ρ 
µ = 1 2 ln  y varianza σ 2 =
1
.
1− ρ  n−3
243
Por lo tanto para probar la hipótesis H 0 : ρ = ρ 0 podemos utilizar el estadístico de prueba
(12 )ln 11 +− RR  − (12 )ln 11 +− ρρ 0 


Z=  0  (10.29)
1
n−3
1+ ρ 
Para construir intervalos de confianza de nivel 1 − α para ρ , se despeja en µ = 1 ln 
2  1 − ρ 
( )
el coeficiente ρ y se llega a
e 2µ − 1
ρ= (10.30)
e 2µ + 1
Ejemplo:
En un estudio de los tiempos de reacción, el tiempo de respuesta a un estímulo visual (x) y el
tiempo de respuesta a un estímulo auditivo (y) se registraron para cada una de 10 personas.
Los tiempos se midieron en minutos. Se presentan en la siguiente tabla.
x 161 203 235 176 201 188 228 211 191 178
y 159 206 241 163 197 193 209 189 169 201
a) Determinar un intervalo de confianza de nivel 0.95 para la correlación entre los tiempos de
reacción.
b) Determinar el p-valor para H 0 : ρ = 0.3 contra H 1 : ρ > 0.3
Solución:
∑ (X − X )(Yi − Y )
n
i
i =1 S XY
a) Se calcula R = = = 0.8159
n n
∑ (X −X) ∑ (Y −Y )
2 2 S XX S YY
i i
i =1 i =1
Luego calcula (12 )ln 11 +− RR  = (12 )ln 11 +− 00..8159

8159 
 = 1.1444

( )
Como 1 ln
1 + R 
2 1− R   está distribuido normalmente con varianza σ 2 =
1
n−3
, el intervalo para
( ) 1+ ρ 
µ = 1 2 ln  es
1− ρ 
  1   1 
1.1444 − 1.96 ; 1.1444 + 1.96   = [0.4036; 1.8852]
  10 − 3   10 − 3  
244
Para hallar el intervalo para ρ aplicamos la transformación (10.30) y se obtiene
e 2(0.4036 ) − 1 e 2 (1.8852 ) − 1
< ρ < ⇒ 0.383 < ρ < 0.955
e 2(0.4036 ) + 1 e 2(1.8852 ) + 1
b) Si H 0 : ρ = 0.3 es verdadera entonces el estadístico
(12 )ln 11 +− RR  − (12 )ln 11 +− 00..33 

Z= tiene aproximadamente distribución N (0,1)
1
10 − 3
1+ R 
El valor observado de 1 ln
2  1 − R 
( )
es 1.1444, por lo tanto el estadístico toma el valor
z 0 = 2.2088
Entonces p − valor = P(Z > 2.2088) = 0.0136 . Entonces se rechaza H 0 : ρ = 0.3 y se con-
cluye que ρ > 0.3
245

Inferencial - Pintarelli

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Inferencial - Pintarelli

Hochgeladen von

Copyright:

Verfügbare Formate

Parte 2 – Estimación puntual Prof. María B.

8.2 – Muestreo aleatorio

En muchos problemas estadísticos es necesario utilizar una muestra de observaciones tomadas de la

Una muestra es un subconjunto de observaciones seleccionada de una población

Un estadístico es cualquier función de la muestra aleatoria

Sea X 1 , X 2 ,..., X n una muestra aleatoria de una v.a. X donde E ( X ) = µ y V ( X ) = σ 2

Al medir la muestra aleatoria se obtienen x1 , x2 ,..., xn , y entonces el valor que toma Θ̂ es

8.3 – Criterios para evaluar estimadores puntuales

Se dice que el estimador puntual Θ̂ es un estimador insesgado del parámetro θ si E Θ̂ = θ ()

Notar que si un estimador es insesgado entonces su sesgo es cero

Usamos las propiedades de la esperanza, particularmente la propiedad de linealidad.

E(X i ) = E(X ) = µ ∀i = 1,2 ,...,n . Luego:

donde en la última igualdad tuvimos en cuenta que V (X i ) = V (X ) = σ 2 ∀i = 1,2,...,n y que

En ocasiones hay más de un estimador insesgado de un parámetro θ

Varianza y error cuadrático medio de un estimador puntual

0.3 Distribución de Θ̂1

Ejemplo: Sea X 1 , X 2 ,..., X n una muestra aleatoria de una v.a. X donde E ( X ) = µ y V ( X ) = σ 2

V (X i ) = V (X ) = σ 2 ∀i = 1,2 ,...,n , tenemos

El error cuadrático medio de un estimador Θ̂ de un parámetro θ está definido como

El error cuadrático medio puede escribirse de la siguiente forma:

Aplicamos propiedades de la esperanza:

El error cuadrático medio es un criterio importante para comparar estimadores.

Si Θ̂1 y Θ̂ 2 son dos estimadores de un parámetro θ .

La eficiencia relativa de Θ̂ 2 con respecto a Θ̂1 se define como

-7.5 -5 -2.5 2.5 5 7.5

Solución: Calculamos el error cuadrático medio de cada estimador

Consistencia de estimadores puntuales

Por lo tanto vemos que X es un estimador consistente de µ = E ( X ) .

8.4 – Métodos de estimación puntual

- Método de los momentos

- Método de máxima verosimilitud

Método de los momentos

Se puede probar usando la desigualdad de Chebyshev el siguiente resultado:

Ley débil de los grandes números:

Definimos los momentos de orden k de una variable aleatoria como:

y definimos los correspondientes momentos muestrales de orden k como:

Entonces la ley débil de los grandes números se puede generalizar:

Supongamos, entonces, una variable aleatoria X y supongamos que la distribución de X depende de r

Se puede probar que

Tenemos, entonces, el sistema de ecuaciones

3- Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de una v.a. X~ N ( µ , σ 2 ) .

pero en general es válido que V ( X ) = E ( X 2 ) − µ 2 ⇒ E( X 2 ) = V ( X ) + µ

4- Sea ( X 1 , X 2 ,..., X n ) una muestra aleatoria de una v.a. X~ N ( 0 , σ 2

Solución: en este caso no es conveniente plantear µ1 = M 1 pues quedaría

la ecuación 0 = X que no conduce a nada.

Observación: si Θ̂ es un estimador por el método de los momentos de un parámetro θ , el estimador

Método de máxima verosimilitud

La adaptación para el caso en que X es una v.a. continua sería la siguiente

Notación: abreviamos estimador de máxima verosimilitud con EMV

Recordemos que la esperanza y varianza son:

Nuevamente tomamos logaritmo natural

 0 caso contrario 0 caso contrario

ecuaciones con k incógnitas θ1 ,θ 2 ,...θ k

Resolvemos con respecto a µ y σ 2 :

Entonces los estimadores máxima verosimilitud de µ y σ 2 son

Propiedades de los estimadores máxima verosimilitud

Repetimos el procedimiento anterior y construimos un intervalo de confianza para µ con nivel de

La variable aleatoria Z cumple las condiciones necesarias de un pivote

donde la incógnita es el número real z.

Si reemplazamos la v.a. Z por su expresión tenemos:

P(− z ≤ Z ≤ z ) = Φ ( z ) − Φ (− z ) =1- α donde Φ (z ) es la Fda para la v.a. Z ~ N (0,1)

Recordando que Φ(− z ) = 1 − Φ( z ) , esta ecuación queda:

Si ( X 1 , X 2 ,..., X n ) una muestra aleatoria de tamaño n de una v.a. X donde X ~ N ( µ , σ 2 ) , σ 2

La longitud del intervalo encontrado en a) es: 35.78454