Sie sind auf Seite 1von 64

capítulo

Pruebas e dos mu.


con datos numéricos
••••••••••••••••••••••••••• ••••••••••••••••••••••••••••••
OBJETIVOS DEL Extender los principios básicos de la
prueba de hipótesis a pruebas de dos
CAPÍTULO muestras que impliquen variables
numéricas. Se consideran tanto
procedimientos de muestras
independientes como relacionadas.

461
�··
1fHI Introducción
En el capítulo anterior enfocamos nuestra atención sobre una variedad de proce­
dimientos de prueba de hipótesis de uso común, que tenían que ver con una sola
muestra de datos numéricos tomados de una población. En el presente capítulo,
extenderemos nuestro estudio de la prueba de hipótesis al análisis de proce­
dimientos de uso común que nos permiten comparar estadísticas calculadas a par­
tir de dos muestras de datos numéricos, con el propósito de hacer inferencias con
respecto a posibles diferencias en los parámetros de las dos poblaciones respecti­
vas. En particular, como se puede ver en el diagrama resumen de este capítulo,
página 519, describiremos varios procedimientos de prueba de hipótesis útiles que
pueden ser empleados, dependiendo de la situación que se tenga. Se analizan pro­
cedimientos de muestras independientes y de muestras relacionadas. Se pone énfa­
sis en las suposiciones que se encuentran detrás del uso de las diferentes pruebas.
Después de terminar el capítulo, usted será capaz de:
l. Diferenciar entre los diferentes criterios utilizados en la selección de
un procedimiento de prueba de hipótesis en particular.
2. Saber cuándo y cómo utilizar la prueba t de varianza conjunta para
examinar diferencias posibles en las medias de dos poblaciones
independientes.
3. Saber cuándo y cómo utilizar la prueba t' de varianza independiente
para examinar diferencias posibles en las medias de dos poblaciones
independientes.
4. Saber cuándo y cómo utilizar la prueba de sumas de rangos de
Wilcoxon para examinar posibles diferencias en las medianas de dos
poblaciones independientes.
S. Saber cuándo y cómo utilizar la prueba F para examinar posibles difer­
encias en las varianzas de dos poblaciones independientes.
6. Saber cuándo y cómo utilizar la prueba t para una posible diferencia
media, µD, en dos poblaciones relacionadas.
7. Saber cuándo y cómo utilizar la prueba de rangos con signo de
Wilcoxon para una posible diferencia mediana, M0, en dos poblaciones
relacionadas.

1f!j Elección del procedimiento de pruebas


apropiado al comparar dos muestras
independientes
A través de los años han sido desarrollados muchos procedimientos de prueba
estadística que nos permiten hacer comparaciones y examinar las diferencias entre
dos grupos, basándose en muestras independientes que contienen datos numé­
ricos. Así pues, una cuestión importante a la que se enfrenta cualquiera que esté
implicado en la prueba de hipótesis, son los criterios que se van a utilizar para la
selección de un procedimiento estadístico en particular, de entre los muchos que
se tienen disponibles. Parte de un buen análisis consiste en entender las suposi­
ciones subyacentes en cada una de las técnicas de prueba de hipótesis y en selec­
cionar aquella que sea más apropiada para un conjunto de condiciones dado.
Otros criterios para la selección de pruebas tienen que ver con la simplicidad del
procedimiento, el grado de generalización de las conclusiones a las que se lleguen,
la accesibilidad de las tablas de valores críticos de la estadística de prueba, la dispo­
nibilidad de paquetes de software de computación que contienen el procedi­
miento de prueba y, finalmente, pero no el menos importante, la capacidad
estadística del procedimiento.

462 Capítulo 13 Pruebas de dos muestras con datos numéricos


En cada una de las siguientes cuatro secciones, describiremos un procedi­
miento de prueba de hipótesis que examina diferencias entre dos grupos indepen­
dientes, basándonos en muestras de datos numéricos.

1f81 Prueba t de varianza conjunta para


diferencias entre dos medias

1 3.3.1 Introducción
Primero extendamos los conceptos de la prueba de hipótesis desarrollados en los
capítulos 11 y 12 a situaciones en las que nos gustaría determinar si existe alguna
diferencia emre las medias de dos poblaciones independientes. Suponga que con­
sideramos dos poblaciones independientes, cada una con una media y una desvia­
ción estándar (representadas simbólicamente de la manera siguiente):

Población 1 Población 2

Supongamos también que se toma una muestra aleatoria de tamaño ni de la


primera población y una muestra aleatoria de tamaño n2 de la segunda población,
y, además, que los datos recolectados en cada muestra pertenecen a alguna variable
aleatoria de interés.
La estadística de prueba utilizada para determinar la diferencia entre las medias
de las poblaciones está basada en la diferencia entre las medias de las muestras
(Xi - X2). Debido al teorema del límite central, estudiado en la sección 9.2, esta
estadística de prueba seguirá la distribución normal estándar para tamaños de
muestra lo suficientemente grandes. La estadística de prueba Z es:

en donde X, = media de la muestra tomada de la población 1


µ 1 = media de la población 1
cr� = varianza de la población 1
n1 = tamaño de la muestra tomada de la población 1
_x2 = media de la muestra tomada de la población 2
µ 2 = media de la población 2
cr; = varianza de la población 2
nz = tamaño oe la mu-estrá tomada de la poblacíón 2

1 3.3.2 Desarrollo de la prueba t de varianza conjunta


Sin embargo, como lo mencionamos anteriormente, en la mayoría de los casos no
conocemos la desviación estándar real de ninguna de las dos poblaciones. La única
información que, por lo general, se puede obtener son las medias de las muestras
(Xi y X2), y las desviaciones estándar de las muestras (S i y S2). Si se hacen suposi-

Prueba t de varianza conjunta para diferencias entre dos medias 463


dones acerca de que las muestras fueron tomadas de manera aleatoria e indepen­
diente, de sus respectivas poblaciones, que están distribuidas normalmente, y,
además, que las varianzas de la población son iguales (esto es, crJ = cr �), se puede uti­
lizar una prueba t de varianza conjunta para determinar si existe alguna dife­
rencia significativa entre las medias de las poblaciones.
La prueba que se va a llevar a cabo puede ser de dos extremos o de un extremo,
dependiendo de si estamos probando si las dos medias de población son mera­
mente diferentes o si una de ellas es mayor que la otra.

Prueba de dos extremos Prueba de un extremo Prueba de un extremo


H0: µ1 = µ2 ,o µ1 - µ2 = O Ho: µ¡ � µ2 o µ¡ - µ2 � O Ho: µ¡ :,; µ2 o µ¡ - µ2 :,; O
H¡ : µ¡ * µ2 •Oµ¡ - µ2 * O H1: µ1 < µ2 o µ1 - µ2 < O H¡ : µ¡ > µ2 o µ¡ - µ2 > O
En la que µ 1 = media de la población 1
µ 2 = media de la población 2

Para probar la hipótesis nula de no diferencia en las medias de dos poblaciones


independientes

contra la alternativa de que las medias no son iguales

se puede calcular la siguiente estadística de prueba t de varianza conjunta:

en donde

52 (n1 - 1)5¡ + (n 2 - 1)5;


(n1 - 1) + (n 2 1)
p
-

y
5p2 varianza aunada
X1 media de la muestra tomada de la población 1
5¡ varianza de la muestra tomada de la población 1
n1 tamaño de la muestra tomada de la población 1
X1 media de la muestra tomada de la población 2
5; varianza de la muestra tomada de la población 2
n2 tamaño de la muestra tomada de la población 2

464 Capítulo 13 Pruebas de dos muestras con datos numéricos


De la ecuación (13.2) podemos observar que la prueba t de varianza conjunta
debe su nombre a que la estadística de prueba requiere la unión o la combinación
de dos varianzas de muestra, Si y st para obtener sff, la mejor estimación de la va­
rianza común a las dos poblaciones, bajo la suposición de que las dos varianzas de
población son iguales.
La estadística de prueba t de varianza conjunta sigue una distribución t con
n 1 + n2 - 2 grados de libertad. Para un nivel de significación, a, dado, podemos re­
chazar la hipótesis nula si la estadística de prueba t calculada es mayor que el valor
crítico de extremo superior tn1+n2_2, de la distribución t, o si la estadística de prueba
calculada cae por debajo del valor crítico de extremo inferior - tn1+n2_2 de la dis­
tribución t. Es decir, la regla de decisión es

Rechazar H0 si t > tn1+n,-2

o en cualquier otra situación no rechazar H0 .

La regla de decisión y las regiones de rechazo se muestran en la figura 13.1.

Figura 13.1
Regiones de rechazo para una
prueba de dos extremos entre dos
media.

1 3.3.3 Aplicación
Para demostrar el uso de la prueba tde varianza conjunta, suponga que un analista
financiero desea comparar los réditos de dividendo promedio de las acciones nego­
ciadas en la Bolsa de Valores de Nueva York con los producidos por las acciones
negociadas directamente en el listado del mercado nacional NASDAQ. Se selec­
ciona una muestra aleatoria de 21 compañías de la Bolsa de Valores de Nueva York
y otra de 25 acciones del listado NASDAQ, y los resultados se presentan en la tabla
13.1 de la página 466.
Si el analista financiero desea determinar si existe evidencia de una diferencia
en los réditos de dividendo promedio entre las dos poblaciones de acciones, las
hipótesis nula y alternativa serían:
Ho: µ 1= µ2 o µ 1 - µ2 = O
H1: µ1 * µ2 o µ1 - µz * O
Suponiendo que las muestras fueron tomadas de poblaciones normales con
varianzas iguales, se puede hacer uso de la prueba t de varianza conjunta. Si la
prueba se efectuara al nivel de significación de a= .05, la estadística de prueba t
seguiría

Prueba t de varianza conjunta para diferencias entre dos medias 465


Tabla 13. 1 Comparación de los réditos de dividendo* de las compañías seleccionadas
de la Bolsa de Valores de Nueva York y del listado de mercado nacional
NASDAQ (25 de mayo, 1994).

Bolsa de Valores de Nueva York (n 1 = 21) Listado NASDAQ (n2 = 25)


Compañía Réditos de dividendo Compañía Réditos de dividendo
American Express 3.4 Atlantic SE Airlines 1.2
Anheuser-Busch 2.7 Boral Ltd 5.1
Bristol-Myers-Squibb 5.4 Cathay Bancorp 4.3
Dayton-Hudson 2.1 Cit Fed Bancorp 0.8
Dresser Industries 3.0 CPB 3.2
Ford "M.otor 3.1 First Essex Bancorp 3.0
General Electric 3.0 Goulds Pumps 3.8
General Milis 3.5 Harper Group 1.3
IBM 1.6 Innovex 2.2
Kellogg Co. 2.6 Intel Corp. 0.4
Merck & Co. 3.6 Lindberg Corp. 2.7
NYNEX 6.4 Nature's Sunshine Prod. 1.5
Occidental Petroleum 5.3 Newcor 2.1
Pfizer loe. 3.0 PCA International 3.3
PPG !ne. 3.0 T Rowe Price Assoc. 1.8
Sara Lee Corp. 2.9 PSB Holdings Corp. 2.4
Texaco loe. 5.0 Research loe. 4.6
Texas Instruments 0.9 Seacoast Banking Corp. 2.8
Whirlpool Corp. 2.2 Span-America Med. Sys. 1.8
Winn-Dixie 3.1 Sumitomo Bank of Cal. 3.6
Xerox Corp. 2.9 TCA CableTV 2.2
United Fire & Casualty 2.8
West Coast Bancorp 1.7
Whitney Holding Corp. 2.6
Worthington Industries 2.1
• El rédito de dividendo es el cociente del dividendo anual por acción entre el precio de cierre por acción,
expresado como porcentaje.

una distribución t con 21 + 25 - 2 = 44 grados de libertad. De la tabla E.3 del


apéndice E, los valores críticos de esta prueba de dos extremos son +2.0154 y
-2.0154, y, como se muestra en la figura 13.2, la regla de decisión es

Rechace H0 si t > t44 = +2.0154


o si t< -t44 = - 2.0154;
en cualquier otro caso, no rechace H0.

Figura 13.2
Prueba de dos extremos entre la
hipótesis concerniente a la
diferencia entre las medias, al
nivel de significación de .05.

466 Capítulo 13 Pruebas de dos muestras con datos numéricos


Utilizando los datos de la tabla 13.1, calculamos un conjunto de estadísticas
sumarias que presentamos en la tabla 13.2:

Tabla 13.2 Algunas estadísticas sumarias sobre


réditos de dividendo
Bolsa de Valores de Nueva York Listado NASDAQ
n 1 =21 n2 = 25
x1 = 3.27 x2 = 2.53
sf = 1.698 sJ = 1.353
51 = 1.30 Sz = 1.16
Xmenor, = 0.9 xmenor, = 0.4
Q ¡, = 2.65 Q ¡, = 1.75
Mediana 1 = 3.0 Mediana2 = 2.4
Q i, =3.55 Qi, = 3.25
Xmayor, = 6.4 Xmayor, = 5.1

Para nuestros datos tenemos

en la que

52 (n1 - l)S¡ + (n2 - l)s;


p
(n1 - 1) + (n 2 - 1)

20(1.30 ) 2 + 24(1.16) 2
21 + 25 - 2
66.432
44
= 1.510

y, por consiguiente

3.27 - 2.53
t = --;=======
1.s10(_!_ + _!_)
21 25
0.74
-Jo.132
0.74
0.364
= 2.03
Utilizando un nivel de significación de .05, la hipótesis nula (Ho) es rechazada debido
a que t = + 2.03 > t44 = +2.0154. Si la hipótesis nula fuera verdadera se tendría una

Prueba t de varianza conjunta para diferencias entre dos medias 467

r
probabilidad de a = O.OS de obtener una estadística de prueba t ya sea mayor a
+2.0154 desviaciones estándar del centro de la distribución to menor que -2.0154
desviaciones estándar del centro de la distribución t. El valor p, que es la probabili­
dad de obtener una diferencia entre las dos medias de muestra mayor que el valor
de O. 7 4 observado en este caso, que se traduce a una estadística de prueba t con una
distancia todavía mayor a ±2.03 desviaciones estándar, a partir del centro de la dis­
tribución t, tendría un valor ligeramente menor a .05, si la hipótesis nula de no
diferencia fuera verdadera. (Utilizando el paquete MINITAB, el valor p realmente
se calcula en .048.) Puesto que el valor pes menor que a, tenemos suficiente evi­
dencia de que la hipótesis nula no es verdadera y la rechazamos.
La hipótesis nula es rechazada porque la estadística de prueba t ha caído en la
región de rechazo. El analista financiero llegaría a la conclusión de que existe evi­
dencia de una diferencia en los réditos de dividendo promedio de los dos grupos.
Las compañías inscritas en la Bolsa de Valores de Nueva York parecen tener réditos
de dividendo un poco mayores que las compañías cuyas acciones se comercializan
directamente en el lista de mercado nacional de NASDAQ.
Observemos que en nuestro estudio del analista financiero, los dos grupos poseen
tamaños de muestra distintos. Cuando las dos muestras son del mismo tamaño (es
decir, n1 = n2), la fórmula para la varianza conjunta puede simplificarse a:

5p2 = sf + s�
2

1 3. 3.4 Resumen
En la prueba de la diferencia entre las medias, hemos supuesto que estamos tomando
las muestras de poblaciones distribuidas normalmente que tienen la misma varianza.
Debemos examinar las consecuencias que tienen las violaciones a esta suposición
sobre la prueba t de varianza conjunta. En situaciones en las que no podemos o no
deseamos hacer la suposición de que las dos poblaciones con igual varianza realmente
están distribuidas de manera normal, la prueba tde varianza conjunta es robusta (es
decir, no sensible) con respecto a violaciones moderadas de la suposición de norma­
lidad, siempre y cuando el tamaño de las muestras sea grande. En tales situaciones, la
prueba t de varianza conjunta puede utilizarse sin que se vea seriamente afectada en
su potencia. Por otro lado, si el tamaño de las muestras es pequeño y no podemos o
no deseamos hacer la suposición de que los datos de cada grupo fueron tomados de
una población normalmente distribuida, se tienen dos alternativas. Ya sea que se lleve
a cabo, en cada uno de los resultados, alguna transfonnación nonnalizante (véase refe­
rencia 11), y después se utilice la prueba t de varianza conjunta, o que se siga un pro­
cedimiento libre de distribución, como la prueba de suma de rangos de Wilcoxon (que
se estudiará en la sección 13.5), que no depende de la suposición de normalidad de
las dos poblaciones.
En situaciones en las que no podamos o no deseemos hacer la suposición de
que las dos poblaciones, normalmente distribuidas, de las cuales se tomaron las
muestras tienen varianzas iguales, se dice que se tiene un problema de Behrens-Fisher
(véase referencia 9), y se puede utilizar la prueba tde varianza separada, desarrollada
por Satterthwaite (véase referencia 8) y que describiremos en la siguiente sección.

Problemas de la sección 13.3


e 13.1 El gerente de control de calidad de una fábrica de bombillas de luz desearía
determinar si existe alguna diferencia en la vida promedio de las bombillas
fabricadas en dos tipos diferentes de máquina. La desviación estándar de
proceso de la máquina I es de 110 horas, y la de la máquina II es de 125 horas.

468 Capítulo 13 Pruebas de dos muestras con datos numéricos


r
.•
Una muestra aleatoria de 25 bombillas obtenidas con la máquina I dio como
resultado una media de muestra de 375 horas, y una muestra parecida de 25
bombillas tomada de la máquina II tuvo una media de muestra de 362 horas.
Utilizando el nivel de significación de .05
(a) ¿Existe alguna evidencia de que haya diferencia en la vida promedio de
las bombillas producidas por los dos tipos de máquina?
(b) Calcule el valor p del inciso (a) e interprete su significado.
13.2 La directora de adquisiciones de una fábrica de componentes industriales está
investigando la posibilidad de adquirir un nuevo tipo de máquina fresadora.
Ha determinado que se comprará la nueva máquina si existe evidencia de que
los componentes producidos tienen una resistencia al rompimiento en
promedio mayor que los fabricados por la vieja máquina. La desviación
estándar de proceso de la resistencia al rompimiento de las partes fabricadas
por la máquina actual es de 10 kilogramos y la correspondiente a las fabricadas
con la nueva máquina es de 9 kilogramos. Una muestra de 100 componentes
fabricados con la máquina vieja tuvo como resultado una media de muestra de
65 kilogramos, mientras que una muestra parecida de 100 partes obtenidas
con la máquina nueva tuvo como resultado una media de muestra de 72 kilo­
gramos. Utilizando el nivel de significación de a = 0.01
(a) ¿Existe alguna evidencia que apoye la compra de la nueva máquina por
parte de la directora de adquisiciones?
(b) Calcule el valor p del inciso (a) e interprete su significado.
e 13.3 La administración de Sycamore Steel Co. desea determinar si existe alguna
diferencia en el desempeño entre el turno matutino de trabajadores y el turno
vespertino. Una muestra de 100 trabajadores del turno matutino reveló una
producción promedio de 74.3 partes por hora, con una desviación estándar de
16 partes por hora. Con una muestra de 100 trabajadores del turno vespertino
se obtuvo una producción promedio de 69.7 partes por hora, con una
desviación estándar de 18 partes por hora. Al nivel de significación de 0.10
(a) ¿Existe alguna evidencia de que haya diferencia en la producción prome-
dio entre el turno matutino y el turno vespertino?
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.4 Una agencia de pruebas independiente ha sido contratada para determinar si
existe alguna diferencia en la producción de kilometraje de gasolina de dos
gasolinas diferentes sobre el mismo modelo de automóvil. La gasolina A fue
probada en 200 autos que produjeron un promedio de muestra de 18.5 millas
por galón, con una desviación estándar de 4.6 millas por galón. La gasolina B
fue probada en 100 automóviles que produjeron un promedio de muestra de
19.34 millas por galón, con una desviación estándar de muestra de 5.2 millas
por galón. Al nivel de significación de O.OS
(a) ¿Existe alguna evidencia de que haya diferencia en la producción promedio
entre el turno matutino y el tumo vespertino?
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e interprete
su significado.
13.5 Un fabricante de alfombras está estudiando las diferencias entre dos de sus
principales almacenes de ventas. La compañía está interesada especialmente
en el tiempo que transcurre antes de que un cliente reciba su alfombra que fue
ordenada desde la planta. Los datos concernientes a una muestra de tiempos
de entrega para el tipo más popular de alfombra se resumen a continuación:

Almacén A Almacén B
X 34.3 días 43.7 días
s 2.4 días 3.1 días
n 41 31

Prueba t de varianza conjunta para diferencias entre dos medias 469


(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en el
tiempo de entrega promedio para los almacenes?
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.6 Suponga que el gerente de una tienda de accesorios para mascotas desea
determinar si existe una diferencia significativa en la cantidad de dinero
gastada por los dueños de perros y por los dueños de gatos. (En el análisis se
eliminan los dueños de perros y gatos.) Los resultados obtenidos con una
muestra de 37 dueños de perros y 26 dueños de gatos se resumen a
continuación:

Adquisiciones para perros Adquisiciones para gatos


X $26.47 $19.16
s $ 9.45 $ 8.52
n 37 26

(a) Al nivel de significación de .OS, ¿existe evidencia de una diferencia en la


cantidad promedio de dinero gastada en la tienda de accesorios para
mascotas entre los dueños de perros y los dueños de gatos?
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.7 Un psicólogo industrial desea estudiar los efectos de la motivación en las
ventas de una empresa en particular. De 24 vendedores nuevos que están en
entrenamiento, a 12 se les va a pagar por hora de trabajo y a los otros 12 se les
pagará por comisión. Los 24 individuos fueron asignados de manera aleatoria
a los dos grupos. Los datos siguientes representan el volumen de ventas (en
miles de dólares) logrado durante el primer mes de trabajo.

Salario por hora Comisión


256 212 224 261
239 216 254 228
222 236 273 234
207 219 285 225
228 225 237 232
241 230 277 245

(a) ¿Existe evidencia de que los incentivos salariales (a través de comisiones)


produce un volumen de ventas promedio más grande? (Utilice a= 0.01.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
e 13.8 Un fabricante está desarrollando una batería de hidruro de níquel-metal que se
va a utilizar en teléfonos celulares en lugar de las baterías de níquel-cadmio. El
director de control de calidad decide evaluar la batería recién desarrollada en
comparación con la ampliamente utilizada batería de níquel-cadmio, con
respecto a su desempeño. Se colocan en teléfonos celulares de la misma marca
y modelo una muestra aleatoria de 25 baterías de níquel-cadmio y una mues­
tra aleatoria de 25 baterías de hidruro de níquel-metal. La medida del desem­
peño que interesa es el tiempo de comunicación (en minutos) antes de que se
necesiten recargar las baterías. Los resultados son los siguientes:

470 Capítulo 13 Pruebas de dos muestras con datos numéricos


Batería de níquel Batería de níquel
cadmio hidruro de metal

54.5 71.0 78.3 103.0


67.0 67.8 79.8 95.4
41.7 56.7 81.3 91.1
64.5 69.7 69.4 46.4
86.8 70.4 82.8 87.3
40.8 74.9 82.3 71.8
72.5 75.4 62.5 83.2
76.9 64.9 77.5 85.0
81.0 104.4 85.3 74.3
83.3 90.4 85.3 85.5
82.0 72.8 86.1 72.1
71.8 58.7 41.1 74.1
68.8 112.3

(a) ¿Existe evidencia de una diferencia en los réditos efectivos promedio


sobre las cuentas de mercado de dinero de los dos tipos de bancos del área
de Nueva York? (Utilice el nivel de a= .05.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(c) Encuentre los límites inferior y superior del valor p del inciso (a)
e interprete su significado.
13.9 Los datos siguientes representan los réditos anuales efectivos, en porcentaje,
sobre cuentas de mercado de dinero de una muestra de 10 bancos comerciales
de Nueva York y de una muestra de 10 bancos de ahorro de Nueva York:

Bancos comerciales Rédito Bancos de ahorro Réditos


Banco Popular 2.25 Anchor Savings 2.43
Bank ofN.Y. 2.32 Apple Bank Savings 2.53
Chase Manhattan 2.02 Carteret Savings (N.J.) 2.38
Chemical 1.92 Crossland Savings 2.50
Citibank 2.02 Dime Savings Bank 3.00
EAB 1.82 Emigrant Savings 2.50
First Fidelity (N.]. ) 2.10 First Fed (Rochester) 2.55
Marine Midland 2.38 Green Point Savings 3.20
Midlantic Bank (N.J.) 2.30 Home Savings Amer 2.50
Republic Nat'l 2.28 People's Bank (Conn.) 2.02
Fuente: New York Times, 25 de mayo de 1994, p. D6.

(a) ¿Existe evidencia de una diferencia en los réditos efectivos promedio


sobre las cuentas de mercado de dinero de los dos tipos de bancos del área
de Nueva York? (Utilice el nivel de a= .05.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a) de este
problema?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e inter­
prete su significado.

Problemas intercapítulo para la sección 13.3


13.10 Refiérase a los precios de renta mensual de los departamentos no amueblados
en las áreas de Manhattan y de Brooklin Heights (véase problema 4.77 de la
página 162).

Prueba t de varianza conjunta para diferencias entre dos medias 471


(a) ¿Existe evidencia de que el precio de renta promedio sea mayor en
Manhattan que en Brooklin Heights? (Utilice el nivel de a= .01.)
(b) ¿Qué suposiciones deben hacerse para poder efectuar el inciso (a)?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
e 13.11 Refiérase al problema 4.80 de la página 163.
(a) ¿Existe evidencia de una diferencia en los gastos escolares promedio en las
preparatorias del noreste y del medio oeste de Estados Unidos de
Norteamérica? (Utilice el nivel de a= .01.)
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
(c) ¿Qué informaría usted al consejero guía de su escuela con respecto a los
gastos escolares en estas dos regiones?
13.12 Refiérase a los datos del problema 3.9 (costo de champúes convencionales) de
la página 62.
(a) ¿Existe evidencia de una diferencia en los costos promedio entre los
champúes para cabello normal y los destinados a cabello fino? (Utilice el
nivel de a= .OS.)
(b) Encuentre los límites inferior y superior del valor p del inciso (a)
e interprete su significado.
(c) Si usted fuera designado para escribir un artículo en una revista en el que
comparara los dos tipos de champúes, ¿a qué conclusiones llegaría?

1fe! Prueba t, de varianza separada para


diferencias entre dos medias

1 3 .4. 1 Introducción
En nuestro análisis de la prueba de la diferencia entre medias de dos poblaciones
independientes, hecho en la sección anterior, juntamos las varianzas de muestra
en una sola estimación, sJ, porque supusimos que las varianzas de población eran
iguales (es decir, crf = cri). Esta situación se presenta en el panel A de la figura 13.3,
para el caso en el cual la población 1, normalmente distribuida, tiene una media
mayor que la de la población 2, también distribuida de manera normal. Sin
embargo, si, como se muestra en el panel B de la figura 13.3, no estamos dispuestos
a suponer que las dos poblaciones, distribuidas normalmente, tienen varianzas
iguales, o si tenemos evidencia de que éstas en realidad no lo son, entonces se pre­
senta el problema de Fisher-Behrens (véase referencia 9) y la prueba t de varianza
conjunta resulta inapropiada en este caso; por consiguiente, podemos emplear una
prueba t' de varianzas independientes, desarrollada por Satterthwaite (véase
referencia 8). En el procedimiento de aproximación de Satterthwaite, se incluyen
las dos varianzas de muestra independientes en el cálculo de la estadística de
prueba t' de ahí el nombre de prueba t' de varianzas independientes.

1 3 .4.2 Desarrollo
Para probar la hipótesis nula de no diferencias en las medias de dos poblaciones in­
dependientes
Ho: µ ¡ = µz o µ1 - µz = O
contra la hipótesis alternativa de que las medias no son iguales

*
H1: µ1 µz o µ1 - µz O *
se puede calcular la siguiente estadística de prueba t' de varianzas independientes:

472 Capítulo 13 Pruebas de dos muestras con datos numéricos


Figura 13.3
Comparación de las medias
de dos poblaciones
distribuidas normalmente

en la que
XJ media de la muestra tomada de la población 1
S¡ varianza de la muestra tomada de la población 1
n1 tamaño de la muestra tomada de la población 1
X2 media de la muestra tomada de la población 2
s; varianza de la muestra tomada de la población 2
n2 tamaño de la muestra tomada de la población 2

La estadística de prueba t' de varianzas independientes puede ser aproximada


por una distribución t con los grados de libertad, v, tomados como la parte entera
del cálculo

Prueba t de varianza separada para diferencias entre dos medias 473


Para un nivel dado de significación, a, podemos rechazar la hipótesis nula si la
estadística de prueba t' calculada es mayor que el valor crítico de extremo superior,
tv, de la distribución t, o si la estadística de prueba calculada cae por debajo del
valor crítico de extremo inferior, -tv, de la distribución t. Es decir, la regla de
decisión es

Rechazar H0 si t > 'ty


o sit<-ty;
en cualquier otro caso no rechazar H0•

La regla de decisión y las regiones de rechazo se presentan en la figura 13.4.

Figura 13.4
Regiones de rechazo de una
prueba de dos extremos para la
diferencia entre dos medias.

1 3.4.3 Aplicación
La prueba t' de varianzas independientes puede mostrarse refiriéndonos al pro­
blema de interés para el analista financiero (véase la página 465). Recordamos que
el analista financiero desea determinar si existe cualquier diferencia en los réditos
de dividendo medios de las acciones negociadas en la Bolsa de Valores de Nueva
York en comparación con los valores negociados "al contado" en el listado del mer­
cado nacional NASDAQ. Para comparar las diferencias en los réditos de dividendo
promedio entre las dos poblaciones de listas de acciones, las hipótesis nula y alter­
nativa serían:

Ho: µ1 = µz o µ1 - µz = O
H1: µ1 * µz o µ1 - µz * O
Los réditos de dividendo para una muestra aleatoria de 21 compañías inscritas
en la Bolsa de Valores de Nueva York y otra de 25 acciones del listado de mercado
nacional NASDAQ se muestran en la tabla 13.1 (página 466), y las estadísticas
sumarias se presentan en la tabla 13.2 (página 467).
Si podemos suponer que las muestras son tomadas de poblaciones dis­
tribuidas normalmente, pero no estamos dispuestos a suponer que tales pobla­
ciones tienen la misma varianza, entonces podemos emplear la prueba t' de
varianzas independientes. Si la prueba fuera llevada a cabo al nivel de signifi­
cación a= O.OS, utilizando la ecuación 13.4, la estadística de prueba t' puede ser
aproximada por una distribución t con v= 40 grados de libertad, la parte entera
de los cálculos siguientes:

474 Capítulo 13 Pruebas de dos muestras con datos numéricos


( s¡ s;

r ( !: r
2

J
+
n1 nz
V=-------

(!:
---+- ­ -
nl - 1 n2 - 1

r ( 1.i: r
2
1.698 1.353
( + )
21 25

(1·1�8 3
- - - -+- - - -
20 24

.018219
.006538 .002929
+ -- -
20 24
.018219
.000449
= 40.58

De la tabla E.3 del apéndice E, los valores críticos superior e inferior para esta
prueba de dos extremos son, respectivamente, +2.0211 y-2.0211, y, como se mues­
tra en la figura 13.5, la regla de decisión es

Rechazar H0 si t > t40 = +2.0211


o si t < -t40 = -2.0211;
en cualquier otro caso no rechazar H0•

Figura 13.S
Prueba de dos extremos de la
hipótesis concerniente a la
diferencia entre las medias, al
nivel de significación de .OS.

Utilizando los datos de la tabla 13.2 de la página 467, tenemos, de la ecuación(13.3)

(X 1 -Xz )- (µ 1 -µz)
t'
Sz Sz
_! + i
n1 n2

Prueba t de varianza separada para diferencias entre dos medias 475


3.27 - 2.53
= -;=======
1.698 1.353
--+- -
21 25
0.74
0.3674
= 2.01

Utilizando un nivel de significación de .05, la hipótesis nula (H0) no puede ser


rechazada en este caso, pues t' = 2.01 < t40 = 2.0211. El valor p, o la probabilidad de
obtener una diferencia entre las dos medias de muestra todavía mayor que el valor
de .74 observado aquí, lo cual se traduce en una estadística de prueba t' con una
distancia desde el centro de la distribución t todavía mayor que ±2.01 desviaciones
estándar, sería ligeramente más grande que .05, si la hipótesis nula de no diferen­
cias en las medias fuera verdadera. (Utilizando el paquete MINITAB, el valor p es,
en realidad, de .051.) Puesto que el valor pes mayor que a= .05, no tenemos evi­
dencia para refutar la hipótesis nula.
En este caso no rechazamos la hipótesis nula porque la estadística de prueba t'
no se encuentra en la región de rechazo, como se muestra en la figura 13.5 de la
página 475. El analista financiero llegaría a la conclusión de que no existe eviden­
cia de que haya diferencia en los réditos de dividendo medios de los dos grupos.

1 3 .4.4 Dilema: resultados conflictivos


Se nos presenta ahora un interesante dilema. Utilizando la prueba t de varianzas
conjuntas de la sección 13.3, el analista financiero llegaría a la conclusión de que
hay evidencia de una diferencia en los réditos de dividendo medios para los dos
grupos, pero utilizando la prueba t' de varianzas independientes no se puede llegar
a la misma conclusión. La principal diferencia entre las pruebas t y t' es que la
primera supone que las poblaciones de las cuales se tomaron las muestras están dis­
tribuidas normalmente y tienen la misma varianza, mientras que la última sola­
mente supone que las poblaciones están distribuidas de manera normal (véanse
paneles A y B de la figura 13.3 página 473). Como vimos en la sección 11.2 (véase
tabla 11.1 página 389), si la hipótesis nula fuera realmente verdadera y no hubiera
diferencia en los réditos de dividendo promedio de los dos grupos, el uso de la
prueba t, en este caso, nos produciría un error del tipo I; mientras que el uso de la prue­
ba t' tendría como resultado una decisión correcta. En el otro extremo, si la hipó­
tesis nula fuera en realidad falsa y si hubiera una diferencia en los réditos de
dividendo promedio de las dos poblaciones, el uso de la prueba t tendría como
resultado la decisión correcta de rechazar una hipótesis nula falsa (es decir, poten­
cia estadística); mientras que el empleo de la prueba t' haría que cometiéramos un
error del tipo II, no seríamos capaces de detectar una diferencia promedio ver­
dadera en los dos grupos.
Resolver un dilema como éste es parte de un buen análisis de datos. ¿ Qué prue­
ba estadística , to t', es más verosímil para la situación del analista financiero? Para
llegar al núcleo de la cuestión, deberíamos llevar a efecto un análisis de datos ex­
ploratorio y evaluar la plausibilidad de las suposiciones necesarias para utilizar las
pruebas t y t'. Además, en la sección 13.6 desarrollaremos la prueba F para deter­
minar si existe evidencia de una diferencia en las dos varianzas de la población.
Basándose en los resultados de tal prueba, podemos guiarnos en la decisión de cuál
de nuestras pruebas anteriores, t o t', es más adecuado que utilice el analista
financiero.
Por otro lado, si nuestro análisis exploratorio de datos revela que la suposición
de normalidad de las poblaciones muestreadas es cuestionable, esto podría guiar-

476 Capítulo 13 Pruebas de dos muestras con datos numéricos


nos a la conclusión de que ni la prueba t ni la t' son apropiadas. En tal situación,
se llevaría a cabo una transformación de datos (véase referencia 11) (y entonces se
revisarían las suposiciones para determinar si la prueba to la t' es la más adecuada),
o se emplearía un procedimiento libre de distribución que no tuviera la necesidad
de hacer estas suposiciones limitantes. Uno de tales procedimientos libres de dis­
tribución, la prueba de suma de rangos de Wilcoxon, se presentará en la sección
siguiente.
En la figura 13.6 se presenta el resultado obtenido con MINITAB sobre las
medidas sumarias descriptivas, representaciones de tallo y hojas, gráficas de caja y

Figura 13.6
Resultado obtenido con
MINITAB en el que se
ilustra una comparación
descriptiva entre dos
grupos de muestra.

Prueba t de varianza separada para diferencias entre dos medias 477


Figure 13.6
(Continuación)

sesgos y gráficas de probabilidad normal para los dos grupos. De este análisis de
datos exploratorio, podemos cuestionar la validez de la suposición de normalidad
de la primera población: los réditos de dividendo de las compañías inscritas en la
Bolsa de Valores de Nueva York. La muestra tomada de este grupo solamente es de
21, y puede ser que sea demasiado pequeña para suponer que el teorema del límite
central (véase sección 9.2) se puede aplicar. Si este es el caso, debería utilizarse la
prueba de suma de rangos de Wilcoxon.

Problemas de la sección 13.4


• 13.13 Una agencia de bienes raíces desea comparar los valores de avalúo de las casas
para una sola familia en dos comunidades del Condado de Nassau, en Nueva
York. Una muestra de 60 casas situadas en Farmingdale y otra de 99 casas
situadas en Levittown produjeron los siguientes resultados (en miles de
dólares):

Farmingdale Levittown
x 191.33 172.34
s 32.60 16.92
n 60 99

478 Capítulo 13 Pruebas de dos muestras con datos numéricos


Suponiendo que las varianzas de población no son iguales, al nivel de
significación de .05, ¿existe evidencia de una diferencia en el valor de avalúo de
las casas de una sola familia en las dos comunidades del Condado de Nassau?
13.14 Los envíos de carne, productos cárnicos y otros ingredientes son mezclados en
varias líneas de llenado en una fábrica de enlatado de comida para animales.
Dos de las líneas de llenado, en particular, deben ser comparadas pues, a pesar
de que el contenido promedio de la lata es, por lo general, el mismo, la
variabilidad del contenido de las Jatas en la línea A es, usualmente, mucho
mayor que el de la línea B. Los siguientes datos de muestra se obtuvieron de
las dos líneas (con latas de ocho onzas de contenido):

Línea A Línea B
x 8.005 7.997
s 0.012 0.005
n 11 16

Suponiendo que las varianzas de población no son iguales, al nivel de


significación de .05, ¿existe evidencia de una diferencia en el peso promedio
de las latas llenadas en las dos líneas?
13.15 Refiérase al problema 13.5 de la página 469. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en el
tiempo promedio de entrega para los dos almacenes de comercialización?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.5.
13.16 Refiérase al problema 13.6 de la página 470. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en la
cantidad promedio de dinero gastado en la tienda de accesorios para
mascotas entre dueños de perros y dueños de gatos?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.6.
13.17 Refiérase al problema 13.7 de la página 470. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .01, ¿existe evidencia de que los incentivos
salariales (por medio de comisiones) producen un volumen de ventas
promedio mayor?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.7.
e 13.18 Refiérase al problema 13.8 de la página 470. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en los
dos tipos de baterías con respecto al tiempo de comunicación
promedio (en minutos) antes de necesitar recargarse?
(b) ¿Qué suposiciones deben hacerse con.el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.8.
13.19 Refiérase al problema 13.9 de la página 471. Suponga que las varianzas de
población no son iguales.
(a) Al nivel de significación de .05, ¿existe evidencia de que haya diferencia en
los réditos efectivos promedio sobre las cuentas de mercado de dinero en
los dos tipos de bancos del área de Nueva York? (Utilice el nivel a= .05.)

Prueba t de varianza separada para diferencias entre dos medias 479


(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.9.
13.20 Un funcionario público que trabaja en la política de salud pública desea
comparar las tasas de ocupación (es decir, el porcentaje anual promedio de
camas ocupadas) en hospitales urbanos con respecto a los hospitales
suburbanos dentro de su estado. Se seleccionó una muestra aleatoria de 16
hospitales urbanos y una muestra aleatoria de 16 hospitales suburbanos, y las
tasas de ocupación obtenidas se registran de la manera siguiente:

Hospitales Hospitales
urbanos suburbanos
76.5 73.3 71.5 63.0
75.9 77.4 73.4 76.0
79.6 79.0 74.6 75.5
77.5 79.9 74.3 70.7
79.4 70.4 71.2 67.4
78.7 77.7 67.8 62.6
78.6 78.1 76.9 73.0
79.3 75.9 60.0 76.5

(a) Suponga que las varianzas en la población de los dos tipos de hospital (es
decir, urbanos y suburbanos) no son iguales. Utilizando el nivel de .OS,
¿existe evidencia de una diferencia en las tasas promedio de ocupación
entre hospitales urbanos y suburbanos en el estado?
(b) ¿Qué otras suposiciones deben hacerse con el fin de realizar el inciso (a)
de este problema?
13.21 La directora de entrenamiento de una compañía fabricante de equipo
electrónico está interesada en determinar si diferentes métodos de
entrenamiento tienen un efecto sobre la productividad de los empleados de la
línea de ensamblaje. La directora asignó aleatoriamente 42 empleados recién
contratados en dos grupos de 21, de los cuales los primeros siguieron un
programa de entrenamiento basado en el trabajo individual y asistido por
computadora, y los otros 21 siguieron un programa basado en el trabajo de
equipo. Después de terminar el entrenamiento, los empleados fueron
evaluados con respecto al tiempo (en segundos) que les llevó ensamblar un
componente. Los resultados son los siguientes:

Programa asistido, Programa basado


por computadora, de en trabajo en
trabajo individual equipo

19.4 16.7 22.4 13.8


20.7 19.3 18.7 18.0
21.8 16.8 19.3 20.8
14.1 17.7 15.6 17.1
16.1 19.8 18.0 28.2
16.8 19.3 21.7 20.8
14.7 16.0 30.7 24.7
16.5 17.7 23.7 17.4
16.2 17.4 23.2 20.1
16.4 16.8 12.3 15.2
18.5 16.0

(a) Suponga que las varianzas en la población de los métodos de


entrenamiento no son iguales. Utilizando un nivel de significación de .OS,

480 Capítulo 13 Pruebas de dos muestras con datos numéricos


¿existe evidencia de una diferencia en los tiempos de ensamblaje prome­
dio (en segundos) entre los empleados entrenados con un
programa asistido por computadora y basado en el trabajo individual y los
entrenados en un programa apoyado en el trabajo en equipo?
(b) ¿Qué otras suposiciones deben hacerse con el fin de realizar el inciso (a)
de este problema?

Problemas interca,pítulo de la sección 13.4


13.22 Refiérase al problema 4.77 de la página 162. Suponga que las varianzas de la
población no son iguales.
(a) ¿Existe evidencia de que el precio de renta promedio en Manhattan es
mayor que en Brooklin Heights? (Utilice el nivel de significación de .01.)
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
13.10.
e 13.23 Refiérase al problema 4.80 de la página 163. Suponga que las varianzas de la
población no son iguales.
(a) ¿Existe evidencia de que los gastos escolares promedio son mayores en las
escuelas preparatorias del noreste que en las del medio oeste
estadounidense? (Utilice a= .01.)
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
13.11.
13.24 Refiérase al problema 3.9 de la página 62. Suponga que las varianzas de la
población no son iguales.
(a) ¿Existe evidencia de una diferencia en el costo promedio de los champúes
etiquetados para cabello "normal" con respecto a los destinados a cabello
"fino"? (Utilice el nivel de significación de a= .05.)
(b) Compare los resultados obtenidos en el inciso (a) con los del problema
13.12.

1f81 Prueba de sumas de rangos de Wilcoxon


para diferencias entre dos medianas
1 3.5.1 Introducción
Si los tamaños de las muestras son pequeños y no podemos o no deseamos hacer
la suposición de que los datos de cada grupo son tomados de poblaciones dis­
tribuidas normalmente, entonces tenemos dos alternativas. Se puede utilizar la
prueba t de varianzas conjuntas o la prueba t' de varianzas independientes, la que
sea más apropiada, después de realizar alguna transformación normalizante sobre los
datos (véase referencia 11), o se puede seguir algún procedimiento libre de dis­
tribución, que no depende de la suposición de normalidad para las dos pobla­
ciones. En la presente sección introduciremos la prueba de suma de rangos de
Wilcoxon, un procedimiento libre de distribución poderoso, muy sencillo y
ampliamente utilizado, para probar las diferencias entre las medianas de dos
poblaciones. La prueba de suma de rangos de Wilcoxon ha resultado ser casi tan
poderosa como su contraparte paramétrica (las pruebas t y t') en condiciones
apropiadas para esta última, y es probable que sea más poderosa cuando las suposi­
ciones limitantes de tales pruebas no se cumplen.
Además, la prueba de suma de rangos de Wilcoxon es un procedimiento exce­
lente a escoger cuando solamente se pueden obtener datos de tipo ordinal, como
sucede a menudo cuando tratamos con estudios sobre comportamientos de con­
sumo, investigaciones de mercado y psicología experimental. Las pruebas paramétri­
cas t y t' no deberían utilizarse en tales situaciones ya que estos procedimientos
requieren que los datos obtenidos sean medidos en al menos una escala de intervalo.

Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 481
1 3.S.2 Procedimiento
Para efectuar la prueba de suma de rangos de Wilcoxon debemos sustituir las obser­
vaciones de las dos muestras de tamaños n 1 y n2 por sus rangos combinados (a
menos que los datos obtenidos, inicialmente, incluyan a los rangos). Los rangos
son asignados de tal manera que el rango 1 se asigna a la más pequeña de las
n = n 1 + n2 observaciones combinadas, el rango 2 se le asigna a la siguiente más alta
y así sucesivamente, de modo que el rango n queda asignado a la observación más
grande. Si varias observaciones tienen el mismo valor, asignamos a cada una de
éstas el promedio de los rangos que, en otra circunstancia, se les habría asignado.
Por cuestiones de comodidad, siempre que los dos tamaños de muestra sean
distintos, haremos que n 1 represente el de la muestra más pequeña y que n2 corres­
ponda al de la más grande. La estadística de prueba de suma de rangos de Wilcoxon,
T1, es simplemente la suma de los rangos asignados a las n 1 observaciones de la
muestra más pequeña. (En el caso de muestras de igual tamaño, cualquiera de los
grupos puede elegirse para determinar T1 .)
Para cualquier valor entero n, la smna de los n primeros enteros consecutivos
puede calcularse fácilmente como n(n + 1)/2. La estadística de prueba, T1, más la
suma de los rangos asignados a los n 2 elementos de la segunda muestra, T2, por
consiguiente, debe ser igual a este valor; es decir,

de modo que la ecuación (13.5) puede servir como una verificación del proce­
dimiento de asignación de rangos.
La prueba de la hipótesis nula puede ser de dos extremos o de un extremo,
dependiendo de si estamos probando si las dos medianas de población son exclu­
sivamente diferentes o si una de ellas es mayor que la otra.

Prueba de dos extremos Prueba de un extremo Prueba de un extremo


Ho:M1=M2 Ho:M1<::Mz Ho: M1 s; Mz
H1:M1*-M2 H1:M1<M2 H1:M1>M2
en la que M1 = mediana de población 1 con n1 observaciones de muestra
M2 = mediana de población 2 con n2 observaciones de muestra

Cuando los tamaños de ambas muestras n 1 y n2 son::; 10, se puede usar la tabla
E.11 para obtener los valores críticos de la estadística de prueba T1 para pruebas de
uno y dos extremos, a varios niveles de significación. Para una prueba de dos
extremos y para un nivel particular de significación, a, si el valor calculado de T1
es igual o mayor que el valor crítico superior o si es menor o igual que el valor
crítico inferior, la hipótesis nula puede ser rechazada. Para pruebas de un extremo
que tienen la hipótesis alternativa H1: M1 < M2, la regla de decisión consiste en re­
chazar la hipótesis nula si el valor observado de T1 es menor o igual que el valor
crítico inferior. Para las pruebas de un extremo cuya hipótesis alternativa sea H1:
M1 > M2, la regla de decisión consiste en rechazar la hipótesis nula si el valor obser­
vado de T1 es igual o mayor que el valor crítico superior.
A fin de mostrar cómo utilizar la tabla E.11 para obtener los valores críticos de
la estadística de prueba T11 supongamos que los tamaños de muestra de nuestros
dos grupos son 8 y 10, y que deseamos escoger un nivel de significación de a= .05.
De la tabla 13.3, que es una réplica de la tabla E.11, si n 1 = 8, n2= 10 y a= .05, obser-

482 Capítulo 13 Pruebas de dos muestras con datos numéricos


Table 13.3 Obtención de los valores críticos de extremo inferior y superior, T 1 para la prueba de suma de ran-
gos de Wilcoxon, con n 1 = 8, n2 = 1 O y a = O.OS

a n1
4 5 6 7 8 9 10
n2 Un extremo Dos extremos
9 .025 .os 14,42 22,53 31,65 40,79 62,109
.01 .02 13,43 20,55 28,68 37,82 59,112
.005 .01 11,45 18,57 26,70 35,84 56,115

.os .10 17,43 26,54 35,67 45,81 69,111 82,128


t!J ,05 15,45 23,57 32,70 42,84 ) 65,115 78,132
.01 .02 13,47 21,59 29,73 39,87 61,119 74,136
.005 .01 12,48 19,61 27,75 37,89 47,105 58,122 71,139
Fuente: Tomado de la tabla E.11.

vamos que los valores críticos inferior y superior para una prueba de dos extremos
son 53 y 99, respectivamente. Si el valor calculado de la estadística de prueba T1
cae entre estos valores críticos, la hipótesis nula podría no ser rechazada. Sin
embargo, si el valor calculado de la estadística de prueba es igual o mayor que 99
o es igual o menor que 53, la hipótesis nula sería rechazada.
Para tamaños de muestra grandes, la estadística de prueba, T11 está distribuida
de manera aproximadamente normal. Se puede emplear la siguiente fórmula de
aproximación de muestra grande para probar la hipótesis nula cuando los tamaños
de muestra se encuentran fuera del alcance de la tabla E.11:

donde
suma de los rangos asignados para las observaciones n, en la muestra 1
valor medio de T1
cry1 desviación estándar de T1

µ y1, el valor medio de la estadística de prueba T1, puede calcularse con

n1 (n + 1)
2

y cr Ti, la desviación estándar de la estadística de prueba T1, se puede calcular con

de modo que la ecuación (13.6) puede volverse a escribir como

Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 483
Basándonos en a, el nivel de significación seleccionado, la hipótesis nula
puede ser rechazada si el valor Z calculado cae en la región de rechazo apropiada,
dependiendo de si se trata de una prueba de dos extremos o de uno solo (véase
figura 13.7).

Figura 13.7
Determinación de la región de rechazo: panel A prueba de dos extremos (M 1 * M2); panel B, prueba de un extremo
(M 1 < M2); panel C, prueba de un extremo (M 1 > M2).

13.5.3 Aplicación
Para mostrar el uso de la prueba de suma de rangos de Wilcoxon, refirámonos de
nuevo al problema que tiene que enfrentar nuestro analista financiero (véase
página 465) quien desea determinar si existe alguna diferencia en los réditos de
dividendo promedio de valores comercializados en la Bolsa de Valores de Nueva
York con respecto a las negociadas directamente en el listado de mercado nacional
NASDAQ. En la tabla 13.1 se muestran los réditos de dividendo de una muestra
aleatoria de 21 acciones de la Bolsa de Valores de Nueva York y de otra muestra alea­
toria de 25 acciones del listado de mercado nacional NASDAQ (página 466), y en
la tabla 13.2 se presentan las estadísticas sumarias (página 467).
Si, como resultado de un análisis de datos exploratorio (véase figura 13.6 en las
páginas 477-478), el analista financiero no desea hacer la suposición limitante de
que las muestras fueron tomadas de poblaciones que están distribuidas normal­
mente, se puede utilizar la prueba de suma de rangos de Wilcoxon para evaluar
posibles diferencias en las medianas de los réditos de dividendo. 1 Puesto que el
analista financiero no especifica cuál de los dos grupos es más probable que posea
una mediana de réditos de dividendo mayor, la prueba es de dos extremos, y se
establecen las siguientes hipótesis nula y alternativa:

H0: M1 = M2 (las medianas de los réditos de dividendo son iguales)


H1: M1 * M2 (las medianas de los réditos de dividendo son diferentes)

Para efectuar la prueba de suma de rangos de Wilcoxon, formamos los rangos


combinados delos réditos de dividendo obtenidos de las n 1 = 21 compañías de la
Bolsa de Valores de Nueva York y de las n2 = 25 compañías del listado de mercado

484 Capítulo 13 Pruebas de dos muestras con datos numéricos


nacional NASDAQ. Los rangos combinados de los réditos de dividendo se mues­
tran en la tabla 13.4. (Observamos que un rango de 1 se le asigna a Intel, la com­
pañía con el menor rédito de dividendo, y que se le asigna un rango de 46 a
NYNEX, la compañía que posee el mayor rédito de dividendo de los rangos com­
binados.)

Tabla 13.4 Formación de rangos combinados

Bolsa de Valores de Nueva York (n 1 = 21) Listado NASDAQ (n2 = 25)


Rango combinado Rango combinado
Compañía de réditos de dividendo Compañía de réditos de
dividendo
American Express 35 Atlantic SE Airlines 4
Anheuser-Busch 20.5 Boral Ltd 43
Bristol-Myers-Squibb 45 Cathay Bancorp 40
Dayton-Hudson 12 Cit Fed Bancorp 2
Dresser Industries 28 CPB 33
Ford Motor 31.5 First Essex Bancorp 28
General Electric 28 Goulds Pumps 39
General Mills 36 Harper Group 5
IBM 7 Innovex 15
Kellogg Co. 18.5 Intel Corp 1
Merck& Co. 37.5 Lindberg Corp 20.5
NYNEX 46 Nature's Sunshine Prod. 6
Occidental Petroleum 44 Newcor 12
Pfizer Inc. 28 PCA International 34
PPG Inc. 28 T Rowe Price Assoc. 9.5
Sara Lee Corp. 24.5 PSB Holdings Corp. 17
Texaco Inc. 42 Research !ne. 41
Texas Instruments 3 Seacoast Banking Corp. 22.5
Whirlpool Corp. 15 Span-America Med. Sys. 9.5
Winn-Dixie 31.5 Sumitomo Bank of Cal. 37.5
Xerox Corp. 24.5 TCA CableTV 15
United Fire& Casualty 22.5
West Coast Bancorp 8
Whitney Holdings 18.5
Worthington Industries 12
Fuente: Los datos fueron tomados de la tabla 13.1.

Entonces obtenemos la estadística de prueba T1 , que es la suma de los rangos


asignados a la muestra más pequeña:

T1 = 35 + 20.5 + ... + 24.5 = 585.5


Como verificación de proceso de asignación de rangos, obtenemos también T2
y utilizamos la ecuación (13.5) para mostrar que la suma de los primeros n = 46
enteros de los rangos combinados es igual a T1 + T2:

n(n + 1)
2
46(47)
585.5 + 495.5 = 1,081
2
L Para probar la hipótesis nula de no diferencia en las medianas de los réditos de
dividendo de las dos poblaciones, utilizamos la fórmula de aproximación de mues-

Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 48S

'
1
tra grande [ecuación (13.7)]. Escogiendo el nivel de significación de O.OS, los va­
lores críticos de la distribución normal estándar (tabla E.2) son ±1.96 (véase figura
13.8). La regla de decisión sería

Rechazar Ha si Z > +1.96


o si Z < -1.96;
en cualquier otro caso, no rechazar Ha.

Figura 13.8
Prueba de dos extremos de la
hipótesis concerniente a la
diferencia de medianas, al nivel
de significación de .OS.

Utilizando la ecuación (13.7) tenemos

n 1 n 2 (n + 1)
12
- 21(47)
585. 5
2
21(25)(47)
12
585.5 - 493.5
45.35
= 2.03
Puesto que Z = +2.03 > +1.96, la decisión es rechazar H0• El valor p, o la probabili­
dad de obtener una estadística de prueba W incluso mayor que el valor observado
de 585.5, que se traduce en una estadística de prueba Z con una distancia todavía
más grande, medida del centro de la distribución normal estándar, que ±2.03
desviaciones estándar, es de .0424, si la hipótesis nula de no diferencia en las media­
nas fuera verdadera. Como el valor de pes menor que a= .05, no creemos que la
hipótesis nula sea verdadera y la rechazamos.
La hipótesis nula es rechazada porque la estadística de prueba Z ha caído en la
región de rechazo. Así pues, sin tener que hacer la suposición limitante de nor­
malidad en las poblaciones originales, el analista financiero puede llegar a la con­
clusión de que existe evidencia de una diferencia en las medianas de los réditos de
dividendo de los dos grupos. Las compañías que se comercializan en la Bolsa de
Valores de Nueva York parecen tener réditos de dividendo ligeramente mayores

486 Capítulo 13 Pruebas de dos muestras con datos numéricos


que las compañías que cotizan directamente en el listado de mercado nacional
NASDAQ.

1 3. 5 .4 Reflexiones
Esta conclusión concuerda con el resultado obtenido con la prueba t de varianzas con­
juntas, no con la prueba t' de varianzas separadas. Si ahora podemos demostrar que no
hay evidencia de una diferencia en la variabilidad de los dos grupos, podríamos tener
razones suficientes para llegar a la conclusión de que los resultados de la prueba t y de
la prueba de suma de rangos de Wilcoxon son plausibles. La prueba de la diferencia
entre dos varianzas de población será el tema a tratar en la sección 13.6.

Problemas de la sección 13.5


e 13.25 Una profesora de estadística impartió clase a dos grupos especiales del nivel
básico, los 10 integrantes de cada grupo están considerados como alumnos
sobresalientes. La maestra utilizó un método "tradicional" de enseñanza (T) en
un grupo y un método "experimental" en el otro. Al final del semestre, clasificó a
los estudiantes sobre la base de su desempeño, desde 1 (peor) hasta 20 (mejor).
T 1 2 3 5 9 10 12 13 14 15
E 4 6 7 8 11 16 17 18 19 20
Para la profesora, ¿existe evidencia de que haya una diferencia en el
desempeño de los alumnos que siguieron un método con los del otro? (Utilice
el nivel a= O.OS.)
13.26 El director de recursos humanos de un hospital de 1,200 camas de la ciudad de
Nueva York se encuentra evaluando a los candidatos para el puesto a
administrador del departamento de facturas y pagos del hospital. Entre los
solicitantes, 22 fueron seleccionados para ser entrevistados. Siguiendo las
entrevistas, los rangos (1 = más idóneo) obtenidos por los candidatos
(basándose en la entrevista, su nivel académico y su experiencia anterior) se
presentan a continuación, divididos según el "tipo" de grado académico
obtenido: maestro en ciencias (MC) o maestro en filosofía (MF).

Candidatos MC Candidatos MF
1 2 3 6
4 5 7 10
8 9 13 14
11 12 16 18
15 17 19 20
21 22

¿Existe evidencia de que los candidatos con maestría en ciencias sean más
idóneos que los candidatos con maestría en filosofía? (Utilice el nivel a= O.OS.)
13.27 La directiva de una estación televisiva de Nueva York decidió realizar una
historia en la que se compararan dos rutas de trenes del área: el Long Island
Rail Road (LIRR) y el New Jersey Transit (NJT). Los investigadores tomaron una
muestra en la estación del funcionamiento de varias de las corridas programadas
de los trenes de cada línea, 10 de la LIRR y 12 de la NJT. Los datos con respecto
al tiempo (en minutos) adelantado (números negativos) o atrasado (números
positivos) de cada tren se presentan a continuación:
LIRR: 5 -1 39 9 12 21 15 52 18 23
NJT: 8 4 10 4 12 5 4 9 15 33 14 7

Prueba de sumas de rangos de Wilcoxon para diferencias entre dos medianas 487
'
(a) ¿Existe evidencia de que las líneas difieren en sus medianas de la tendencia
a llegar tarde (Utilice el nivel a. = .01.)
(b) ¿A qué conclusiones con respecto a los retrasos de las dos líneas se pueden
llegar?
13.28 Refiérase a los datos del problema 13.7 de la página 470. Utilizando un nivel
de 0.01 de significación, ¿existe evidencia de que los incentivos salariales (a
través de comisiones) produzcan una mediana mayor en el volumen de
ventas?
e 13.29 Refiérase a los datos del problema 13.8 de la página 470.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer­
encia en los dos tipos de baterías con respecto a la mediana del tiempo de
comunicación (en minutos) antes de necesitar recargárselas?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.8 de la página 470 y con los obtenidos en el problema 13.18
de la página 479. Discuta el resultado.
13.30 Refiérase al problema 13.9 de la página 471.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer­
encia en la mediana de los réditos efectivos sobre las cuentas de
mercado de dinero en los dos tipos de bancos del área de Nueva York?
(b) ¿Qué suposiciones deben hacerse con el fin de llevar a cabo el inciso (a)
de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.9 de la página 471 y con los obtenidos en el problema 13.19
de la página 479. Discuta el resultado.
13.31 Refiérase al problema 13.20 de la página 480.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer­
encia en la mediana de las tasas de ocupación entre hospitales urbanos y
suburbanos del estado?
(b) ¿Qué otras suposiciones deben hacerse con el fin de llevar a cabo el inciso
(a) de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.20. Discuta el resultado.
13.32 Refiérase al problema 13.21 de la página 480.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una
diferencia en la mediana de los tiempos de ensamblado (en segundos)
entre los empledos entrenados con un programa asistido por computadora
y de índole individual y los entrenados en un programa basado en el
trabajo en equipo?
(b) ¿Qué otras suposiciones deben hacerse con el fin de llevar a cabo el inciso
(a) de este problema?
(c) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.21. Discuta el resultado.

Problemas intercapítulo de la sección 13.5

13.33 Refiérase al problema 4.77 de la página 162.


(a) Pruebe si existe evidencia de que la mediana de la renta pagada por los
departamentos no amueblados en Manhattan es mayor que la de los
departamentos no amueblados de Brooklin Heights. (Utilice un nivel
a= .01.)
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.10 (página 471) y los del problema 13.22 (página 481).
e 13.34 Refiérase al problema 4.80 de la página 163.
(a) Pruebe si existe evidencia de que la mediana de los gastos escolares es
mayor en las escuelas preparatorias del noreste estadunidense que las del
medio oeste. (Utilice un nivel a= .01.)

488 Capítulo 13 Pruebas de dos muestras con datos numéricos


(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.11 (página 472) y los del problema 13.23 (página 481).
13.35 Refiérase al problema 3.9 de la página 62.
(a) Pruebe si existe evidencia de que la mediana del costo de los champúes
destinados a cabello "normal" con respecto a los champúes para cabello
"fino". (Utilice un nivel a= .05.)
(b) Compare los resultados obtenidos en el inciso (a) con los obtenidos en el
problema 13.12 (página 472) y los del problema 13.24 (página 481).

•fi•) Prueba F para diferencias


entre dos varianzas

1 3.6. 1 Introducción
En las tres secciones anteriores, examinamos algunos procedimientos para probar
las diferencias en la tendencia central (es decir, diferencias en las medias o en las
medianas) entre dos poblaciones independientes. En muchas situaciones, sin
embargo, podemos estar interesados también en probar si dos poblaciones inde­
pendientes tienen la misma variabilidad. Podemos estar interesados en estudiar las
varianzas de dos poblaciones como un "medio para llegar a un fin", es decir, pro­
bar la suposición de varianzas iguales con el propósito de determinar si la prueba t
de varianzas conjuntas o la prueba t' de varianzas independientes es la más
apropiada para utilizarse en la comparación de dos medias (secciones 13.3 y 13.4);
o podemos estar realmente interesados en el estudio de las varianzas de dos pobla­
ciones como un "fin en sí mismo".

1 3.6.2 Desarrollo
Con el fin de probar la igualdad de las varianzas de dos poblaciones indepen­
dientes, se ha diseñado un procedimiento estadístico basado en el cociente de dos
varianzas de muestra. Si se supone que los datos obtenidos de cada población están
distribuidos normalmente, entonces el cociente Si/5� sigue una distribución cono­
cida como distribución F (véase la tabla E.5), llamada así en honor al famoso
estadístico R. A. Fisher. De la tabla E.5 (una réplica de la cual, la tabla 13.5, aparece
en la página 491), podemos ver que los valores críticos de la distribución F depen­
den de dos conjuntos de grados de libertad. Los grados de libertad que aparecen en
el numerador del cociente se refieren a la primera muestra, y los del denominador
pertenecen a la segunda muestra. La estadística de prueba F para probar la igual­
dad entre dos varianzas sería

en la que n 1 = tamaño de la muestra tomada de la población 1


n2 = tamaño de la muestra tomada de la población 2
n 1 - 1 = grados de libertad de la muestral (es decir los grados de libertad
del numerador)
n2 - 1 = grados de libertad de la muestra 2 (es decir los grados de libertad
del denominador)

Prueba F para diferencias entre dos varianzas 489


sf = varianza de la muestra 1
S� = varianza de la muestra 2
Al probar la igualdad de dos varianzas, se pueden emplear pruebas de dos
extremos o de un extremo, dependiendo de si estamos probando si las varianzas
de las dos poblaciones son diferentes o si una de ellas es mayor o igual que la otra.
Estas situaciones se presentan en la figura 13.9.

r
1
Figura 13.9
Determinación de la región de rechazo de la prueba de hipótesis con respecto a la igualdad de dos varianzas de población:
panel A, prueba de dos extremos, panel B, prueba de un extremo; panel C, prueba de un extremo

Para un nivel dado de significación, a, para probar la hipótesis nula de igual­


dad de varianza
2 2
Ha: <J"1 = U"z
contra la hipótesis alternativa de que las dos varianzas de poblaciones no son
iguales
2 2
H 1 :<J" ¡ =tU"z
podemos rechazar la hipótesis nula si la estadística de prueba calculada, F, es
mayor que el valor crítico de extremo superior, Fu(ni-ll,(n,-IJ, de la distribución F, o
si la estadística de prueba calculada cae por debajo del valor crítico de extremo
inferior, FL(ni-l),(n,-ll de la distribución F. Esto es, la regla de decisión es

Rechazar H0 si F > Fu(n1 -IJ,(n,-ll


o si F < FL(n¡ -l),(n,-1);
en cualquier otro caso no rechazar H0•

Esta regla de decisión y la región de rechazo se muestran en el panel A de la


figura 13.9

1 3.6.3 Aplicación
Con el propósito de mostrar cómo probaremos la igualdad de dos varianzas, po­
demos regresar al estudio del analista financiero de los réditos de dividendo de dos
grupos de acciones. Los datos del ejemplo se muestran en la tabla 13.1 de la página
466, y las medidas sumarias de las dos muestras se presentan en la tabla 13.2 de la
página 467.

490 Capítulo 13 Pruebas de dos muestras con datos numéricos


Para probar la igualdad de las dos varianzas de población, tenemos las siguien­
tes hipótesis alternativa y nula:
Ho: crf = cr�

H1: cr1
2
* crz2
Debido a que se trata de una prueba de dos extremos, la región de rechazo se
divide en los extremos inferior y superior de la distribución F. Si se selecciona un
nivel de significación de a= .05, cada región de rechazo contendrá 0.025 de la dis­
tribución.
El valor crítico de extremo superior de la distribución F, con 20 y 24 grados de
libertad se puede obtener directamente de la tabla E.S, de la cual la tabla 13.5 es
una réplica. Puesto que hay 20 grados de libertad en el numerador y 24 en el
denominador, el valor crítico de extremo superior puede encontrarse buscando en
la columna etiquetada con "20" y en la hilera etiquetada con "24", que pertenece
a un área de extremo superior de .025. Por consiguiente, el valor crítico de extremo
superior de esta distribución Fes 2.33.

Tabla 13.5 Obtención del valor crítico de F con 20 y 24 grados, para un área de extremo superior de 0.025.
Numerador df1
Denominador
dfz 1 2 3 15 24 30
1 647.8 799.5 864.2 984.9 997.2 1001
2 38.51 39.00 39.17 39.43 39.46 39.46
3 17.44 16.04 15.44 14.25 14.12 14.08
4 12.22 10.65 9.98 8.66 8.51 8.46

15 6.20 4.77 4.15 2.86 2.70 2.64


16 6.12 4.69 4.08 2.79 2.63 2.57
17 6.04 4.62 4.01 2.72 2.56 2.50
18 5.98 4.56 3.95 2.67 2.50 2.44
19 5.92 4.51 3.90 2.62 2.45 2.39
20 5.87 4.46 3.86 2.57 2.41 2.35
21 5.83 4.42 3.82 2.53 2.37 2.31
22 5.79 4.38 3.78 2.50 2.33 2.27


23
s.n
Fuente: Tomado de la tabla E.5.
5.75 4.35
4.32
3.75
3.n
2.47
2.44
2.30
2.27
2.24
2.21

• Obtención de los valores críticos de extremo inferior Cualquier valor


crítico de extremo inferior de la distribución F se puede obtener con

en la que FL(n,-lJ, (nz-ll = valor crítico de extremo inferior de la distribución F


con n 1 -1 y n2 - l grados de libertad
Fu(nz-ll, (n,-ll = valor crítico de extremo superior de la distribución F
cong n 2 -1 y n 1 -1 grados de libertad
n 1 -1 = grados de libertad de la muestra 1
n 2 - l = grados de libertad de la muestra 2

Prueba F para diferencias entre dos varianzas 491


Por consiguiente, en este ejemplo tenemos

1
FL(20 , 24) : f
U(24, 20)

Para calcular el valor crítico de extremo inferior dado, necesitamos obtener el


valor superior .025 de F con 24 grados de libertad en el numerador y 21 grados de
libertad en el denominador, y tomar su recíproco. De la tabla E.5, este valor de ex­
tremo superior es de 2.41. Por tanto, de la ecuación (13.9)

1 1
FL(20, 24) = --- = -- = 0.415
FU(24, 20) 2.41

Como se presenta en la figura 13.10; la regla de desición es

Rechazar H0 si F > Fuc2o, 24) = 2.33


o si F < Fic20, 24) = 0.415;
en cualquier otro caso, no rechazar H0 •

Figura u.10
Regiones de rechazar y de no
rechazar de una prueba de dos
extremos para la igualdad de dos
varianzas, al nivel de significación
de .05 y con 20 y 24 grados de
libertad.

Utilizando la ecuación (13.8) para los datos del analista financiero (véase la
tabla 13.2 página 467), calculamos la siguiente estadística de prueba F:

F = s;
52
2

1.698
= = 1.25
1.353
Por consiguiente, puesto que Fic2o, 24i = 0.415 < F = 1.25 < Fuc2o, 24i = 2.33, no
rechazamos la hipótesis nula, H0. El analista financiero llegaría a la conclusión de
que no hay evidencia de una diferencia en la variabilidad de los réditos de divi­
dendo de las dos poblaciones. Así pues, si podemos suponer que las dos pobla­
ciones están distribuidas de manera normal, la prueba t de varianzas conjuntas
sería más apropiada que la prueba t' de varianzas independientes, para la com­
paración de diferencias entre los réditos de dividendo promedios, debido a que no

492 Capítulo 13 Pruebas de dos muestras con datos numéricos


hay evidencia de que las varianzas de población sean diferentes. Por otro lado, si
no sentimos que la suposición de normalidad es viable, deberíamos utilizar la prue­
ba de suma de rangos de Wilcoxon para determinar si existen diferencias en la
mediana de los réditos de dividendo de las dos poblaciones.

1 3 .6.4 Precaución
Al probar la igualdad de dos varianzas de población, debemos tener en cuenta que
la prueba supone que cada una de las dos distribuciones están distribuidas de ma­
nera normal. Esto es, si se cumple con la suposición de normalidad para cada
población, la estadística de prueba F sigue una distribución F con n 1 - 1 y n2 - 1
grados de libertad. Desafortunadamente, esta estadística de prueba F no es robusta
con respecto a violaciones a esta suposición (referencia 2), en particular cuando los
tamaflos de muestra de los dos grupos no son iguales. Por tanto, si las poblaciones
no están, por lo menos, distribuidas de manera aproximadamente normal, la pre­
cisión del procedimiento puede verse afectada seriamente (las referencias 2 a 4
presentan otros procedimientos para probar la igualdad de dos varianzas).

Problemas de la sección 13.6

e 13.36 Suponga que se tiene disponible la siguiente información para dos grupos:
n 1 = 10 Si= 13.7 s� = 16.9

(a) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia entre


O"� y O"�?
(b) ¿Cuál es la relación en el inciso (a) entre el valor crítico inferior y el valor
crítico superior? ¿En qué condiciones será válida esta relación? Explique
su respuesta.
(c) Suponga que deseáramos efectuar una prueba de un extremo. Al nivel de
significación de O.OS, ¿cuál es el valor crítico de extremo superior de la
estadística de prueba F para determinar si hay evidencia de que cr� > cr�?
(d) Suponga que deseáramos llevar a cabo una prueba de un extremo. Al
nivel de significación de .OS, ¿cuál es el valor crítico de extremo
inferior de la estadística de prueba F para determinar si hay evidencia de
que cr� > cr�?
13.37 Suponga que se tiene disponible la siguiente información correspondiente a
dos grupos:
n1 = 16 s[ = 47.3 n2 = 13 s� = 36.4

(a) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia entre


cr� and cr�?
(b) Suponga que deseáramos efectuar una prueba de un extremo. Al nivel de
significación de .OS, ¿cuál es el valor crítico de extremo inferior de la
estadística de prueba F para determinar si hay evidencia de que � > cr�?
(c) Suponga que deseáramos efectuar una prueba de un extremo. Al nivel de
significación de .OS, ¿cuál es el valor crítico de extremo superior de la
estadística de prueba F para determinar si hay evidencia de que � > cr�?
13.38 Un profesor del departamento de contabilidad de una escuela de negocios
afirma que existe mucha más variabilidad en los resultados del examen final
de los estudiantes que toman el curso de introducción a la contabilidad como
prerrequisito que en los obtenidos por estudiantes que toman el curso como

Prueba F para diferencias entre dos varianzas 493


parte de su especialización. Se tomaron muestras aleatorias de 13 estudiantes
del curso como prerrequisito y de 10 estudiantes de especialización de la lista
de clase del profesor, y se obtuvieron los siguientes resultados:
StA = 210.2 s;. = 36.s
(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en las
varianzas de los tiempos de envío entre los dos almacenes?
(b) Encuentre los límites inferior y superior del valor p.
13.39 Refiérase al problema 13.5 de la página 469.
(a) Al nivel de significación de .01, ¿existe evidencia de una diferencia en las
varianzas de los tiempos de envío entre los dos almacenes?
(b) Encuentre los límites inferior y superior del valor p.
13.40 Refiérase al problema 13.6 de la página 470.
(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en las
varianzas de la cantidad gastada entre los dueños de perros y los de gatos?
(b) Encuentre los límites inferior y superior del valor p.
e 13.41 Refiérase a los datos del problema 13.8 de la página 470.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una
diferencia en las varianzas del tiempo de comunicación (en minutos)
antes de que las baterías necesiten recargarse entre los dos tipos de
baterías?
(b) Basándose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t del problema 13.8, la prueba t' del
problema 13.18 (página 479) o la prueba de suma de rangos de Wilcoxon
del problema 13.29 (página 488)? Discuta su respuesta.
13.42 Refiérase a los datos del problema 13.9 de la página 471.
(a) Utilizando un nivel de significación de O.OS, ¿existe evidencia de una
diferencia en las varianzas de los réditos efectivos sobre las cuentas de
mercado de dinero entre los dos tipos de bancos del área de Nueva York?
(b) Basándose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t del problema 13.9, la prueba t' del
problema 13.19 (página 479) o la prueba de suma de rangos de Wilcoxon
del problema 13.30 (página 488)? Discuta su respuesta.
13.43 Refiérase a los datos del problema 13.20 de la página 480.
(a) Utilizando un nivel de significación de .05, ¿existe evidencia de una difer­
encia en las varianzas de las tasas de ocupación entre hospitales urbanos y
suburbanos del estado?
(b) Basándose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t' del problema 13.20 (página 480) o la
prueba de suma de rangos de Wilcoxon del problema 13.31 (página 488)?
Discuta su respuesta.
13.44 Refiérase a los datos del problema 13.21 de la página 480.
(a) Utilizando un nivel de significación de O.OS, ¿existe evidencia de una
diferencia en las varianzas de los tiempos de ensamblado (en segundos)
entre los empleados entrenados con un programa asistido por computadora
y de trabajo individual o los entrenados con un programa de trabajo en
equipo?
(b) Basándose en los resultados obtenidos en el inciso (a), ¿qué prueba se
debió haber escogido, la prueba t' del problema 13.21 (página 480) o la
prueba de suma de rangos de Wilcoxon del problema 13.32 (página 488)?
Discuta su respuesta.

Problemas intercapítulo de la sección 13.6


13.45 Refiérase al problema 4.77 de la página 162.
(a) ¿Existe evidencia de que la varianza de las rentas en Manhattan es mayor
que las de Brooklin Height? (Utilice el nivel a= .01.)
(b) Encuentre los límites inferior y superior del valor p.

494 Capítulo 13 Pruebas de dos muestras con datos numéricos


e 13.46 Refiérase a los datos del problema 4.80 de la página 163.
(a) ¿Existe evidencia de que la varianza de los costos escolares difiere entre las
escuelas preparatorias del noreste estadounidense y las preparatorias del
medio oeste? (Utilice el nivel a.= .01.)
(b) Encuentre los límites superior e inferior del valor p.
13.47 Refiérase a los datos del problema 3.9 de la página 62.
(a) ¿Existe evidencia de que haya una diferencia en las varianzas entre los
costos de los champúes destinados a cabello "normal" y los champúes
destinados a cabello "fino"? (Utilice el nivel a.= .05.)
(b) Encuentre los límites superior e inferior del valor p.

Figura 13.11
Resultado obtenido con MINITAB de las medidas sumarias.
Nota: Deberíamos estar familiarizados con todas las medidas sumarias obtenidas con el programa MINITAB,
excepto TRMEAN (que está más allá del propósito del presente extremo).

Uso de la computadora para la prueba de hipótesis con dos muestras independientes 495
Figura 13.12
Resultado obtenido con STATISTIX de las gráficas de caja y sesgo y las gráficas de probabilidad
normal.
Nota: Los externos y los posibles externos están representados separadamente fuera de los sesgos de la gráfica
de caja y sesgo. El símbolo"o" se utiliza para externo; el símbolo"*" se utiliza para posibles externos.

496 Capítulo 13 Pruebas de dos muestras con datos numéricos


Figura 13. 13
Resultado obtenido con SAS
para las pruebas t y t' para
Investigar diferencias en la
antigüedad promedio,
basadas en el sexo del
trabajador.

Figura 13.14
Resultado obtenido con
SPSS para la prueba de
suma de rangos de Wilcoxon
para investigar diferencias
en la antigüedad mediana
basados en el sexo del
trabajador.

Uso de la computadora para la prueba de hipótesis con dos muestras independientes 497
Figura 13.1 S
Resultado obtenido con
STATISTIX en el que se
ilustran las gráficas de caja
y sesgo y las gráficas de
probabilidad normal,
correspondientes a los
datos sobre antigüedad en
el trabajo de los dos
grupos, seguidas de una
transformación
normalizante con
logaritmos naturales.

498 Capítulo 13 Pruebas de dos muestras con datos numéricos


Figura 13. 1 C5
Resultado obtenido con MINITAB para las pruebas t y t' para investigar diferencias en la
"antigüedad transformada" promedio, basados en el sexo de los trabajadores, después de una
transformación de logaritmo natural.

desviación estándar de 9.14 años, mi


una media de 7 .s 1 ·
Ant

Uso de la computadora para la prueba de hipótesis con dos muestras independientes 499
500 Capítulo 13 Pruebas de dos muestras con datos numéricos
Proyecto de base de datos/encuesta de la sección 13. 7

Los siguientes problemas se refieren a los datos de muestra obtenidos del cuestionario de
la figura 2.6, páginas 28 y 29, y presentados en la tabla 2.3 de las páginas 33 a 40.
Deben resolverse con la ayuda de algún paquete de computación que se tenga disponible.
Suponga que usted fue contratado como asistente de investigación de Bud
Conley, el vicepresidente de recursos humanos de Kalosha Industries. Éste le ha
dado una lista de preguntas (véanse problemas 13.48 a 13.60) cuya respuesta
necesita tener antes de la reunión con el representante de la empresa B&L
Corporation, la firma asesora sobre prestaciones laborales que él ha
contratado. Un análisis estadístico confirmatorio, basado en las respuestas a las
preguntas relativas a las variables numéricas de la Encuesta de Satisfacción de
los Empleados, le proporcionará un mejor entendimiento de la composición de
la fuerza de trabajo de tiempo completo de Kalosha Industries, y le será de
utilidad en sus deliberaciones con el representante de la B&L Corporation
orientadas a la obtención de un paquete de prestaciones para los empleados.
De las respuestas a las preguntas que tratan sobre variables numéricas de la
Encuesta de Satisfacción de los Empleados (véanse páginas 33 a 40), en los
problemas 13.48 a 13.60 que se presentan a continuación,

Uso de la computadora para la prueba de hipótesis con dos muestras independientes 50 1


(a) Construya la presentación de tallo y hojas para cada una de las dos
muestras.
(b) Para cada una de las dos muestras, obtenga
(1) la media (5) el alcance
(2) la mediana (6) el alcance intercuartil
(3) el alcance medio (7) la desviación estándar
(4) el eje medio (8) el coeficiente de variación
(c) Enumere el sumario de cinco números para cada una de las dos muestras.
(d) Trace la gráfica de caja y bigotes para cada una de las dos muestras.
(e) Basándose en un análisis descriptivo de lo encontrado en los incisos (a) a
(d) con respecto a las suposiciones de los diferentes procedimientos de
prueba de hipótesis, seleccione el procedimiento apropiado y efectúe la
prueba de hipótesis al nivel de significación de a = O.OS.
(f) f.(;dl)i•i·I•> Escriba un memorándum a Bud Conley en el que se analice
su selección de prueba y lo encontrado.
13.48 ¿Existe evidencia de una diferencia de sexo en el número promedio de horas
trabajadas típicamente por semana por los empleados de tiempo completo de
Kalosha Industries? (Véanse preguntas 1 y S.)
13.49 ¿Existe evidencia de una diferencia de sexo con respecto a la edad promedio
de los trabajadores de tiempo completo de Kalosha Industries? (Véanse
preguntas 3 y S.)
13.50 ¿Existe evidencia de una diferencia de sexo con respecto al ingreso personal
promedio de los trabajadores de tiempo completo de Kalosha Industries?
(Véanse preguntas 7 y S.)
13.51 ¿Existe evidencia de una diferencia con respecto a la edad promedio de los
trabajadores de tiempo completo de Kalosha Industries basándose en si son
miembros o no de un sindicato laboral? (Véanse preguntas 3 y 14.)
13.52 ¿Existe evidencia de una diferencia con respecto al ingreso personal promedio
de los trabajadores de tiempo completo de Kalosha Industries basándose en si
son miembros o no de un sindicato laboral? (Véanse preguntas 7 y 14.)
13.53 ¿Existe evidencia de una diferencia en la antigüedad promedio (es decir, el
tiempo de trabajo en años) de los empleados de tiempo completo de Kalosha
Industries, basándose en si son miembros o no de un sindicato laboral?
(Véanse preguntas 16 y 14.)
13.54 ¿Existe evidencia de una diferencia en el número promedio de horas
trabajadas típicamente por semana por los trabajadores de tiempo completo de
Kalosha Industries, basándose en la participación individual en decisiones
presupuestarias? (Véanse preguntas 1 y 22.)
13.55 ¿Existe evidencia de que el ingreso personal promedio de los trabajadores de
tiempo completo de Kalosha Industries es mayor si ellos participan en
decisiones presupuestarias que cuando no participan en tales decisiones?
(Véanse preguntas 7 y 22.)
13.56 Existe evidencia de que la antigüedad promedio (es decir, la cantidad de
tiempo de empleo en años) es mayor para aquellos empleados de tiempo
completo de Kalosha Industries que participan en decisiones presupuestarias
que para los que no participan en tales decisiones? (Véanse preguntas 16 y 22.)
13.57 ¿Existe evidencia de una diferencia en el número de horas que típicamente
trabajan por semana todos los empleados de Kalosha Industries (pregunta 1),
basándose en si éstos están muy satisfechos (pregunta 9, código 1) o no muy
satisfechos (pregunta 9, códigos 2 a 4) con su trabajo?
13.58 ¿Existe evidencia de una diferencia con respecto al promedio de edad de los
empleados de tiempo completo de Kalosha Industries (presunta 3), basándose
en si éstos están muy satisfechos (pregunta 9, código 1) o no muy satisfechos
(pregunta 9, códigos 2 a 4) con su trabajo?
13.59 ¿Existe evidencia de una diferencia con respecto al ingreso personal promedio
de los trabajadores de tiempo completo de Kalosha Industries (pregunta 7),
basándose en si éstos están muy satisfechos (pregunta 9, código 1) o no muy
satisfecho (pregunta 9, códigos 2 a 4) con su trabajo?

S02 Capítulo 13 Pruebas de dos muestras con datos numéricos


13.60 ¿Existe evidencia de que el ingreso personal promedio (pregunta 7) es mayor
para los empleados de tiempo completo de Kalosha Industries que sienten que
un entrenamiento formal sobre el empleo es importante para realizar su
trabajo (pregunta 28, código 1) que para aquellos que no piensan del mismo
modo (pregunta 28, códigos 2 a 4)?

•ffi:j Elección del procedimiento de prueba


apropiado al comparar dos muestras
relacionadas
En las secciones anteriores del presente capítulo, hemos examinado varios proce­
dimientos de prueba de hipótesis que nos permiten hacer comparaciones y exami­
nar diferencias entre dos poblaciones independientes basados en muestras que
contienen datos numéricos. En particular, en las secciones 13.3 a 13.5 enfocamos
nuestra atención en probar la diferencia entre las medias o las medianas de dos
poblaciones independientes. En las siguientes dos secciones desarrollaremos procedi­
mientos para analizar la diferencia entre medias o medianas de dos grupos, cuando
los datos de la muestra son obtenidos de poblaciones que están relacionadas, es
decir, los resultados del primer grupo no son independientes de los obtenidos del
segundo grupo. Esta característica de "dependencia" de los dos grupos se presenta
porque los elementos o individuos están apareados o equilibrados de acuerdo
con alguna característica, o debido a que mediciones repetidas son obtenidas
del mismo conjunto de elementos o individuos. En cualquier caso, la variable de
interés es ahora la diferencia entre los valores de las observaciones en lugar de las
observaciones mismas.
En la investigación financiera,ª_rnenudo, es de interés examinar las diferen­
cias entre dos grupos relacionados. Por ejemplo, en la comercialización de prueba
• de un producto con dos condiciones de publicidad diferentes, una muestra de mer­
cados de prueba puede equilibrarse (es decir, aparearse) sobre la base del tamaño de
la población del mercado de prueba y/o otras variables socioeconómicas y demo­
gráficas. Aún más, cuando se efectúa un experimento de prueba de sabor, cada su­
jeto de la muestra puede ser utilizado como su propio control, de modo que se
obtienen mediciones repetidas del mismo individuo.
El primer planteamiento del problema de muestras relacionadas implica el
equilibrio de elementos o de individuos de acuerdo con alguna característica de in­
terés. Por ejemplo, si el gerente de producción a cargo del proceso de llenado de las
cajas de cereal (analizado en los capítulos 9 a 11) deseara estudiar el efecto de dos
máquinas de llenado diferentes, una vieja y una nueva, sobre la cantidad de cereal
que se tira (y por tanto que se desperdicia), debe establecerse un control de las dife­
rencias entre los distintos tipos de cereales (que pueden tener diferentes patrones
de desperdicio). En esta situación, se pueden probar dos cajas de cada tipo de cereal
que se empaqueta, con una caja asignada a la nueva máquina y la otra a la máquina
vieja.
El segundo planteamiento del problema de muestras relacionadas implica to­
mar mediciones repetidas de los mismos elementos o individuos. Bajo la teoría de
que los mismos elementos o individuos se comportarán de manera parecida si son
tratados de la misma forma, el objetivo del análisis consiste en mostrar que cual­
quier diferencia entre dos mediciones de los mismos elementos o individuos se
debe a diferentes condiciones de tratamiento. Por ejemplo, suponga que un fabri­
cante de aplicaciones de software para computación está desarrollando un nuevo
paquete financiero que se pretende utilizar en la educación y en los negocios.
Como el tiempo de procesamiento de computadora es costoso, el fabricante desea
que el nuevo paquete tenga las mismas características y capacidades que el líder de
mercado actual, al tiempo que se puedan obtener resultados más rapido que con
dicho paquete líder. Como prueba del valor del nuevo paquete de software, se diseña

Elección del procedimiento de prueba apropiado al comparar dos muestras relacionadas 503
un experimento en el que proyectos de aplicación financiera particulares deben ser
tratados con el nuevo paquete así como por el paquete líder actual. Mediante el uso
de un conjunto particular de proyectos de aplicación financiera en ambos paquetes,
de hecho estamos utilizando cada proyecto como su propio control. Por consi­
guiente, sencillamente podemos evaluar diferencias en los tiempos requeridos para
lograr los resultados deseados mediante la comparación de la media (o de la me­
diana) de las diferencias de los dos registros de tiempo, en vez de comparar la dife­
rencia en la media (o en la mediana) de los tiempos de terminación de dos muestras
independientes de los proyectos de aplicación financiera, una de las cuales debe
accesarse en el nuevo paquete de software y la otra en el paquete líder. Este último
planteamiento de comparación de dos muestras independientes fue visto en nuestro
análisis de las secciones 13.3 a 13.6. En este caso, sin embargo, debemos observar
que la obtención de los dos registros de tiempo (uno para el nuevo paquete de compu­
tación y otro para el paquete líder) para cada proyecto de aplicación financiera sirve
para reducir la variabilidad en las lecturas de tiempo comparada con la que se pre­
sentaría si se utilizaran dos conjuntos independientes de proyectos de aplicación
financiera. También nos permite enfocar nuestra atención en las diferencias entre los
dos registros de tiempo para cada proyecto de aplicación financiera con el propósito
de medir la efectividad del nuevo paquete de software.
Independientemente de si se emplean muestras equilibradas (apareadas) o me­
diciones repetidas, el objetivo es estudiar la diferencia entre dos mediciones median­
te la reducción del efecto de la variabilidad debido a los elementos o individuos
mismos. En las dos secciones siguientes, desarrollaremos dos procedimientos amplia­
mente utilizados: la prueba t para la diferencia media en muestras relacionadas y la
prueba de rangos con signo de Wilcoxon para la diferencia mediana en muestras rela­
cionadas. Como se estudió en la sección 13.2, se pueden emplear varios criterios para
la selección de un procedimiento en particular. Parte de un buen análisis de datos
consiste en entender las suposiciones que subyacen en cada una de las técnicas de
prueba de hipótesis y en seleccionar la más apropiada para un conjunto dado de con­
diciones. Otros criterios para la elección de la prueba tienen que ver con la sencillez
del procedimiento, la capacidad de generalización de las conclusiones a las que se
llegue, la accesibilidad de las tablas de valores críticos para la estadística de prueba,
la disponibilidad de paquetes de software de computación que contengan el pro­
cedimiento de prueba, y la potencia estadística del procedimiento.

1f8·) Prueba t para la diferencia de medias


1 3.9.1 Introducción y fundamentos
Con el propósito de determinar cualquier diferencia que exista entre dos grupos
relacionados, deben obtenerse las diferencias en los valores individuales de cada
grupo, como se muestra en la tabla 13.6. Para leer esta tabla, sean X11, X12, ..., X 1n
las n observaciones de una muestra. Ahora hagamos que X2 11 X22, ••. , X2n represen­
ten las correspondientes n observaciones apareadas de una segunda muestra, o las
correspondientes n mediciones repetidas de la muestra inicial. Además, hagamos
que D11 D2, ..., i5_n representen el correspondiente conjunto de n resultados de difer­
encia, tales que D1 = X n - X21, D2 = X12 - X22, ... y Dn = X1n - X2n -
Del teorema del límite central, la diferencia promedio D sigue una distribución
normal, cuando la desviación estándar de población de la diferencia crD es conocida
y el tamaño de muestra es lo suficientemente grande. La estadística de prueba Z es

504 Cap(tulo 13 Pruebas de dos muestras con datos numéricos


en la que
n

LD,
fj = _,=_!_
n
µn = diferencia media supuesta
crn = desviación estándar de población de los resultados de diferencia
n = tamaño de la muestra
Table 1 3 .e Determinación de la diferencia
entre dos grupos relacionados

Grupo
Observación 1 2 Diferencia
1 X¡¡ X21 D1 =X11 - X21
2 X¡ z Xzz Dz =X1 2 - Xzz

X¡¡ Xz¡ D1=X1 1 -Xz;

1 3 .9.2 Desarrollo de la prueba t para la diferencia media


Sin embargo, como se mencionó previamente, en la mayoría de los casos no cono­
cemos la desviación estándar real de una población. La única información que, por
lo general, se puede obtener son las estadísticas sumarias como la media y la des­
viación estándar de muestra. Si se hacen las suposiciones de que la muestra de re­
sultados de diferencia es tomada de manera aleatoria e independientemente de
una distribución que está distribuida normalmente, se puede utilizar una prueba t
para determinar si existe una diferencia media de población significativa. Así pues,
de manera análoga a la muestra t (de una muestra), desarrollada en la sección 12.3
[véase ecuación (12.1)], la estadística de prueba que desarrollaremos aquí seguirá la
distribución t, con n - 1 grados de libertad. A pesar de que se supone que la pobla­
ción está distribuida normalmente, se ha encontrado en la práctica que siempre y
cuando el tamaño de muestra no sea muy pequeño, y la población no esté muy ses­
gada, la distribución t da una buena aproximación a la distribución de muestreo
de la diferencia promedio, D. Por consiguiente, para probar la hipótesis nula de no
diferencia en las medias de dos poblaciones relacionadas (es decir, la diferencia
media de la población, µv, es O)

contra la alterndtiva de que las medias no son iguales (es decir, la diferencia media
de población, µv, no es O)

se puede calcular la siguiente estadística de prueba t

Prueba t para la diferencia de medias 505


en donde

[) = _i-_1_

j = 1

n-l

y
suma de los cúadrados de cada résultádo de diferencia
i = 1

n D 2 = tamaño de la muestra por el cuadrado de la diferencia media de la muestra

y, para un nivel de significación dado, a, podemos rechazar la hipótesis nula si la


estadística de prueba, t, calculada es mayor que el valor crítico de extremo supe­
rior, tn-I de la distribución t, o si la estadística de prueba t, calculada cae por debajo
del valor crítico de extremo inferior, -tn_1, de la distribución t. Es decir, la regla de
decisión es

Rechazar H0 sit >tn -I


o sit<-tn -1;
en cualquier otro caso, no rechazar H0 .
Sin embargo, la prueba que se debe efectuar puede ser de dos extremos o de un
extremo, dependiendo de si estamos probando si las dos medias de población son
meramente diferentes (es decir, la diferencia media de población, µ0, es cero) o si
una de las medias es mayor que la otra (es decir, la diferencia media de población,
µ0, es diferente de cero). Los tres paneles de la figura 13.17 presentan las hipótesis
nula y alternativa y las regiones de rechazo para las posibles pruebas de dos
extremos y de un extremo. Si, como se muestra en el panel A, la prueba de hipóte­
sis es de dos extremos, la región de rechazo se divide en los extremos inferior y
superior de la distribución t. Sin embargo, si la prueba es de un extremo, la región
de rechazo está en el extremo inferior (panel B de la figura 13.17) o en el extremo
superior (panel C de la figura 13.17) de la distribución t, dependiendo de la direc­
ción de la hipótesis alternativa.

1 3.9.3 Aplicación que implica apareamiento o balanceo


Para aplicar la prueba de la diferencia entre las medias de dos grupos relacionados,
refirámonos de nuevo al primer ejemplo de la sección 13.8. El gerente de produc­
ción deseaba determinar si existía evidencia de que el desperdicio es menor cuando
los paquetes son llenados en una máquina nueva que cuando son llenados por una
máquina vieja. Con el fin de reducir la influencia de la variabilidad en el tipo de

506 Capítulo 13 Pruebas de dos muestras con datos numéricos


Figura 13 .1 7
Prueba de la diferencia entre las medias de muestras relacionadas: panel A, prueba de dos
extremos; panel B, prueba de un extremo; panel C, prueba de un extremo.

cereal, se seleccionaron, de manera aleatoria, un par de cajas de cada 10 tipos dife­


rentes de cereal. Una caja de cada tipo de cereal fue llenada con la máquina nueva
y la otra con la máquina vieja. La asignación de un miembro de cada par de cajas
a una de las máquinas (nueva o vieja) se hizo de manera aleatoria. Los resultados
se muestran en la siguiente tabla:

Tabla 13.7 Cantidad de cereal desperdiciado (en


gramos) para una muestra aleatoria
de I O tipos de cereal empacados en
dos máquinas distintas

Tipo de Máquina Diferencia D;


Tipo de cereal Nueva Vieja (X1¡-Xz¡)
1 12.73 13.89 -1.16
2 9.75 10.32 -0.57
3 13.78 17.01 -3.23
4 8.37 10.43 -2.06
5 11.71 11.39 +0.32
6 15.47 17.99 -2.52
7 14.56 16.02 -1.46
8 11.74 11.90 -0.16
9 9.76 13.11 -3.35
10 12.47 13.88 -1.41

Para estos datos,

L D; = -15.60, L D( = 38.1676,
n n
n = 10
í =1 i =1

Así pues

ID ¡
i =1 -15.60 = -1.56
n 10

Prueba t para la diferencia de medias 507


2 = _i =_1_____ = 38.1676 - 10(-1.56) 2
5D = 1.537
n-1 9

de modo que

SD = 1.24

Puesto que el gerente de producción desea determinar si el desperdicio prome­


dio es menor con la nueva máquina que con la vieja, tenemos una prueba de un
extremo en la que las hipótesis nula y alternativa pueden establecerse de la manera
siguiente:

H O: µD � O O µnueva � µ.¡eja

Hl: µD < O O µnueva < �eja

Como se tomaron muestras de 10 tipos de cereal, si se selecciona un nivel de


significación de 0.01, la regla de decisión es:

Rechazar Ha si t< t9 = -2.8214;


en cualquier otro caso, no rechazar Ha ,
Las regiones de rechazo y de no rechazo se muestran en la figura 13.18.

Figura 13.18
Prueba de un extremo para la
diferencia apareada, al nivel de
significación de .O 1, con nueve
grados de libertad.

De la ecuación (13.11) tenemos

de modo que

-l.56 - O = -
t = 3.978
1.24
fw
Como t= -3.978 < t9 = -2.8214, rechazamos Ha ,

508 Capítulo 13 Pruebas de dos muestras con datos numéricos


Utilizando el planteamiento del valor p, la probabilidad de obtener una esta­
dística t por debajo de -3.978 con nueve grados de libertad es menor que 0.005.
Como ésta es menor que 0.01, el nivel de significación, a, escogido, la hipótesis
nula es rechazada. Llegaríamos a la conclusión de que hay evidencia de que la can­
tidad promedio de desperdicio de cereal es menor con la nueva máquina que con
la vieja.

Problemas de la sección I 3. 9
13.61 El gerente de una conocida agencia nacional de bienes raíces acaba de
terminar una sesión de entrenamiento sobre evaluaciones de inmuebles de dos
agentes recién contratados. Para evaluar la eficacia de su entrenamiento, el
gerente desea determinar si existe alguna diferencia en los valores estimados
de casas que hicieron estos dos agentes. El gerente seleccionó una muestra de
12 casas y a cada uno de los agentes se le asignó la tarea de evaluar (en miles
de dólares) las 12 casas.
Los resultados se presentan a continuación:

Casa Agente 1 Agente 2


1 181.0 182.0
2 179.9 180.0
3 163.0 161.5
4 218.0 215.0
5 213.0 216.5
6 175.0 175.0
7 217.9 219.5
8 151.0 ISO.O
9 164.9 165.5
10 192.5 195.0
11 225.0 222.7
12 177.5 178.0

(a) Al nivel de significación de .05, ¿existe evidencia de una diferencia en las


evaluaciones promedio dadas por los dos agentes?
(b) ¿Qué suposición es necesaria para efectuar esta prueba?
(c) Encuentre los límites inferior y superior del valor de p en el inciso (a) e
interprete su significado.

13.62 Suponga que una compañía fabricante de zapatos desea probar el material que
se destina a la suela de los zapatos. En cuanto a cada par de zapatos, el material
nuevo fue colocado en un zapato y el material viejo en el otro. Después de un
periodo dado, se seleccionó una muestra aleatoria de 10 pares de zapatos y se
les midió el desgaste con una escala de 10 puntos (el más alto es mejor) con
los siguientes resultados

Número de par
Material 11 III IV V VI VII VIII IX X
Nuevo 2 4 5 7 7 5 9 8 8 7
4
-=r
Viejo 4 5 3 8 9 7 8 5 6
Diferencias -1 +2 -=T -2 +1 +2 o +3 +1

(a) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia en el


desgaste promedio para el nuevo material y para el viejo?

Prueba t para la diferencia de medias S09


(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
e 13.63 Un grupo de estudiantes de ingeniería decide ver si los automóviles que
supuestamente no necesitan gasolina de alto octanaje rinden más millas por
galón, utilizando gasolina regular o de alto octanaje. Prueban varios
automóviles (en condiciones de carretera, clima y otras de manejo similares)
usando ambos tipos de gasolina en cada automóvil en tiempos diferentes. El
kilometraje (en millas) para cada tipo de gasolina es:

Automóvil
Tipo de
gasolina #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Regular 15 23 21 35 42 28 19 32 31 24
Alto octanaje 18 21 25 34 47 30 19 27 34 20

(a) ¿Existe evidencia de una diferencia en el kilometraje promedio entre las


gasolinas regular y de alto octanaje? (Use a= O.OS.)
(b) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.64 Con el fin de medir los efectos de una campaña de venta general sobre los
artículos que no se venden, el director de investigación de una cadena de
supermercados a nivel nacional tomó una muestra aleatoria de 13 pares de
tiendas que fueron comparadas de acuerdo con su volumen de ventas
semanal. Una tienda de cada par (el grupo experimental) fue expuesto a la
campaña de ventas, y el otro miembro del par (el grupo de control) no. Los
siguientes datos corresponden a los resultados en un periodo semanal:

Ventas ($000) de productos


no vendidos pronto
Con campaña Sin campaña
Tienda de ventas de ventas
1 67.2 65.3
2 59.4 54.7
3 80.1 81.3
4 47.6 39.8
5 97.8 92.5
6 38.4 37.9
7 57.3 52.4
8 75.2 69.9
9 94.7 89.0
10 64.3 58.4
11 31.7 33.0
12 49.3 41.7
13 54.0 53.6

(a) Al nivel de significación de O.OS, ¿puede el director de investigación llegar


a la conclusión de que existe evidencia de que la campaña de ventas ha
aumentado las ventas promedio de los productos no vendidos?
(b) ¿Qué suposición es necesaria hacer para realizar la prueba?
(c) Encuentre los límites inferior y superior del valor p del inciso (a) e
interprete su significado.
13.65 Un profesor de una escuela de negocios desea investigar los precios de los
nuevos libros de texto que se venden en la tienda del campus universitario en
comparación con los precios que da una librería que no está en el campus y
que pertenece a una cadena nacional de librerías. El profesor selecciona aleato-

SIO Capítulo 13 Pruebas de dos muestras con datos numéricos


riamente los libros requeridos en 12 cursos de la escuela y compara los precios
de las dos librerías. Los resultados son los siguientes:

Libro Tienda en el campus Tienda fuera del campus


#1 $55.00 $50.95
#2 47.50 45.75
#3 so.so 50.95
#4 38.95 38.50
#5 58.70 56.25
#6 49.90 45.95
#7 39.95 40.25
#8 41.50 39.95
#9 42.25 43.00
#10 44.95 42.25
#11 45.95 44.00
#12 56.95 55.60

(a) Al nivel de significación de 0.01, ¿existe evidencia de una diferencia en el


precio promedio de los libros de texto sobre negocios entre las dos
tiendas?
(b) Encuentre los límites inferior y superior del valor p en el inciso (a) e
interprete su significado.

1IN l•l Prueba de hipótesis de rangos con


signo de Wilcoxon para la diferencia
de medias

13.10.1 Introducción
En situaciones que implican elementos pareados o mediciones repetidas del mis­
mo elemento, se puede utilizar la prueba de rangos con signo de Wilcoxon
para la diferencia mediana, cuando su respectiva contraparte paramétrica, la
prueba t para la diferencia media, que fue descrita en la sección anterior, no es
apropiada. Esto es, la prueba de rangos con signo de Wilcoxon puede elegirse sobre
la prueba t cuando somos capaces de obtener datos medidos a un nivel superior
que la escala ordinal, pero no creemos que las suposiciones del procedimiento pa­
ramétrico sean lo suficientemente verdaderas. Cuando las suposiciones de la prue­
ba t son violadas, es probable que el procedimiento de Wilcoxon (que hace pocas
y menos suposiciones limitantes que la prueba t) sea más poderoso en detectar la
existencia de diferencias significativas que su contraparte paramétrica. Aún más,
incluso en condiciones apropiadas para la prueba paramétrica, la prueba de rangos
con signo de Wilcoxon ha probado ser casi tan poderosa que la prueba t.

13.10.2 Desarrollo
La prueba de la hipótesis nula con respecto a que la diferencia mediana de la
población, Mv, es cero, puede ser de dos extremos o de un extremo:

Prueba de dos extremos Prueba de un extremo Prueba de un extremo


H0: MD =O H0: MD 2".0 H0 : MD :s;O
H¡ : MD #O H¡ : MD <O H¡ : MD >O

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias 51 1


Las suposiciones necesarias para efectuar la prueba son:
l. Los datos observados constituyen una muestra aleatoria den elementos
o individuos independientes, cada uno con dos mediciones (X11 , X21),
(X12, X2z), ... (X1n, X2n), o los datos observados constituyen una muestra
aleatoria de n pares independientes de elementos o individuos tales
que (Xli, X2¡) representa los valores observados de cada miembro del
par balanceado (i = 1, 2, ... , n).
2. La variable subyacente de interés es continua.
3. Los datos observados son medidos a un nivel mayor que la escala
ordinal, es decir, al nivel de intervalo o de cociente.
4. La distribución de la población de resultados de diferencia entre
mediciones repetidas o entre elementos o individuos apareados es
aproximadamente simétrica.
Para llevar a cabo la prueba de rangos con signo de Wilcoxon para la diferen­
cia mediana debe seguirse el procedimiento de seis pasos que presentamos a con­
tinuación:
l. Para cada elemento de una muestra den elementos, obtenemos un
resultado de diferencia D¡ (que será descrito en la sección 13.10.3).
2. Luego despreciamos los signos"+" y"-" y obtenemos un conjunto de
n diferencias absolutas ID¡ 1.
3. Eliminamos del análisis posterior cualquier resultado de diferencia
absoluto igual a cero, en consecuencia obtenemos un conjunto de n'
resultados de diferencia no cero, en donde n' :5; n.
4. Después asignamos rangos R¡ desde 1 a n' a cada uno de los ID; I, de
modo que al resultado de diferencia absoluto más pequeño se le
asigna el rango 1 y el mayor queda con el rango n'. Debido a la falta
de precisión en el proceso de medición, si dos o más ID¡ 1 son iguales,
se les asignará a cada una el rango promedio de los que obtendrían de
manera individual de no haberse presentado los resultados iguales.
S. Ahora asignamos el símbolo"+" o 11-11 a cada uno de los n' rangos R¡,
dependiendo de si D¡ era originalmente positiva o negativa.
6. La estadística de prueba de Wilcoxon, W, se obtiene como la suma de
los rangos positivos:

Puesto que la suma de los primeros n' enteros (1, 2, ..., n') está dada por n'(n' +
1)/2, la estadística de prueba de Wilcoxon, W, puede tener un valor que va desde
un mínimo de cero (en el que todos los resultados de diferencia observados son
negativos) hasta un máximo de n'(n' + 1)/2 (en el cual todos los resultados de dife­
rencia observados son positivos). Si la hipótesis nula fuera verdadera, esperaríamos
que la estadística de prueba, W, tomara un valor cercano a su media, µw = n'(n' +
1)/4. Si la hipótesis nula fuera falsa, esperaríamos que el valor observado de la
estadística de prueba estuviera cercano a uno de los extremos.
Del mismo modo que con la prueba de rangos con signo de Wilcoxon (de una
muestra), analizada en la sección 12.4, se puede utilizar la tabla E.10 para obtener
los valores críticos de la estadística de prueba, W, para pruebas de un extremo y
para pruebas de dos extremos a varios niveles de significación, para muestras con
n' :5; 20. Para una prueba de dos extremos y un nivel de significación particular, si
el valor observado de W es igual o mayor que el valor crítico superior o es igual o

511 Capítulo 13 Pruebas de dos muestras con datos numéricos


menor que el valor crítico inferior, la hipótesis nula podría ser rechazada. Para una
prueba de un extremo en la dirección negativa, la regla de decisión consiste en rec­
hazar la hipótesis nula si el valor observado de W es menor o igual al valor crítico
inferior. Para una prueba de un extremo en la dirección positiva, la regla de
decisión consiste en rechazar la hipótesis nula si el valor observado de W es igual
o mayor que el valor crítico superior.
Para muestras con n' > 20, la estadística de prueba, W, está distribuida de
manera aproximadamente normal, y se puede utilizar la siguiente fórmula de
aproximación de muestra grande para probar la hipótesis nula:

en la que
W es la suma de los rangos positivos; W= L R¡ >
n'
+
i = 1

n'(n' + 1)
µ w es él valor medio de.W; µ w = --'----
4
n'(n' + 1)(2n' + 1)
cr w es la desviación estándar W; cr w =
24

n' es el tamaño real después de eliminar las observaciones que tienen resultados
de diferencia absolutos de cero
que es,

y, basándose en el nivel de significación elegido, la hipótesis nula puede ser re­


chazada si el valor calculado, Z, cae en la región apropiada de rechazo, depen­
diendo de si se está efectuando una prueba de dos extremos o de un extremo (véase
la figura 13.19 página 514).

1 3. 1 O. 3 Aplicación con mediciones repetidas


La prueba de desarrollo es una fase importante para llevar un nuevo producto al
mercado. Un fabricante debe saber cuáles son las fortalezas y debilidades de su pro­
ducto, de modo que puedan planearse estrategias de promoción adecuadas. Por
consiguiente, para demostrar el uso de la prueba de rangos con signo de Wilcoxon
para la diferencia mediana, refirámonos al segundo ejemplo mencionado en la sec­
ción 13.8.

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias S13
Panel A PanelB PanelC
Procedimiento de diferencias apareadas: (prueba de dos (prueba de un (prueba de un
extremos) extremo) extremo)
M0 =0 M0 <0 M0 >0
Figura 13. 1 9
Determinación de la región de rechazo utilizando la prueba de rangos con signo de Wilcoxon.

Un fabricante de aplicaciones de software que está desarrollando un nuevo


paquete financiero destinado a usuarios de los ramos educativo y financiero, desea
probar el valor del nuevo paquete de software comparando las diferencias en los
tiempos de procesamiento en computadora para proyectos de aplicación finan­
ciera particulares introducidos para ser procesados por el nuevo paquete de soft­
ware, así como por el actual paquete líder en el mercado. Si el nuevo paquete
financiero es efectivo, proporcionará los mismos resultados que el actual líder en
el mercado, pero será más rápido que éste. Esto es, el nuevo paquete de software
requerirá, en promedio, menos tiempo de procesamiento en computadora.
Por consiguiente, podemos, simplemente, evaluar diferencias en los tiempos
requeridos para lograr los resultados deseados, mediante la comparación de las
diferencias medias (o medianas) de los dos registros de tiempo, en lugar de compa­
rar la diferencia de los tiempos de terminación medios (o medianos) de dos mues­
tras independientes de proyectos de aplicación financiera, una de las cuales debe
ser procesada con el nuevo paquete de software, mientras que la otra deberá proce­
sarse con el paquete de software líder en el mercado. Este último planteamiento de
comparar dos muestras independientes fue considerado en el análisis que hicimos
en las secciones 13.3 a 13.6. En este caso, sin embargo, debemos observar que
obtener los dos registros de tiempo (uno para el nuevo paquete de software y otro
para el paquete líder en el mercado) para cada proyecto de aplicación financiera
sirve para reducir la variabilidad en los registros de tiempo, en comparación con lo
que ocurriría si se utilizaran dos conjuntos independientes de proyectos de apli­
cación financiera. También nos permite enfocar la atención en las diferencias entre
los dos registros de tiempo para cada proyecto de aplicación financiera, con el
propósito de medir la efectividad del nuevo paquete de software.
Los resultados que se muestran en la tabla 13.8 corresponden a una muestra de
n = 10 proyectos de aplicación financiera utilizados en el experimento.
La pregunta que debe responderse es si el nuevo paquete de software es más
rápido o no. Es decir, ¿hay evidencia de que el tiempo promedio de procesamiento
es significativamente mayor cuando los proyectos de aplicación financiera se
procesan con el paquete de software líder que cuando se procesan con el nuevo
paquete de software? Se establecen las siguientes hipótesis nula y alternativa:

Ho: MD �o
H1: MD>Ü

y la prueba es de un extremo.

514 Capítulo 13 Pruebas de dos muestras con datos numéricos


Tabla 13.8 Mediciones repetidas del tiempo, en
segundos, para llevar a cabo proyectos
de aplicación financiera procesados en
dos paquetes de software que están
compitiendo en el mercado

Tiempo de terminación
(en segundos)
Usuario de Con líder Con paquete
proyecto de actual en el de software
aplicaciones mercado nuevo
C.B. 9.98 9.88
T.F. 9.88 9.86
M.H. 9.84 9.75
R.K. 9.99 9.80
M.O. 9.94 9.87
D.S. 9.84 9.84
s.s. 9.86 9.87
C.T. 10.12 9.86
K.T. 9.90 9.83
s.z. 9.91 9.86

Para llevar a cabo la prueba de muestra apareada, el primer paso del procedi­
miento de seis consiste en obtener un conjunto de resultados de diferencia, D¡,
entre cada una de las n observaciones apareadas:

D¡= Xu - X2;
en donde i = 1, 2, ... , n

En nuestro ejemplo, obtenemos un conjunto de n resultados de diferencia a partir


de la fórmula, D; = Xcurrent - Xnew .
Si el nuevo paquete de softw'are es efectivo, se espera que el tiempo de proce­
samiento en computadora baje, de modo que los resultados de diferencia tiendan
a adquirir valores positivos (y H0 sea rechazada).Por otra parte, si el nuevo paquete
de software no es efectivo, podemos esperar que algunos resultados de diferencia,
D;, sean positivos, otros negativos y algunos más no muestren cambio (es decir, D¡
= 0). Si éste es el caso, los resultados de diferencia tendrán un promedio cercano a
cero (esto es, D = O) y H0 no será rechazada.
Los pasos restantes del procedimiento se desarrollan en la tabla 13.9 de la pá­
gina 516. Observe que se trata exactamente de los mismos pasos que para la prueba
de rangos con signo de Wilcoxon (una muestra) que describimos en la sección
12.4. En esta tabla observamos que el usuario del proyecto D.S. es descartado del
estudio (debido a que su resultado de diferencia es cero) y que ocho de los restantes
n' = 9 resultados de diferencia tienen signo positivo.La estadística de prueba W se
obtiene sumando los rangos positivos:

L R¡ )
n'
+
W = 7 + 2 + 6 + 8 + 4.5 + 9 + 4.5+ 3 = 44
i= 1

Como n' = 9, utilizamos la tabla E.10 para determinar el valor crítico de


extremo superior para esta prueba de un extremo, con un nivel de significación, a,
de O.OS. El valor crítico de extremo superior es 37. Puesto que W = 44 > Wu = 37,
la hipótesis nula puede ser rechazada. Existe evidencia para apoyar la opinión de
que el tiempo promedio de procesamiento utilizando el nuevo paquete de software
es significativamente menor que el tiempo promedio utilizado por el actual líder
en el mercado.4

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias 515
Tabla 11.9 Determinación de la prueba de rangos con signoWilcoxon para la diferencia
de medias

Tiempo de procesamiento
(en segundos)
Usuarios de Líder Paquete
proyecto actual nuevo Signo
de aplicaciones X11 Xz¡ D1 =X11 - X21 ID1 1 R, deD1

C.B. 9.98 9.88 +0.10 0.10 7.0 +


T.F. 9.88 9.86 +0.02 0.02 2.0 +
M.H. 9.84 9.75 +0.09 0.09 6.0 +
R.K. 9.99 9.80 +0.19 0.19 8.0 +
M.O. 9.94 9.87 +0.07 0.07 4.5 +
D.S. 9.84 9.84 0.00 0.00 Descartar
s.s. 9.86 9.87 -0.01 0.01 1.0
C.T. 10.12 9.86 +0.26 0.26 9.0 +
K.T. 9.90 9.83 +0.07 0.07 4.5 +
s.z. 9.91 9.86 +O.OS o.os 3.0 +

Problemas de la sección 13. I O


13.66 Un despacho de contabilidad afirma que los contribuyentes ahorrarían dinero
si los contrataran para preparar su declaración individual de impuestos. Para
evaluar esta afirmación, una agencia de protección al consumidor hizo que
varias personas que habían ya preparado su forma para la declaración
acudieran a este despacho para que sus expertos las prepararan de nuevo. Los
impuestos que cada persona contribuiría si pagaran lo que ellos calcularon y si
pagaran lo que los expertos del despacho calcularon se presentan a
continuación:

Preparación de
devolución de impuestos
Contribuyente Despacho Por el
contribuyente
José 1,459 1,910
Marcia 3,250 2,900
Alexis 1,190 1,200
Harry 8,100 7,650
Jean 13,200 15,390
Marc 9,120 9,100
JR 255,970 33,120
Billy 210 140
Richard 1,290 1,320
Ted 130 o
Bruce 5,190 6,123

'
(a) ¿Existe evidencia de que la afirmación del despacho es válida? (Utilice a =
0.05.)
(b) Analice las implicaciones de sus resultados.
13.67 El reportero del tiempo de un canal de televisión estadounidense local
informó, el miércoles lo. de junio de 1994, por la mañana, que se esperaba
que en aquel país, ese día, el clima estuviera más cálido que el martes 31 de

s I es Capítulo 11 Pruebas de dos muestras con datos numéricos


mayo. Para probar esta afirmación, se tomó una muestra aleatoria de 22
ciudades situadas a lo ancho del país, y se registraron los siguientes resultados:

°
Temperatura alta ('F) Temperatura alta ( F)
Mayo 31 Junio 1 Mayo 31 Junio 1
Ciudad (real) (predicha) Ciudad (real) (predicha)
Albany 84 86 Little Rock 84 87
Albuquerque 93 89 Louisville 82 83
Austin 93 95 Miami 85 89
Birmingham 83 81 Nashville 82 83
Boise 79 83 Norfolk 79 79
Boston 84 84 Omaha 93 80
Cleveland 84 85 St. Louis 82 86
Dallas-Ft. Worth 88 92 San Diego 65 70
Denver 91 78 SanJose 80 82
Indianapolis 85 82 Seattle 69 73
Jacksonville 82 85 Tulsa 88 91
Fuente: Nueva York Times, Mayo 31, 1994, p. D8.

(a) ¿Existe evidencia que apoye la afirmación hecha por el reportero del
tiempo el miércoles primero de junio, acerca de que ese día estaría más
.1
caliente?
(b) Analice las implicaciones de sus resultados.

13.68 Los siguientes datos representan las calificaciones obtenidas en los exámenes
de medio semestre y de finales de semestre tomados de una muestra aleatoria
de los exámenes de 11 estudiantes del curso Introducción a la Economía.
Ambos exámenes tuvieron una duración de dos horas y el examen final cubría
el material visto después de la aplicación del examen de medio semestre.

Estudiante
N.A. A.B. L.B. M.B. W.B. S.D. T.). L.K. J.M. H.R. D.R.
Examen de
medio semestre 80 82 47 75 80 69 83 73 SS 70 81
Examen de
final de semestre 81 85 40 75 83 79 91 72 66 76 79

'
(a) ¿Existe evidencia de un aumento en el desempeño de los estudiantes
en la segunda mitad del semestre? (Utilice a = .05.)
(b) Analice las implicaciones de sus resultados.
e 13.69 Refiérase al problema 13.63 de la página 510.
(a) Al nivel de significación de O.OS, ¿existe evidencia de una diferencia
en la mediana del kilometraje de gasolina?
(b) ¿Existe alguna diferencia en sus resultados presentes con respecto
a los resultados obtenidos al usar la prueba t? Discuta la respuesta.
13.70 Refiérase al problema 13.64 de la página 510.
(a) Al nivel de significación de O.OS, ¿puede el director de investigación
llegar a la conclusión de que hay evidencia de que la campaña de ventas
ha aumentado la mediana de las ventas de los productos que no se han
vendido?
(b) ¿Existe alguna diferencia en sus resultados presentes con respecto a los
resultados obtenidos al usar la prueba t? Discuta la respuesta.

Prueba de hipótesis de rangos con signo de Wilcoxon para la diferencia de medias S17

..
. 1IN11 Trampas potenciales de la prueba de
hipótesis y cuestiones éticas

1 3. 1 1 • 1 Trampas potenciales
En el presente capítulo, introdujimos cuatro procedimientos de prueba estadística
que pueden ser empleados cuando se analizan posibles diferencias entre los pará­
metros de dos poblaciones independientes, basándonos en muestras que con­
tienen datos numéricos. Además, desarrollamos dos procedimientos de prueba que
pueden utilizarse cuando analizamos posibles diferencias entre los parámetros de
dos poblaciones relacionadas, basándonos en muestras que contienen datos nu­
méricos. De nuevo, parte de un buen análisis de datos consiste en entender las
suposiciones que subyacen en cada uno de los procedimientos de prueba de
hipótesis, y utilizándolas, así como otros criterios, seleccionar el procedimiento
más apropiado para un conjunto dado de condiciones. Como se observa en el dia­
grama resumen del capítulo, la principal distinción en la comparación de dos gru­
pos que contienen datos numéricos está basada en el hecho de si las poblaciones
de donde se tomaron las muestras son independientes o están relacionadas. No
deberíamos utilizar procedimientos de prueba diseñados para poblaciones inde­
pendientes cuando tratamos con datos apareados, y no deberíamos utilizar pro­
cedimientos de prueba diseñados para poblaciones relacionadas cuando tratamos
con dos muestras independientes. Después de centrar nuestra atención en agrupa­
mientos apropiados de procedimientos de prueba parecidos, necesitamos exami­
nar con cuidado las suposiciones y los otros criterios antes de seleccionar un
procedimiento en particular.
Una selección de la prueba y/o el modelo adecuados es de suma importancia
para un buen investigador, y es un asunto bastante serio. Hace poco (véase refe­
rencia 1), dos profesores de diferentes univers�dades levantaron cargos por mala
conducta científica ante los Institutos Nacionales de Salud (estadounidenses), en


contra de un profesor de una tercera universidad por haber escogido un modelo
estadístico en un artículo que había escrito sobre envenenamiento con plomo .

1 3. 1 1 • l Cuestiones éticas
Consideraciones éticas surgen cuando un investigador manipula el proceso de
prueba de hipótesis en cierto modo que le permita obtener una ganancia personal.
Resulta interesante saber que el investigador acusado de mala conducta científica
no fue acusado de fraude, plagio, alteración de datos o falsificación de resultados.
Los cargos se derivaron a partir de su elección del modelo estadístico y de los pro­
cedimientos de prueba, así como del análisis de datos resultante que presentaba un
punto de vista divergente. Para que la ética llegue a ser algo de consideración; se
debe tener en cuenta si ese aspecto en el comportamiento del investigador fue con
conocimiento de causa o no. Para un mayor análisis sobre las cuestiones éticas y la
prueba de hipótesis, refiérase a la sección 11.11.2 (páginas 412 a 415) y a la sección
12.8.2 (páginas 455 a 456).

•INfj Prueba de hipótesis basada en dos


muestras de datos numéricos repaso
En el presente capítulo presentamos varios procedimientos de prueba de hipótesis
ampliamente utilizados que nos permiten comparar estadísticas calculadas a par­
tir de dos muestras de datos numéricos, con el propósito de hacer inferencias con

518 Capítulo 13 Pruebas de dos muestras con datos numéricos

••
Diagrama resumen del capítulo 13

respecto a diferencias en los parámetros de las dos respectivas poblaciones. Se to­


a.
11
maron en consideración tanto procedimientos de prueba con muestras indepen­
dientes como con muestras relacionadas, y se puso énfasis en las suposiciones que
se encuentran detrás del uso de las diferentes pruebas. En la página 462 de la sec­
ción 13.1, se presentó una lista en donde se resaltaban los puntos de importancia
que se analizaron en el capítulo. Verifique ahora esa lista para ver si siente que hay
un entendimiento de tales puntos clave. Para estar seguro, debe ser capaz de
responder las siguientes preguntas conceptuales:
l. ¿Cuáles son algunos de los criterios utilizados en la selección de un
procedimiento de prueba de hipótesis particular?
2. ¿En qué condiciones debería seleccionarse la prueba t de varianzas
combinadas para examinar posibles diferencias en las medias de dos
poblaciones independientes?

Trampas potenciales de la prueba de hipótesis y cuestiones éticas S 19


3. ¿En qué condiciones debería elegirse la prueba t' de varianzas
separadas para examinar posibles diferencias en las medias de dos
poblaciones independientes?
4. ¿En qué condiciones se debería seleccionar la prueba de suma de
rangos de Wilcoxon para examinar posibles diferencias en las
medianas de dos poblaciones independientes?
5. ¿En qué condiciones debería seleccionarse la prueba F para examinar
posibles diferencias en las varianzas de dos poblaciones independientes?
6. ¿Cuál es la diferencia entre mediciones repetidas y elementos
balanceados o apareados?
7. ¿En qué condiciones se debería seleccionar la prueba t para la diferencia
media, µD, en dos poblaciones relacionadas?
8. ¿En qué condiciones debería elegirse la prueba de rangos con signo
de Wilcoxon para la diferencia mediana, Mv, en dos poblaciones
relacionadas?
Revise la lista de preguntas para corroborar si, en efecto, conoce las respuestas
y puede (1) explicar sus respuestas a alguna persona que no haya leído el capítulo
y (2) dar referencias de lecturas específicas o ejemplos que apoyen su respuesta.
También, vuelva a leer cualquiera de las secciones que pudiera parecer confusa para
ver si ahora ya tiene sentido.

Juntando todo
TÉRMINOS CLAVE
diferencia media 504 prueba de suma de rangos de Wilcoxon
elementos aparedos o balanceados 503 para diferencias en dos medianas 481
mediciones repetidas 503 prueba t de varianza combinadas para
muestras relacionadas 503 diferencias en dos medias 464
poblaciones Independientes 463 prueba t' de varianza separadas pa
poblaciones relacionadas 503 diferencias en dos medias 472
problemas de Behrens-Fisher 472 prueba Z para diferencias en dos medias
prueba F para diferencias en dos 463
varianzas 489 prueba Z para la diferencia media 504
prueba de rangos con signo de Wilcoxon resultado de diferencia, D1 504
para la diferencia mediana 511 robusta 468

Problemas de repaso del capítulo


13.71 t·Y4W1M·i•P Escriba una carta a un amigo que no ha tomado ningún curso de
estadística y explíquele de que se trata el presente capítulo. Para resaltar el
contenido del capítulo, asegúrese de incorporar sus respuestas a las ocho
preguntas de repaso de las páginas 519-520.
e 13.72 La tienda de departamentos R&M tiene dos planes de crédito disponibles para
sus clientes. El gerente de la tienda desea recolectar información acerca de
cada plan de crédito y estudiar las diferencias entre los dos planes. Está
interesado en el saldo mensual promedio. Se seleccionó una muestra aleatoria
de 25 cuentas con el plan A y de SO cuentas con el plan B, con los siguientes
resultados:

520 Capítulo 13 Pruebas de dos muestras con datos numéricos


Plan A Plan B
nA = 25 n8 = SO
XA = $75 x8 = $110
SA = $15 S8 =$14.14

Utilice la inferencia estadísticas (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de 0.01 (confianza de 99%) en todos los
incisos.
(a) Saldo mensual promedio de todas las cuentas con el plan B.
(b) ¿Existe evidencia de que el saldo mensual promedio de las cuentas con el
plan A es diferente de $105?
(c) ¿Existe evidencia de una diferencia en las varianzas (del saldo mensual)
entre el plan A y el plan B?
(d) ¿Existe evidencia de una diferencia en el saldo mensual promedio entre el
plan A y el plan B?
(e) Calcule los límites inferior y superior para los valores p de los incisos (b) a
(d) e interprete su significado.
f (f ) Basándose en los resultados obtenidos en los incisos (a) a (e), ¿qué le diría
al gerente acerca de los dos planes?
13.73 Una empresa grande de servicio público desea comparar el consumo de
electricidad durante el verano en casas de una sola familia en dos condados a
los que presta servicio. Por cada familia muestreada, se registró la cuenta
mensual de luz obteniéndose los siguientes resultados:

Condado I Condado 11
X $115 $98
s $30 $18
n 25 21

Utilice la inferencia estadística (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de .OS (confianza del 95%) en todos los
incisos
(a) La cuenta mensual promedio de población para el condado l.
(b) ¿Existe evidencia de que la cuenta promedio en el condado II está por
arriba de $80?
(c) ¿Existe evidencia de una diferencia en las varianzas entre las cuentas en el
condado I y el condado 11?
(d) ¿Existe evidencia de que la cuenta mensual promedio es mayor en el
condado I que en el condado 11?
(e) Calcule los límites inferior y superior para los valores p de los incisos (b) a
(d) e interprete su significado.
(f) Basándose en los resultados obtenidos en los incisos (a) a (e), ¿qué le diría
al director de la empresa de servicio público acerca del consumo de
electricidad en los dos condados?
13.74 El gerente de operaciones de computadora de una compañía grande desea
estudiar el uso de computadoras en dos departamentos de la compañía, el
departamento de contabilidad y el departamento de investigación. Se
seleccionaron una muestra aleatoria de cinco tareas del departamento de
contabilidad realizados durante la semana anterior, y seis trabajos del
departamento de investigación realizados, también, durante esa semana, y se
registró el tiempo de procesamiento (en segundos) para cada trabajo con los
resultados que se muestran en la página 522.

Problemas de repaso del capítulo S2 I


Departamento Tiempo de procesamiento (en segundos)
Contabilidad 9 3 8 7 12
Investigación 4 13 10 9 9 6

Utilice la inferencia estadística (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de O.OS (confianza de 95%) en todos los
incisos.
(a) El tiempo de procesamiento promedio para todas las tareas del
departamento de contabilidad.
(b) ¿Existe evidencia de que el tiempo de procesamiento promedio en el
departamento de investigación sea mayor a seis segundos?
(c) ¿Existe evidencia de una diferencia en las varianzas del tiempo de
procesamiento entre los dos departamentos?
(d) ¿Qué suposición debe hacerse con el fin de llevar a cabo el inciso (c)?
(e) ¿Existe evidencia de una diferencia en el tiempo de procesamiento medio
entre los departamentos de contabilidad y de investigación?

'
(f) ¿Qué suposición o suposiciones son necesarias para llevar a cabo el inciso (e)?
(g) Calcule los límites inferior y superior de los valores p de los incisos (b), (c)
y (e), e interprete su significado.
(h) Basándose en los resultados obtenidos en los incisos (a) a (g), ¿qué debería
escribir el gerente en su informe al director de sistemas de información
con respecto a los dos departamentos?
' 13.75 Una profesora de computación está interesada en estudiar la cantidad de
tiempo que le llevaría a los estudiantes inscritos en el curso Introducción a las
Computadoras escribir y correr un programa en PASCAL. La profesora le
contrata a usted para analizar los siguientes resultados (en minutos) obtenidos
de una muestra aleatoria de nueve estudiantes:

10 13 9 15 12 13 11 13 12

(a) Al nivel de significación de O.OS, ¿existe evidencia de que el tiempo


promedio de la población sea mayor a 10 minutos? ¿Qué le diría a la
profesora?
(b) Suponga que cuando está verificando los resultados, la profesora de
computación se da cuenta de que el cuarto estudiante en realidad se llevó
51 minutos en lugar de los 15 registrados para escribir y correr el
programa en PASCAL. Al nivel de significación de .05, vuelva a analizar
los datos revisados en el inciso (a). ¿Qué le diría ahora a la profesora?
(c) La profesora está perpleja con los resultados paradójicos obtenidos y le
pide una explicación con respecto a la justificación de la diferencia en lo
obtenido en los incisos (a) y (b). Explique su respuesta.
(d) Pocos días más tarde, la profesora le llama para decirle que el dilema está
completamente resuelto. El número original 15 [mostrado en el inciso (a)]
estaba correcto y, por consiguiente, los resultados del inciso (a) se están
utilizando en un artículo que ella está escribiendo para una revista de
computación. Ahora desea contratarle para comparar los resultados de ese
grupo de estudiantes de Introducción a las Computadoras con los
resultados obtenidos en una muestra de 11 estudiantes avanzados de
computación, con el propósito de determinar si existe evidencia de que
los estudiantes avanzados pueden escribir el programa en PASCAL en
menos tiempo (en promedio) que los estudiantes del curso introductorio.
La media de muestra para los estudiantes avanzados es de 8.5 minutos y la
desviación estándar de la muestra es de 2.0 minutos. Al nivel de
significación de .05, analice completamente estos datos. ¿Qué le diría a la
profesora?
(e) Pocos días después, la profesora le vuelve a llamar para decirle que un
revisor de su artículo quiere que incluya el valor p para el resultado "
correcto" del inciso (a). Además, le pregunta acerca de un "problema de
Behrens-Fisher", que el revisor quiere que analice en su artículo. Con sus

522 Capítulo 13 Pruebas de dos muestras con datos numéricos


propias palabras, analice el concepto de valor p y describa el problema de
Behrens-Fisher. De el valor p aproximado del inciso (a) y analice si el
problema de Behrens-Fisher tiene o no algún significado en el estudio de
la profesora.
13.76 Un profesor de estadística financiera que atiende un grupo de estudiantes
desea estudiar las calificaciones de los exámenes de medio semestre y de final
del semestre que presentaron sus alumnos durante el curso. Cada examen
cubre una parte del semestre y no son acumulativos. A continuación se
presentan los resultados de una muestra de 33 estudiantes:

Examen Examen Examen


Estudiante MS F Estudiante MS F Estudiante MS F
1 89 80 12 56 71 23 63 43
2 80 68 13 67 SS 24 89 80
3 86 76 14 99 95 25 62 23
4 68 77 15 82 45 26 74 91
5 88 95 16 75 71 27 62 57
6 89 66 17 58 44 28 70 SI
7 82 83 18 56 so 29 65 78
8 89 86 19 SS 14 30 82 53
9 42 58 20 72 59 31 91 90
10 61 54 21 73 80 32 84 83
11 84 84 22 79 68 33 95 88

Utilice la inferencia estadística (intervalos de confianza o pruebas de hipótesis)


para llegar a conclusiones acerca de lo siguiente:
Nota: Utilice un nivel de significación de 0.05 (confianza de 95%) en todos los
incisos.
(a) Calificación promedio en el examen de medio semestre de todos los
estudiantes.
(b) ¿Existe evidencia de que la calificación promedio del examen de medio
semestre sea mayor que la del examen final?
(c) Calcule los límites inferior y superior del valor p del inciso (b) e interprete
su significado.

Proyectos de minicasos de aprendizaje


colaborativo
Refiérase a las instrucciones de la página 101 antes de empezar los siguientes problemas.
CL13.1 Refiérase al CL 3.2 de la página 101 y al CL 4.2 de la página 165. Su grupo, la
Empresa ha sido contratada por el editor de la sección de alimentos
de una popular revista familiar para estudiar el costo y las características
nutricionales de los cereales listos para comer. Armados con el Conjunto
Especial de Datos 2 del Apéndice D de las páginas D6-D7, la Empresa
_____ está lista para:
(a) Determinar si hay evidencia de una diferencia en el costo promedio de los
cereales, considerando o no si el nivel de calorías por ración se encuentra
por debajo o por arriba de 155.
(b) Determinar si existe evidencia de una diferencia en la cantidad media de
azúcar en los cereales con alto contenido de fibra en comparación con los
de contenido medio y bajo combinados.
(c) Escribir y entregar un resumen ejecutivo en el que se describan los
resultados de los incisos (a) y (b), especificando claramente todas las
hipótesis, los niveles elegidos de significación y las suposiciones de los
procedimientos seleccionados.
(d) Preparar y efectuar una presentación oral de cinco minutos para el editor
de la sección de alimentos de la revista.
CL13.2 Refiérase al CL 3.3 de la página 102 y al CL 4.3 de la página 165. Su grupo, la
Empresa , ha sido contratado por el director de comercialización de

Proyecto de minicasos de aprendizaje colectivo S2 3


una bien conocida empresa fabricante de fragancias para hombre y mujer, para
estudiar las características de las fragancias actualmente disponibles. Armados
con el Conjunto Especial de Datos 3 del apéndice D de las páginas D8-D9, la
Empresa está lista para:
(a) Determinar si existe evidencia de una diferencia en el costo promedio de
las fragancias de hombre con respecto a las fragancias de mujer.
(b) Determinar si existe evidencia de una diferencia en el costo medio de los
perfumes de mujer, basándose en si la intensidad es muy fuerte o fuerte
con respecto a una intensidad media o baja.
(c) Escriba y entregue un resumen ejecutivo en el que describa los resultados
obtenidos en los incisos (a) y (b), especificando claramente todas las
hipótesis, niveles seleccionados de significación y las suposiciones de los
procedimientos de prueba elegidos.
(d) Prepare y haga una presentación oral de cinco minutos al director de
comercialización.
CL13.3 Refiérase al CL 3.4 de la página 102 y al CL 4.4 de la página 166. Su grupo, la
Empresa , ha sido contratado por el director de viajes de un conocido
periódico que está preparando un artículo sobre las características de las cámaras
compactas de 35 mm. Armados con el Conjunto Especial de Datos 4 del
apéndice D, de las páginas DlO y Dl1, la Empresa está lista para:
(a) Determinar si existe evidencia de una diferencia en la precisión de marco
promedio de las cámaras con un nivel de precio inferior a $200 con
respecto a las que tienen un nivel de precio de $200 o más.
(b) Determine si existe evidencia de una diferencia en el peso medio de las
cámaras clasificadas como largas, medianas o cortas múltiples
(combinadas) con respecto al peso de las cámaras clasificadas como
automáticas o fijas (combinadas).
(c) Escriba y entregue un resumen ejecutivo en el que describa los resultados
obtenidos en los incisos (a) y (b), especificando claramente todas la
hipótesis, niveles seleccionados de significación y las suposiciones de los
procedimientos de prueba elegidos.
(d) Prepare y haga una presentación oral de cinco minutos al editor de viajes
del periódico.

Notas finales
l. Para probar las diferencias en los réditos de dividendo 3. Las mediciones originales (es decir, la antigüedad de los
medianos, se debe suponer que las distribuciones de réditos empleados en años) son reemplazadas por el correspondiente
de dividendo de ambas poblaciones de las cuales se logaritmo natural de la "medición más uno", de modo que,
tomaron las muestras aleatorias son idénticas, excepto, por ejemplo, un empleado de tiempo completo con cuatro
posiblemente, en cuanto a diferencias en la localización (es años de servicio en Industrias Kalosha tendría una
decir, las medianas). "medición" transformada de 1.61, el logaritmo natural de 5.
2. Puesto que los 232 y 166 grados de libertad no se muestran 4. La fórmula de aproximación de muestra grande [ecuación
en la tabla E.S, redondeando a los valores tabulares más (13.14)] tendría como resultado un valor de Z de +2.55,
cercanos de 120 y 120 grados de libertad, el valor crítico de que es mayor que +1.645, el valor crítico de extremo
extremo superior, Fu, es 1.43 y el valor crítico de extremo superior de la distribución normal estándar con un nivel de
inferior, Fv es 1/1.43 = 0.699. Puesto que F = 1.65 >Fu= 1.43, significación de Ó de O.OS. En consecuencia, la hipótesis
la hipótesis nula es rechazada. nula sería rechazada.

Referencias
l. Begley, S., "Lead, Lies and Data Tape", Newsweek, 16 de 7. SAS User's Manual Version 6 (Raleigh, NC: SAS Institute,
marzo, 1992, p. 62. 1988).
2. Bradley, J.V., Distribution-Free Statistical Tests (Englewood 8. Satterthwaite, F.E., 11 An Approximate Distribution of
Cliffs, NJ: Prentice-Hall, 1968). Estimates of Variance Components", Biometrics Bulletin,
3. Conover, W.J., Practica/ Nonparametric Statistics, Za. ed. 1946, vol. 2, pp. 110-114.
(Nueva York: W iley, 1980). 9. Snedecor, G.W. y W.G. Cochran, Statistical Methods, 7a.
4. Daniel, W., Applied Nonparametric Statistics, Za. ed. ed. (Ames, IA: Iowa State University Press, 1980).
(Boston, MA: Houghton Mifflin, 1990). 10. STATISTIX Version 4.0 (Tallahassee, FL: Analytical
S. MINITAB Reference Manual Release 8 (State College, PA: Software, Inc., 1992).
MINITAB, Inc., 1992). 11. W iner, B.J., Statistical Principies in Experimental Design, Za.
6. Norusis, M., SPSS Guide to Data Analysis far SPSS-X with ed. (Nueva York: McGraw-Hill, 1971).
Additional Instructions far SPSS/PC+ (Chicago, IL: SPSS Inc.,
1986).

524 Capítulo 13 Prueba de dos muestras con datos numéricos