You are on page 1of 56

captulo

13

REGRESIN MLTIPLE Y MODELADO

Objetivos

Extender las tcnicas de regresin del captulo anterior, con el fin de manejar ms de una variable explicativa para predecir una cantidad Examinar situaciones de toma de decisiones en las que se puede utilizar la regresin mltiple para hacer predicciones Interpretar los resultados obtenidos con paquetes de

Contenido del captulo


13.1 Anlisis de regresin mltiple y correlacin 566 13.2 Deduccin de la ecuacin de regresin mltiple 567 13.3 La computadora y la regresin mltiple 574 13.4 Inferencias sobre parmetros de poblacin 582 13.5 Tcnicas de modelado 595 Estadstica en el trabajo 608

.M

at e

m at

ic

a1 .c

computacin que efectan anlisis de regresin Probar hiptesis acerca de las regresiones Utilizar las tcnicas de modelado para incorporar variables cualitativas a las ecuaciones de regresin Aprender cmo ajustar curvas a los datos Entender la importancia de los residuos en el anlisis de regresin

om

Ejercicio de base de datos computacional 609 Del libro de texto al mundo real 609 Trminos introducidos en el captulo 13 610 Ecuaciones introducidas en el captulo 13 611 Ejercicios de repaso 612

n fabricante de fotocopiadoras y procesadores de texto pequeos para oficina, paga a sus vendedores un salario base reducido ms una comisin igual a un porcentaje fijo de las ventas de cada vendedor. Uno de ellos afirma que esta estructura salarial es discriminatoria para las mujeres. Los salarios base actuales de los nueve vendedores de la compaa son los siguientes:

Agentes de ventas hombres Meses como Salario base empleado (en miles de dls.) 6 10 12 18 30 7.5 8.6 9.1 10.3 13.0

Agentes de ventas mujeres Meses como Salario base empleada (en miles de dls.) 5 13 15 21 6.2 8.7 9.4 9.8

Uso de ms de una variable independiente para estimar la variable dependiente

Ventaja de la regresin mltiple

Pasos de la regresin mltiple y la correlacin

Como se mencion en el captulo 12, podemos utilizar ms de una variable independiente para estimar la variable dependiente e intentar, de esta manera, aumentar la precisin de la estimacin. Este proceso se conoce como anlisis de regresin mltiple y correlacin. Est basado en las mismas suposiciones y procedimientos que encontramos al utilizar la regresin simple. Considere al agente de bienes races que desea relacionar el nmero de casas que la firma vende en un mes con el monto de su publicidad mensual. Ciertamente, podemos encontrar una ecuacin de estimacin sencilla que relacione a estas dos variables. Podemos tambin hacer ms precisa nuestra ecuacin incluyendo en el proceso de estimacin el nmero de vendedores que emplea cada mes? Probablemente la respuesta sea s. Y ahora, como deseamos utilizar tanto el nmero de agentes de ventas como los gastos de publicidad para predecir las ventas mensuales de casas, debemos utilizar regresin mltiple, no simple, para determinar la relacin. La principal ventaja de la regresin mltiple es que nos permite utilizar ms informacin disponible para estimar la variable dependiente. En algunas ocasiones, la correlacin entre dos variables puede resultar insuficiente para determinar una ecuacin de estimacin confiable; sin embargo, si agregamos los datos de ms variables independientes, podemos determinar una ecuacin de estimacin que describa la relacin con mayor precisin. La regresin mltiple y el anlisis de correlacin implican un proceso de tres pasos como el que usamos en la regresin simple. En este proceso: 1. Describimos la ecuacin de regresin mltiple; 2. Examinamos el error estndar de regresin mltiple de la estimacin, y 3. Utilizamos el anlisis de correlacin mltiple para determinar qu tan bien la ecuacin de regresin describe los datos observados. Adems, en la regresin mltiple podemos observar cada una de las variables independientes y probar si contribuyen de manera significativa a la forma en que la regresin describe los datos.

.M

at e

m at

13.1 Anlisis de regresin mltiple y correlacin


ic

a1 .c

om

La directora de personal observa que el salario base depende de la antigedad del vendedor en la compaa, pero no sabe cmo utilizar los datos obtenidos para darse cuenta de si depende tambin de su sexo y si existe discriminacin hacia las mujeres. Los mtodos que analizaremos en este captulo le permitirn averiguarlo.

Paquetes de software para regresin

En este captulo, veremos cmo encontrar la ecuacin de regresin de mejor ajuste para un conjunto dado de datos, y cmo analizar la ecuacin obtenida. Aunque mostraremos cmo se puede hacer regresin mltiple a mano o con una calculadora, pronto ser evidente que no conviene hacer ni siquiera un problema real pequeo a mano. Afortunadamente, hay muchos paquetes de software disponibles para hacer regresiones mltiples y otros anlisis estadsticos. Estos paquetes realizan las operaciones numricas y lo dejan libre para concentrarse en el anlisis del significado de la ecuacin de estimacin resultante. La regresin mltiple nos permitir tambin ajustar tanto curvas como rectas. Usando las tcnicas de variables ficticias, podemos incluir factores cualitativos, tales como el sexo, en nuestra regresin mltiple. Esta tcnica nos permitir analizar el problema de discriminacin con que abrimos el presente captulo. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas tcnicas de modelado que se pueden utilizar en la regresin mltiple para aumentar la precisin de nuestras ecuaciones de estimacin.

Ejercicios 13.1
Conceptos bsicos
13-1 13-2 13-3 13-4 Por qu utilizamos regresin mltiple en lugar de regresin simple al estimar una variable dependiente? De qu manera se utilizarn las variables ficticias en nuestro estudio de regresin mltiple? A qu se refiere la palabra mltiple en la frase regresin mltiple? La duea de una cadena de almacenes desea predecir las ventas mensuales a partir del tamao de la ciudad donde se localiza una tienda. Despus de ajustar un modelo de regresin simple, decide que desea incluir el efecto de la temporada del ao en el modelo. Se puede hacer esto utilizando las tcnicas del presente captulo? Describa los tres pasos del proceso de anlisis de regresin mltiple y correlacin. Los procedimientos utilizados en la regresin mltiple difieren mucho de los usados en regresin simple? Explique su respuesta.

13.2 Deduccin de la ecuacin de regresin mltiple


Un problema que ilustra la regresin mltiple

Smbolos adecuados

Veamos cmo podemos calcular la ecuacin de regresin mltiple. Por conveniencia, utilizaremos slo dos variables independientes en el problema que trabajaremos en esta seccin. Sin embargo, tenga en mente que en principio la misma clase de tcnica se aplica a cualquier nmero de variables independientes. El Servicio Interno de Contribuciones (IRS, Internal Revenue Service) de Estados Unidos est tratando de estimar la cantidad mensual de impuestos no pagados descubiertos por su departamento de auditoras. En el pasado, el IRS estimaba esta cantidad con base en el nmero esperado de horas de trabajo de auditoras de campo. En los ltimos aos, sin embargo, las horas de trabajo de auditoras de campo se han convertido en un pronosticador errtico de los impuestos no pagados reales. Como resultado, la dependencia est buscando otro factor para mejorar la ecuacin de estimacin. El departamento de auditoras tiene un registro del nmero de horas que usa sus computadoras para detectar impuestos no pagados. Podramos combinar esta informacin con los datos referentes a las horas de trabajo de auditoras de campo y obtener una ecuacin de estimacin ms precisa para los impuestos no pagados descubiertos cada mes? En la tabla 13-1 se presentan esos datos para los ltimos 10 meses. En la regresin simple, X es el smbolo utilizado para los valores de la variable independiente. En la regresin mltiple tenemos ms de una variable independiente. Entonces, seguiremos usando X, pero agregaremos un subndice (por ejemplo, X1, X2) para diferenciar cada una de las variables independientes.

.M

13-5 13-6

at e

m at

ic

a1 .c

om

Tabla 13-1 Datos de los registros de auditoras del IRS de los ltimos 10 meses

Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre

X1 Horas de trabajo de auditora de campo (dos ceros omitidos)


45 42 44 45 43 46 44 45 44 43

X2 Horas en computadora (dos ceros omitidos)


16 14 15 13 13 14 16 16 15 15

Y Impuestos reales no pagados descubiertos (millones de dlares)


29 24 27 25 26 28 30 28 28 27

Definicin de las variables Ecuacin de estimacin para regresin mltiple

Visualizacin de la regresin mltiple

Uso del criterio de mnimos cuadrados para ajustar un plano de regresin

Y valor estimado correspondiente a la variable dependiente a ordenada Y X1 y X2 valores de las dos variables independientes b1 y b2 pendientes asociadas con X1 y X2, respectivamente Podemos visualizar la ecuacin de estimacin simple como una recta en una grfica; de manera similar, podemos representar una ecuacin de regresin mltiple de dos variables como un plano, como el que ilustra la figura 13-1. Se trata de una forma o figura tridimensional, con profundidad, largo y ancho. Para obtener una idea intuitiva de esta forma tridimensional, visualice la interseccin de los ejes Y, X1 y X2 como un rincn de una habitacin. La figura 13-1 es una grfica de los 10 puntos de la muestra y el plano alrededor del cual estos puntos parecen agruparse. Algunos estn arriba del plano y otros abajo; del mismo modo que los puntos estaban arriba y abajo de la recta de regresin simple. Nuestro problema consiste en decidir cul de los planos que podemos dibujar ser el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mnimos cuadrados y localizaremos el plano que minimice la suma de los cuadrados de los errores, es decir, de las distancias de los puntos alrededor del plano a los puntos correspondientes sobre el plano. Usemos nuestros datos y las siguientes tres ecuaciones para determinar los valores de las constantes numricas a, b1 y b2.

.M

at e

donde,

Ecuaciones normales Y X1Y X2Y na a X1 a X2 b1 X1 b1


2 X1

m at

Ecuacin de estimacin que describe la relacin entre tres variables Y a b1X1 b2X2

a1 .c

om

En este problema, X1 representa el nmero de horas de trabajo de auditora de campo y X2 el nmero de horas en computadora. La variable dependiente, Y, ser los impuestos reales no pagados descubiertos. Recuerde que en la regresin simple, la ecuacin de estimacin Y a bX describe la relacin entre las dos variables X y Y. En regresin mltiple, debemos extender esa ecuacin, agregando un trmino para cada nueva variable. En smbolos, la ecuacin 13-1 es la frmula que se usa cuando tenemos dos variables independientes:

[13-1]

ic

b2 X2 b2 X1X2 b2 X2 2

[13-2] [13-3] [13-4]

b1 X1X2

FIGURA 13-1 Plano de regresin mltiple para 10 datos


Y
Error

Punto observado Punto correspondiente en el plano

Plano formado a travs de los puntos de la muestra: ^ Y = a + b 1X 1 + b 2X 2

a = ordenada Y X1

Obtencin de a, b1 y b2 resolviendo las ecuaciones 13-2, 13-3 y 13-4

Podemos obtener a, b1 y b2, los coeficientes del plano de regresin, resolviendo las ecuaciones 13-2, 13-3 y 13-4. Obviamente, la mejor manera de calcular todas las sumas implicadas en estas tres ecuaciones es elaborar una tabla para recolectar y organizar la informacin necesaria, como se hizo en la regresin simple. Esto se presenta en la tabla 13-2, para el problema del IRS. Ahora, utilizando la informacin de la tabla 13-2 en las ecuaciones 13-2, 13-3 y 13-4, obtenemos tres ecuaciones con tres constantes desconocidas (a, b1 y b2):

w w

.M

at

em

at

ic a
272

1.
10a 441a 147a a b1 b2

co

X2

m
441b1 19,461b1 6,485b1 13.828 0.564 1.099

147b2 6,485b2 2,173b2

12,005 4,013

Cuando resolvemos estas tres ecuaciones de manera simultnea, obtenemos:

Sustituyendo estos tres valores en la ecuacin de regresin de dos variables (ecuacin 13-l), obtenemos una ecuacin que describe la relacin entre el nmero de horas de trabajo en auditoras de campo, el nmero de horas de computacin y los impuestos no pagados descubiertos por el departamento de auditoras: Y a b1X1 b2X2 [13-1] 13.828 0.564X1 1.099X2 El departamento de auditoras puede utilizar esta ecuacin mensualmente para estimar la cantidad de impuestos no pagados que va a descubrir. Suponga que el IRS desea aumentar la cantidad de detecciones de impuestos no pagados el siguiente mes. Como los auditores capacitados son escasos, el IRS no tiene la intencin de contratar personal adicional. El nmero de horas de trabajo en auditoras, entonces, permanecer en el nivel de oc-

Uso de la ecuacin de regresin mltiple para estimaciones

Tabla 13-2 Valores para ajustar el plano de mnimos cuadrados, donde n 10

Y (1)
29 24 27 25 26 28 30 28 28 27 272 Y

X1 (2)
45 42 44 45 43 46 44 45 44 43 441 X1

X2 (3)
16 14 15 13 13 14 16 16 15 15 147 X2

X1Y (2) (1)


1,305 1,008 1,188 1,125 1,118 1,288 1,320 1,260 1,232 1,161 12,005 X1Y

X2Y (3) (1)


464 336 405 325 338 392 480 448 420 405 4,013 X2Y

X1Y2 (2) (3)


720 588 660 585 559 644 704 720 660 645 6,485 X1X2

2 X1 (2)2

2 X2 (3)2

Y2 (1)2
841 576 729 625 676 784 900 784 784 729 7,428 Y2

2,025 1,764 1,936 2,025 1,849 2,116 1,936 2,025 1,936 1,849 19,461 2 X1

256 196 225 169 169 196 256 256 225 225 2,173 X2 2

Y X1 X2

27.2 44.1 14.7

tubre, alrededor de 4,300 horas. Pero con el fin de aumentar las detecciones de impuestos no pagados, el IRS espera aumentar el nmero de horas en computadora a cerca de 1,600. Como resultado: X1 X2 43 4,300 horas de trabajo en auditoras de campo 16 1,600 horas de tiempo en computadora

Sustituyendo estos valores en la ecuacin de regresin para el departamento de auditoras, obtenemos: Y 13.828 0.564 X1 1.099X2 Y 13.828 (0.564)(43) (1.099)(16) Y 13.828 24.252 17.584 Y 28.008 Detecciones estimadas de $28,008,000
Interpretacin de la estimacin

a, b1 y b2 son los coeficientes de regresin estimados

Por tanto, en el pronstico para noviembre, el departamento de auditoras espera encontrar una evasin de impuestos cercana a 28 millones de dlares, para esta combinacin de factores. Hasta este punto nos hemos referido a a como la ordenada Y, y a b1 y b2 como las pendientes del plano de regresin mltiple. Pero, para ser ms precisos, debemos decir que estas constantes num ricas son los coeficientes de regresin estimados. La constante a es el valor de Y (en este caso, la estimacin de los impuestos no pagados) si tanto X1 como X2 tienen valor cero. Los coeficientes b1 y b2 describen cmo los cambios en X1 y X2 afectan el valor de Y. En el ejemplo del IRS, podemos dejar constante el nmero de horas de trabajo de auditora de campo, X1, y cambiar el nmero de ho ras en computadora, X2. Cuando hacemos esto, el valor de Y aumenta en $1,099,000 por cada 100 horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar X2 y encontrar que por cada aumento adicional de 100 horas en el nmero de horas de trabajo de auditoras de campo, Y aumenta $564,000.
que el de la recta de regresin adecuada, es decir, el que minimiza la suma de los cuadrados de las distancias verticales entre los puntos de los datos y el plano, en este caso. Tal vez sea til recordar que cada variable independiente puede ser responsable de cierta variacin en la variable dependiente. La regresin mltiple es slo una manera de usar varias variables independientes para hacer un pronstico mejor de la variable dependiente.

Sugerencia: si tiene problemas para visualizar lo que hace en realidad la regresin mltiple, piense en el captulo 12 y recuerde que una recta de regresin describe la relacin entre dos variables. En la regresin mltiple, el plano de regresin, como el que se ve en la pgina anterior, describe la relacin entre tres variables, Y, X1 y X2. El concepto del plano de regresin adecuado es el mismo
SUGERENCIAS Y SUPOSICIONES

.M

at

em

at

ic

a1

.c

om

Ejercicios 13.2
Ejercicios de autoevaluacin
EA 13-1 Dado el siguiente conjunto de datos: a) Calcule el plano de regresin mltiple. b) Prediga Y cuando X1 3.0 y X2 2.7.
Y
25 30 11 22 27 19

X1
3.5 6.7 1.5 0.3 4.6 2.0

X2
5.0 4.2 8.5 1.4 3.6 1.3

EA

13-2

Se ha reunido la siguiente informacin de una muestra aleatoria de arrendadores de departamentos en una ciudad. Se intenta predecir la renta (en dlares por mes) con base en el tamao del departamento (nmero de habitaciones) y la distancia al centro de la ciudad (en millas).
Renta (dlares) 360 1,000 450 525 350 300 Nmero de habitaciones 2 6 3 4 2 1 Distancia al centro 1 1 2 3 10 4

Conceptos bsicos
13-7

Dado el siguiente conjunto de datos: a) Calcule el plano de regresin mltiple. b) Pronostique Y cuando X1 10.5 y X2 13.6.
Y
11.4 16.6 20.5 29.4 7.6 13.8 28.5

.M

a) Calcule la ecuacin de mnimos cuadrados que relacione mejor estas tres variables. b) Si alguien busca un departamento de dos habitaciones a 2 millas del centro, qu renta debe esperar pagar?

at e

m at

ic

a1 .c

om
X1
4.5 8.7 12.6 19.7 2.9 6.7 17.4

X2
13.2 18.7 19.8 25.4 22.8 17.8 14.6

13-8

Para el siguiente conjunto de datos: a) Calcule el plano de regresin mltiple. b) Prediga Y cuando X1 28 y X2 10.
Y
10 17 18 26 35 8

X1
8 21 14 17 36 9

X2
4 9 11 20 13 28

13-9

Dado el siguiente conjunto de datos: a) Calcule el plano de regresin mltiple. 1 y X2 4. b) Pronostique Y cuando X1
Y
6 10 9 14 7 5

X1
1 3 2 2 3 6

X2
3 1 4 7 2 4

Aplicaciones
13-10 Sam Spade, dueo y gerente general de Stationery Store, est preocupado por el comportamiento de las ventas de un modelo de reproductor de CD y casetes que se venden en la tienda. Se da cuenta de que existen muchos factores que podran ayudar a explicarlo, pero cree que la publicidad y el precio son los principales determinantes. Sam reuni los siguientes datos:
Ventas (unidades vend.) 33 61 70 82 17 24 Publicidad (nm. de anuncios) 3 6 10 13 9 6 Precio (dlares) 125 115 140 130 145 140

13-11

a) Calcule la ecuacin de mnimos cuadrados para predecir las ventas a partir de la publicidad y el precio. b) Si la publicidad es 7 y el precio es $132, qu ventas podra pronosticar? Un productor de comida para cerdos desea determinar qu relacin existe entre la edad de un cerdo cuando empieza a recibir un complemento alimenticio de reciente creacin, el peso inicial del animal y el aumento de peso en un periodo de una semana con el complemento alimenticio. La siguiente informacin es resultado de un estudio de ocho lechones:

.M

at

em

at
X1 Peso inicial (libras)
39 52 49 46 61 35 25 55

ic

a1

.c

om

Nmero de lechn 1 2 3 4 5 6 7 8

X2 Edad inicial (semanas)


8 6 7 12 9 6 7 4

Y Aumento de peso
7 6 8 10 9 5 3 4

13-12

a) Calcule la ecuacin de mnimos cuadrados que mejor describa estas tres variables. b) Cunto podemos esperar que un cerdo aumente de peso en una semana con el complemento alimenticio, si tena nueve semanas de edad y pesaba 48 libras? Una estudiante graduada que quiere comprar un auto Neptune usado investig los precios. Piensa que el ao del modelo y el nmero de millas recorridas influyen en el precio de compra. Los datos siguientes corresponden a 10 autos con precio (Y) en miles de dlares, ao (X1) y millas recorridas (X2) en miles. a) Encuentre (calcule) la ecuacin de mnimos cuadrados que mejor relacione estas tres variables. b) La estudiante desea comprar un Neptune 1991 con alrededor de 40,000 millas recorridas. Cunto pronostica que pagar?

(Y) Precio (miles de dlares) 2.99 6.02 8.87 3.92 9.55 9.05 9.37 4.2 4.8 5.74

X1 Ao
1987 1992 1993 1988 1994 1991 1992 1988 1989 1991

X2 Millas (miles)
55.6 18.4 21.3 46.9 11.8 36.4 28.2 44.2 34.9 26.4

13-13

La Reserva Federal de Estados Unidos realiza un estudio preliminar para determinar la relacin entre ciertos indicadores econmicos y el cambio porcentual anual en el producto interno bruto (PIB). Dos de los indicadores examinados son el monto del dficit del gobierno federal (en miles de millones de dlares) y el promedio industrial Dow Jones (el valor medio del ao). Los datos correspondientes a seis aos son:
Y Cambio en el PIB
2.5 1.0 4.0 1.0 1.5 3.0

X1 Dficit federal
100 400 120 200 180 80

X2 Dow Jones
2,850 2,100 3,300 2,400 2,550 2,700

Soluciones a los ejercicios de autoevaluacin


EA 13-1 a)
Y
25 30 11 22 27 19 134

w w

.M

at

a) Encuentre (calcule) la ecuacin de mnimos cuadrados que mejor describa los datos. b) Qu porcentaje de cambio en el PIB se esperara en un ao en el cual el dficit federal fue 240,000 millones de dlares y el promedio Dow Jones fue 3,000?

em

at

ic a

1.

co

X1
3.5 6.7 1.5 0.3 4.6 2.0 18.6

X2
5.0 4.2 8.5 1.4 3.6 1.3 24.0

X1Y
87.5 201.0 16.5 6.6 124.2 38.0 473.8

X2Y
125.0 126.0 93.5 30.8 97.2 24.7 497.2

X1X2
17.5 28.14 12.75 0.42 16.56 2.60 77.97

2 X1

2 X2

Y2
625 900 121 484 729 361 3,220

12.25 44.89 2.25 0.09 21.16 4.00 84.64

25.00 17.64 72.25 1.96 12.96 1.69 131.50

Las ecuaciones 13-2, 13-3 y 13-4 se convierten en Y X1Y X2Y na a X1 a X2 b1 X1 b1 X2 1 b1 X1X2 b2 X2 134 473.8 497.2 6 a 18.6a 24.0a 18.6b1 84.64b1 77.97b1 24.0 b2 77.97b2 131.50b2

b2 X1X2 b2 X2 2

Al resolver estas ecuaciones de manera simultnea se obtiene

20.3916

b1

2.3403
20.3916

b2
2.3403X1 28.83.

1.3283
1.3283X2.

De modo que la ecuacin de regresin es Y b) Con X1 3.0 y X2 2.7, Y = 20.3916 2.3403(3.0)

1.3283(2.7)

EA

13-2

a) En este problema, Y
Y
360 1,000 450 525 350 300 2,985

renta, X1
X2
1 1 2 3 10 4 21

nmero de habitaciones, X2
X1Y X2Y
360 1,000 900 1,575 3,500 1,200 8,535

distancia al centro.
2 X1 2 X2

X1
2 6 3 4 2 1 18

X1X2
2 6 6 12 20 4 50

Y2
129,600 1,000,000 202,500 272,625 122,500 90,000 1,820,225

720 6,00 1,350 2,100 700 300 11,170

4 36 9 16 4 1 70

1 1 4 9 100 16 131

Las ecuaciones 13-2, 13-3 y 13-4 se convierten en Y X1Y X2Y na a X1 a X2 b1 X1 b1 X2 1 b2 X2 b2 X1X2 b2 X2 2 2,985 11,170 8,535 6a 18a 21a 18b1 70b1 50b1 21b2 50b2 131b2

b1 X1X2

Al resolver estas ecuaciones simultneas, se obtiene a 96.4581 b1 136.4847 b2 2.4035

De manera que la ecuacin de regresin es Y 96.4581 136.4847X

2.4035X2

Inconveniencia del clculo de regresiones a mano

En el captulo 12 y hasta donde vamos de ste, hemos presentado problemas simplificados y muestras de tamao pequeo. Despus del ejemplo de la seccin anterior, probablemente usted haya llegado a la conclusin de que no est interesado en la regresin si tiene que hacer los clculos a mano. De hecho, conforme aumenta el tamao de las muestras y crece el nmero de variables independientes para la regresin, hacer los clculos, incluso con la ayuda de una calculadora de bolsillo se convierte en algo muy inconveniente. Sin embargo, como administradores, debemos manejar problemas complejos que requieren muestras ms grandes y variables independientes adicionales. Como ayuda para resolver estos problemas ms detallados utilizaremos una computadora que nos permitir realizar un gran nmero de clculos en poco tiempo. Suponga que tenemos no una, ni dos variables independientes, sino un nmero k de ellas: X1, X2, . . . , Xk. Como antes, sea n el nmero de datos que se tienen. La ecuacin de regresin que intentamos estimar es: Ecuacin de estimacin de regresin mltiple Y a b1X1 b2X2 ... bkXk [13-5]

Demostracin de la regresin mltiple en la computadora

Ahora veremos cmo podemos utilizar una computadora para estimar los coeficientes de regresin. Para demostrar cmo una computadora maneja el anlisis de regresin mltiple, tomemos el problema del Servicio Interno de Contribuciones (IRS) de la seccin anterior. Suponga que el departamento de auditoras agrega a su modelo la informacin correspondiente a las recompensas para los informantes. La dependencia desea incluir esta tercera variable independiente, X3, debido a que sien-

.M

13.3 La computadora y la regresin mltiple


at e

m at

ic

a1 .c

b) Cuando el nmero de habitaciones 2 y la distancia al centro 2, Y 96.4581 136.4847(2) 2.4035(2) $365

om

Tabla 13-3 Factores relacionados con el descubrimiento de impuestos no pagados

Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre

Horas en auditoras de campo (cientos) X1 45 42 44 45 43 46 44 45 44 43

Horas en computadora (cientos) X2 16 14 15 13 13 14 16 16 15 15

Recompensa a informantes (miles) X3 71 70 72 71 75 74 76 69 74 73

Impuestos no pagados descubiertos (millones) Y 29 24 27 25 26 28 30 28 28 27

Uso de Minitab para resolver problemas de regresin mltiple

te que existe cierta relacin entre estas recompensas y el descubrimiento de impuestos no pagados. En la tabla 13-3 se registr la informacin de los ltimos 10 meses. Para resolver este problema, la divisin de auditora us el procedimiento de regresin mltiple de Minitab. Por supuesto, todava no sabemos cmo interpretar la solucin que proporciona, pero como veremos, la mayor parte de los nmeros dados en la solucin corresponden muy de cerca con los estudiados en el contexto de regresin simple.

1. La ecuacin de regresin. De los nmeros dados en la columna Coef, se puede leer la ecuacin de estimacin: Y a b1X1 b2X2 b3X3 [13-5]

.M

at em

Salida del programa Minitab

Una vez que se introducen los datos y se eligen las variables dependiente e independientes, Minitab calcula los coeficientes de regresin y varios estadsticos asociados con la ecuacin de regresin. Se ver la salida del programa para el problema del IRS. La figura 13-2 da la primera parte de la salida.

at

45.796
Bsqueda e interpretacin de la ecuacin de regresin

ic

a1

Salida de Minitab

.c
0.597X1

om

1.177X2

0.405X3

Podemos interpretar esta ecuacin en una forma similar a la de la ecuacin de regresin de dos variables, en la pgina 558. Si se mantienen constantes el nmero de horas de auditoras de campo, X1, y el nmero de horas de computadora, X2, y se cambian las recompensas a los informantes, X3, entonces el valor de Y aumentar $405,000 por cada $1,000 pagados a los informantes. De igual manera, al mantener X1 y X3 constantes, se ve que por cada 100 horas adicionales de tiempo de computadora Y aumentar $1,177,000. Por ltimo, si se dejan cons-

FIGURA 13-2 Salida de Minitab para la regresin del Servicio Interno de Contribuciones

Anlisis de regresin
La ecuacin de regresin es DESCUBRE 45.0 0.597 AUDIT
Pronosticador Constante AUDIT COMPUTADORA RECOMPENSA s 0.2861 Coef 45.796 0.50697 1.17684 0.40511 R-sq 1.18 COMPUTADORA DesvEst 4.878 0.08112 0.08407 0.04223 98.3% 0.405 RECOMPENSA p 0.000 0.000 0.000 0.000

Cociente-t 9.39 7.36 14.00 9.59

tantes X2 y X3, se estima que 100 horas adicionales dedicadas a auditoras de campo descubrirn $597,000 adicionales de impuestos no pagados. Observe que se redondearon los valores proporcionados por la regresin dada por Minitab (figura 13-2). Suponga que, en noviembre, el IRS intenta dejar las horas de trabajo en auditoras de campo y las horas en computadora en sus niveles de octubre (4,300 y 1,500), pero decide aumentar las recompensas pagadas a los informantes a $75,000. Cunto de impuestos no pagados esperan descubrir en noviembre? Sustituyendo estos valores en la ecuacin de regresin estimada, obtenemos: Y 45.796 0.597X1 1.177X2 0.405X3 Y 45.796 0.597(43) 1.177(15) 0.405(75) Y 45.796 25.671 17.655 30.375 27.905 Descubrimientos estimados, $27,905,000 Y De modo que el departamento de auditoras espera descubrir aproximadamente $28 millones de evasin de impuestos en noviembre.
Medicin de la dispersin alrededor del plano de regresin mltiple; uso del error estndar de la estimacin

m at

ic

Error estndar de la estimacin

a1 .c

Y Y n k

valores muestrales de la variable dependiente valores correspondientes estimados con la ecuacin de regresin nmero de puntos de la muestra nmero de variables independientes ( 3 en nuestro ejemplo)

Intervalos de confianza para Y

El denominador de esta ecuacin indica que en la regresin mltiple con k variables independientes, el error estndar tiene n k 1 grados de libertad. Esto se debe a que los grados de libertad se reducen de n en k 1 constantes numricas, a, b1, b2, , bk, que se estimaron a partir de la misma muestra. Para calcular se, observamos los errores individuales (Y Y ) en el plano de regresin ajustado, los elevamos al cuadrado, calculamos su media (dividiendo entre n k 1 en lugar de n) y tomamos la raz cuadrada del resultado. Debido a la forma en que se calcula, se se conoce a veces como raz del error cuadrtico medio [o raz de mse (mean-square error)]. De la salida de Minitab, que usa s en lugar de se para denotar el error estndar, vemos que la raz de mse en el problema del Servicio Interno de Contribuciones es 0.286, es decir, $286,000. Como en el caso de la regresin simple, podemos utilizar el error estndar de la estimacin y la distribucin t para formar un intervalo de confianza alrededor de nuestro valor estimado Y. En el problema de la evasin de impuestos, para 4,300 horas de trabajo en auditoras de cam po, 1,500 horas en computadora y $75,000 de pago a informantes, Y es $27,905,000 como estimacin de impuestos no pagados descubiertos, y se es $286,000. Si deseamos construir un intervalo de confianza del 95% alrededor de esta estimacin de $27,905,000, miramos en la tabla 2 del apndice, en la columna del 5% y localizamos ah el rengln correspondiente a

donde,

.M

at e

se

Y Y )2 n k 1

om

2. Una medida de dispersin, el error estndar de la estimacin de la regresin mltiple. Ya que hemos determinado la ecuacin que relaciona a nuestras tres variables, necesitamos una medida de la dispersin alrededor de este plano de regresin mltiple. En la regresin simple, la estimacin es ms precisa conforme el grado de dispersin alrededor de la regresin es menor. Lo mismo es cierto para los puntos de la muestra que se encuentran alrededor del plano de regresin mltiple. Para medir esta variacin, debemos utilizar de nuevo la medida conocida como error estndar de la estimacin:

[13-6]

n k 1 10 3 1 6 grados de libertad. El valor apropiado de t para nuestra estimacin del intervalo es de 2.447. En consecuencia, podemos calcular los lmites de nuestro intervalo de confianza como sigue: Y t(se) 27,905,000 (2.447)(286,000) Y Y Y Y Y
Interpretacin del intervalo de confianza

t(se) t(se) t(se) t(se) t(se)

27,905,000 27,905,000

699,800 (2.447)(286,000)

28,604,800 Lmite superior 27,905,000 699,800 27,205,200 Lmite inferior

Valor de variables adicionales

Uso del coeficiente de determinacin mltiple

Con un nivel de confianza del 95%, el departamento de auditoras puede sentirse seguro de que los descubrimientos reales estarn en este intervalo, que va de $27,205,200 a $28,604,800. Si el IRS desea usar un nivel de confianza menor, como 90%, puede reducir el intervalo de valores para la estimacin de descubrimientos de impuestos no pagados. Igual que con la regresin simple, podemos utilizar la distribucin normal estndar (tabla 1 del apndice) para aproximar la distribucin t siempre que los grados de libertad (n menos el nmero de coeficientes de regresin estimados) sea un nmero mayor que 30. Al aadir la tercera variable independiente (recompensas a informantes), mejor nuestra regresin? Como se mide la dispersin de los datos alrededor del plano de regresin, valores menores de se deberan indicar mejores regresiones. Para la regresin de dos variables que hicimos con anterioridad en este mismo captulo, se result ser 1.076. Como al agregar la tercera variable se se redujo a 0.286, vemos que s mejor el ajuste de la regresin en este ejemplo. Sin embargo, en general no es cierto que al agregar variables siempre se reduzca se. 3. El coeficiente de determinacin mltiple. Al estudiar el anlisis de correlacin simple, medimos la fuerza de la relacin entre dos variables, utilizando el coeficiente de determinacin de la muestra, r2. Este coeficiente de determinacin es la fraccin de la variacin total de la variable dependiente Y que se explica con la ecuacin de estimacin. Similarmente, en la correlacin mltiple mediremos la fuerza de la relacin entre tres variables utilizando el coeficiente de determinacin mltiple, R2, o su raz cuadrada, R (el coeficiente de correlacin mltiple). Este coeficiente de determinacin mltiple es tambin la fraccin que representa la porcin de la variacin total de Y que explica el plano de regresin. Note que la salida del programa da el valor 98.3% para R2. Esto nos dice que las tres variables independientes explican el 98.3% de la variacin total de impuestos no pagados descubiertos. Para la regresin de dos variables hecha antes, R2 es slo 0.729, as que las horas de trabajo en auditora de campo y las horas en computadora explican el 72.9% de la variacin; agregar las recompensas a los informantes explica el 25.4% restante de la variacin. Todava no hemos explicado los nmeros en las columnas etiquetadas con DesvEst, Cociente t y p de la figura 13-2. Estos nmeros se utilizarn para hacer inferencias acerca del plano de regresin de la poblacin, tema que se tratar en la seccin 13-4.

Ya nadie calcula regresiones a mano; hay otras cosas ms interesantes en qu ocupar nuestro tiempo. Se explic la tcnica calculando las soluciones a mano para que no tenga que pensar en su computadora como en una caja negra que hace muchas cosas tiles que no puede explicar. Sugerencia: el valor real de usar la computadora para calcular regresiones mltiples es que puede manejar muchas variables independientes y obtener una mejor ecuaSUGERENCIAS Y SUPOSICIONES

.M

at

em

at

ic

a1

.c

om

cin de estimacin, que puede medir si agregar otra variable independiente realmente mejora los resultados y que es posible observar con rapidez el comportamiento de R2, que indica la proporcin de la variacin total de la variable dependiente que se explica con las variables independientes. La computadora hace todo el trabajo tedioso sin quejarse y le deja tiempo para el trabajo ms importante de comprender los resultados y usarlos para tomar mejores decisiones.

Ejercicios 13.3
Ejercicios de autoevaluacin
EA 13-3 Pam Schneider posee y opera un despacho de contadores en Ithaca, Nueva York. Ella piensa que sera til predecir el nmero de solicitudes urgentes de devolucin de impuestos que le pedirn durante el ajetreado periodo del 1 de marzo al 15 de abril, para poder planear mejor sus necesidades de personal durante esta poca. Tiene la hiptesis de que varios factores pueden ser tiles para su pronstico. Los datos de estos factores y el nmero de solicitudes urgentes de devolucin de impuestos de aos pasados son:
X2 Poblacin residente en un radio de una milla desde la oficina
10,188 8,566 10,557 10,219 9,662

X1 ndice econmico
99 106 100 129 179

X3 Ingreso promedio en Ithaca


21,465 22,228 27,665 25,200 26,300

Y Nmero de solicitudes de devolucin urgentes (1 de marzo a 15 de abril)


2,306 1,266 1,422 1,721 2,544

s = 396.1

b) Qu porcentaje de la variacin total del nmero de solicitudes urgentes de devolucin de impuestos explica esta ecuacin? c) Para este ao, el ndice econmico es 169; la poblacin residente en un radio de una milla desde la oficina es 10,212 habitantes, y el ingreso promedio en Ithaca es $26,925. Cuntas solicitudes urgentes de devolucin de impuestos debe Pam esperar procesar entre el 1 de marzo y el 15 de abril?

Conceptos bsicos
13-14 Dado el siguiente conjunto de datos, utilice el paquete de software que tenga disponible para encontrar la ecuacin de regresin de mejor ajuste y responda a lo siguiente: a) Cul es la ecuacin de regresin? b) Cul es el error estndar de la estimacin? c) Cul es el valor de R2 para esta regresin? d) Cul es el valor pronosticado para Y cuando X1 5.8, X2 4.2 y X3 5.1?
Y
64.7 80.9 24.6 43.9 77.7 20.6 66.9 34.3

Pronosticador Constante X1 X2 X3

Coef -1275 17.059 0.5406 -0.1743

em at

ic a1

La ecuacin de regresin es Y = - 1275 + 17.1 X1 + 0.541 X2 - 0.174 X3 DesvEst 2699 6.908 0.3144 0.1005 Cociente-t -0.47 2.47 1.72 -1.73 p 0.719 0.245 0.335 0.333

R-sq = 87.2%

.M

at

X1
3.5 7.4 2.5 3.7 5.5 8.3 6.7 1.2

.c

om
X2
5.3 1.6 6.3 9.4 1.4 9.2 2.5 2.2

a) Use el siguiente resultado de Minitab para determinar la ecuacin de regresin ms adecuada para estos datos:

X3
8.5 2.6 4.5 8.8 3.6 2.5 2.7 1.3

13-15

Dado el siguiente conjunto de datos, utilice el paquete de software que tenga a su disposicin para encontrar la ecuacin de regresin de mejor ajuste y responda a lo siguiente: a) Cul es la ecuacin de regresin? b) Cul es el error estndar de la estimacin? c) Cul es el valor de R2 para esta regresin? d) D un intervalo de confianza para la estimacin del 95% para el valor Y cuando los valores X1, X2, X3 y X4 son 52.4, 41.6, 35.8 y 3, respectivamente.
X1
21.4 51.7 41.8 11.8 71.6 91.9

X2
62.9 40.7 81.8 41.0 22.6 61.5

X3
21.9 42.9 69.8 90.9 12.9 30.9

X4
2 5 2 4 8 1

Y
22.8 93.7 64.9 19.2 55.8 23.1

Aplicaciones
13.16 Las estaciones de polica en Estados Unidos estn interesadas en predecir el nmero de arrestos esperados que debern procesar cada mes para programar mejor a los empleados de oficina. En los datos histricos, el nmero promedio de arrestos (Y) cada mes tiene influencia del nmero de oficiales en la fuerza policiaca (X1), la poblacin de la ciudad en miles (X2) y el porcentaje de personas desempleadas en la ciudad en miles (X3). Los datos de estos factores en 15 ciudades se presentan en la tabla. a) Utilice el paquete de software que tenga disponible para determinar la ecuacin de regresin que mejor se ajuste a estos datos. b) Qu porcentaje de la variacin total en el nmero de arrestos (Y) explica esta ecuacin? c) El departamento de polica de ChapelBoro desea pronosticar el nmero de arrestos mensuales. ChapelBoro tiene una poblacin de 75,000 habitantes, 82 elementos en su fuerza policiaca y un porcentaje de desempleo del 10.5%. Cuntos arrestos pronostica para cada mes?

.M

at

em

at

ic a

1.

co

390.6 504.3 628.4 745.6 585.2 450.3 327.8 260.5 477.5 389.8 312.4 367.5 374.4 494.6 487.5

Nmero promedio de arrestos mensuales (Y)

Nmero de oficiales en la fuerza (X1) 68 94 125 175 113 82 46 32 89 67 47 59 61 87 92

Tamao de la ciudad (X2) en miles de habitantes 81.6 75.1 97.3 123.5 118.4 65.4 61.6 54.3 97.4 82.4 56.4 71.3 67.4 96.3 86.4

Porcentaje de desempleo (X3) 4.3 3.9 5.6 8.7 11.4 9.6 12.4 18.3 4.6 6.7 8.4 7.6 9.8 11.3 4.7

13-17

Estamos intentando predecir la demanda anual (DEMAND) de cierto producto, utilizando las siguientes variables independientes:
PRECIO INGRESO SUB precio del producto (en dlares) ingreso del consumidor (en dlares) precio de un bien sustituto (en dlares)

(Nota: Un bien sustituto es aquel que puede suplir a otro bien. Por ejemplo, la margarina es un bien sustituto de la mantequilla.)

w w

Se recolectaron datos correspondientes al periodo 1982-1996:


Ao 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Demanda 40 45 50 55 60 70 65 65 75 75 80 100 90 95 85 Precio ($) 9 8 9 8 7 6 6 8 5 5 5 3 4 3 4 Ingreso ($) 400 500 600 700 800 900 1,000 1,100 1,200 1,300 1,400 1,500 1,600 1,700 1,800 Sub ($) 10 14 12 13 11 15 16 17 22 19 20 23 18 24 21

Pronosticador Constante HORAS CI LIBROS EDAD s = 11.657

w .M

at

em

Coef 49.948 1.06931 1.36460 2.03982 1.79890 R-sq = 76.7%

at ic

13-18

a) Utilice el paquete de software que tenga disponible para encontrar la ecuacin de regresin de mejor ajuste para estos datos. b) Son los signos ( o ) de los coeficientes de regresin de las variables independientes los que se esperan? D una explicacin breve. (Nota: sta no es una pregunta estadstica; slo necesita pensar qu significan los coeficientes de regresin.) c) Establezca e interprete el coeficiente de determinacin mltiple del problema. d) Establezca e interprete el error estndar de la estimacin para el problema. e) Segn la ecuacin de regresin obtenida, qu valor de DEMAND predecira si el precio de los productos fue $6, el ingreso del consumidor $1,200 y el precio del bien sustituto $17? Bill Buxton, profesor de estadstica de una prominente escuela de administracin, tiene un profundo inters en los factores que afectan el desempeo de los estudiantes en los exmenes. El examen parcial del semestre anterior tuvo una distribucin de calificaciones amplia, pero Bill tiene la certeza de que varios factores explican esa distribucin: permite a sus estudiantes que estudien en tantos libros como les plazca; el coeficiente de inteligencia de los estudiantes vara; tienen distintas edades, y difieren los tiempos que dedican a estudiar. Con el propsito de desarrollar una frmula de prediccin para las calificaciones de los exmenes, Bill pidi a cada estudiante que respondiera, al final del examen, preguntas referentes al tiempo de estudio y nmero de libros utilizados. Los registros que tena Bill ya incluan el coeficiente de inteligencia y la edad, de modo que reuni los datos del grupo y corri la regresin mltiple de Minitab. La salida de la corrida de Bill fue la siguiente:

a1

.c

om

DesvEst 41.55 0.98163 0.37627 1.50799 0.67332

Cociente-t 1.20 1.09 3.63 1.35 2.67

p 0.268 0.312 0.008 0.218 0.319

13-19

a) Cul es la ecuacin de regresin de mejor ajuste para estos datos? b) Qu porcentaje de la variacin en las calificaciones se explica con esta ecuacin? c) Qu calificacin esperara usted para un estudiante de 21 aos de edad con un coeficiente de inteligencia (CI) de 113, que estudi durante cinco horas y utiliz tres libros diferentes? La compaa de tiendas de abarrotes Twenty-Two, est planeando expandir su cadena. Como ayuda para seleccionar los lugares donde abrir las nuevas tiendas, recolect datos de las ventas semanales de cada una de sus 23 tiendas. Para explicar la variabilidad de las ventas semanales, tambin reuni informacin que describe cuatro variables que se cree estn relacionadas con las ventas. Las variables se definen como:
VENTAS AUTOS ENTRADA INGANUAL DISTANCIA ventas semanales promedio en cada tienda en miles de dlares volumen promedio de trnsito de automviles por semana en miles de autos facilidad de entrada/salida medida en una escala de 1 a 100 ingreso anual promedio por familia en el rea, en miles de dlares distancia en millas desde la tienda al supermercado ms cercano

Los datos se analizaron con Minitab y la salida es la siguiente:


Pronosticador Constante AUTOS ENTRADA INGANUAL DISTANCIA s = 85.587 Coef 175.37 -0.028 3.775 1.990 212.41 R-sq = 95.8% DesvEst 92.62 0.315 1.272 4.510 28.090 Cociente-t 1.89 0.09 2.97 0.44 7.56 p 0.075 0.929 0.008 0.664 0.000

a) b) c) d) 13-20

Cul es la ecuacin de regresin de mejor ajuste, dada por Minitab? Cul es el error estndar de la estimacin para esta ecuacin? Qu fraccin de la variacin en las ventas se explica con esta regresin? Qu ventas predecira para una tienda localizada en un vecindario que tuvo un ingreso anual por familia de $20,000, estaba a 2 millas del supermercado ms cercano, se encontraba en una calle con un volumen promedio semanal de trnsito de 100,000 autos y con una facilidad de entrada de 50? Rick Blackburn est pensando en vender su casa. Con el fin de decidir el precio que pedir por ella, ha reunido datos de 12 ventas recientes. Registr el precio de venta (en miles de dlares), el nmero de pies cuadrados de construccin (en cientos de pies cuadrados), el nmero de pisos, el nmero de baos y la antigedad de la casa (en aos).
Precio de venta 49.65 67.95 81.15 81.60 91.50 95.25 100.35 104.25 112.65 149.70 160.65 232.50 Pies cuad. 8.9 9.5 12.6 12.9 19.0 17.6 20.0 20.6 20.5 25.1 22.7 40.8 Pisos 1 1 2 2 2 1 2 2 1 2 2 3 Baos 1.0 1.0 1.5 1.5 1.0 1.0 1.5 1.5 2.0 2.0 2.0 4.0 Antigedad 2 6 11 8 22 17 12 11 9 8 18 12

13-21

a) Utilice cualquier paquete de software que tenga disponible para determinar la ecuacin de regresin de mejor ajuste para los datos. b) Cul es el valor de R 2 para esta ecuacin? c) Si la casa de Rick tiene 1,800 pies cuadrados ( 18.0 cientos de pies cuadrados), un piso, 1.5 baos y seis aos de antigedad, qu precio de venta puede esperar Rick? La Allegheny Steel Corporation ha estado buscando los factores que influyen en la cantidad de acero (en millones de toneladas) que puede vender cada ao. La administracin sospecha que los siguientes son los factores principales: la tasa anual de inflacin del pas, el precio promedio por tonelada del acero importado que acota los precios (en dlares) de Allegheny, y el nmero de automviles (en millones) que los fabricantes de autos de Estados Unidos planean producir ese ao. Se recolectaron los datos de los ltimos siete aos:
Y Millones de tons. vendidas
4.2 3.1 4.0 4.7 4.3 3.7 3.5

w w

.M

at

em

at

ic a

1.

co

Ao 1993 1992 1991 1990 1989 1988 1987

X1 Tasa de inflacin
3.1 3.9 7.5 10.7 15.5 13.0 11.0

X2 Cota de importaciones
3.10 5.00 2.20 4.50 4.35 2.60 3.05

X3 Nmero de automviles
6.2 5.1 5.7 7.1 6.5 6.1 5.9

a) Utilice cualquier paquete de software que tenga disponible para determinar la ecuacin de regresin de mejor ajuste para los datos. b) Qu porcentaje de la variacin total de la cantidad de acero vendido (en millones de toneladas) por Allegheny cada ao explica esta ecuacin? c) Cuntas toneladas de acero deber esperar Allegheny vender en un ao en el que la tasa de inflacin es 7.1, los fabricantes de automviles norteamericanos planean producir 6.0 millones de autos y la cota promedio del acero importado por tonelada es $3.50?

Soluciones a los ejercicios de autoevaluacin


EA 13-3 De la salida del paquete de software se obtienen los siguientes resultados: 1,275 17.059X1 0.5406X2 0.1743X3. a) Y b) R2 87.2%; el modelo explica el 87.2% de la variacin total en Y. 1,275 17.059(169) 0.5406(10,212) 0.1743(26,925) 2,436 reembolsos de impuestos. c) Y

13.4 Inferencias sobre parmetros de poblacin


En el captulo 12, se vio que la recta de regresin de la muestra, Y a bX (ecuacin 12-3), estimaba la recta de regresin de la poblacin, Y A BX (ecuacin 12-13). La razn por la cual slo podamos estimar la recta de regresin de poblacin y no determinarla con exactitud, era que los puntos no caen exactamente en la recta de regresin de la poblacin. Debido a las variaciones aleatorias, los puntos satisfacan Y A BX e (ecuacin 12-13a) ms que a Y A BX. En la regresin mltiple se tiene justo la misma situacin. Nuestro plano de regresin estimado: Y a b1X1 b2 X2 . . . bk Xk [13-5]

Ecuacin de regresin de la poblacin A B1X1 B2X2 ... Bk Xk [13-7]

Las variaciones aleatorias desplazan los puntos del plano de regresin

De nuevo, los puntos individuales normalmente no caen con exactitud en el plano de regresin de poblacin. Consideremos el problema del Servicio Interno de Contribuciones para ver por qu. No todos los pagos a informantes tendrn la misma efectividad. Algunas horas en computadora podran utilizarse para recolectar y organizar datos; otras, para analizar esos datos en busca de errores y fraudes. El xito de la computadora en descubrir impuestos no pagados puede depender de cunto tiempo se dedique a cada una de estas actividades. Por stas y otras razones, algunos de los puntos se encontrarn arriba del plano de regresin y algunos estarn abajo de ste. En lugar de satisfacer la ecuacin: Y A B1X1 B2X2 ... Bk Xk [13-7]

los puntos individuales satisfarn la ecuacin: Plano de regresin de la poblacin ms la variacin aleatoria Y A B1X1 B2X2 ... Bk Xk e [13-7a]

La cantidad e que aparece en la ecuacin 13-7a es una variacin aleatoria, que en promedio es igual a cero. La desviacin estndar de las variaciones individuales e, y el error estndar de la estimacin, se, que estudiamos en la seccin anterior, es una estimacin de e.

.M

es una estimacin de un plano de regresin de poblacin verdadero, pero desconocido, de la forma:

at e

m at

Plano de regresin de la poblacin

ic

a1 .c

om

Como nuestro plano de regresin de la muestra, Y a b1X1 b2X2 . . . bkXk (ecuacin 13-7), estima el plano de regresin de poblacin desconocido, Y A B1X1 B2X2 . . . Bk Xk (ecuacin 13-7), deberemos ser capaces de usarlo para hacer inferencias sobre el plano de regresin de la poblacin. En esta seccin haremos inferencias acerca de las pendientes (B1, B2, . . . , Bk) de la ecuacin de regresin verdadera (la que se aplica a la poblacin completa) basadas en las pendientes (b1, b2, . . . , bk) de la ecuacin de regresin estimada a partir de la muestra de datos.

Inferencias acerca de una pendiente individual Bi


Diferencia entre la ecuacin de regresin verdadera y una estimada a partir de las observaciones de la muestra Prueba de una hiptesis acerca de Bi

El plano de regresin se deriva de una muestra y no de la poblacin completa. Como resultado, no podemos esperar que la ecuacin de regresin verdadera Y A B1X1 B2 X2 . . . Bk Xk (la que se aplica a la poblacin completa) sea exactamente igual que la ecuacin estimada a partir de observaciones de la muestra, Y a b1X1 b2 X2 . . . bk Xk. Sin embargo, podemos utilizar el valor de bi, una de las pendientes que calculamos a partir de la muestra, para probar hiptesis acerca del valor de Bi, una de las pendientes del plano de regresin para la poblacin completa. El procedimiento para probar una hiptesis respecto a Bi es parecido al procedimiento analizado en los captulos 8 y 9 sobre pruebas de hiptesis. Para entender este proceso, regresemos al problema que relaciona los impuestos no pagados descubiertos con las horas de trabajo en auditoras de campo, horas en computadora y recompensas a informantes. En la pgina 729, sealamos que b1 0.597. El primer paso consiste en encontrar un valor para B1 y compararlo con b1 0.597. Suponga que durante un periodo largo, la pendiente de la relacin entre Y y X1 fue 0.400. Para probar si todava es vlida, podramos definir las hiptesis como: H1: B1

Estandarizacin del coeficiente de regresin

Error estndar del coeficiente de regresin

De hecho, realizamos la prueba para saber si los datos actuales indican que B1 ha cambiado su valor histrico de 0.400. Para encontrar el estadstico de prueba para B1, es necesario hallar primero el error estndar del coeficiente de regresin. El coeficiente de regresin con el que estamos trabajando es b1, de modo que el error estndar de este coeficiente se representa con sb1. Resulta demasiado difcil calcular sb1 a mano, pero por fortuna, Minitab calcula los errores estndar de todos los coeficientes de regresin. Por comodidad, repetimos la figura 13-2. Los errores estndar de los coeficientes se dan en la columna DesvEst de la salida de Minitab. En el cuadro de salida, vemos que sb1 es 0.0811. (Similarmente, si deseamos probar una hiptesis acerca de B2, vemos que el error estndar apropiado que debemos utilizar es sb 2 0.0841.) Una vez que encontramos sb1 en la salida de Minitab, podemos usar la ecuacin 13-8 para estandarizar la pendiente de nuestra ecuacin de regresin ajustada:

.M

Coeficiente de regresin estandarizado t donde, bi Bi0 sbi pendiente de la regresin ajustada pendiente real hipottica para la poblacin error estndar del coeficiente de regresin bi Bi0 sbi [13-8]

Por qu utilizamos t para denotar el estadstico estandarizado? Recuerde que en la regresin simple utilizamos a y b en la ecuacin 12-7 para calcular se, y que se estimaba e, la desviacin estndar de las variaciones de los datos (ecuacin 12-13a). Entonces utilizamos se en la ecuacin 12-14 para encontrar sb, el error estndar del coeficiente de regresin que corresponde a la pendiente. Em-

at e

m at

ic

a1 .c

H0: B1

0.400 Hiptesis nula 0.400 Hiptesis alternativa

om

FIGURA 13-2 Salida de Minitab (figura repetida)

Anlisis de regresin
La ecuacin de regresin es DESCUBRE = -45.0 + 0.597 AUDITORA + 1.18 COMPUTADORA + 0.405 RECOMPENSA Pronosticador Constante AUDITORA COMPUTADORA RECOMPENSAS s = 0.2861 Coef -45.796 0.50697 1.17684 0.40511 R-sq = 98.3% DesvEst 4.878 0.08112 0.08407 0.04223 Cociente-t -9.39 7.36 14.00 9.59 p 0.000 0.000 0.000 0.000

w .M

Realizacin de la prueba de hiptesis

Intervalo de confianza para Bi

Suponga que estamos interesados en probar nuestras hiptesis al nivel de significancia de 10%. Como tenemos 10 observaciones en la muestra, y tres variables independientes, sabemos que hay n k 1 o 10 3 1 6 grados de libertad. Buscamos en la tabla 2 del apndice, en la columna de 10% y el rengln de 6 grados de libertad. Ah, vemos que el valor apropiado de t es 1.943. Como nos preocupa si b1 (la pendiente del plano de regresin de la muestra) es significativamente diferente de B1 (la pendiente hipottica del plano de regresin de la poblacin), sta es una prueba de dos colas y los valores crticos son 1.943. El coeficiente de regresin estandarizado es 2.432, que se encuentra fuera de la regin de aceptacin de nuestra prueba de hiptesis. Por consiguiente, rechazamos la hiptesis nula de que B1 todava es igual a 0.400. En otras palabras, existe una diferencia suficientemente grande entre b1 y 0.400 para concluir que B1 ha cambiado respecto a su valor histrico. Por esto, sentimos que cada 100 horas adicionales de trabajo en auditoras de campo ya no aumentan la cantidad de descubrimientos de impuestos no pagados en $400,000, como lo hacan en el pasado. Adems de la prueba de hiptesis, podemos construir un intervalo de confianza para cualquiera de los valores de Bi. Del mismo modo que bi es una estimacin puntual de Bi, estos intervalos de confianza son estimaciones de intervalo de Bi. Para ilustrar el proceso de construccin de intervalos de confianza, encontremos un intervalo de confianza del 95% para B3 en el ejemplo del IRS. Los datos relevantes son: b3 sb3 t 0.405 0.0422 de la figura 13-2

at e

2.447 Nivel de significancia del 5% y 6 grados de libertad

2.432 Coeficiente de regresin estandarizado

at

0.597 0.400 0.081

ic

a1 .c

pezamos con n puntos y los usamos para estimar los dos coeficientes, a y b. Luego basamos nuestras pruebas en la distribucin t con n 2 grados de libertad. De manera similar, en la regresin mltiple tambin empezamos con n puntos, pero los usamos para estimar k 1 coeficientes: la ordenada, a, y k pendientes b1, b2, . . . , bk. Despus, estos coeficientes se usan en la ecuacin 13-6 para calcular se, que de nuevo es una estimacin de e, la desviacin estndar de las variaciones de los datos (ecuacin 13-7a). Luego se utiliza se (en una ecuacin que est ms all del alcance de este libro) para encontrar sbi. Debido a lo anterior, basamos nuestras pruebas de hiptesis en la distribucin t con n k 1 ( n (k l)) grados de libertad. En nuestro ejemplo, el valor estandarizado del coeficiente de regresin es b1 B10 t [13-8] sb1

om

Con esta informacin podemos calcular el intervalo de confianza de la siguiente manera: b3 b3 t(sb3) t(sb3) 0.405 0.405 2.447(0.0422) 2.447(0.0422) 0.508 Lmite superior 0.302 Lmite inferior Vemos que podemos tener una seguridad del 95%, de que cada $1,000 adicionales pagados a los informantes aumenta el descubrimiento de impuestos no pagados en una cantidad entre $302,000 y $508,000. A menudo, estaremos interesados en preguntas del tipo en realidad Y depende de Xi? Por ejemplo, podramos preguntar si descubrir impuestos no pagados en realidad depende de las horas en la computadora. Con frecuencia, esta pregunta se plantea como: es Xi una variable explicativa significativa de Y? Si piensa un poco ms, se convencer de que si Bi 0, Y depende de las Xi (esto es, Y vara cuando Xi vara) y no depende de Xi si Bi 0. Vemos que nuestra pregunta conduce a establecer hiptesis de la forma: H0: Bi H1: Bi 0 Hiptesis nula: Xi no es una variable explicativa significativa 0 Hiptesis alternativa: Xi es una variable explicativa significativa

Es significativa una variable explicativa?

.M

at e

Como nuestro valor hipottico de Bi es cero, el valor estandarizado del coeficiente de regresin, denotado por to, se convierte en:

m at

Podemos probar estas hiptesis utilizando la ecuacin 13-8 del mismo modo que cuando probamos nuestras hiptesis acerca de si B1 todava era igual a 0.400. Sin embargo, existe una forma ms fcil de hacerlo usando la columna de la figura 13-2 de cociente-t. Observemos de nuevo la ecuacin 13-8: bi Bi0 t [13-8] sbi

ic

a1 .c

om
to

Uso de valores t calculados en la salida de Minitab

El valor de to, se conoce como valor t calculado. ste es el nmero que aparece en la columna etiquetada como cociente-t en la figura 13-2. Denotemos por tc el valor t crtico que buscamos en la tabla 2 del apndice. Entonces, como la prueba para determinar si Xi es una variable explicativa significativa es una prueba de dos colas, slo necesitamos verificar si tc to tc. Prueba para determinar si una variable es o no significativa tc donde, tc to valor t adecuado (con n k 1 grados de libertad) para el nivel de significancia de la prueba bi /sbi valor t observado (o calculado) obtenido con el paquete de software to tc [13-9]

Prueba de la significancia de la variable horas de computadora en el problema del IRS

Si to cae entre tc y tc, aceptamos H0, y llegamos a la conclusin de que Xi no es una variable explicativa significativa. En cualquier otro caso, rechazamos H0 y concluimos que Xi es una variable explicativa significativa. Probemos, al nivel de significancia de 0.01, si las horas en computadora constituyen una variable explicativa significativa para los impuestos no pagados descubiertos. De la tabla 2 del apndice, con n k 1 10 3 1 6 grados de libertad y 0.01, vemos que tc 3.707. De la figura 13-2, tenemos que to = 14.00. Como to tc, concluimos que el tiempo en computadora es una variable

bi sbi

FIGURA 13-3 Uso de p para determinar si Xi es una variable explicativa significativa

Regin de aceptacin Acepte la hiptesis nula si el valor muestral est en esta regin

Regin de aceptacin Acepte la hiptesis nula si el valor muestral est en esta regin

/2 del rea

/2 del rea

/2 del rea

/2 del rea

tc

to

to

tc

to

tc

0 (b) p es menor que ; Xi es una variable explicativa significativa

tc

to

(a) p es mayor que ; Xi no es una variable explicativa significativa

.c om

explicativa significativa. De hecho, al observar los valores t calculados para las otras dos variables independientes (tiempo de auditoras de campo, to 7.36 y recompensa a informantes, to 9.59), vemos que tambin son variables explicativas significativas. Podemos tambin utilizar la columna de p para probar si Xi es una variable explicativa significativa. De hecho, utilizando esa informacin, ni siquiera necesitamos usar la tabla 2 del apndice. Los elementos de esta columna son los valores prob para las hiptesis:

at ic

a1

H0: Bi

0 0

Recuerde del anlisis hecho en el captulo 9, que estos valores prob constituyen la probabilidad de que cada bi est tan lejos de cero como (o ms) el valor observado obtenido de la regresin, si H0 es verdadera. Como se ilustra en la figura 13-3, solamente necesitamos comparar estos valores prob con , el nivel de significancia de la prueba, para determinar si Xi es o no una variable explicativa significativa para Y. Probar la significancia de una variable explicativa es, siempre, una prueba de dos colas. La variable independiente Xi es una variable explicativa significativa si bi es significativamente diferente de cero, es decir, si to es un nmero grande positivo o negativo. Para el ejemplo del IRS, repetimos las pruebas con 0.01. Para cada una de las tres variables independientes, p es menor que 0.01, de forma que podemos concluir que cada una de ellas es significativa.

Inferencias acerca de la regresin como un todo (usando una prueba F )


Suponga que cubre con papel un tablero para dardos y lanza varios dardos sobre l. Despus de haberlo hecho, tendr algo muy parecido a un diagrama de dispersin. Suponga, entonces, que ajusta una recta de regresin a este conjunto de puntos observados y calcula r2. Debido a que los dardos fueron lanzados aleatoriamente, usted espera obtener un valor bajo de r2, puesto que en este caso X en realidad no explica a Y. Sin embargo, si hace esto muchas veces, ocasionalmente observar un valor alto de r2, por pura casualidad. Dada cualquier regresin simple (o mltiple), es natural preguntarse si el valor de r2 (o de R2) realmente indica que las variables independientes explican a Y, o si esto sucede por casualidad. A menudo, esta interrogante se plantea de la siguiente manera: la regresin como un todo es significativa? En la ltima seccin vimos cmo decidir si una Xi individual es una variable explicativa

Significancia de la regresin como un todo

w w

w .M

at e

H1: Bi

FIGURA 13-4 Desviacin total, desviacin explicada y desviacin no explicada para un valor observado de Y

Y
Un valor observado de la variable dependiente (Y ) Desviacin no explicada de esta Y respecto a su media Y ^ (Y Y ) Desviacin explicada de esta Y respecto a su media Y ^ (Y Y ) Y

Desviacin total de esta Y respecto a su media Y (Y Y )

ta Rec

de r

egre

sin

Valor estimado de esta Y ^ a partir de la recta de regresin (Y )

significativa; ahora veremos cmo decidir si todas las Xi tomadas en conjunto explican significativamente la variabilidad observada de Y. Nuestras hiptesis son: H0: B1 B2 . . . Bk H1: por lo menos una Bi
Anlisis de la variacin de los valores Y

0 Hiptesis nula: Y no depende de las Xi 0 Hiptesis alternativa: Y depende de al menos una de las Xi

.M

at e

Suma de cuadrados y sus grados de libertad

m at

Cuando analizamos r2, en el captulo 12, consideramos la variacin total en Y, (Y Y )2, la par te de dicha variacin que explica la regresin (Y Y )2, y la parte no explicada de la variacin Y, )2. La figura 13-4 es un duplicado de la figura 12-15. Sirve como repaso de la relacin en(Y Y tre la desviacin total, la desviacin explicada y la desviacin no explicada para un solo dato en una regresin simple. Aunque no podamos dibujar una figura similar para una regresin mltiple, conceptualmente estamos haciendo lo mismo. Al analizar la variacin en Y, fijamos nuestra atencin en tres trminos diferentes, cada uno de los cuales es una suma de cuadrados. Los denotamos con Tres sumas de cuadrados (Y
(Y Y )2 Y )2 Y)2

SCT SCR SCE

suma de cuadrados total (es decir, la parte explicada) suma de cuadrados de la regresin (es decir, la parte explicada) suma de cuadrados del error (es decir, la parte no explicada)

ic

a1 .c

om

[13-10]

(Y

Estn relacionadas por la ecuacin: Descomposicin de la variacin total de Y SCT SCR SCE [13-11]

que dice que la variacin total en Y puede dividirse en dos partes: la parte explicada y la no explicada. Cada una de estas sumas de cuadrados tiene un nmero asociado de grados de libertad. SCT tiene n 1 grados de libertad (n observaciones menos un grado de libertad debido a que la media de la muestra est fija). SCR tiene k grados de libertad, porque existen k variables independientes que se utilizaron para explicar Y. Finalmente, SCE tiene n k 1 grados de libertad, porque utilizamos nuestras n observaciones para estimar k 1 constantes, a, b1, b2, . . . , bk. Si la hiptesis nula es cierta, el cociente Cociente F F SCR/k SCE/(n k 1) [13-12]

FIGURA 13-5 Salida de Minitab: anlisis de varianza

Anlisis de varianza FUENTE Regresin Error Total GL 3 6 9 SC 29.1088 0.4912 29.6000 MC 9.7029 0.0819 F 118.52 p 0.000

Prueba F de la regresin como un todo

Anlisis de varianza para la regresin

Multicolinealidad en la regresin mltiple


Definicin y efecto de la multicolinealidad

Un ejemplo de multicolinealidad

En el anlisis de regresin mltiple, los coeficientes de regresin a menudo se vuelven menos confiables conforme aumenta el grado de correlacin entre las variables independientes. Si existe un alto nivel de correlacin entre algunas de las variables independientes, nos enfrentamos a un problema que los estadsticos llaman multicolinealidad. La multicolinealidad puede presentarse si deseamos estimar la recuperacin de las ventas de una empresa y utilizamos tanto el nmero de vendedores empleados como sus salarios totales. Como los valores asociados con estas dos variables independientes tienen una correlacin alta, necesitamos usar slo un conjunto de ellos para realizar nuestra estimacin. De hecho, al agregar una segunda variable que est correlacionada con la primera, se distorsionan los valores de los coeficientes de regresin. Sin embargo, a menudo podemos predecir bien Y, incluso cuando haya multicolinealidad. Consideremos un ejemplo donde existe multicolinealidad para ver cmo afecta a la regresin. Durante los 12 meses pasados, el gerente del restaurante Pizza Shack ha estado poniendo una serie de anuncios en el peridico local. Los anuncios se programan y pagan el mes anterior a que aparezcan.

w .M

Prueba de la significancia de la regresin en el problema del Servicio de Contribuciones

Los elementos en la columna MC son justo las sumas de cuadrados divididas entre sus grados de libertad. Para 3 grados de libertad en el numerador y 6 en el denominador, la tabla 6 del apndice dice que 9.78 es el lmite superior de la regin de aceptacin para un nivel de significancia 0.01. El valor calculado de F, 118.33, est muy por arriba de 9.78, de manera que se ve que la regresin como un todo es altamente significativa. Se puede llegar a la misma conclusin si se observa que el resultado del programa dice que p es 0.000. Debido a que este valor prob es menor que el nivel de significancia 0.01, se concluye que la regresin completa es significativa. De esta manera, se puede usar la p de ANOVA como prueba, sin tener que utilizar la tabla 6 del apndice para buscar un valor crtico de F. Esto es anlogo a la manera en que se usaron los valores de p en la figura 13-2 para probar la significancia de las variables explicativas individuales.

at e

at

29.109/3 0.491/6

a1 .c

tiene una distribucin F con k grados de libertad en el numerador y n k 1 grados de libertad en el denominador. Si la hiptesis nula es falsa, entonces el cociente tiende a ser ms grande que cuando la hiptesis nula es verdadera. De modo que si el cociente F es demasiado grande (segn lo determina el nivel de significancia de la prueba y el valor apropiado de la tabla 6 del apndice), rechazamos H0 y concluimos que la regresin como un todo es significativa. La figura 13-5 presenta la salida de Minitab para el problema del IRS. Esta parte del resultado incluye los cocientes F calculados para la regresin, en ocasiones llamado anlisis de varianza (ANOVA) para la regresin. Probablemente se pregunte si esto tiene algo que ver con el anlisis de varianza que estudiamos en el captulo 11. La respuesta es s. Aunque no lo hicimos, es posible demostrar que el anlisis de varianza visto en el captulo 11 tambin contempla la variacin total de todas las observaciones alrededor de la gran media y la divide en dos partes: una explicada por las diferencias entre los distintos grupos (que corresponde a lo que llamamos varianza entre columnas) y la otra no explicada por dichas diferencias (que corresponde a la varianza dentro de columnas). Esto es precisamente anlogo a lo que acabamos de hacer en la ecuacin 13-11. Para el problema del IRS, vemos que SCR 29.109 (con k 3 grados de libertad), SCE 0.491 (con n k 1 10 3 1 6 grados de libertad), y que

om

9.703 0.082

118.33

ic

Tabla 13-4 Datos de ventas y anuncios para el restaurante Pizza Shack

Mes Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Enero Febrero Marzo Abril

X1 Nmero de anuncios publicados


12 11 9 7 12 8 6 13 8 6 8 10

X2 Costo de anuncios publicados (cientos de dlares)


13.9 12.0 9.3 9.7 12.3 11.4 9.3 14.3 10.2 8.4 11.2 11.1

Y Venta total de pizzas (miles de dlares)


43.6 38.0 30.1 35.3 46.4 34.2 30.2 40.7 38.5 22.6 37.6 35.2

Uso de ambas variables explicativas en una regresin mltiple

Figura 13-6 Regresin de las ventas sobre el nmero de anuncios con Minitab

Anlisis de regresin
La ecuacin de regresin es VENTAS = 16.9 + 2.08 ANUNCIOS Pronosticador Constante ANUNCIOS s = 4.206 Anlisis de varianza FUENTE Regresin Error Total GL 1 10 11 SC 276.31 176.88 453.19 MC 276.31 17.69 F 15.62 p 0.003 Coef 16.937 2.0832 DesvEst 4.982 0.5271 Cociente-t 3.40 3.95 p 0.007 0.003

w w

.M

at

em

at

R-sq = 61.0%

ic a

1.

co

Dos regresiones simples

Cada anuncio contiene un cupn que permite llevarse dos pizzas pagando solamente la de mayor precio. El gerente recolect los datos de la tabla 13-4 y le gustara utilizarlos para predecir las ventas de pizzas. En las figuras 13-6 y 13-7, se dieron los resultados de Minitab para las regresiones respectivas de las ventas totales sobre el nmero de anuncios y sobre el costo. Para la regresin sobre el nmero de anuncios, tenemos que el valor t observado es 3.95. Con 10 grados de libertad y un nivel de significancia de 0.01, se encontr que el valor t crtico (tomado de la tabla 2 del apndice) es 3.169. Como to tc (o de manera equivalente, como p es menor que 0.01), concluimos que el nmero de anuncios es una variable explicativa altamente significativa de las ventas totales. Note tambin que r 2 61.0%, de modo que el nmero de anuncios explica aproximadamente el 61% de la variacin en las ventas de pizzas. Para la regresin sobre el costo de los anuncios, el valor t observado es 4.54, de modo que el costo de los anuncios es una variable explicativa de las ventas totales todava ms significativa que el nmero de anuncios (para los que el valor t observado fue slo 3.95). En esta regresin, r 2 67.3%, as que el costo de los anuncios explica aproximadamente el 67% de la variacin de las ventas de pizzas. Como ambas variables explicativas son altamente significativas por s mismas, intentamos utilizar ambas en una regresin mltiple. El resultado se presenta en la figura 13-8. La regresin mltiple es altamente significativa como un todo, ya que la p de ANOVA es 0.006.

Figura 13-7 Regresin de las ventas sobre el costo de los anuncios con Minitab

Anlisis de regresin
La ecuacin de regresin es VENTAS = 4.17 + 2.87 COSTO Pronosticador Constante ANUNCIOS s = 3.849 Coef 4.173 2.8725 R-sq = 67.3% DesvEst 7.109 0.6330 Cociente-t 0.59 4.54 p 0.570 0.000

Anlisis de varianza FUENTE Regresin Error Total GL 1 10 11 SC 305.04 148.15 453.19 MC 305.04 14.81 F 20.59 p 0.000

Prdida de significancia individual

Ambas variables explican lo mismo

FIGURA 13-8 Regresin de Minitab para ventas sobre el nmero y el costo de los anuncios

Anlisis de regresin
La ecuacin de regresin es VENTAS = 6.58 + 0.62 ANUNCIOS + 2.14 COSTO Pronosticador Constante ANUNCIOS COSTO s = 3.989 Coef 6.584 0.625 2.139 R-sq = 68.4% DesvEst 8.542 1.120 1.479 Cociente-t 0.77 0.56 1.45 p 0.461 0.591 0.180

Anlisis de varianza FUENTE Regresin Error Total GL 2 9 11 SC 309.99 143.20 453.19 MC 154.99 15.91 F 9.74 p 0.006

w w

w .M

at em

at ic

a1

Correlacin entre dos variables explicativas

El coeficiente de determinacin mltiple es R2 68.4%, de manera que las dos variables juntas explican alrededor del 68% de la variacin de las ventas totales. Sin embargo, si observamos los valores p para las variables individuales de la regresin mltiple, vemos que, incluso al nivel 0.1, ninguna de las variables es una variable explicativa significativa. Qu sucedi? En la regresin simple, cada variable es altamente significativa, y en la regresin mltiple lo son de manera colectiva, pero no en forma individual. Esta aparente contradiccin se explica cuando observamos que el nmero de anuncios tiene una correlacin alta con el costo de los mismos. De hecho, la correlacin entre estas dos variables es r 0.8949, de modo que tenemos un problema de multicolinealidad en los datos. Podramos preguntarnos por qu estas dos variables no estn perfectamente correlacionadas. La razn es que el costo de un anuncio vara ligeramente, dependiendo del lugar que ocupa en el peridico. Por ejemplo, el domingo, los anuncios colocados en la seccin de televisin cuestan ms que los de la seccin de noticias, y el administrador de Pizza Shack ha colocado anuncios en cada una de estas secciones en diferentes ocasiones. Como X1 y X2 tienen una relacin estrecha, en efecto, cada una explica la misma parte de la variabilidad de Y. sta es la razn por la que obtenemos r 2 61.0% en la primera regresin simple, r 2 67.3% en la segunda regresin simple, y una r 2 de slo 68.4% en la regresin mltiple. Agre-

.c om

Las contribuciones individuales no pueden separarse

gar el nmero de anuncios como segunda variable explicativa, adems del costo de los anuncios, explica nada ms alrededor del 1% adicional de la variacin de las ventas totales. En este punto, es justo preguntarse: qu variable realmente explica la variacin de las ventas totales en la regresin mltiple? La respuesta es que ambas la explican, pero no podemos separar sus contribuciones individuales, debido a que estn altamente correlacionadas entre s. En consecuencia, sus coeficientes en la regresin mltiple tienen errores estndar altos, valores t calculados relativamente bajos y valores prob | t | relativamente altos. De qu manera nos afecta esta multicolinealidad? Todava podemos hacer predicciones relativamente precisas cuando se encuentra presente: note que para la regresin mltiple (la salida se da en la figura 13-8), el error estndar de la estimacin, que determina el ancho de los intervalos de confianza para las predicciones es 3.989, mientras que para la regresin simple con el costo de los anuncios como variable explicativa (salida en la figura 13-7), tenemos se 3.849. Lo que no podemos hacer es predecir con mucha precisin cmo cambiarn las ventas si aumentamos en uno el nmero de anuncios. La regresin mltiple dice que b1 0.625 (esto es, cada anuncio aumenta las ventas totales de pizzas alrededor de $625), pero el error estndar de este coeficiente es 1.12 (es decir, aproximadamente $1,120).
cunto cambiar la variable dependiente si manipula las variables independientes. Entonces, el objetivo debe ser minimizar la multicolinealidad. Sugerencia: la mejor regresin mltiple es la que explica la relacin entre los datos al sealar la responsabilidad de la mayor proporcin de la variacin en la variable dependiente, con el menor nmero de variables independientes. Advertencia: no es una buena idea incluir demasiadas variables independientes slo porque cuenta con una computadora y un paquete de software para estadstica.

Ejercicios 13.4
EA 13-4

Ejercicios de autoevaluacin
Edith Pratt es una ocupada ejecutiva de una compaa de transporte de carga a nivel nacional, y va tarde a una junta porque no encuentra la salida de la regresin mltiple elaborada por un asistente. Si la regresin total es significativa al nivel 0.05, ella desea usar las salida de computadora como evidencia para fundamentar algunas ideas que expondr en la reunin. Sin embargo, su ayudante est enfermo. De hecho, toda la informacin que tiene de la regresin mltiple es un trozo de papel con los siguientes datos:
Regresin para Edith Pratt SCR SCE SCT 872.4, con gl , con 17 gl 1023.6, con 24 gl

EA

13-5

Como el papel ni siquiera tiene todos los nmeros, Edith ha concluido que no es til. Usted, sin embargo, debe saber ms que ella. Puede Edith entrar en la junta o debe seguir buscando la salida de computadora? Una pequea lnea area de Nueva Inglaterra realiz una encuesta sobre sus 15 terminales y obtuvo los siguientes datos para el mes de febrero, donde
VENTAS PROMOC COMPET GRATIS ingreso total segn el nmero de boletos vendidos (en miles de dlares) cantidad gastada en promociones de la lnea area en el rea (en miles de dlares) nmero de lneas areas que compiten en esa terminal nmero de pasajeros que vuelan gratis (por diferentes razones)

.M

at e

Sugerencia: el concepto de hacer inferencias respecto a una regresin mltiple es justo lo mismo que se hizo en el captulo 12, cuando hicimos inferencias respecto a una recta de regresin, excepto que ahora se emplean dos o ms variables independientes. Advertencia: la multicolinealidad es un problema que debe manejarse en la regresin mltiple y es necesario desarrollar una comprensin con sentido comn. Recuerde que todava puede hacer predicciones precisas cuando est presente. Pero recuerde tambin que no puede decir con mucha precisin
SUGERENCIAS Y SUPOSICIONES

m at

ic

a1 .c

om

Ventas (dlares) 79.3 200.1 163.2 200.1 146.0 177.7 30.9 291.9 160.0 339.4 159.6 86.3 237.5 107.2 155.0

Promoc (dlares) 2.5 5.5 6.0 7.9 5.2 7.6 2.0 9.0 4.0 9.6 5.5 3.0 6.0 5.0 3.5

Compet 10 8 12 7 8 12 12 5 8 5 11 12 6 10 10

Gratis 3 6 9 16 15 9 8 10 4 16 7 6 10 4 4

a) Utilice la siguiente salida de Minitab para determinar la ecuacin de regresin que mejor se ajuste para la lnea area:
La ecuacin de regresin es VENTAS 172 25.9 PROMOV Pronosticador Constante PROMOV COMPET GRATIS Coef 172.34 25.950 -13.238 -3.041 13.2 COMPET 3.04 GRATIS Cociente-t 3.35 5.32 -3.59 -1.30 p 0.006 0.000 0.004 0.221

b) Los pasajeros que vuelan gratis ocasionan una disminucin significativa en las ventas? Formule y 0.05. pruebe las hiptesis apropiadas. Use c) Un incremento de $1,000 en las promociones cambia las ventas en $28,000, o el cambio es signifi0.10. cativamente diferente de $28,000? Formule y pruebe las hiptesis adecuadas. Use d) Calcule un intervalo de confianza del 90% para el coeficiente de la pendiente de la COMPETENCIA.

Aplicaciones
13-22 Mark Lowtown publica el peridico Mosquito Junction Enquirer y tiene problemas para predecir la cantidad de papel peridico que necesita imprimir diariamente. Eligi aleatoriamente 27 das del ao anterior y registr la siguiente informacin:
PESO CLASIFICADOS PUBLICIDAD PLANA COMPLETA peso en libras de papel peridico para la edicin de ese da nmero de anuncios clasificados nmero de anuncios publicitarios nmero de anuncios a una plana

Utilizando Minitab para hacer una regresin de PESO sobre las otras tres variables, Mark obtuvo la siguiente salida:
Pronosticador Constante CLASIFICADOS PUBLICIDAD PLANA COMPLETA Coef 1072.95 0.251 1.250 250.66 DesvEst 872.43 0.126 0.884 67.92 Cociente-t 1.23 1.99 1.41 3.69 p 0.232 0.060 0.172 0.001

a) Mark siempre ha pensado que cada anuncio publicitario utiliza al menos 3 libras de papel. La regresin le da una razn significativa para dudar esto al nivel del 5%?

.M

at

em

at

ic

DesvEst 51.38 4.877 3.686 2.342

a1

.c om

13-23 13-24

b) De manera similar, Mark siempre ha credo que cada anuncio clasificado utiliza aproximadamente media libra de papel. Tiene ahora Mark una razn significativa para dudar esto al nivel del 5%? c) Mark vende espacios de anuncios de plana completa a los comerciantes locales a $30 la pgina. Deber pensar en ajustar sus tarifas si el papel peridico le cuesta $0.09 por libra? Suponga que otros costos son despreciables. Establezca explcitamente las hiptesis y una conclusin. (Sugerencia: Dejando todo lo dems constante, cada anuncio adicional de plana completa tiene un costo de 250.66 libras de papel $0.09 por libra $22.56. El punto de equilibrio es 333.333 libras. Por qu? As, si el coeficiente de pendiente para PLANA COMPLETA es significativamente mayor que 333.333, Mark no est obteniendo ganancias y debe cambiar sus tarifas.) Para los datos del ejercicio 13-18 y un nivel de significancia de 0.10, cules variables son significativamente explicativas de los resultados de los exmenes? (Haba 12 estudiantes en la muestra.) Para los datos del ejercicio 13-18 y la siguiente salida de Minitab del procedimiento de regresin mltiple hecho por Bill: Anlisis de varianza FUENTE Regresin Error Total GL 4 7 11 SC 3134.42 951.25 4085.67 MC 783.60 135.89 F p

13-27

13-28

13-29

Al nivel de significancia de 0.05, es la regresin significativa como un todo? Henry Lander es el director de produccin de la Alecos Corporation de Caracas, Venezuela. Henry le pide que le ayude a determinar una frmula para predecir el ausentismo de los empacadores de carne. Su hiptesis es que la temperatura diaria promedio puede explicar el porcentaje de ausentismo. Durante varios meses rene datos, ejecuta el procedimiento de regresin simple y encuentra que la temperatura explica 66% de la variacin en el ausentismo. Pero Henry no est convencido de que ste sea un pronosticador satisfactorio. Sugiere que la precipitacin pluvial diaria podra tambin tener algo que ver con el ausentismo, de modo que registra los datos correspondientes y hace una regresin del ausentismo durante el tiempo de lluvias, y obtiene un valor R2 de 0.59. Eureka!, grita usted. Lo tengo! Con un pronosticador que explica 66% y otro que explica 59%, todo lo que tengo que hacer es una regresin mltiple utilizando ambos y seguramente tendr un pronosticador casi perfecto. Para su desnimo, sin embargo, la regresin mltiple tiene una R2 de slo 68%, que es solamente un poco mejor que la variable de temperatura sola. Cmo puede explicar esta aparente discrepancia? Juan Armenlegg, administrador de Rockys Diamond y Jewelry Store, est interesado en desarrollar un modelo para estimar la demanda del consumidor para su costosa mercanca. Como la mayora de los clientes compran diamantes y joyas a crdito, Juan est seguro de que dos factores que deben influir en la demanda de los clientes son la tasa real de inflacin anual y la tasa real de intereses sobre prstamos en los principales bancos del pas. Explique algunos problemas que Juan podra encontrar si fuera a desarrollar un modelo de regresin basado en estas dos variables de prediccin. Un nuevo programa de juegos, Check That Model, pide a los concursantes que especifiquen el nmero mnimo de parmetros que necesitan para determinar si un modelo de regresin mltiple es significativo co0.01. Usted gan la apuesta con 4 parmetros. Use la siguiente informacin para demo un todo para terminar si la regresin es significativa.

FUENTE Regresin Error Total

GL 4 18 22

em

Anlisis de varianza

at
SC 2861495 125761 2987256

ic a

13-26

1.

co

13-25

a) Cul es el valor observado de F? b) A un nivel de significancia de 0.05, cul es el valor crtico de F que se debe utilizar para determinar si la regresin como un todo es significativa? c) Basndose en las respuestas a los incisos a) y b), es la regresin significativa como un todo? Remtase al ejercicio 13-19. A un nivel de significancia de 0.01, es la variable DISTANCIA una variable explicativa significativa para VENTAS? Para los datos del ejercicio 13-19 y la siguiente salida adicional de Minitab al correr la regresin mltiple:

w w

MC 715374 6896.7

.M

F 102.39

p 0.000

at

R2
SCE

0.7452 125.4 18 3

n
Nmero de variables independientes

13-30

La Scottish Turist Agency est interesada en el nmero de turistas que entran al pas cada semana (Y) durante la temporada alta. Se recolectaron los siguientes datos:
Turistas (Y ) Cambio (X1) Precio (X2) Promoc (X3) Temp (X4) nmero de turistas que entran a Escocia en una semana (en miles) nmero de libras escocesas compradas por $1 dlar nmero de libras escocesas cobradas por viaje redondo en camin de Londres a Edimburgo cantidad gastada en promocin del pas (en miles de libras escocesas) temperatura media durante la semana en Edimburgo (en grados Celsius)

Turistas (Y) 6.9 7.1 6.8 7.9 7.6 8.2 8.0 8.4 9.7 9.8 7.2 6.7

Cambio (X1) 0.61 0.59 0.63 0.61 0.60 0.65 0.58 0.59 0.61 0.62 0.57 0.55

Precio (X2) 40 40 40 35 35 35 35 35 30 30 40 40

Promoc (X3) 8.7 8.8 8.5 8.6 9.4 9.9 9.8 10.2 11.4 11.6 8.4 8.6

Temp (X4) 15.4 15.6 15.4 15.3 15.8 16.2 16.4 16.6 17.4 17.2 17.6 16.4

a) Utilice el paquete de software que tenga para determinar la ecuacin de regresin que mejor se ajuste a los datos de la agencia de turismo. b) Es la tasa de cambio una variable explicativa significativa? Establezca y pruebe las hiptesis adecuadas a un nivel de significancia de 0.10. c) Un incremento de 1,000 libras en las promociones, aumenta el nmero de turistas en ms de 200? Establezca y pruebe las hiptesis adecuadas para un nivel de significancia de 0.05. d) Calcule un intervalo de confianza del 95% para el coeficiente de la pendiente de Temp.

Soluciones a los ejercicios de autoevaluacin


EA 13-4 Como SCT SCR SCE, SCE SCT SCR 1,023.6 872.4 151.2. Como gl SCT gl SCR gl SCE, gl SCR gl SCT gl SCE 24 17 7. Entonces, F SCR/k SCE/(n k 872.4/7 151.2/17 14.01.

EA

13-5

FCRT F(7, 17, 0.05) 2.61. Como FOBS > FCRT, se concluye que la regresin es significativa como un todo; Edith debe continuar buscando la salida de computadora de la regresin, para usarla en la junta. De la salida de computadora, se obti enen los siguientes resultados: a) VENTAS 172.34 25,950PROMOC 13.238COMPET 3.041GRATIS H1: BGRATIS 0 0.05 b) H0: BGRATIS 0 sta es una prueba de una cola y el valor prob en los resultados es para la alternativa de dos colas, H1: BGRATIS 0. De manera que para esta prueba, el valor prob es 0.221/2 0.111 0.05, por lo que no se puede rechazar H0; las ventas no disminuyen significativamente cuando aumenta el nmero de pasajeros que vuelan gratis. H1: BPROMOC 28 0.10 c) H0: BPROMOC 28

.M

1)

at

em

at ic

a1

.c om

El valor observado t de los resultados de regresin es (bPROMOC 28) sbPROMOC 25.950 28 4.877 0.420

0.10 en ambas colas combinadas, los valores crticos t para la prueCon 11 grados de libertad y ba son 1.796, as, el valor observado est dentro de la regin de aceptacin. No se rechaza H0; el cambio en VENTAS para un incremento de una unidad ($1,000) en PROMOC no es significativamente diferente de 28 ($28,000). d) Con 11 grados de libertad, el valor t para un intervalo del 90% de confianza es 1.796, por lo que el intervalo es bCOMP 1.796sbCOMP 13.238 13.238 1.796(3.686) 6.620 ( 19.858, 6.618)

La lnea area puede tener una seguridad del 90% de que el ingreso por los boletos en una oficina disminuye entre $6,600 y $19,900 aproximadamente con cada lnea area adicional que compite.

13.5 Tcnicas de modelado


co
5 13 15 21

Revisin del enfoque anterior del problema

En todos los ejemplos de regresin que hemos visto hasta ahora, los datos manejados han sido numricos o cuantitativos. Pero, ocasionalmente, nos enfrentaremos con una variable categrica o cualitativa. En el problema del inicio el captulo, el director de personal desea ver si el salario base de un vendedor depende de su sexo. En la tabla 13-5 repetimos los datos de dicho problema. Por el momento, ignore la antigedad y utilice la tcnica desarrollada en el captulo 9 para probar la diferencia entre las medias de dos poblaciones, para ver si los hombres ganan ms que las mujeres. Pruebe con 0.01. Si tomamos a los hombres como la poblacin 1 y a las mujeres como la poblacin 2, probaremos las siguientes hiptesis:

w w

Datos cualitativos y variables ficticias

.M

H0: H1:

1 1

Tabla 13-5 Datos para el problema de discriminacin por sexo

Vendedores Antigedad Salario base (en meses) (en miles) 6 10 12 18 30 7.5 8.6 9.1 10.3 13.0

at

em
2

Hiptesis nula: no existe discriminacin por sexo en los salarios base 2 Hiptesis alternativa: se discrimina a las mujeres en su salario base 0.01 Nivel de significancia

at

ic a

1.

Vendedoras Antigedad Salario base (en meses) (en miles) 6.2 8.7 9.4 9.8

Bsqueda de diferentes modelos

Dada una variable que deseamos explicar y un conjunto de variables explicativas potenciales, tal vez haya varias ecuaciones de regresin diferentes que podamos estudiar, dependiendo de qu variables explicativas incluyamos y de cmo lo hagamos. Cada una de esas ecuaciones de regresin se conoce como modelo. Las tcnicas de modelado son las distintas formas en que podemos incluir las variables explicativas y verificar qu tan apropiados son los modelos de regresin. Existen muchas tcnicas de modelado diferentes, pero slo veremos dos de las ms utilizadas.

A continuacin bosquejamos el anlisis. Si tiene problemas para seguirlo, deber repasar brevemente la seccin 9.3. n1 x1 s2 1
2 sp

5 9.7 4.415 (n1

n2 x2 s2 2 1)s2 1 n1

4 8.525 2.609 [9-3]

(n2 1)s2 2 n2 2

4(4.415) 3(2.609) 5 42 3.641 x1


x2

sp 1.28

1 n1

1 n2 [9-4]
1 x2 2)H0

(x1 x2) ( x1

Una mirada a los datos

FIGURA 13-9 Diagrama de dispersin de salarios base contra meses de antigedad

Salario (miles de dlares)

12

w w

El enfoque anterior no detecta discriminacin

Con siete grados de libertad, el valor t crtico para una prueba de cola superior con 0.01 es 2.998. Como el valor t observado de 0.92 es menor que 2.998, no podemos rechazar H0. Entonces, el anlisis concluye que no parece haber discriminacin por sexo en los salarios base. Pero recuerde que hasta ahora se han ignorado los datos de antigedad laboral para el anlisis. Antes de seguir, vea el diagrama de dispersin de los datos. En la figura 13-9, los puntos negros corresponden a los hombres y los blancos a las mujeres. El diagrama de dispersin muestra con claridad que el salario base aumenta con los aos de antigedad; pero si con la mirada sigue lo que sera la recta de regresin, notar que los puntos negros tienden a estar arriba de ella y los blancos abajo. La figura 13-10 da la salida de una regresin del salario base sobre los meses de antigedad. De los resultados, se ve que la antigedad es una variable explicativa altamente significativa. Adems r2 92.6%, que indica que la variable meses de antigedad explica cerca del 93% de la variacin en el salario base. La figura 13-11 contiene parte de la salida que no se vio antes, una ta bla de residuos. Para cada punto, el residuo es simplemente Y Y, que se reconoce como el error en

w .M

12

at e

16 20 Meses de antigedad

at ic

a1

0.92

.c om

(9.7 8.525) 0 1.28

24

28

FIGURA 13-10 Regresin con Minitab del salario base sobre los meses de antigedad

Anlisis de regresin
La ecuacin de regresin es SALARIO 5.81 0.233 MESES Pronosticador Constante MESES s 0.5494 Coef 5.8093 0.23320 R-sq DesvEst Cociente-t 0.4038 14.39 0.02492 9.36 92.6% SC 26.443 2.113 28.556 MC 24.443 0.302 F 87.61 p 0.000 p 0.000 0.000

Anlisis de varianza FUENTE GL Regresin 1 Error 7 Total 8


FIGURA 13-11 Tabla de residuos de Minitab

RENGLN 1 2 3 4 5 6 7 8 9

SALARIO 7.5 8.6 9.1 10.3 13.0 6.2 8.7 9.4 9.8

AJUST1 7.2085 8.1413 8.6077 10.0069 12.8054 6.9753 8.8409 9.3073 10.7066

RESI1 0.291499 0.458684 0.492276 0.293054 0.194607 -0.775297 -0.140928 0.092664 -0.906558

Presionar a los residuos...

Deteccin de patrones en los residuos

Uso de variables ficticias

el ajuste de la recta de regresin en ese punto. En la figura 13-11, AJUST1 son los valores ajustados y RESI1 son los residuos. Tal vez, la parte ms importante del anlisis del resultado de una regresin sea estudiar residuos. Si la regresin incluye todos los factores explicativos relevantes, estos residuos deben ser aleatorios. Dicho de otro modo, si los residuos muestran cualquier patrn no aleatorio, esto indica que hay algo sistemtico que afecta el proceso y que no hemos tomado en cuenta. De manera que buscamos patrones en los residuos; o, para decirlo de forma ms pintoresca, presionamos a los residuos hasta hacerlos hablar. Si observamos los residuos presentados en la figura 13-11, vemos que los primeros cinco residuos son positivos. De modo que para los vendedores tenemos Y Y 0 o Y Y, es decir, la recta de regresin cae abajo de estos cinco puntos. Tres de los cuatro ltimos residuos son negativos. Por consiguiente, para las vendedoras tenemos, Y Y 0 o Y Y, as que la recta de regresin se encuentra arriba de tres de los cuatro puntos. Esto confirma lo que vimos al observar el diagrama de dispersin de la figura 13-9. Este patrn no aleatorio en los residuos sugiere que el sexo s es un factor determinante del salario base. Cmo podemos incorporar el sexo de los vendedores dentro del modelo de regresin? Lo hacemos utilizando un dispositivo llamado variable ficticia (o variable indicadora). Para los cinco puntos que representan a los vendedores, esta variable tiene valor de 0 y para los cuatro puntos que representan a las vendedoras valdr 1. Los datos de entrada para nuestra regresin con variables ficticias, se dan en la tabla 13-6. Para los datos de la tabla 13-6 se ajusta una regresin de la forma: Y a b1X1 b2X2 [13-5]

w w

.M

at

em

at

ic a

1.

co

Tabla 13-6 Datos de entrada para una regresin de discriminacin por gnero

X1 Meses de antigedad
6 10 12 18 30 5 13 15 21

X2 Sexo
0 0 0 0 0 1 1 1 1

Y Salario base (miles de dlares)


7.5 8.6 9.1 10.3 13.0 6.2 8.7 9.4 9.8

Hombres

Mujeres

Veamos qu sucede si utilizamos esta regresin para predecir el salario base de un individuo con X1 meses de antigedad: Vendedor: Y a b1X1 b2(0) a b1X1 Vendedora: Y
Interpretacin del coeficiente de la variable ficticia

b1X1

b2(1)

b1X1

b2

Para vendedores y vendedoras con la misma antigedad en el trabajo, predecimos una diferencia en el salario base de b2 miles de dlares. Ahora bien, b2 es solamente nuestra estimacin de B2 en la regresin de la poblacin:

.c om

Y
Prueba para ver si hay discriminacin

B1X1

B2X2

[13-7]

Conclusin: s hay discriminacin

Con el fin de probar estas hiptesis, ejecutamos el procedimiento de regresin para los datos de la tabla 13-6. Los resultados de la regresin se presentan en la figura 13-12. Nuestra prueba de hiptesis est basada en la distribucin t con n k 1 9 2 1 6 grados de libertad. Para esta prueba de cola inferior, el valor crtico, tomado de la tabla 2 del apndice,

FIGURA 13-12 Salida de Minitab sobre la discriminacin por sexo

Anlisis de regresin
La ecuacin de regresin es SALARIO 6.25 0.227 MESES Pronosticador Constante MESES SEXO s 0.3530 Coef 6.2485 0.22707 -0.7890 R-sq 0.789 SEXO DesvEst 0.2915 0.01612 0.2384 97.4% Cociente-t 21.44 14.09 -3.31 p 0.000 0.000 0.016

Anlisis de varianza FUENTE Regresin Error Total GL 2 6 8 SC 27.808 0.748 28.556 MC 13.904 0.125 F 111.56 p 0.000

H0: B2 H1: B2

.M

at e

Si en realidad hay discriminacin contra las mujeres, ellas deberan ganar menos que los hombres con la misma antigedad. En otras palabras, B2 debera ser negativo. Podemos probar esto al nivel de significancia de 0.01:

0 Hiptesis nula: no hay discriminacin sexual en los salarios base 0 Hiptesis alternativa: hay discriminacin contra las mujeres 0.01 Nivel de significancia

at

ic a1

Interpretacin del coeficiente de la variable ficticia

es tc 3.143. En la figura 13-12 vemos que el coeficiente de regresin estandarizado para nuestra prueba es to 3.31. En la figura 13-13 se ilustra el valor crtico y el coeficiente estandarizado. El coeficiente observado, b2, queda fuera de la regin de aceptacin, de modo que rechazamos la hiptesis nula y llegamos a la conclusin de que la empresa discrimina a sus vendedoras. De paso, tambin notamos que el valor calculado de t para b1 en esta regresin es 14.09, as que la inclusin del sexo como una variable explicativa hace que la antigedad sea ms significativo como variable explicativa que antes. La figura 13-14 proporciona la salida de Minitab de los valores ajustados y los residuos para esta regresin. Como fue la segunda regresin que se corri sobre estos datos, Minitab ahora llama AJUST2 y RESI2 a estos valores. Observe que los residuos de esta regresin no parecen mostrar ningn patrn no aleatorio. Revisemos la forma en que manejamos la variable cualitativa en este problema. Establecimos una variable ficticia, le asignamos un valor de 0 para los hombres y 1 para las mujeres. Entonces, el coeficiente de la variable ficticia se puede interpretar como la diferencia entre el salario base de una mujer y el salario base de un hombre. Suponga que se fija la variable ficticia en 0 para las mujeres y 1 para los hombres. Entonces, su coeficiente sera la diferencia entre el salario base de un hombre y el de una mujer, en ese orden. Podra decir cul hubiera sido el resultado de la regresin en este caso? No debe sorprenderle encontrar que el resultado hubiera sido: Y 5.4595 0.22707X1 0.7890X2

Prueba de hiptesis de cola izquierda al nivel de significancia de 0.01, que ilustra la regin de aceptacin y el coeficiente de regresin estandarizado

Coeficiente de regresin estandarizado 3.31

Regin de aceptacin Acepte la hiptesis nula si el valor muestral est en esta regin

.M

FIGURA 13-13

at

em

at ic

a1 .

Extensiones de las tcnicas de variables ficticia

La eleccin de a qu categora se le da el valor de 0 y a cul el de 1 es totalmente arbitraria y slo afecta el signo, no el valor numrico del coeficiente de la variable ficticia. Nuestro ejemplo tena slo una variable cualitativa (el sexo), y esa variable nada ms tena dos categoras posibles (hombre y mujer). Aunque no veremos los detalles aqu, las tcnicas de variables ficticias tambin se pueden utilizar en problemas que contienen varias variables cualitativas que pueden tener ms de dos categoras posibles.

co m

3.143

FIGURA 13-14 Tabla de residuos de Minitab RENGLN 1 2 3 4 5 6 7 8 9 SALARIO 7.5 8.6 9.1 10.3 13.0 6.2 8.7 9.4 9.8 AJUST2 7.6109 8.5192 8.9734 10.3358 13.0607 6.5949 8.4115 8.8656 10.2281 RESI2 -0.110921 0.080784 0.126637 -0.035807 -0.060692 -0.394873 0.288537 0.534389 -0.428053

Transformacin de variables y curvas de ajuste


Un fabricante de motores elctricos pequeos utiliza una fresadora automtica para hacer las ranuras en el eje de los motores. Se procesa un lote de ejes y luego se verifica. Todos los ejes del lote que no cumplen con las especificaciones del tamao de ranura requerido se descartan. Al inicio de cada lote, se calibra la fresadora, ya que la cabeza cortadora se desgasta un poco durante la produccin de cada lote. El fabricante desea obtener un tamao de lote ptimo, pero para lograrlo, debe saber cmo afecta el tamao del lote al nmero de ejes defectuosos. La tabla 13-7 contiene los datos correspondientes a una muestra de 30 lotes, clasificados segn el tamao. La figura 13-15 es un diagrama de dispersin para estos datos. Como hay dos lotes de 250 ejes y 34 defectuosos en cada uno, dos de los puntos del diagrama de dispersin coinciden (esto corresponde al punto ms grande en la figura 13-15). Haremos una regresin del nmero de ejes defectuosos sobre el tamao del lote. La salida de la regresin se da en las figuras 13-16 y 13-17. Qu nos dice este resultado? Primero, que el tamao del lote desempea un magnfico papel al explicar el nmero de ejes defectuosos: el valor calculado t es 23.94 y r2 95.3%. Sin embargo, a pesar del valor t increblemente alto y del hecho de que el
Tabla 13-7 Nmero de ejes defectuosos por lote Tamao de lote 100 125 125 125 150 150 175 175 200 200 200 225 225 225 250 Nm. de defectos 5 10 6 7 6 7 17 15 24 21 22 26 29 25 34 Tamao de lote 250 250 250 275 300 300 325 350 350 350 375 375 375 400 400 Nm. de defectos 37 41 34 49 53 54 69 82 81 84 92 96 97 109 112

Observacin de un patrn en los residuos

FIGURA 13-15 Diagrama de dispersin de ejes defectuosos contra tamao del lote
Ejes defectuosos 120

100

w .M

at em

at ic

a1

.c om

80

60

40

20

100

200 Tamao del lote

300

400

FIGURA 13-16 Salida de Minitab para la regresin de defectos sobre tamao de lote

Anlisis de regresin
La ecuacin de regresin es DEFECTOS 47.9 0.367 TAMALOT Pronosticador Constante TAMALOT s 7.560 R-sq Coef -47.901 0.036713 95.3% DesvEst 4.112 0.01534 Cociente-t -11.65 23.94 p 0.000 0.000

Anlisis de varianza FUENTE Regresin Error Total FIGURA 13-17 Salida de residuos de Minitab RENGLN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 DEFECTOS 5 10 6 7 6 7 17 15 24 21 22 26 29 25 34 37 41 34 49 53 54 69 82 81 84 92 96 97 109 112 AJUST1 -11.1875 -2.0093 -2.0093 -2.0093 7.1690 7.1690 16.3473 16.3473 25.5256 25.5256 25.5256 34.7039 34.7039 34.7039 43.8822 43.8822 43.8822 43.8822 53.0605 62.2387 62.2387 71.4170 80.5953 80.5953 80.5953 89.7736 89.7736 89.7736 98.9519 98.9519 RESI1 16.1875 12.0093 8.0093 9.0093 -1.1690 -0.1690 0.6527 -1.3473 -1.5256 -4.5256 -3.5256 -8.7039 -5.7039 -9.7039 -9.8822 -6.8822 -2.8822 -9.8822 -4.0605 -9.2387 -8.2387 -2.4170 1.4047 0.4047 3.4047 2.2264 6.2264 7.2264 10.0481 13.0481 GL 1 28 29 SC 32744 1600 34345 MC 32744 57 F 572.90 p 0.000

Qu sugiere el patrn

tamao del lote explica el 95% de la variacin en el nmero de defectos, los residuos en esta regresin estn lejos de ser aleatorios. Note cmo empiezan con valores positivos grandes, disminuyen, se hacen cada vez ms negativos y luego regresan para terminar con valores positivos grandes. Qu nos indica esto? Observe la figura 13-18, en la que hemos ajustado una recta de regresin, trazada en negro (Y 7 7X), a los ocho puntos (X, Y) (0,0), (1,l), (2,4), (3,9), . . . , (7,49), que se encuentran sobre la curva gris (Y X 2). La figura tambin muestra los residuos y su signo.

.M

at em

at

ic

a1

.c

om

FIGURA 13-18 Ajuste de una recta a los puntos de una curva


50

Y Y = X2
+ 40 + ^ Y = 7 + 7X

30

20

10 + 0 + -10

X
1 2 3 4 5 6 7

La curva es mucho mejor que la recta

Tabla 13-8 Datos de entrada para el ajuste de una curva a los datos de los ejes de motor

X1 Tamao de lote
100 125 125 125 150 150 175 175 200 200 200 225 225 225 250

X2 (tamao de lote)2
10,000 15,625 15,625 15,625 22,500 22,500 30,625 30,625 40,000 40,000 40,000 50,625 50,625 50,625 62,500

.M

at

em

Ajuste de una curva a los datos

El patrn de residuos que obtuvimos en el problema de los ejes es bastante parecido al patrn observado en la figura 13-18. Quiz, los datos de los ejes se aproximen mejor por una curva que por una recta. Observe nuevamente la figura 13-15. Qu cree usted? Pero, slo hemos ajustado lneas rectas. Cmo debemos proceder para ajustar una curva? El procedimiento es sencillo, Slo debemos introducir otra variable, X2 (tamao del lote)2, y luego realizar una regresin mltiple. Los datos de entrada se presentan en la tabla 13-8, y los resultados en las figuras 13-19 y 13-20. Observando la figura 13-19, vemos que tamao de lote y (tamao de lote)2 son ambas variables explicativas significativas, ya que sus valores t son 3.82 y 15.67, respectivamente. El coeficiente de determinacin mltiple es R2 99.5%; as que, juntas, las dos variables explican el 99.5% de la variacin en el nmero de ejes defectuosos. Como ltima comparacin de las dos regresiones, note que el error estndar de la estimacin, que mide la dispersin de los puntos de la muestra alrededor

at ic

a1 .

Y Nmero de defectos
5 10 6 7 6 7 17 15 24 21 22 26 29 25 34

co m

X1 Tamao de lote
250 250 250 275 300 300 325 350 350 350 375 375 375 400 400

X2 (tamao de lote)2
62,500 62,500 62,500 75,625 90,000 90,000 105,625 122,500 122,500 122,500 140,625 140,625 140,625 160,000 160,000

Y Nmero de defectos
37 41 34 49 53 54 69 82 81 84 92 96 97 109 112

FIGURA 13-19 Salida de Minitab para la regresin sobre tamao de lote y (tamao de lote)2

Anlisis de regresin
La ecuacin de regresin es DEFECTOS 6.90 0.120 TAMALOT Pronosticador Constante TAMALOT TAMAOSQ s 2.423 Coef 6.898 -0.12010 0.00094954 R-sq 99.5% 0.000950 TAMALOT DesvEstCociente-t 3.737 1.85 0.03148 -3.82 0.00006059 15.67 p 0.076 0.001 0.000

Anlisis de varianza FUENTE Regresin Error Total IGURA 13-20 Salida de residuos de Minitab RENGLN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 DEFECTOS 5 10 6 7 6 7 17 15 24 21 22 26 29 25 34 37 41 34 49 53 54 69 82 81 84 92 96 97 109 112 AJUST1 4.383 6.721 6.721 6.721 10.247 10.247 14.959 14.959 20.859 20.859 20.859 27.945 27.945 27.945 36.218 36.218 36.218 36.218 45.678 56.325 56.325 68.159 81.180 81.180 81.180 95.388 95.388 95.388 110.783 110.783 RESI1 0.61728 3.27869 -0.72131 0.27869 -4.24682 -3.24682 2.04074 0.04074 3.14138 0.14138 1.14138 -1.94491 1.05509 -2.94491 -2.21811 0.78189 4.78189 -2.21811 3.32175 -3.32530 -2.32530 0.84072 0.81982 -0.18018 2.81982 -3.38800 0.61200 1.61200 -1.78275 1.21725 GL 2 27 29 SC 34186 159 34345 MC 17093 6 F 2911.35 p 0.000

del modelo ajustado, es 7.560 para el modelo de la recta, y slo 2.423 para el modelo de la curva. El modelo curvilneo es superior que el modelo de la recta, a pesar de que este ltimo explica 95% de la variacin! Recuerde que fue el patrn observado en los residuos del modelo de la recta lo que sugiri que un modelo curvilneo sera ms apropiado. Los residuos del modelo de la curva, en la figura 13-20, no exhiben patrn alguno.

w w

.M

at

em

at

ic a

1.

co

Transformacin de variables

En nuestro modelo de la curva, obtuvimos la segunda variable (tamao de lote)2, haciendo una transformacin matemtica de nuestra primera variable, tamao de lote. Debido a que elevamos una variable al cuadrado, la curva resultante se conoce como modelo de regresin de segundo grado (o cuadrtico). Existen muchas otras formas de transformar variables para obtener nuevas variables, y la mayora de los paquetes de software que realizan anlisis de regresin cuentan con esas transformaciones integradas. No hay necesidad de calcular a mano las variables transformadas, como lo hicimos en la tabla 13-8. Los paquetes de software tienen la capacidad de calcular todo tipo de transformaciones de una o ms variables: sumas, diferencias, productos, cocientes, races, potencias, logaritmos, exponenciales, funciones trigonomtricas, y ms.
cuando el resultado de la regresin en estos dos casos refleja el enorme poder de la computadora, todava necesita apoyarse en su sentido comn para ver si hay patrones no aleatorios en los residuos. Sin l, no se puede detectar si ocurre algo sistemtico en los datos que no se haya tomado en cuenta. Sugerencia: el secreto al usar la estadstica para tomar buenas decisiones nunca cambia. Siempre es una combinacin efectiva de datos, computadoras y sentido comn.

Existen muchas regresiones (o modelos) que pueden explicar el comportamiento de una variable dependiente por medio de un grupo de variables independientes. Nuestro trabajo es incluir las variables explicativas correctas para encontrar la ms efectiva. Vimos que podemos incluir variables independientes cualitativas usando variables ficticias y que es posible transformar variables para ajustar curvas a los datos. Advertencia: aun
SUGERENCIAS Y SUPOSICIONES

Ejercicios de autoevaluacin
EA 13-6

1 2 3 4 5 6

Tiempo

Ventas (en miles de dlares) 4,618 3,741 5,836 4,367 5,118 8,887

.M

Cindys, una popular cadena de comida rpida, ha experimentado un cambio importante en sus ventas como resultado de una campaa de publicidad muy exitosa. En consecuencia, la gerencia ahora necesita un nuevo modelo de regresin para sus ventas. Los siguientes datos se recolectaron en las 12 semanas posteriores al inicio de la campaa de publicidad.

at e

m at

ic

a1 .c

om
Tiempo 7 8 9 10 11 12 Ventas (en miles de dlares) 19,746 34,215 50,306 65,717 86,434 105,464
Pronosticador Constante TIEMPO s 15518 AJUST1 17140 8047 1046 10139 19231 28324

Ejercicios 13.5

a) Use la siguiente salida de Minitab para determinar la regresin que mejor se ajuste a VENTAS sobre TIEMPO. La ecuacin de regresin es 26233 9093 TIEMPO VENTAS
Coef 26233 9093 R-sq DesvEst 9551 1298 83.1% RENGLN 7 8 9 10 11 12 VENTAS 19746 34215 50306 65717 86434 105464 AJUST1 37417 46510 55603 64696 73789 82881 RESI1 17671 12295 5297 1021 12645 22583 Cociente-t 2.75 7.01 p 0.021 0.000

RENGLN 1 2 3 4 5 6

VENTAS 4618 3741 5836 4367 5118 8887

RESI1 21758 11788 4790 5772 14113 19437

b) Est satisfecho con el modelo como pronosticador de VENTAS? Explique. c) La siguiente salida usa TIEMPO y TIEMPOSCUAD (TIEMPOS al cuadrado) como variables explicativas. Es este modelo cuadrtico un mejor ajuste para los datos? Explique. La ecuacin de regresin es VENTAS
Pronosticador Constante TIEMPO TIEMPOSCUAD s RENGLN 1 2 3 4 5 6 VENTAS 4618 3741 5836 4367 5118 8887 2631 AJUST1 7165 3001 1488 2626 6416 12858

13981
Coef 13981 8141.5 1325.72

8142 TIEMPO
DesvEst 2720 961.9 72.03 99.6% RENGLN 7 8 9 10 11 12

1326 TIEMPOSCUAD
Cociente-t 5.14 8.46 18.41 p 0.000 0.000 0.000

R-sq RESI1 2547 740 4348 1741 1298 3971

VENTAS 19746 34215 50306 65717 86434 105464

AJUST1 21950 33695 48090 65138 84836 107186

RESI1 2204 520 2216 579 1598 1722

EA

13-7

La siguiente tabla contiene datos de gastos de consumo, CONSUMO; ingreso disponible, INGRESO; y sexo de la cabeza de la casa, SEXO, de 12 familias elegidas al azar. La variable GNERO se ha codificado como sigue: GNERO
Consumo 37,070 22,700 24,260 30,420 17,360 33,520 26,960 19,360 35,680 22,360 28,640 39,720

ic a

1.

Ingreso (dlares) 45,100 28,070 26,080 35,000 18,860 41,270 32,940 21,440 44,700 24,400 33,620 46,000

co

1 si SEXO 0 si SEXO

M (masculino) F (femenino)
Sexo M M F M F M M F M F F M Gnero 1 1 0 1 0 1 1 0 1 0 0 1

a) Utilice la siguiente salida de Minitab para determinar la regresin de mejor ajuste para pronosticar CONSUMO a partir de INGRESO y GNERO. La ecuacin de regresin es CONSUMO
Pronosticador Constante INGRESO GNERO s 1015

w w

.M

at

em
2036

at

0.818 INGRESO
DesvEst 1310 0.04940 916.9 98.4% Cociente-t 1.55 16.56 1.82

1664 GNERO
p 0.155 0.000 0.103

Coef 2036 0.81831 1664.2 R-sq

b) Si el ingreso disponible se mantiene constante, existe una diferencia significativa en el consumo entre las casas cuya cabeza es masculina comparada con aqullas cuya cabeza es femenina? Establezca las hiptesis explcitas, prubelas para un nivel de 0.10 y establezca una conclusin explcita. c) Proporcione un intervalo de confianza para la estimacin del 95% para el consumo en una casa con ingreso disponible de $40,000 cuya cabeza de familia es masculina.

Conceptos bsicos
13-31 13-32 Describa tres situaciones de la vida diaria en las que las variables ficticias podran utilizarse en modelos de regresin. El dueo de restaurantes situados en dos ciudades, cree que el ingreso se puede predecir a partir del flujo de trnsito frente a los restaurantes con un modelo de regresin cuadrtica. a) Describa un modelo cuadrtico para predecir el ingreso a partir del flujo de trnsito. Establezca la forma de la ecuacin de regresin. b) Se ha sugerido que la ciudad en donde se encuentra un restaurante tiene efecto sobre el ingreso. Extienda el modelo del inciso a) con una variable ficticia para incorporar la sugerencia. De nuevo, establezca la forma del modelo de regresin. Suponga que tiene un conjunto de puntos al cual ha ajustado una ecuacin de regresin lineal. Aunque la R2 para la recta es muy alta, usted se pregunta si ser buena idea ajustar una ecuacin de segundo grado a los datos. Describa cmo tomara su decisin basndose en: a) Un diagrama de dispersin de los datos. b) Una tabla de residuos de la regresin lineal. Un estadstico recolect un conjunto de 20 pares de datos. A la variable independiente la llam X1 y a la variable dependiente Y. Llev a cabo una regresin de Y sobre X1, y no qued satisfecho con el resultado. Debido a algunos patrones no aleatorios que observ en los residuos, decidi elevar al cuadrado los valores de X1; design como X2 a estos valores al cuadrado. Luego el estadstico corri una regresin mltiple de Y sobre X1 y X2. La ecuacin resultante fue Y 200.4 2.79X 3.92X
1 2

13-33

13-34

13-35

La doctora Linda Frazer tiene una clnica en Filadelfia. Registr los datos de la edad, reaccin a la penicilina y presin sangunea sistlica de 30 pacientes. Estableci la presin sangunea como la variable dependiente, la edad como X1 (variable independiente) y la reaccin a la penicilina como X2 (variable independiente). Design 0 para una reaccin positiva a la penicilina y 1 para una reaccin negativa, realiz una regresin mltiple en su computadora. La ecuacin de prediccin es Y 6.7 3.5X 0.489X
1 2

13-36

a) Despus de haber corrido la regresin, la doctora Frazer descubri que en realidad quera codificar una reaccin positiva a la penicilina como 1 y la negativa como 0. Tiene que volver a realizar la regresin? Si as es, por qu? Si no, d la ecuacin que hubiera obtenido de haber codificado la variable como en realidad lo deseaba. b) Si Sb2 tiene un valor de 0.09, esta regresin proporciona evidencia a un nivel de significancia de 0.05 de que la reaccin a la penicilina es una variable explicativa significativa de la presin sangunea? La empresa de computadoras Excelsior Notebook est revisando su poltica de control de inventarios. Necesitan predecir con exactitud el nmero de computadoras EXC-11E que ordenarn los proveedores en las prximas semanas. Los datos de las ltimas 15 semanas son los siguientes:
Tiempo 1 2 3 4 5 6 7 8 Demanda (en miles) 6.7 10.2 13.4 15.6 18.2 22.6 30.5 31.4
Contina

.M

at em

Aplicaciones

at

ic

a1

El valor de Sb1 fue 3.245 y el de Sb2 fue 1.53. A un nivel de significancia de 0.05, determine si a) el conjunto de valores lineales de X1 es una variable explicativa significativa para Y. b) el conjunto de valores al cuadrado de X1 es una variable explicativa significativa para Y.

.c

om

Tiempo 9 10 11 12 13 14 15

Demanda (en miles) 38.7 41.6 48.7 51.4 55.8 61.5 68.9

13-37

a) Utilice el paquete de software que tenga para ajustar un modelo lineal con TIEMPO como la variable independiente y DEMANDA como la variable dependiente. b) Ajuste un modelo cuadrtico a los datos. Es mejor este modelo? Explique. Los siguientes datos corresponden a las ventas brutas (VENTAS) de la pizzera local, el dinero que gastan en promociones (PROMO) y el tipo de promocin que incluye radio, peridicos y volantes. Suponga que la pizzera usa un solo tipo de promocin en una semana dada. Las variables TIPO1 y TIPO2 se han codificado como sigue: TIPO1 TIPO2 1 si se us radio, 0 de otra manera 1 si se usaron volantes, 0 de otra manera

(cuando las dos, TIPO1 y TIPO2, son 0, el presupuestos de la promocin de esa semana se gast en anuncios de peridico).
VENTAS (cientos) 12.1 19.1 26.9 24.8 37.1 39.4 32.5 28.9 28.8 34.7 38.4 26.3 PROMO (cientos) 3.8 6.4 7.9 8.7 12.4 15.9 11.3 9.4 8.6 12.7 14.3 6.7 TIPO1 0 0 0 1 1 0 0 0 1 0 0 1 TIPO2 1 1 0 0 0 1 0 0 0 1 0 0

a) Utilice un paquete de software para ajustar un modelo de regresin que pronostique VENTAS a partir de PROMO, TIPO1 y TIPO2. b) Establezca la funcin de regresin ajustada. c) Si PROMO se mantiene constante, existe una diferencia significativa entre el radio y el peridico? Establezca las hiptesis adecuadas y pruebe con un nivel de significancia de 0.05. d) Si PROMO se mantiene constante, existe una diferencia significativa entre los volantes y el peridico? Establezca las hiptesis adecuadas y prueba con un nivel de significancia de 0.05. e) Calcule un intervalo de confianza del 90% para VENTAS en una semana en la que se gastaron $800 usando anuncios de radio como el nico tipo de promocin.

Soluciones a los ejercicios de autoevaluacin


EA 13-6 De la salida de computadora se obtienen los siguientes resultados: 26233 9093TIEMPO. a) Pronstico de VENTAS b) Aunque R2 es relativamente alta (83.1%), ste no es un buen modelo debido al patrn en los residuos. Comienzan grandes y positivos, disminuyen, van a grandes y negativos y despus crecen a positivos de nuevo. Es claro que sera mejor un modelo cuadrtico. c) Pronstico de VENTAS 13981 8141.5TIEMPO 1325.72TIEMPOCUAD. Este modelo es bastante mejor. R2 aumenta a 99.6% y no hay un patrn en los residuos. De la salida de computadora se tienen los siguientes resultados: a) Pronstico de CONSUMO 2036 0.818INGRESO 1664GNERO.

EA

13-7

w w

.M

at

em

at

ic a

1.

co

b) H0: BGNERO 0 H1: BGNERO 0 0.10 Dado que el valor prob para la prueba (0.103) es mayor que (0.10), no se puede rechazar H0; el gnero de la cabeza de familia no es un factor significativo para explicar el consumo. c) Pronstico de CONSUMO 2036 0.818(40,000) 1664(1) $33,092. Con 9 grados de libertad, el valor t para un intervalo de confianza para Y del 95% para CONSUMO es 2.262, de manera que el intervalo es Y tse 33,092 2.262(1,015) 33,092 2,296 ($30,796, $35,388).

Estadstica en el trabajo
Loveland Computers
Caso 13: Regresin mltiple y modelado Lee estaba feliz de poder informar a Nancy Rainwater que los defectos que ocurran en las bases de los teclados, de hecho, se relacionaban con las bajas temperaturas diarias registradas en Loveland. El supervisor del almacn confirm la explicacin. Seguro, el almacn donde se guardan los componentes tiene calefaccin, inform Skip Tremont. Pero slo se trata de dos calentadores industriales de gas instalados cerca del techo. Cuando el ambiente empieza a enfriar un poco, funcionan bastante bien. Pero en esas noches de invierno verdaderamente fras, aunque los calentadores trabajen toda la noche, el almacn sigue muy fro. As que necesitamos ms calentadores?, pregunt Nancy. No necesariamente; el problema es que todo el aire caliente se queda en la parte de arriba y enfra bastante cerca del suelo. Entonces, cuando la gente empieza a entrar y salir durante el tiempo de trabajo, el aire se revuelve y el nivel inferior, en donde se almacenan las cosas, queda a temperatura ambiente. De modo que podramos resolver el problema instalando un par de ventiladores en el techo, intervino Tyrona Wilson. Justo lo que estaba pensando, dijo Skip, al tiempo que se meta a su camioneta para ir a la tienda de materiales para la construccin. No son caros, puedo comprar un par con el dinero de mi presupuesto de mantenimiento. Un gran ejemplo de administracin de calidad!, coment Lee. Ves, Nancy, las personas que trabajan en el cada rea saben las respuestas, slo tienes que facultarlos para que implanten una solucin. Bueno, djame invitarte a comer para que platiques con alguien que tiene un problema ms complicado. Frente a un plato de tamales, Lee Azko conoci a Sherrel Wright, la gerente de publicidad. Sherrel era una nueva contratacin y slo tena seis meses en la compaa. Ya conoces a Margot, est a cargo de marketing. Ella maneja el panorama completo. Mi trabajo consiste en concentrarme en el presupuesto de publicidad y colocar anuncios de modo que el resultado el mayor aumento posible en las ventas. Cmo decides cunto de cada medio contratar?, pregunt Lee.

Para ser sincera, antes de que yo llegara, las cosas no se hacan de manera muy cientfica. Tu to te dir que cuando Loveland empez, el nmero de anuncios dependa del flujo de efectivo. Cuando entr a trabajar aqu, pude ver que el presupuesto de publicidad suba y bajaba segn el dinero obtenido el trimestre anterior. Esto significaba que si tenamos un trimestre malo, la compaa disminua el presupuesto de publicidad del siguiente. Margot les deca todo el tiempo que eso era justo lo contrario a una buena estrategia; en muchas ocasiones el aumento del presupuesto de publicidad te puede sacar de una depresin en ventas. Pero me imagino que siempre sentan pnico respecto al flujo de efectivo. Ahora parece que vamos a tener un nuevo presupuesto sustancial y tendremos que ser ms cientficos en cuanto a nuestros planes de publicidad. Entonces, cmo decides qu anuncios comprar?, Lee estaba ansioso por saber ms de comercializacin en el mundo real. Bueno, tu to dice que es un arte. l tenda a contratar publicidad con las revistas que le gusta leer, aunque es el primero en admitir que no sera un tpico cliente de Loveland, de manera que ha sido bastante receptivo con mis ideas del costo por miles de lectores, lectores meta, etc. Las revistas mensuales de computacin son nuestro objetivo principal, pero cada mes salen al mercado ms, de modo que tengo que ser selectiva al ver dnde gastamos el dinero. Algunos de nuestros competidores han estado comprando espacios de cuatro o cinco pginas. Hemos intentado hacer eso en un par de revistas, pero resulta difcil saber si tienen mayor rendimiento que el anuncio de una pgina. El volumen de ventas tiende a atrasarse respecto a la publicidad efectiva, es difcil medir el xito de un anuncio individual. Supongo que ya intentaron monitorear el volumen de llamadas a los nmeros 800, coment Lee. Pues, no. Sera buena idea, tenemos estadsticas de eso? Aunque no las tengamos la compaa de telfonos puede darnos un informe diario. Tenemos que ver si el volumen de llamadas o el volumen de ventas es el mejor indicador, expres Lee muy en su papel. Oye, no es tan sencillo, intervino Gracia Delaguardia, la ingeniera en jefe de la compaa que acababa de llegar con un plato de burritos en la mano y jalaba una silla. No importa si me siento? Adelante, dijo Sherrel quien no tena la intencin de cortar a uno de los dos socios de Loveland Computers.

.M

at e

m at

ic

a1 .c

om

Sin nimo de ofender tu sensibilidad de pubicista, creo que fuerzas externas a la compaa determinan nuestras ventas. Si la economa crece, nos va bien; si hay recesin, no nos va tan bien. En los primeros aos de la empresa ocurri as?, pregunt Lee. Parece que tuvieron un crecimiento espectacular durante tiempos difciles al inicio de los ochenta. Y lo que haga la competencia es crucial, aadi Gracia, ignorando el comentario de Lee. Puedes verificarlo. Mira los nmeros atrasados de las revistas de computacin y notars cuntas pginas de anuncios compraban en comparacin con nosotros. Y tambin puedes ver sus precios relativos a los nuestros para mquinas equivalentes. Est impreso en cada anuncio. Lee hizo una nota mental de que iba a ser mucho ms fcil que en otras industrias, en las que los precios de los competidores podan quedar ocultos en contratos de largo plazo.

Y cunto rinden nuestros anuncios en los peridicos? Sherrel se pregunt en voz alta. Nos cuesta mucho sacar publicidad en el The Wall Street Journal, pero tengo la sensacin de que nos da un resultado inmediato. Pensemos juntos en esto y hagamos un plan para ver cmo lo resolvemos, propuso Lee, al tiempo que le haca seas a la mesera para que les llevara ms salsa picante.

Preguntas de estudio: Qu medida de xito de publicidad investigara usted? Qu factores considerara en un anlisis? De qu manera manejara los factores que parecen irrelevantes? Adems del repaso de los datos histricos, existe algn otro experimento que usted recomendara?

Al da siguiente, Laurel explic lo que encontr a Gary. La edad muy bien puede tener su papel, concluy, pero definitivamente no es el nico factor. Tienes alguna otra idea?. No s cunto nos podran ayudar, pero tengo un par de su gerencias, respondi Gary. En primer lugar, el gnero puede ser algo que ver. Sin tener datos especficos para apoyar mi presentimiento, me parece que las mujeres que trabajan tienden a quedarse ms tiempo que los hombres. Adems el grado de escolaridad puede ser otro factor. Los compaeros que tienden a quedarse con nosotros, parece, suelen ser los que no tienen un grado universitario que les tiente a hacer cosas mejores y ms grandes. Suena razonable?

Del libro de texto al mundo real


Administracin de las partes reparables en American Airlines
Para apoyar a su flota de aproximadamente 400 aviones, American Airlines mantiene un inventario disponible de partes reparables. Este inventario contiene ms de 5,000 tipos diferentes de unidades que varan en precio desde varios

.M

at e

m at

ic

HH Industries

1. Utilice los archivos CH12.xxx del CD que acompaa al libro para hacer una regresin simple de la antigedad en el trabajo contra el gnero (use 1 para masculino, 0 para femenino). Cules son los coeficientes de determinacin y correlacin? Repita el anlisis para la antigedad contra aos de escolaridad. 2. Ahora realice una regresin mltiple utilizando las tres variables independientes (edad al tiempo de la contratacin, gnero y grado de escolaridad). Es esta ecuacin mejor o peor que las regresiones simples? 3. Si tuviera que escoger solamente dos factores explicativos, cules parecen ser los ms apropiados? (Utilice los valores prob, si estn disponibles.) Corra esta regresin mltiple y comprela con la regresin de tres variables.

a1 .c

cientos hasta ms de 500,000 dlares. Un sistema de apoyo para la toma de decisiones, basado en una PC, el Sistema de Asignacin y Planeacin de Reemplazables (RAPS, Rotables Allocation and Planning System), fue desarrollado para proporcionar pronsticos de demanda de partes reemplazables y recomendar asignaciones de partes a aeropuertos, al mnimo costo. El sistema utiliza regresin lineal para pronosticar y otros mtodos estadsticos para determinar demandas esperadas y asignaciones de costo. Los resultados: un ahorro inicial de siete millones de dlares y ahorros recurrentes anuales de casi 1 milln de dlares.

om

Ejercicio de base de datos computacional

Ambas ideas son buenas, asinti Laurel y se puso a garabatear algunas notas. Te har saber si se me ocurre algo!

Problemas de negocios y datos Antes de partir, se espera que el complemento completo de partes de un avin est en perfectas condiciones de operacin. Si una parte reemplazable est defectuosa, ser removida e idealmente se sustituir por otra en servicio proveniente del almacn. La pieza defectuosa se enva a reparacin y se ordena otra pieza que funciona para el almacn. Uno de los deberes del Departamento de Administracin de Materiales de American Airlines consiste en distribuir partes a los almacenes de una manera efectiva en costos, equilibrando el costo de tener la parte y el costo del faltante en el almacn; al tiempo que mantiene un nivel aceptable de disponibilidad. El problema consiste en encontrar un mtodo de asignacin que proporcione el menor costo total. Desarrollo de RAPS La empresa vena usando un Sistema de Pronsticos y Control de Disponibilidad de Reemplazables (ROFACS, Rotables Forecasting and Availability Control System), basado en la metodologa de las series de tiempo para apoyar la toma de decisiones sobre la distribucin de partes reparables. ROFACS era un indicador valioso de niveles de asignacin apropiados, pero los departamentos de Tecnologas de Decisin y Administracin de Materiales reconocieron que haba deficiencias en el sistema. El anlisis de sensibilidad era difcil y llevaba mucho tiempo, no exista documentacin del sistema y se pensaba que algunos de los elementos de datos crticos eran imprecisos. Adems, los pronsticos tenan una respuesta lenta a cambios moderados en el uso de aviones y la expansin de la flota. Tecnologas de Decisin desarroll el RAPS con la aprobacin, cooperacin y participacin del Departamento de Administracin de Materiales. El objetivo de RAPS es recomendar asignaciones de partes disponibles y ayudar a los administradores de inventario a analizar el control de partes reemplazables.

Pronsticos El resultado final de una corrida de RAPS es una asignacin de partes reemplazables con un costo mnimo derivada de un proceso de pronsticos de dos etapas: 1) clculo de la demanda total del sistema para la parte y 2) distribucin de la demanda entre los almacenes individuales. Para calcular la demanda total esperada del sistema, RAPS utiliza una regresin lineal para establecer una relacin entre las partes reemplazadas por mes y las distintas

Beneficios En trminos estrictamente econmicos, RAPS fue un gran xito, pues produjo ahorros multimillonarios en dlares, pero tambin proporcion beneficios indirectos. RAPS aument la productividad de los analistas permitindoles analizar muchas ms partes en un solo da. Tambin proporcion un registro de auditoras con fechas y horas de los anlisis de partes. Debido a que el proceso fue simplificado, el tiempo entre anlisis de la misma pieza se acort, lo cual significa que las asignaciones se basan en datos ms actuales. Por ltimo, el uso de regresiones en RAPS ha aumentado la visin de los analistas respecto a la sensibilidad de una asignacin a todos los parmetros de entrada, ya sea de manera independiente o en combinacin. La amplia capacidad de anlisis de sensibilidad de RAPS cre un sistema ms orientado hacia el futuro, capaz de analizar condiciones y comportamientos cambiantes.

w w

w .M

Repaso del captulo


Trminos introducidos en el captulo 13
Anlisis de varianza para regresin Procedimiento para calcular el cociente F utilizado para probar la significancia de la regresin como un todo. Est relacionado con el anlisis de varianza ilustrado en el captulo 11. Cociente R calculado Estadstico que se utiliza para probar la significancia de la regresin como un todo. Coeficiente de correlacin mltiple, R Raz cuadrada positiva de R2. Coeficiente de determinacin mltiple, R2 Fraccin de la variacin de la variable dependiente que explica la regresin. R2 mide qu tan bien la regresin mltiple se ajusta a los datos.

at em at ic

Fuente: Mark J. Tedone, Repairable Part Management, Interfaces 19(4) (julioagosto de 1989): 61-68.

a1

.c

om

funciones en horas de vuelo mensuales. El sistema actualiza historias de 18 meses de reemplazos y horas de vuelo por mes. Despus, un mdulo calcula los coeficientes correspondientes a la mejor regresin y examina muchos pronsticos posibles, basndose en las horas de vuelo o en funciones de las horas de vuelo. Las evaluaciones de las regresiones se basan en ajustes y en la significacin estadstica. El proceso de generacin mensual de pronsticos de demandas para ms de 5,000 partes utilizando regresin est completamente automatizado. Antes de RAPS, se necesitaban das para producir los pronsticos y verificar su precisin; actualmente, toma slo unas cuantas horas. Para distribuir la demanda del sistema entre los almacenes individuales, RAPS asigna un peso a cada almacn que refleja su actividad esperada, con base en los datos recolectados de los horarios de vuelos y el mantenimiento. Una vez establecida la demanda real, el costo total de la asignacin puede determinarse fijando valores a los costos de inventario y a los costos esperados por faltantes. Juntos, los mdulos de RAPS permiten al personal del departamento de administracin de materiales tomar decisiones informadas acerca del nmero y localizacin de las partes requeridas y examinar las consecuencias de los cambios en las suposiciones de asignacin bsicas.

Error estndar de un coeficiente de regresin Medida de nuestra incertidumbre acerca del valor exacto del coeficiente de regresin. Multicolinealidad Problema estadstico que a veces se presenta en el anlisis de regresin mltiple, en el que se reduce la confiabilidad de los coeficientes de regresin debido a un alto nivel de correlacin entre las variables independientes. Regresin mltiple Proceso estadstico mediante el cual se utilizan varias variables para predecir otra variable. t calculada Estadstico que se utiliza para probar la significancia de una variable explicativa individual.

Tcnicas de modelado Mtodos para decidir qu variables incluir en un modelo de regresin y las diferentes maneras de incluirlas. Transformaciones Manipulaciones matemticas para convertir una variable a una forma diferente, de modo que podamos ajustar curvas o rectas mediante la regresin. Variable ficticia Variable que toma valores 0 o 1, y que permite incluir en un modelo de regresin factores cualitativos como sexo, estado civil y grado de escolaridad.

Ecuaciones introducidas en el captulo 13


13-1 Y a b1X1 b2X2 En regresin mltiple, sta es la frmula de la ecuacin de estimacin que describe la relacin entre tres variables: Y, X1 y X2. Representa una regresin mltiple de dos variables con un plano, en lugar de una recta. 13-2 13-3 13-4 Y X1Y X2Y na b1 X1
2 b1 X1

b2 X2 b2 X1X2 b2 X 2 2

co 1.

a X2

m
1 1

a X1

b1 X1X2

at

13-5

Resolver estas tres ecuaciones determina los valores de las constantes numricas a, b1 y b2 y, en consecuencia, el plano de regresin mltiple de mejor ajuste de una regresin mltiple de dos variables. ... b X Y a bX bX

em

at

ic a

2 2

k k

13-6

sta es la frmula para la ecuacin de estimacin que describe la relacin entre Y y las k variables independientes, X1, X2, . . . , Xk. La ecuacin 13-1 es el caso especial de esta ecuacin para k 2. (Y Y)2 se n k 1 Para medir la variacin alrededor de una ecuacin de regresin mltiple cuando hay k variables independientes, utilice esta ecuacin para encontrar el error estndar de la estimacin. El error estndar, en este caso, tiene n k 1 grados de libertad, debido a las k 1 constantes numricas que deben calcularse a partir de los datos (a, b1, . . . , bk). Y A B1X1 B2X2 . . . Bk Xk sta es la ecuacin de regresin de la poblacin para la regresin mltiple. Su ordenada Y es A, y tiene k coeficientes de pendiente, uno para cada una de las variables independientes. Y A B1X1 B2X2 . . . Bk Xk e Debido a que no todos los puntos individuales de una poblacin estn en la ecuacin de regresin de la poblacin, los puntos individuales satisfarn esta ecuacin, donde e es una variacin aleatoria de la ecuacin de regresin de la poblacin. En promedio, e es igual a cero, debido a que las variaciones que estn arriba de la ecuacin de regresin se cancelan con las que se encuentran abajo de ella. b1 Bi0 t sbi Una vez encontrado el valor de sbi en la salida de computadora, podemos utilizar esta ecuacin para estandarizar el valor observado del coeficiente de regresin. Luego probamos las hiptesis acerca de Bi mediante la comparacin de este valor estandarizado con el o los valores crticos de t, con n k 1 grados de libertad, tomados de la tabla 2 del apndice.

13-7

13-7a

13-8

w w

.M

13-9

tc

to

tc

Para probar si una variable independiente dada es significativa, utilizamos esta frmula para ver si to, el valor t observado (obtenido con la computadora), est entre ms y menos tc, el valor t crtico (tomado de la distribucin t con n k 1 grados de libertad). La variable es significativa cuando to no est en el intervalo indicado. Si su paquete de software calcula valores prob, la variable es significativa cuando este valor es menor que , el nivel de significancia de la prueba. 13-10 SCT SCR suma de cuadrados total (la parte explicada) suma de cuadrados de la regresin (la parte explicada de SCT) suma de cuadrados del error (la parte no explicada de SCT) SCR SCE (Y Y )2

(Y

Y )2

SCE 13-11 SCT

(Y

Y )2

Estas dos conjuntos de ecuaciones nos permiten dividir la variabilidad de la variable dependiente en dos partes (una explicada por la regresin y la otra no explicada) para poder probar la significacin de la regresin como un todo. 13-12 F SCR/k SCE/(n k 1)

Ejercicios de repaso
13-38

Homero Martnez es juez en Barcelona, Espaa. Hace poco le llam como asesor estadstico para investigar lo que parece ser un hallazgo importante. Asegura que el nmero de das que dura un caso en la corte se puede usar para estimar la cantidad que debe otorgar por daos y perjuicios. Ha reunido datos de su corte y de las cortes de otros jueces. Para cada uno de los nmeros del 1 al 9, ha localizado un caso que dur ese nmero de das en la corte, y ha determinado la cantidad (en millones de pesetas) otorgada por daos y perjuicios en cada caso. Los siguientes resultados de Minitab se generaron al correr una regresin de los daos y perjuicios adjudicados sobre los das en la corte.
La ecuacin de regresin es DAOS 0.406 0.518 DAS Pronosticador Constante DAS s 0.3957 Anlisis de varianza FUENTE Regresin Error Total GL 1 7 8 SC 16.094 1.096 17.191 MC 16.094 0.157 F 102.77 Coef -0.4063 0.51792 DesvEst 0.2875 0.0511 R-sq 93.6% Cociente-t -1.41 10.14 p 0.201 0.000

.M

Este cociente F, que tiene k grados de libertad en el numerador y n k 1 grados de libertad en el denominador, se utiliza para probar la significancia de la regresin como un todo. Si F es mayor que el valor crtico, entonces concluimos que la regresin como un todo es significativa. La misma conclusin es vlida si el valor prob de ANOVA (obtenido con la computadora) es menor que , el nivel de significancia de la prueba.

at

em at

ic

a1

.c

om

RENGLN 1 2 3 4 5 6 7 8 9

DAOS 0.645 0.750 1.000 1.300 1.750 2.205 3.500 4.000 4.500

AJUSTl 0.1117 0.6296 1.1475 1.6654 2.1833 2.7013 3.2192 3.7371 4.2550

RESIl 0.53333 0.12042 -0.14750 -0.36542 -0.43333 -0.49625 0.28083 0.26292 0.24500

13-39

Desde luego, usted est bastante complacido con estos resultados, porque el valor R2 es muy alto. Pero el juez no est convencido de que tenga razn. l dice: ste es el peor trabajo que he visto! No me importa si esta recta se ajusta a los datos, que le di. Le puedo decir, nada ms de ver el resultado, que no puede funcionar para otros datos! Si no puede hacer algo mejor, dgamelo para contratar a un estadstico inteligente!. a) Por qu estar el juez tan enojado con los resultados? b) Sugiera un mejor modelo que tranquilice al juez. Jon Grant, supervisor de la Carven Manufacturing Facility, est examinando la relacin existente entre la calificacin que obtiene un empleado en una prueba de aptitud, su experiencia previa y el xito en el trabajo. Se estudia y se pondera la experiencia de un empleado en trabajos anteriores, y se obtiene una calificacin entre 2 y 12. La medida del xito en el empleo se basa en un sistema de puntuacin que incluye produccin total y eficiencia, con un valor mximo posible de 50. Grant tom una muestra de seis empleados con menos de un ao de antigedad y obtuvo lo siguiente:
X1 Resultado de la prueba de aptitud
74 87 69 93 81 97

at

ic a

X2 Experiencia en trabajos anteriores


5 11 4 9 7 10

Y Evaluacin del desempeo


28 33 21 40 38 46

13-40

a) Desarrolle la ecuacin de estimacin que mejor describa estos datos. b) Si un empleado obtuvo 83 puntos en la prueba de aptitud y tena una experiencia en trabajos anteriores de 7, qu evaluacin de desempeo puede esperar? La venta exitosa es tanto un arte como una ciencia, pero muchos gerentes de ventas piensan que los atributos personales son importantes para pronosticar el xito en esa actividad. Design Alley es una tienda de diseo de interiores con servicio completo que vende persianas, alfombras y papel tapiz a la medida. El gerente de la tienda, Dee Dempsey, contrat a una compaa de seleccin de personal para realizar pruebas de cuatro aptitudes antes de contratar. Dee recolect los datos de crecimiento en ventas de 25 agentes que contrat, junto con las calificaciones de las cuatro pruebas de aptitud: creatividad, habilidad motriz, pensamiento abstracto y clculo matemtico. Por medio de una PC, Dee gener la siguiente salida en Minitab:
La ecuacin de regresin es: CRECIMIENTO = 70.1 + 0.422 CREAT + 0.271 MOTR + 0.745 ABST = 0.420 MATE Pronosticador Constante CREAT MOTR ABST MATE s 2.048 Coef 70.066 0.42160 0.27140 0.74504 0.41955 R-sq DesvEst 2.130 0.17192 0.21840 0.28982 0.06871 92.6% Cociente-t 32.89 2.45 1.24 2.57 6.11 p 0.000 0.024 0.228 0.018 0.000

w w

.M

at

em

1.

co

Anlisis de varianza FUENTE Regresin Error Total GL 4 20 24 SC 1050.78 83.88 1134.66 MC 262.70 4.19 F 62.64 p 0.000

13-41

a) Escriba la ecuacin de regresin para el crecimiento en ventas en trminos de los cuatro factores de las pruebas. b) Cunta variacin en el crecimiento en ventas explican las pruebas de aptitud? c) Para un nivel de significancia de 0.05, cules de las pruebas de aptitud son variables explicativas significativas para el crecimiento en ventas? d) Es significativo el modelo como un todo? e) Jay es un nuevo aspirante; tiene las siguientes calificaciones: CREAT 12, MOTR 14, ABST 18 y MATE 30. Qu crecimiento en ventas pronostica el modelo para este candidato? The Money Bank desea abrir nuevas cuentas de cheques para clientes que emitirn al menos 30 cheques al mes. Como ayuda en la seleccin de los nuevos clientes, el banco ha estudiado la relacin entre el nmero de cheques expedidos y la edad y el ingreso anual de ocho de sus clientes actuales. La variable EDAD se registr al ao ms cercano, y la variable INGRESO anual se registr en miles de dlares. Los datos se presentan a continuacin:
Cheques 29 42 9 56 2 10 48 4 Edad 37 34 48 38 43 25 33 45 Ingreso 16.2 25.4 12.4 25.0 8.0 18.3 24.2 7.9

13-42

13-43

13-44

13-45

a) Desarrolle una ecuacin de estimacin que utilice las variables edad e ingreso para predecir el nmero de cheques emitidos por mes. b) Cuntos cheques al mes se esperara de un cliente de 35 aos de edad con un ingreso anual de $22,500? La proporcin del ingreso disponible que los consumidores gastan en diferentes categoras de productos no es la misma en todas las ciudades; por ejemplo, en las que existe una universidad, es posible que la venta de pizzas sea mayor que el promedio, mientras que las ventas de automviles nuevos pueden ser menores. Investiguemos cmo vara la cantidad de dinero gastada en comida y bebida consumidas fuera de casa en las 50 reas metropolitanas para las que tenemos los datos de la tabla MR11-2. En los ejercicios del 13-42 al 13-45, correr regresiones para intentar explicar la variabilidad de la variable COMIDA. (Nota tcnica importante: algunos paquetes estadsticos sencillos tienen dificultad con el manejo de nmeros grandes cuando ajustan regresiones. Si fuera necesario, puede evitar problemas si cambia las unidades de los datos, por ejemplo, de miles de dlares a millones de dlares; en el caso de Salem, Oregon, la variable COMIDA queda como $216.666 millones en lugar de $216,666 miles). Desarrolle dos modelos de regresin simple para la variable COMIDA, utilizando el ingreso de compra efectivo de la poblacin y la mediana por familia (EBI), como variables independientes. Cules variables independientes explican la mayor parte de la variacin de las ventas observadas? Desarrolle una regresin mltiple para la variable COMIDA utilizando ambas variables, POP y EBI, como las variables explicativas. Qu fraccin de la variacin en COMIDA explica este modelo? La regre0.05? sin es significativa como un todo al nivel Incluya la variable SOLO (el nmero de casas donde vive una sola persona en el rea) como una tercera variable explicativa. Cunta de la variacin en COMIDA se explica ahora? Es sta una mejora significativa al modelo desarrollado en el ejercicio 13-43? (Es SOLO una variable explicativa significativa en esta regresin?) Como la variable POP ya no es significativa en el modelo del ejercicio 13-44, haga una regresin nada ms con EBI y SOLO como las nicas variables explicativas. Use este modelo para encontrar un intervalo de confianza aproximado del 90% para COMIDA en un rea metropolitana con 20,000 casa donde vive una persona y una mediana del ingreso de compra efectivo de $30,000.

.M

at

em

at

ic

a1

.c

om

13-46

El doctor Harden Ricci es un veterinario que vive en Sacramento, California. Recientemente, ha intentado desarrollar una ecuacin de prediccin para la cantidad de anestesia (medida en mililitros) que debe utilizar en las operaciones. Siente que la cantidad utilizada depender del peso del animal (en libras), la duracin de la operacin (en horas) y si el animal es un gato (codificado como 0) o un perro (codificado como l). Us Minitab para correr una regresin de los datos de 13 operaciones recientes y obtuvo los siguientes resultados:
La ecuacin de regresin es ANESTESIA 90.0 99.5 TIPO Pronosticador Constante TIPO PESO HORAS s 57.070 Coef 90.032 99.486 21.536 -34.461 R-sq 95.3% 21.5 PESO DesvEst 56.842 42.374 2.668 28.607 34.5 HORAS Cociente-t 1.58 2.35 8.07 -1.21 p 0.148 0.044 0.000 0.259

Anlisis de varianza FUENTE Regresin Error Total GL 3 9 12 SC 590880 29312 620192 MC 196960 3256.9 F 60.47 P 0.000

w w

.M

13-47

a) Cul es la ecuacin de prediccin obtenida con Minitab para la cantidad de anestesia? b) D un intervalo de confianza aproximado del 95% para la cantidad de anestesia que deber utilizar en una operacin de 90 minutos de duracin en un perro que pesa 25 libras. c) A un nivel de significancia del 10%, es la cantidad de anestesia necesaria significativamente diferente para perros y gatos? d) A un nivel de significancia del 5%, es esta regresin significativa como un todo? David Ichikawa es un agente de bienes races que trabaja con urbanistas que construyen casa nuevas. Aunque gran parte de su trabajo es vender las casas terminadas, tambin consulta con los constructores cunto deben pagar por cada lote. En un rea residencial, recolect la siguiente informacin de ventas cerradas de lotes aptos para construir; registr PRECIO de venta (en miles de dlares), TAMAO (pies lineales de frente en la calle) y una variable indicativa (0 o 1) de si el lote tiene VISTA. De las listas de impuestos puede estimar el rea del lote a partir de un avalo basada en el frente.

at

em

at

ic a

1.

co

PRECIO 56.2 42.5 67.5 39.0 33.3 29.0 30.0 48.0 44.3

TAMAO 175 125 200 115 125 100 108 170 160

REA (

TAMAO2) 30625 15625 40000 13225 15625 10000 11664 28900 25600

VISTA 1 1 1 1 0 0 0 0 0

13-48

a) Use Minitab para desarrollar la recta de regresin de mejor ajuste para estos datos. b) Qu fraccin de la variacin de PRECIO explica esta ecuacin? c) Encuentre un intervalo de confianza del 90% para el incremento en el valor de mercado atribuible a tener una VISTA. d) Ayud utilizar REA (el cuadrado del TAMAO) en la regresin? Explique su respuesta. Camping-R-Us, un fabricante nuevo de equipo para acampar, planea comercializar tiendas de campaa para dos personas que se pueden utilizar en casi cualquier clima. Para establecer un precio justo, toma en consideracin ocho tiendas de campaa comparables que se encuentran en el mercado, en trminos de peso y superficie. Los datos obtenidos son los siguientes:

Peso (onzas) Kelty Nautilus Nort Face Salamander U Mountain Hut Sierra Designs Meteor light Eureka! Cirrus 3 Sierra Designs Clip 3 Eureka! Timberline Deluxe Diamond Brand Free Spirit 94 90 112 92 93 98 114 108

Superficie (pies cuadrados) 37 36 35 40 48 40 40 35

Precio $225 240 225 220 167 212 217 200

13-49

a) Calcule la ecuacin de mnimos cuadrados para predecir el precio a partir del peso y la superficie. b) Si la tienda de Camping-R-Us pesa 100 onzas y tiene una superficie de 46 pies cuadrados, a qu precio debe venderla? La Asociacin de Atletismo de Carolina est interesada en organizar el primer triatln anual de Tarheel. Para atraer a atletas de alto nivel, la asociacin desea ofrecer premios en efectivo a los primeros lugares, estableciendo tiempos para los ganadores globales de la competencia, hombres y mujeres. Como el trayecto no se ha recorrido antes, la asociacin ha escogido 10 carreras de diferentes longitudes que considera comparables en clima y condiciones del recorrido.
Millas Triatln Bud light Ironman Worlds Toughest Muncie Endurathon Texas Hill Country Leons Q.E.M. Sacramento International Malibu Bud Light Endurance Wendys Mammoth/Snowcreek Nado 2.4 2.0 1.2 1.5 0.93 0.93 0.50 2.4 0.5 0.6 Ciclismo 112 100 55.3 48 24.8 24.8 18 112 20 25 Carrera 26.2 18.6 13.1 10.0 6.2 6.2 5.0 26.2 4.0 6.2 Tiempo de ganadores (Hr:Min:Seg) Hombres 8:09:15 8:25:09 4:05:30 3:24:24 1:54:32 1:48:16 1:19:25 9:26:30 1:14:59 1:56:07 Mujeres 9:00:56 9:49:04 4:40:06 3:55:02 2:07:10 2:00:45 1:30:19 11:00:29 1:23:09 2:11:49

a) Determine las ecuaciones de regresin para predecir los tiempos de hombres y mujeres ganadores, en trminos de la longitud de cada etapa individual. (Convierta los tiempos en minutos para los clculos.) b) Prediga los tiempos de ganadores si el triatln de Tarheel comprende 1 milla de nado, 50 millas de recorrido en bicicleta y 12.5 millas de carrera. c) Si la asociacin desea utilizar el lmite inferior de un intervalo de confianza aproximado del 90% para los tiempos de los primeros lugares para hombres y mujeres, cules sern esos tiempos? La tabla MR13-1 contiene informacin financiera acerca de las 28 compaas ms grandes de Carolina del Norte con acciones en la bolsa. Las variables de la tabla son:
NOMBRE PRECIO DIV GPA VENTAS INGRESOS ACTIVOS PREANTE NY BANCO Nombre de la compaa Precio de cierre de una accin en la bolsa de valores el 4/1/93 Dividendo pagados por accin en 1992 Ganancias por accin en 1992 Porcentaje de cambio en las ventas totales en 1992 Porcentaje de cambio en los ingresos netos de 1992 Porcentaje de cambio en activos en 1992 Precio de cierre de una accin el 12/31/91 1 si las accones se negocian en la Bolsa de Valores de Nueva York, 0 en otro caso 1 si la compaa es un banco o institucin de crdito, 0 en otro caso

13-50

Utilice esta informacin para resolver los ejercicios 13-50 a 13-53. Use las variables DIV, GPA, VENTAS, INGRESOS, ACTIVOS y PREANTE como variables explicativas de una regresin para explicar la variacin en PRECIO. Qu fraccin de la variacin explica este modelo?

.M

at

em at

ic

a1

.c o

Tabla MR13-1 Datos financieros para compaas de Carolina del Norte

NOMBRE Duke Power First Union Wachovia Carolina Power & Light Nucor Food Lion Jefferson-Pilot Unifi Family Dollar Stores BB&T Financial lance Cato Piedmont Natural Gas Southern National First Citizens Bancshares Ruddick United Dominion Inclustries Centura Banks Guilford Milis CC13 Financia United Carolina Bancshares Coastal Healthcare Group Public Service of NC Oakwood Homes NC Natural Gas Bank of Granite PCA International Ingles Markets

PRECIO DIV 39.50 47.50 36.50 33.00 91.25 7.00 55.00 33.88 18.50 34.13 23.63 30.50 22.00 21.88 53.00 21.38 13.13 23.88 26.13 40.50 22.50 21.00 17.25 20.25 26.63 30.00 16.25 6.25 1.76 1.28 1.00 1.58 0.28 0.11 1.30 0.40 0.25 0.91 0.92 0.08 0.91 0.50 0.53 0.39 0.20 0.63 0.57 1.14 0.66 0.00 0.75 0.06 0.98 0.38 0.28 0.22

GPA 2.21 3.72 2.48 2.36 1.83 0.37 3.99 1.04 1.00 2.75 1.25 1.03 1.40 1.73 5.45 1.30 0.61 1.66 1.73 3.10 2.01 0.85 1.09 0.90 1.79 1.65 0.89 0.31

VENTAS 3.8 1.4 15.7 3.0 10.5 11.8 2.5 13.4 17.1 3.3 2.6 24.5 11.7 6.0 7.5 6.2 26.7 6.6 16.3 9.0 9.6 30.4 24.4 42.4 18.9 9.7 8.0 2.1

INGRESOS 14.6 69.7 88.7 4.0 22.4 13.2 15.7 6.9 38.3 26.4 3.8 94.7 71.8 48.0 77.4 14.9 12.6 182.3 56.2 18.0 21.7 43.0 58.9 58.0 38.3 13.3 5.6 48.8

ACTIVOS PREANTE NY BANCO 3.2 11.4 0.6 2.6 26.1 24.9 6.3 64.7 19.7 7.4 4.4 54.2 8.7 23.3 1.0 8.8 16.4 10.1 9.1 7.1 7.1 51.7 8.1 25.3 23.0 7.9 51.4 2.0 35.00 30.00 29.00 27.00 44.75 18.25 37.75 22.38 17.25 22.00 21.75 14.50 16.75 13.88 27.50 15.25 9.13 12.75 22.25 28.63 15.88 27.75 11.88 10.63 16.38 19.63 14.88 6.13 1 1 1 1 1 0 1 1 1 0 0 0 1 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 1 1 0 0 1 0 1 1 0 0 0 0 1 0 0

Fuente: Business North Caroline (mayo de 1993): 34-37.

13-51

13-52

13-53

13-54

Tres de las variables independientes utilizadas en el modelo del ejercicio 13-50 son no significativas, in0.30. Elimine estas variables y corra otra regresin utilizando solamente las tres restantes. cluso para Cunto menos de la variacin en PREC 10 se explica con este modelo? Ahora agregue las variables NY y BANCO como variables explicativas. Para 0.10, existe evidencia de que, si los dems factores permanecen igual, estar en la lista de la Bolsa de Valores de Nueva York tie0.10, los precios de las acciones de bancos e instine un efecto significativo sobre PRECIO? Para tuciones de crdito difieren significativamente de los precios de otras compaas del grupo? Use el modelo del ejercicio 13-51. 0.05, de que un aumento en los dividendos condua)Puede usted llegar a la conclusin, al nivel ce a una disminucin significativa en el precio de las acciones? Establezca y pruebe las hiptesis adecuadas. b) Si lo dems se deja igual, el incremento de $1 en la ganancia por accin lleva a un aumento en el precio de las acciones en una cantidad significativamente mayor que $2? Establezca y pruebe las hipte0.05. sis adecuadas para c) Encuentre un intervalo de confianza del 98% para el cambio en el precio de la accin para el 4/1/93 por cada $1 de aumento en el precio por accin el 12/31/91. d) El National Bank tiene DIV 1.51, GPA 4.52 y PREANTE 40.63. Qu precio de accin predice el modelo para el 4/1/93? Cul es la comparacin entre la prediccin y el precio por accin verdadero de $54.88 que tuvo el National Bank ese da? La ciudad de Peoria, Illinois, se encuentra reestructurando su sistema de impuestos. Se investigaron 12 ciudades de tamao y estructura econmica parecidos en cuanto a impuestos especficoss y el ingreso total de impuestos asociado. a) Utilice los datos siguientes para determinar la ecuacin de mnimos cuadrados que relacione el ingreso con las tres tasas de impuestos.

w w

.M

at

em

at

ic a

1.

co

Propiedad 1.639% 1.686 1.639 1.639 1.639 1.639 1.654 2.643 2.584 2.048 2.176 1.925

Tasas de impuestos Ventas 2.021% 1.972 2.041 2.363 2.200 2.201 2.363 1.000 1.091 1.752 1.648 1.991

Gasolina 3.300/gal 3.300 3.300 0.131 2.540 1.560 0.000 3.300 2.998 1.826 1.555 0.757

Ingreso por imp. (miles de dlares) $28,867.5 28,850.2 29,011.5 28,806.5 28,821.7 28,774.6 28,803.2 28,685.7 28,671.8 28,671.0 28,627.4 28,670.7

b) Se tienen dos propuestas para Peoria. Estime los ingresos totales de impuestos si las tasas son:
Propiedad Proposicin A Proposicin B 2.763% 1.639 Ventas 1.000% 2.021 Gasolina 1.0/gal 3.3

13-55

844 965 470

.M

Ventas (en cientos de barriles) Fresco Para proceso 256 335 672

ic

a1

Determine cul propuesta debe adoptar la ciudad. La cooperativa National Cranberry, una organizacin formada por cultivadores de arndanos que se dedica a procesar y comercializar su producto, est tratando de establecer una relacin entre el precio promedio por barril recibido en cualquier ao dado, y el nmero total de barriles vendidos el ao anterior (dividido en ventas del producto fresco y del producto para procesar). a) Calcule la ecuacin de mnimos cuadrados para predecir el precio a partir de las siguientes cifras:

.c om

Precios del ao anterior 15.50 17.15 11.71

Ventas (en cientos de barriles) Fresco Para proceso 320 528 340 60 860 761

at

Precios del ao anterior 9.79 10.90 15.88

13-56

b) Prediga el precio por barril para el siguiente ao si las ventas de ste son 980 (fresco) y 360 (para proceso). Los telfonos celulares fueron introducidos en Europa en 1980, y desde entonces, su crecimiento en popularidad ha sido algo fenomenal. El nmero de suscriptores en los aos siguientes est contenido en la siguiente tabla:
1981 1982 1983 3,510 34,520 80,180 1984 1985 1986 143,300 288,420 507,930 1987 877,850 1988 1,471,200 1989 2,342,080

13-57

Utilizando el nmero de aos desde la introduccin de telfonos celulares como la variable independiente (es decir, 1981 1, etc.), encuentre la ecuacin lineal de mnimos cuadrados que relaciona a estas dos variables. Observe los residuos, siguen un patrn notorio? Encuentre la ecuacin cuadrtica de mnimos cuadrados. Cul parece ser un mejor ajuste? Mientras se encontraba de compras, buscando una nueva bolsa para dormir, Fred Montana sinti curiosidad acerca de qu caractersticas de una bolsa para dormir son ms importantes para determinar su precio. Fred tom seis bolsas para dormir de Gore-Tex y realiz un anlisis de regresin lineal para averiguarlo.
Relleno (onzas) Swallow Snow Bunting Puffin 14.0 18.0 24.0 Peso total (libras) 2.00 2.25 3.13 Grueso del aislante (pulg.) 5.5 6.5 6.5 Condiciones de temp. (F) 20 10 10 Precio (dlares) 255 285 329
Contina

at

em

Relleno (onzas) Widgeon Tern Snow Goose 25.5 32.5 41.0

Peso total (libras) 3.25 3.63 4.25

Grueso del aislante (pulg.) 7.5 9.0 10.0

Condiciones de temp. (F) 10 30 40

Precio (dlares) 395 459 509

13-58

at

ic a

a) Haga una regresin del precio sobre el relleno de plumas, peso total, grueso del aislante y condiciones de temperatura. Utilizando los valores prob, determine cules de estas variables son significativas al nivel 0.01. b) Qu sucede con la regresin como un todo? Use el valor prob de ANOVA, de nuevo para 0.01, para determinar si la regresin como un todo es significativa. c) Qu problema podra surgir si se usan todas estas variables juntas? Las respuestas a los incisos a) y b) parecen indicar que este problema podra estar presente? Home Depot es una cadena en crecimiento de centros de descuento en materiales para mejorar las casas. La tabla proporciona informacin de los reportes anuales, que son los datos tpicos que usan los analistas financieros para predecir el ingreso futuro de la compaa. a) Desarrolle la ecuacin de regresin mltiple que describa el ingreso total como funcin del nmero de tiendas y el tamao promedio de la tienda. Qu factor parece ser ms importantes para determinar el crecimiento en los ingresos? Como consultor, recomendara una estrategia de expansin enfocada a una dispersin geogrfica amplia (aumentando el nmero de tiendas) o la construccin de un nmero menor de tiendas muy grandes (que aumenta el tamao de las tiendas)? b) Desarrolle una columna de ingreso promedio por empleado. Encuentre la recta de regresin que mejor describa esa variable como funcin del ao (con 1984 codificado como 1, 1985 como 2, etc.) y el tamao promedio de la tienda. Son ms productivos los empleados en tiendas ms grandes o es la recta de tendencia (el factor de regresin AO) un factor ms importante? Como analista, calificara la tendencia a poner tiendas ms grandes como una estrategia exitosa, o juzgara que la inflacin y otros factores son ms importantes.
Nmero de tiendas Tamao promedio de tienda (miles de pies2) 77 80 80 82 86 88 92 95 98 100 103

1.

co m

1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994

.M

Ao

Ingreso total (millones de dlares) ,433 ,701 1,001 1,454 2,000 2,758 3,815 5,136 7,148 9,239 12,477

Nmero de empleados 4,000 5,400 6,600 9,100 13,000 17,500 21,500 28,000 38,900 50,600 67,300

31 50 60 75 96 118 145 174 214 264 340

Fuente: Home Depot, Annual Reports, 1993 y 1994.

13-59

Wal-Mart es una de las compaas ms grandes y exitosas de Estados Unidos, con ms de 2,400 tiendas en operacin y ventas anuales por $82 mil millones de dlares. En el inicio la compaa daba una excelente tasa de rendimiento (ROE) a sus accionistas, pero su desempeo en este rubro ha decado. Junto con el crecimiento rpido, la empresa se ha expandido ms all de concepto original de tienda y ahora incluye Sams Club que es una operacin de margen muy bajo con fuerte rotacin de inventario. Los siguientes datos muestran cifras para los aos fiscales que terminan en enero de la fecha mostrada, el inventario, el porcentaje de tiendas que eran Sams Club y ROE:
Ao 1985 1986 1987 Inventario (miles de millones de dlares) 1.2 1.5 2.2 Porcentaje de Sams Club 1.5 2.6 4.8 ROE 36.7% 33.3 35.2

at

em

Ao 1988 1989 1990 1991 1992 1993 1994 1995

Inventario (miles de millones de dlares) 2.8 3.6 4.7 6.2 7.8 9.8 11.5 14.4

Porcentaje de Sams Club 7.0 7.7 8.1 8.6 10.8 12.2 17.7 17.7

ROE 37.1 37.1 35.8 32.6 30.0 28.5 26.6 24.9

Fuente: Wal-Mart Annual Report, 1995.

Desarrolle una ecuacin de regresin mltiple para pronosticar la ROE para Wal Mart con base en las dos variables dadas. Qu consejo dara a los administradores de la empresa para aumentar la ROE?

.M

at

em

at ic a1 .c

om