Sie sind auf Seite 1von 26

Regresin Lineal

CAPTULO 17

REGRESIN LINEAL

En el captulo anterior se estudiaron aquellos casos en los que los datos recolectados tienen simetra, dando origen a la curva normal. Evidentemente que no todos los casos son como sos, por lo que segn sus caractersticas se clasifican de distintas formas. En este captulo se estudiarn ahora aquellos otros datos que al graficarse, en vez de dar la curva normal, dan casi una lnea recta. El estudio consiste en tratar de encontrar con la mayor aproximacin la ecuacin de la recta a la que ms se acercan todos los puntos para, a partir de ella, intentar deducir o inferir el comportamiento de los que no aparecen en la tabla. Ejemplo 1: Se realiz una encuesta en una fbrica de pinturas para relacionar la cantidad de cierto aditivo qumico agregado al colorante con el tiempo de secado, obtenindose los resultados mostrados en la tabla de la derecha. Graficar esos resultados y sealar la recta que ms se aproxima a dichos valores.

cantidad de aditivo x 1 2 3 4 5 6 7 8 9

tiempo de secado y 2.6 2.3 2.2 2 1.8 1.8 1.4 1.2 1.3

205

Regresin Lineal

Solucin: Graficando los datos de la tabla de la derecha en donde las abscisas (las x) son los valores de la primera columna y las ordenadas (las y) los de la segunda columna, se obtienen los puntos sealados en la figura 17.1. A la grfica correspondiente a todos esos puntos se le llama diagrama de dispersin. Una recta aproximada a esos puntos tambin se ha marcado con lnea punteada en la misma figura 17.1. Se ve que se trata de un caso en el que los datos dan aproximadamente una lnea recta. Por lo pronto en este ejemplo no se har ninguna deduccin a partir de la grfica. Se trata por el momento solamente de mostrar visualmente cmo hay casos en los que los datos graficados dan aproximadamente una lnea recta.

figura 17.1

17.2 ECUACIN DE LA RECTA En el semestre anterior, durante el curso de Geometra Analtica, se estudi la recta y su ecuacin particular, por lo que debe serle familiar al estudiante este tema. Efectivamente, la ecuacin de la recta en forma particular es

y = mx + b
en donde: m = pendiente de la recta b = ordenada al origen

206

Regresin Lineal

Ejemplos de ecuaciones de rectas son las mostradas en la tabla de la derecha en la que se han especificado los correspondientes valores de la pendiente m y de la ordenada al origen b. La ordenada al origen b es la altura sobre el eje de las y por el que pasa la recta, o sea, el punto en donde la recta corta al eje de las y.

ECUACIN

y=

x + 11 3

m=

1 3

b = 11

y = 2x 1

m=2

b = 1
b=0

y=

2x 7

m=

2 7

De tal manera que cuando se tiene un conjunto de datos tales que su grfica da aproximadamente una recta, el primer paso es obtener su ecuacin, para lo cual se requieren los valores de la pendiente m y de la ordenada al origen b. A esa ecuacin se le llama ecuacin de regresin, que significa algo as como ecuacin con la que se regresa a la recta y existen dos frmulas que dan cada una respectivamente el valor de m y el de b. Dichas frmulas son:

m=

n xy x y n x ( x )
2
2

(1)

b=

x y x xy n x ( x )
2 2

(2)

207

Regresin Lineal

Ejemplo 1: La relacin entre el nmero de aos (x) laborando para la empresa y el nmero de ventas logradas (y) por cada vendedor es la mostrada en la siguiente tabla. a) Cuntas ventas pueden esperarse en un trabajador con 16 aos de servicio?; b) Cuntos aos, aproximadamente, se requieren para lograr 14 ventas? Solucin: Lo primero que debe encontrarse es la ecuacin de regresin, es decir, la ecuacin de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior. Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de esta tabla El diagrama de dispersin correspondiente a dicha tabla se muestra en la figura 17.2 de la pgina siguiente.

vendedor Abel Manuel Luis Gloria Jorge Eva Roque Ana Sal Rebeca Daniel Flor Teresa Efran

aos x 3 4 4 5 5 6 6 7 7 8 9 9 10 10

ventas y 2 3 4 4 4 4 5 5 6 6 6 7 7 8

Puede apreciarse en este diagrama de dispersin (figura 17.2, pgina 207) que los puntos insinan una recta, de la cual se va a calcular su ecuacin. Para eso, conforme a la experiencia obtenida en el trabajo de captulos anteriores, por inspeccin de las frmulas (1) y (2) se puede establecer que se requiere elaborar una tabla con cuatro columnas, de la siguiente forma:

208

Regresin Lineal

figura 17.2

La 1 columna encabezada con x; la 2 columna encabezada con y; la 3 columna encabezada con xy y la 4 columna encabezada con x2 de la siguiente manera: De manera que utilizando la frmula ( 1 ) de la pgina 205:

x 3 4 4 5 5 6 6 7 7 8 9 9 10 10 93

y 2 3 4 4 4 4 5 5 6 6 6 7 7 8 71

xy 6 12 16 20 20 24 30 35 42 48 54 63 70 80 520

x2 9 16 16 25 25 36 36 49 49 64 81 81 100 100 687

m=

n xy x y n x ( x )
2 2

m=

(14 )( 520 ) ( 93 )( 71) 2 (14 )( 687 ) ( 93 )

209

Regresin Lineal

m=

677 969

m = 0.698
Y utilizando la frmula ( 2 ) de la pgina 205:

b=

x y x xy n x ( x )
2 2 2

b=

( 687 )( 71) ( 93 )( 520 )


969 417 969

b=

b = 0.430
Obsrvese que como el denominador es el mismo para m como para b, no se hizo ya ninguna sustitucin y solamente se copio el valor de m obtenido antes para ponerlo en este denominador. La ecuacin de la recta buscada es

y = 0.698 x + 0.430
Esta ecuacin sirve para poder contestar las dos preguntas formuladas en el enunciado del problema: Cuntas ventas pueden esperarse en un trabajador con 16 aos de servicio? Cuntos aos, aproximadamente, se requieren para lograr 14 ventas?

210

Regresin Lineal

Como en la ecuacin anterior x representa los aos laborando e y las ventas, para la primera pregunta se tiene como dato que x = 16, de manera que sustituyndolo en la ecuacin de la recta, se obtiene:

y = mx + b

y = 0.698 (16 ) + 0.430

y = 11.59
es decir, se pueden esperar aproximadamente entre once y doce ventas de un trabajador con 16 aos laborando. Para la segunda pregunta, se tiene como dato que y = 14, o sea 14 ventas, de manera que sustituyendo en la ecuacin de la recta, se obtiene:

y = mx + b

14 = 0.698 x + 0.430 14 0.430 = 0.698 x x= 13.57 0.698

x = 19.44
Significa que se requieren aproximadamente de diez y nueve a veinte aos de servicio para alcanzar 14 ventas. La figura 17.3 muestra los resultados obtenidos.

211

Regresin Lineal

figura 17.3

Ejemplo 2: La relacin entre el nmero de semanas (x) de haber comenzado con un negocio y las prdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla. Cuntas semanas pueden esperarse para que las prdidas sean nulas? x y 1 12.3 2 11 3 9 4 8 5 6 6 5.2 7 4

Solucin: Lo primero que debe encontrarse es la ecuacin de regresin, es decir, la ecuacin de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior. Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de esta tabla El diagrama de dispersin se muestra en la figura 17.4, en el cual los puntos insinan una recta, de la cual se va a calcular su ecuacin.

212

Regresin Lineal

Para eso, conforme a la expe riencia obtenida en el trabajo de captulos anteriores, por inspeccin de las frmulas (1) y (2) de la pgina 205, se puede establecer que se requiere elaborar una tabla con cuatro columnas, de la siguiente forma: La 1 columna encabezada con x; la 2 columna encabezada con y ; la 3 columna encabezada con xy y la 4 columna encabezada con x2 de la siguiente forma:

figura 17.4

x 1 2 3 4 5 6 7 28

y 12.3 11 9 8 6 5.2 4 55.5

xy 12.3 22 27 32 30 31.2 28 182.5

x2 1 4 9 16 25 36 49 140

De manera que por la frmula (1):

m=

n xy x y n x ( x )
2 2

(1)

m= m=

( 7 )(182.5 ) ( 28 )( 55.5 ) 2 ( 7 )(140 ) ( 28 )


276.5 196

m = 1.41
y utilizando la frmula (2):

213

Regresin Lineal

b=

x y x xy n x ( x )
2 2 2

(2)

b=

(140 )( 55.5 ) ( 28 )(182.5 )


196

b = 13.57
La ecuacin de la recta buscada es

y = 1.41x + 13.57
Esta ecuacin sirve para poder contestar la pregunta formulada en el enunciado del problema: Cuntas semanas pueden esperarse para que las prdidas sean nulas? Como en la ecuacin anterior x representa el nmero de semanas de haber comenzado con un negocio mientras que y las prdidas registradas, para la pregunta se tiene como dato que y = 0 , de manera que sustituyndolo en la ecuacin de la recta, se obtiene:

0 = 1.41x + 13.57
x = 9.62
es decir, se puede esperar aproximadamente que entre la novena y la dcima semanas las prdidas desaparezcan. La figura 17.5 muestra los resultados obtenidos.

214

Regresin Lineal

figura 17.5

17.3 COEFICIENTE DE CORRELACIN Al hacer el diagrama de dispersin y trazar sobre l la recta perteneciente a la ecuacin obtenida, se nota que mientras algunos puntos pertenecen a la recta, es decir, estn sobre ella, por lo general la mayora de los puntos quedan afuera de ella. Si los puntos que quedan afuera estn situados muy prximos a la recta, o sea hay poca distancia entre la recta y cada punto, se dice que hay poca dispersin ; a la inversa, si los puntos que quedan afuera estn situados distantes a la recta se dice que hay mucha dispersin.

215

Regresin Lineal

Obviamente, cuando se hacen predicciones a partir de la recta obtenida, stas sern ms confiables mientras menos dispersin exista. Para tener un parmetro o medida de esa dispersin se utiliza una frmula que arroja ciertos resultados numricos, los cuales tienen el siguiente significado: si da igual a 1 quiere decir que todos los puntos estn sobre la recta; si da 0 quiere decir que la grfica no se parece en nada a una recta. Los valores intermedios tienen el significado intermedio entre los dos extremos antes citados. Dicha frmula es:

r=

n xy x y n x 2 ( x )2 n y 2 ( y )2

Puede verse que las sumatorias que se requieren son casi las mismas obtenidos en la elaboracin de la tabla para calcular la ecuacin de regresin de la recta agregando solamente una columna ms, la de y 2 , como se ver en los siguientes ejemplos. Adems el numerador y el primer factor del denominador son exactamente los mismo ya calculados para obtener el valor de la pendiente m.

Ejemplo 1: La relacin entre el nmero de semanas (x) de haber comenzado con un negocio y las prdidas registradas (y) es la mostrada en la siguiente tabla: Obtener su coeficiente de correlacin. x y 1 12.3 2 11 3 9 4 8 5 6 6 5.2 7 4

Solucin: Se trata del mismo problema resuelto en el ejemplo 2 de la pgina 210. As que conforme a la experiencia obtenida en el trabajo de captulos anteriores, por inspeccin de la

216

Regresin Lineal

frmula se puede establecer que se requiere elaborar una tabla con cinco columnas, de la siguiente forma:

x 1 2 3 4 5 6 7 28

y 12.3 11 9 8 6 5.2 4 55.5

xy 12.3 22 27 32 30 31.2 28 182.5

x2 1 4 9 16 25 36 49 140

y2 151.29 121 81 64 36 27.04 16 496.33

La 1 columna encabezada con x; la 2 columna encabezada con y; la 3 columna encabezada con xy, la 4 columna encabezada con x2 y la 5 columna encabezada con y2, as que utilizando la frmula del coeficiente de correlacin

r=

n xy x y n x 2 ( x )2 n y 2 ( y )2

sustituyendo:

r=

276.5 7 496.33 ) ( 55.5 ) [196 ] (


2

217

Regresin Lineal

Recordar que el numerador y el primer factor de la raz cuadrada del denominador son los mismos ya calculados en el ejemplo 2 de la pgina 210 para la pendiente m, por lo que ya solamente se copiaron dichos valores.

r = 0.994
El valor obtenido es negativo porque la recta tiene pendiente negativa y adems es su valor absoluto est muy cercano al 1, lo que significa que los puntos estn realmente muy cercanos a la recta calculada.

Ejemplo 2: La relacin entre el nmero de rboles de limn (x) existentes en un huerto y los kilogramos de limn cosechados (y) es la mostrada en la siguiente tabla. Obtener su coeficiente de correlacin.

x y

1 12

2 24

3 36

4 48

5 60

6 72

7 84

Solucin: Se requiere elaborar una tabla con cinco columnas, la cual se muestra en la siguiente pgina. La 1 columna encabezada con x; la 2 columna encabezada con y; la 3 columna encabezada con xy, la 4 columna encabezada con x2 y la 5 columna encabezada con y2 porque es lo que exige la frmula que se va a emplear. As que utilizando la frmula del coeficiente de correlacin
r= n xy x y n x 2 ( x )2 n y 2 ( y )2

218

Regresin Lineal

x 1 2 3 4 5 6 7 sustituyendo:
r =

y 12 24 36 48 60 72 84

xy 12 48 108 192 300 432 588

x2 1 4 9 16 25 36 49

y2 144 576 1296 2304 3600 5184 7056

7 (1680 ) ( 28 )( 336 ) 7 (140 ) ( 28 ) 2 7 ( 20160 ) ( 336 ) 2

r =

11 760 9408

( 980 784 )(141120 112896 )


2352 5 531 904

r=

r =1
El valor obtenido es 1, lo que significa que todos los puntos estn sobre la recta calculada. Ver figura 17.6.

219

Regresin Lineal

figura 17.6

220

Regresin Lineal

C U E S T I O N A R I O 17

1) Se realiz una encuesta en diversas familias para relacionar el nmero de hijos en la familia (x) con el porcentaje de gastos mdicos realizados al mes (y), la cual se muestra en la siguiente tabla:

hijos x familia Carranza familia Corrales familia Bentez familia Dvila familia Mndez familia Obregn familia Reyes familia Jimnez familia Ballesteros familia Uribe familia Zavala familia Quiones familia Ruiz familia Hernndez 0 1 1 1 1 2 2 3 4 4 5 5 5 6

% de gastos y 1% 4.6 % 4.7 % 5% 5.1 % 8.9 % 9% 13 % 17.1 % 17.2 % 20.8 % 21 % 21.1 % 25 %

a) Qu porcentaje de gastos mdicos puede esperarse de una familia con 11 hijos? b) Si una familia tiene un gasto aproximado del 40%, Cuntos hijos se espera que tenga? c) Calcular r.

221

Regresin Lineal

2) En una encuesta realizada en diversas familias para relacionar el nmero de hijos en la familia (x) con el porcentaje de gastos en ropa realizados al mes (y), se obtuvieron los datos que se muestran en la siguiente tabla:

hijos x familia Caldern familia Corrales familia Bentez familia Durango familia Mondragn familia Olvera familia Reyes familia Justiniani familia Balbuena familia Uribe familia Zavala familia Quiones familia Rentera familia Hernndez familia Ocaranza 1 1 1 1 1 2 2 3 3 4 4 4 5 5 6

% de gastos y 1% 2% 4.3 % 4.5 % 3.1 % 8.9 % 9% 14 % 17.9 % 20 % 23 % 26 % 31.1 % 30 % 37 %

a) Qu porcentaje de gastos en ropa puede esperarse de una familia con 10 hijos? b) Si una familia tiene un gasto aproximado del 51%, Cuntos hijos se espera que tenga? c) Calcular r.

222

Regresin Lineal

3) Se hizo un estudio en una fbrica para relacionar el nmero de enfermedades al ao (x) de cada trabajador con el porcentaje de rendimiento en el trabajo (y), obtenindose los datos que se muestran en la siguiente tabla:

n de enfermedades x Ismael Carranza Z. Jos Benito Corrales Y. Ramn Bentez F. Marco Dvila G. Estanislao Mndez M. Juan Obregn L. Jess de la O. Reyes Arturo Jimnez A. Clemente Ballesteros H. Dionisio Uribe Q. Estanislao Zavala R. Roberto Quiones D. Rubn Ruiz de la T. Fernando Hernndez y H. 0 0 0 1 1 1 2 2 2 3 3 4 4 5

% de rendimiento y 100 % 96.6 % 94.7 91 % 88.2 % 90 % 82 % 79.1 % 85.7 % 73.2 % 73 % 64 % 60.8 % 55 %

a) Si un trabajador tiene un rendimiento aproximado de 10 %, Cuntas enfermedades al ao se espera que tenga? b) Qu porcentaje de rendimiento puede esperarse de un trabajador que se enferme siete veces durante el ao? c) Calcular r.

223

Regresin Lineal

4) Se realiz una encuesta en una fbrica para relacionar el nmero de aos de experiencia de cada trabajador (x) con el porcentaje de eficiencia en el trabajo (y), la cual se muestra en la siguiente tabla:

antigedad x Ismael Carranza Jurez Jos Benito Corrales S. Ramn Bentez de la H. Marcos Durn Dvila Estanislao Mndez Mndez Juan Carlos Obregn T. Jess de la O. Reyes P. Arturo Jimnez J. Clemente Ballesteros J. Dionisio Uribe Suarez Esteban Suarez de la F. Roberto Arturo Quiones Rubn Ruiz y Garza Fernando Hernndez U. Francisco Ocaranza L. 0 0 0 1 1 1 2 2 2 3 3 4 4 5 5

% de eficiencia y 50 % 53.6 % 55.7 % 57 % 58 % 57 % 60.5 % 61 % 61 % 65.2 % 68.1 % 69.2 % 69 % 69 % 73 %

a) Qu porcentaje de rendimiento puede esperarse de un empleado con 7 aos de experiencia en el trabajo? b) Si se desea que los trabajadores alcancen un rendimiento aproximado del 90%, Cuntos aos de experiencia laboral debe esperarse que tengan? c) Calcular r.

224

Regresin Lineal

5) En una fbrica de combustible se hizo un estudio en 15 vehculos de la misma marca y modelo para relacionar la velocidad (x) en km/h con el gasto de combustible (y) en litros por kilmetro, la cual se muestra en la siguiente tabla:

velocidad (km/h) x vehculo 1 vehculo 2 vehculo 3 vehculo 4 vehculo 5 vehculo 6 vehculo 7 vehculo 8 vehculo 9 vehculo 10 vehculo 11 vehculo 12 vehculo 13 vehculo 14 vehculo 15 4.35 10 15 15 15 20 20 20 25 25 30 30 35 35 40

consumo de combustible y 5 4.66 4.51 4.46 4.36 4 3.95 4.06 3.77 3.86 3.61 3.2 3.17 3.15 2.87

a) Si una vehculo gasta 1 litro por kilmetro, A qu velocidad debe correr aproximadamente para lograr ese consumo? b) Qu gasto de combustible puede esperarse de un vehculo cuando corra a la velocidad de 40 km/h? c) Calcular r.

225

Regresin Lineal

6) Se realiz una encuesta en diferentes ciudades importantes de un pas para relacionar el grado de contaminacin ambiental (x) en imecas con el porcentaje de poblacin afectado de las vas respiratorias (y), la cual se muestra en la siguiente tabla:

imecas x poblacin 1 poblacin 2 poblacin 3 poblacin 4 poblacin 5 poblacin 6 poblacin 7 poblacin 8 poblacin 9 poblacin 10 poblacin 11 poblacin 12 poblacin 13 poblacin 14 45 45 50 55 65 65 70 70 70 75 80 90 95 95

% de poblacin afectada y 2% 1.5 % 4% 6% 9% 10 % 11 % 12 % 13 % 13 % 16 % 21 % 22 % 25 %

a) Si una poblacin alcanza 150 imecas, Qu porcentaje de su `poblacin es de esperarse que padezca de las vas respiratorias? b) Si una poblacin tiene el 60% de enfermos de las vas respiratorias, Qu grado de contaminacin es de suponerse que tenga? c) Calcular r.

226

Regresin Lineal

7) Para relacionar el nmero de cigarros fumados al da por persona (x) con el porcentaje de habitantes fumadores que adquirieron cncer pulmonar (y), se realiz una estudio en diferentes ciudades con los siguientes resultados: n de cigarros al da x poblacin 1 poblacin 2 poblacin 3 poblacin 4 poblacin 5 poblacin 6 poblacin 7 poblacin 8 poblacin 9 poblacin 10 poblacin 11 poblacin 12 poblacin 13 poblacin 14 poblacin 15 2 2 3 3 3 5 5 10 10 12 12 12 15 15 20 fumadores que adquirieron cncer pulmonar y 15 % 16 % 17.5 % 18 % 18 % 23.5 % 24 % 37.8 % 38 % 42 % 43 % 44 % 52 % 53 % 66.5 %

a) Si una persona fuma 8 cigarros al da, Qu probabilidad tiene de adquirir cncer pulmonar? b) Si una persona tiene el 95% de probabilidad de adquirir cncer pulmonar, Cuntos cigarros al da aproximadamente fuma? c) Calcular r.

227

Regresin Lineal

8) Una encuesta en diferentes hogares con el objetivo de relacionar el nivel econmico de las familias medido en nmero de salarios mnimos de ingreso (x) con el nmero de kilos de basura diarios producidos al consumir comida chatarra (y), arroj los siguientes datos: ingreso en salarios mnimos x hogar 1 hogar 2 hogar 3 hogar 4 hogar 5 hogar 6 hogar 7 hogar 8 hogar 9 hogar 10 hogar 11 hogar 12 hogar 13 hogar 14 hogar 15 1 1 1.5 1.5 2 2 2 2.5 2.5 3 3 3.5 3.5 4 4 kilos de basura al da y 8 8.5 7 6.5 6 5.8 5.5 5 4.7 3.6 3.5 2.5 2.2 2 1.7

a) Si una familia tiene un ingreso de 6 salarios mnimos, Cuntos kilos de basura producidos por el consumo de comida chatarra es de esperarse que tiren? b) Si una familia produce 4 kilos diarios de basura de desperdicios de comida chatarra, De cuntos salarios mnimos de ingresos es de esperarse que sea su nivel de vida? c) Calcular r.

228

Regresin Lineal

9) Se sabe que las higuerillas crecen mejor en aguas contaminadas. Por lo tanto, se realiz un estudio en diferentes ros con aguas contaminadas para relacionar el nmero de higuerillas (x) que crecen en sus riveras por cada 5 kilmetros, con el grado de contaminacin de las aguas (y), la cual se muestra en la siguiente tabla: nmero de higuerillas x ro 1 ro 2 ro 3 ro 4 ro 5 ro 6 ro 7 ro 8 ro 9 ro 10 ro 11 ro 12 ro 13 ro 14 ro 15 6 11 28 30 31 48 50 60 65 88 90 90 96 115 120 grado de contaminacin y 1 2 5 5 5 8 9 10 10 15 15 16 16 20 20

a) Si en un ro se localizan 225 higuerillas a lo largo de 5 kilmetros, Qu porcentaje de contaminacin en sus aguas es de esperarse? b) Para un ro cuyas aguas estn contaminadas al 70%, Cuntos higuerillas puede esperarse que se encuentren en su rivera por cada 5 km? c) Calcular r.

229

Regresin Lineal

10)

Para determinar el posible rendimiento de cada jugador, se realiz una estudio para relacionar la edad del deportista (x) con el tiempo en minutos (y) que soporta antes de bajar su rendimiento por agotamiento, la cual se muestra en la siguiente tabla: edad x jugador 1 jugador 2 jugador 3 jugador 4 jugador 5 jugador 6 jugador 7 jugador 8 jugador 9 jugador 10 jugador 11 jugador 12 jugador 13 jugador 14 jugador 15 15 15 16 16 17 18 19 19 20 25 25 28 30 30 35 tiempo y 100 105 98 96 93 90 85 82 82 65 70 55 50 47 30

a) Si un jugador rinde 74 minutos, Qu edad es de esperarse que tenga? b) Para un jugador de 32 aos, Cuntos minutos de rendimiento pueden esperarse? c) Calcular r.

230

Das könnte Ihnen auch gefallen