Sie sind auf Seite 1von 36

REGRESION Y CORRELACION SIMPLE

x e y. Visualmente se puede buscar patrones que indiquen el tipo de relacin que se da entre las variables. Relaciones posibles entre X e Y en diagramas de dispersin.
y y b) Lineal inversa a) Lineal directa y c) Curvilnea directa

EL DIAGRAMA DE DISPERSIN Es un grfico que permite detectar la existencia de una relacin entre dos variables

x y d) Curvilnea Inversa

x y e) Lineal inversa con ms dispersin y f) No hay relacin

Ejemplo Se desea conocer los contenidos de microgramos de plomo por decilitro de sangre , de los trabajadores de una fundicin de acuerdo a sus aos trabajados . Procedimiento: Procedimiento : 1er Paso Paso: : Rena partes de datos (X, Y), cuya relacin desea estudiar y organice la informacin en una tabla tabla. .

Y (Microgramos de plomo por decilitro de sangre )

19

25

27

40

50

X (experiencia en aos)

4,5

6,0

7,5

9,0

10,5

2do Paso Paso: : Encuentre los valores mnimos y mximos para X e Y. Elija las escalas que se usarn en los ejes horizontal y vertical, de manera que ambas longitudes sean aproximadamente iguales, facilitando la lectura del diagrama diagrama. .

Y 30 20

10 5 1 2 3 4 5 X

3er Paso Paso: : Registre los datos en el grfico grfico. . Cuando se obtengan los mismos valores en diferentes observaciones, muestre estos puntos haciendo crculos concntricos (o), o registre el segundo punto muy cerca del primero primero. .
Y 40 30

20 10

10

4to Paso Paso: : Agregue toda la informacin que puede ser de utilidad para entender el diagrama, tal como como: : ttulo del diagrama, perodo de tiempo, nmero de pares de datos, nombre de la variable y unidades de cada eje, entre otros otros. .

EMPRESA ABC EXPERIENCIA DEL VENDEDOR Y NIVEL DE VENTAS


(Junio 2002)

Ventas
(unidades)

14 12 10 8 6 4 2

1 2

3 4

EXPERIENCIA (Aos)

Fuente: Hoja de desempeo. Departamento de Personal

Las ecuaciones lineales simples Si dos variables X e Y, estn relacionadas, se puede expresar como una relacin, por ejemplo ejemplo. . Y = 3 + 1 .5 X Al conocer la ecuacin se puede puede: : a) Calcular el valor de Y para cualquier valor dado de X b) Conocer el cambio en Y, cuando X vara en X
Valor dado de X Valor calculado de Y Cambio de Y

1 2 3 4 5

4.5 6.0 7.5 9.0 10.5

1.5 1.5 1.5 1.5

El aumento en Y, cuando X vara en una unidad, est dado por el coeficiente de X. Ejemplo: Ejemplo : En Y = 10 + 2X cuando X aumenta en 1, Y aumenta en 2

En Y = 5 0.8X cuando X aumenta en 1, Y disminuye en 0,8

Tipos de Variables En una ecuacin como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le llama variable independiente independiente. .

Y
Variable Dependiente

a + b X
Variable Independiente

Tipos de Relaciones Cuando cambios en X provoca en Y en igual sentido (aumentos o disminuciones), las variables estn directamente relacionadas relacionadas. . Se observa el signo + Ejemplo: Ejemplo :
y

Y = 3 + 5X

o o o o o o o o o

Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o viceversa), las variables estn inversamente relacionados relacionados. . Se observa el signo . Ejemplo: Ejemplo :
y

Y = 20 3X

o o o o o o o o o

Grfica de una ecuacin de primer grado grado: : Ejemplo. Ejemplo . Y = 3 + 1 .5 X


X Y 1 4.5 2 6.0 3 7.5 4 9.0 5 10.5

Los cinco pares de valores se diagraman de la forma siguiente siguiente: :


Y 12 11 10 9 8 7 6 5 4 3 2 1

Forma general general: : La ecuacin simple de primer grado tiene la siguiente forma general: general : Y = a + bX Donde: Donde: b: pendiente, o sea, el cambio en Y cuando X = 1. a: el valor autnomo, es decir, Y = a; cuando X = 0. En la grfica es la interseccin con el eje Y. Ejemplo: Ejemplo : Y = 3 + 1 .5 X

a=3 x

Es una tcnica estadstica que permite determinar la mejor ecuacin que represente entre dos variables relacionadas relacionadas. . Para poder establecer la relacin cuantitativa entre X e Y es necesario disponer de pares de observaciones observaciones. . Cada par ha sido registrado a la misma unidad elemental elemental. . Ejemplo: En la empresa comercial ABC, se desea determinar la Ejemplo: relacin simple entre la experiencia del vendedor en aos y las unidades vendidas durante un mes mes. . Se seleccionan 5 vendedores al azar, los datos registrados se presentan a continuacin continuacin. .

Regresin lineal simple

VENDEDOR EXPERIENCIA (aos) X VENTAS (unidades) Y

CARLOS

PEDRO

JOSE

JUAN

MANUEL

3 9

1 5

2 7

5 14

4 10

El mtodo de Mnimos Cuadrados


Es el procedimiento matemtico utilizado para determinar los valores numricos de los coeficientes de regresin regresin: : a y b. La ecuacin general Y = a + bx se llama ecuacin de regresin y permite estimar o predecir los valores de Y.

ESTIMADORES MNIMOS - CUADRADOS

n ( XY ) ( X) ( Y) = n ( X 2 ) ( X) 2 Y X = = Y X n n

El anlisis de correlacin
El anlisis de correlacin es la tcnica estadstica que permite describir el grado hasta el cual una variable est linealmente relacionada con otra otra. .

Correlacin Simple
El Anlisis de correlacin es un grupo de tcnicas estadsticas que nos permiten medir la intensidad de la relacin que puede existir entre dos o ms variables variables. . El objetivo es determinar qu tan intensa es la relacin y utilizamos para ello el coeficiente de correlacin correlacin. .

Coeficiente de Correlacin Simple


y y

Correlacin Cero , r= 0
y

Correlacin Negativa Dbil, r= -0.50

Correlacin Negativa Intensa, r = -0.95

Coeficiente de Correlacin Simple

n ( XY) ( X) ( Y) r = [ n ( X 2 ) ( X ) 2 ] [ n ( Y 2 ) ( Y ) 2
Correlacin Negativa Perfecta
Correlacin Negativa Intensa -1.00 Correlacin negativa moderada -0.50 Correlacin Negativa Correlacin negativa dbil 0

Ninguna Correlacin
Correlacin positiva dbil Correlacin positiva moderada 0.50 Correlacin Positiva

Correlacin positiva perfecta


Correlacin positiva intensa 1.00

Ejemplo: Ejemplo: Un fabricante de tanques de plstico que los haca usando el mtodo de moldeo por soplado tuvo dificultades con tanques defectuosos que tenan paredes delgadas delgadas. . Se sospechaba que la causa de las paredes defectuosas era la variacin en la presin del aire de soplado, la cual variaba cada da da. . La tabla 8.1 muestra la informacin sobre la presin del aire soplado y el porcentaje de defectos defectos. . Se hace un diagrama de dispersin con estos datos, siguiendo los pasos indicados anteriormente. anteriormente . Paso 1 Como se ve en la tabla 8.1, hay 30 pares de datos datos. . Paso 2 En este ejemplo, sea x (eje horizontal) la presin del aire, e y (eje vertical) el porcentaje de defectos defectos. . Entonces Entonces: : el valor mximo de x: xmx = 9.4 (kgf/cm2) el valor mnimo de x: xmin = 8.2 (kgf/cm2) el valor mximo de y: ymx = 0.928 (%) el valor mnimo de y: ymin = 0.864 (%)

Marcamos: Marcamos : El eje horizontal en intervalos de 0.5 (kgf/cm2), desde 8.0 hasta 9.5 (kgf/cm2), y el eje vertical en intervalos de 0.01 (%), desde 0.85 hasta 0.93 (%). Paso 3 Registre los datos (ver la figura 8.1) Paso 4 Indique el intervalo de tiempo de la muestra obtenida (Oct (Oct. . 1 Nov. Nov . 9), el nmero de muestras (n = 30 30), ), el eje horizontal (presin del aire de soplado [kgf/cm2]), el eje vertical (porcentaje de defectos [%]), y el ttulo del diagrama (Diagrama de dispersin de presin del aire de soplado y porcentaje de defectos) defectos). .

Fecha

Presin de aire (Kg/cm2 )

Porcentaje de defectos (%) 0.889 0.884 0.874 0.891 0.874 0.886 0.911 0.912 0.895 0.896 0.894 0.864 0.922 0.909 0.905

Fecha

Presin de aire (Kg/cm2 )

Porcentaje de defectos (%) 0.892 0.877 0.885 0.866 0.896 0.896 0.928 0.886 0.908 0.881 0.882 0.904 0.912 0.925 0.872

Oct. 1 2 3 4 5 8 9 10 11 12 15 16 17 18 19

8.6 8.9 8.8 8.8 8.4 8.7 9.2 8.6 9.2 8.7 8.4 8.2 9.2 8.7 9.4

Oct. 22 23 24 25 26 29 30 31 Nov. 1 2 5 6 7 8 9

8.7 8.5 9.2 8.5 8.3 8.7 9.3 8.9 8.9 8.3 8.7 8.9 8.7 9.1 8.7

Tabla 8.1: Datos de presin del aire de soplado y porcentaje de defectos de tanque plstico.

(%)
0 .9 4 0 .9 3 0 .9 2 0 .9 1 0 .9 0 .8 9 0 .8 8 0 .8 7 0 .8 6 8

Oct. 1 Nov. 9 n = 30

% Defectos

8 .5

9 .5

(kgf/cm 2 )

Presin de aire (Kg/cm 2 ) Figura 8.1: Diagrama de dispersin de presin del aire de soplado y porcentaje de defectos.

Fecha Oct. 1 2 3 4 5 8 9 10 11 12 15 16 17 18 19 22 23 24 25 26 29 30 31 Nov. 1 2 5 6 7 8 9 Total

x 8.6 8.9 8.8 8.8 8.4 8.7 9.2 8.6 9.2 8.7 8.4 8.2 9.2 8.7 9.4 8.7 8.5 9.2 8.5 8.3 8.7 9.3 8.9 8.9 8.3 8.7 8.9 8.7 9.1 8.7 263.2

y 0.889 0.884 0.874 0.891 0.874 0.886 0.911 0.912 0.895 0.896 0.894 0.864 0.922 0.909 0.905 0.892 0.877 0.885 0.866 0.896 0.896 0.928 0.886 0.908 0.881 0.882 0.904 0.912 0.925 0.872 26.816

x2 73.96 79.21 77.44 77.44 70.56 75.69 84.64 73.96 84.64 75.69 70.56 67.24 84.64 75.69 88.36 75.69 72.25 84.64 72.25 68.89 75.69 86.49 79.21 79.21 68.89 75.69 79.21 75.69 82.81 75.69 2312.02 Tabla 8.3

Y2 0.79032 0.78146 0.76388 0.79388 0.76388 0.78500 0.82992 0.83174 0.80102 0.80282 0.79924 0.74650 0.85008 0.82628 0.81902 0.79566 0.76913 0.78322 0.74996 0.80282 0.80282 0.86118 0.78500 0.82446 0.77616 0.77792 0.81722 0.83174 0.85562 0.76038 23.97833

xy 7.6454 7.8676 7.6912 7.8408 7.3416 7.7082 8.3812 7.8432 8.2340 7.7952 7.5096 7.0848 8.4824 7.9083 8.5070 7.7604 7.4545 8.1420 7.3610 7.4368 7.7952 8.6304 7.8854 8.0812 7.3123 7.6734 8.0456 7.9344 8.4175 7.5864 235.3570

ESTIMADORES MNIMOS - CUADRADOS

n ( XY ) ( X) ( Y) = n ( X 2 ) ( X) 2 Y X = = Y X n n

Clculo de y

Clculo del coeficiente de correlacin


r= S ( xy) , S ( xx ) .S yy) (8.1)

n 2 xi ) n n i =1 2 2 S ( xx ) = ( x 1 x ) = x 1 n i =1 i =1

(8.2)

S ( yy) =

(y
i =1

y) =
2

i =1

n 2 y ) i i =1 2 y1 n

(8.3)

S ( xy) =

(x
i =1

x ) (yi y )

n n x . y i i n i = 1 i = 1 = x i yi n i =1
A partir de esto, tenemos: 2 ( x ) 263.2 2 2 i S ( xx ) = x i = 2312.02 = 2.88 n 30 ( y i ) 2 26.816 2 2 S ( yy) = y i = 23.97833 = 0.00840 n 30

(8.4)

(8.5) (8.6)

S(xy) = x i yi

( x i ) ( yi ) 263.2 x 26.816 = 235.3570 = 0.0913 n 30 0.0913 r= = 0.59 2.88 x 0.00840

(8.7)

(8.8)

El valor r es 0.59 59, , de manera de s hay una correlacin positiva entre la presin del aire de soplado y el porcentaje de tanques plsticos defectuosos defectuosos. .

RESULTADOS EMPLEANDO MINITAB


Anlisis de regresin: % DEFECTOS vs. PRESION La ecuacin de regresin es % DEFECTOS = 0.616 + 0.0317 PRESION

Predictor Coef Coef. de EE T Constante 0.61563 0.07261 8.48 PRESION 0.031714 0.008271 3.83

P 0.000 0.001

S = 0.0140334 R-cuad. = 34.4% R= 0.5865 Anlisis de varianza Fuente GL SC MC F P Regresin 1 0.0028953 0.0028953 14.70 0.001 Error residual 28 0.0055142 0.0001969 Total 29 0.0084095

La tabla 8.2 muestra los datos de un experimento en el cual la presin del aire se cambi y el espesor de las paredes de los tanques se midi en cada ocasin ocasin. . La figura 8.2 es un diagrama de dispersin basado en los datos datos. . A partir de este diagrama, parecera que la presin del aire y el espesor de las paredes tuvieran una relacin en lnea recta recta. . Llamemos x a la presin del aire y, y al espesor de las paredes, supongamos una relacin en lnea recta recta; ; y = + x Este tipo de lnea recta suele llamarse lnea de regresin, donde y es la variable que responde (o variable dependiente), y x es la variable explicativa (o independiente) independiente). . As mismo, se llama constante y se llama pendiente de la ecuacin. ecuacin .

Otro ejemplo de Anlisis de Regresin Regresin: :

Presin del aire (Kg/cm2 ) Ancho de la pared (mm)

8.0

8.5

9.0

9.5

10.0

4.62 4.50 4.43 4.81

4.12 3.88 4.01 3.67 Tabla 8.2

3.21 3.05 3.16 3.30

2.86 2.53 2.71 2.62

1.83 2.02 2.24 1.95

Ancho de la pared (mm)

6 5 4 3 2 1 0 7 .5

n = 20

8 .5

9 .5

10

(kgf/cm2 )

Presin del aire (kg/cm2 ) Figura 8.2: Relacin entre la presin del aire y el espesor

Estimacin de las lneas de Regresin Regresin: : Por medio del mtodo de los mnimos cuadrados, se obtienen y . Paso 1 Obtenga x e y de los datos datos. . Paso 2 Calcule S( S(xx xx) ) y S( S(yy yy) ) Paso 3 S ( xy) (8.10) (8.11 Se obtiene y se obtiene de = S = y) x 11) ) ( xx

^ Ahora, usando los datos en la tabla 8.3, calculemos la lnea de regresin regresin: : Paso 1 x = (8.0 + 8.5 + 9.0 + 9.5 + 10 10. .0) x 4/20 = 9.00 (8.12 12) ) y = (4.62 + 4.50 + ... + 1.95 95)/ )/20 20 = 3.276 (8.13 13) ) Paso 2 S(xx S( xx) ) = xi2 - (xi)2 / n = 1630 1802/20 = 10 10. .0 (8.14 14) ) S(xy S( xy) ) = xi yi (xi) . (yi) / n = 576 576. .88 180 x 65 65. .22 22/ /20 = -12 12. .8 (8.15 15) )

Paso 3 = -12 12. .8/10 10. .0 = -1.28 = 3.276 (-1.28 28) ) x 9.00 = 14 14. .80 (8.16 16) ) (8.17 17) )

De esta manera, la lnea de regresin se expresa por y = 14 14. .80 1.28 28x x. Es decir, por cada 1 kgf/cm2 que aumente la presin del aire, el espesor de la pared disminuye en 1.28 mm mm. . r = 0.9782
y
6 5

n = 20 y = 14.80 1.28x

Ancho de 4 la pared (mm) 3


2 1 0 7.5

8.5

9.5

10

(kgf/cm2) Presin del aire (kg/cm2)

RESULTADOS EMPLEANDO MINITAB


Anlisis de regresin: ESPESOR vs. NUEVA PRESION La ecuacin de regresin es ESPESOR = 15.0 - 1.30 NUEVA PRESION

Predictor Constante

Coef Coef. de EE 14.9875 0.5886 0.06520

T 25.46 -20.00

P 0.000 0.000

NUEVA PRESION -1.30400

S = 0.206168 R-cuad. = 95.7% R = 0.9782

Anlisis de varianza Fuente GL SC Regresin 1 17.004 Error residual 18 0.765 Total 19 17.769

MC 17.004 0.043

F 400.05

P 0.000