Sie sind auf Seite 1von 79

Seven Basic Tools of Quality: Linear Correlation and Regression Analysis.

G. Edgar Mata Ortiz

El anlisis de correlacin es
una herramienta que tiene
por objetivo determinar si dos
variables, una de ellas llamada
independiente (x), y la otra
dependiente(y), estn
relacionadas.
Se dice que la variable y
depende de la variable x
cuando existe una buena
correlacin entre ellas.

El anlisis de correlacin es til


porque, una vez establecida la
existencia de una buena
correlacin es posible efectuar
predicciones del valor de la
variable dependiente de
acuerdo al valor de la variable
independiente utilizando la
funcin de regresin.
Naturalmente estas
predicciones son solamente
aproximadas.

Cuando la correlacin entre las


variables es lineal, es decir, se
relacionan proporcionalmente,
entonces se llama correlacin y
regresin lineal.
Si solamente existe una variable
independiente recibe el nombre
de correlacin lineal simple.
Si son dos o ms variables
independientes recibe el
nombre de correlacin lineal
mltiple.

El consumo de agua en una casa


habitacin depende del
nmero de personas que viven
en ella.
Est claro que esta dependencia
o correlacin no es absoluta;
seguramente habr situaciones
en las que alguna casa habitada
por una o dos personas tenga un
mayor consumo que otra en la
que viva una familia de 5 o ms
personas.

Existen muchas otras


variables que presentan
esta dependencia:
La estatura y el peso de
diversas personas;
generalmente un hombre
ms alto tendr un peso
mayor que uno ms bajo,
aunque seguramente
podremos encontrar
contraejemplos de esta
informacin, casi siempre
la afirmacin es cierta.

Se desea estimar el consumo promedio de agua en cierta


rea habitacional que se construir prximamente, para
elaborar un plan de abastecimiento hacia dicha zona.

Se dispone de informacin acerca del precio de las casas


de modo que se conoce el nivel socioeconmico
promedio de las familias que habitarn el lugar.
Se ha decidido determinar el consumo promedio de
acuerdo al nmero de personas que habitan cada casa.

Se toma una muestra en un rea con caractersticas


socioeconmicas similares al fraccionamiento que se
estudia. Los resultados se encuentran en la siguiente tabla.
Nmero de personas
que habitan la casa (x)

Consumo de agua por


semana en m3 (y)

2.2

3.1

4.9

4.6

3.5

4.8

5.8

6.2

7.4

Nmero de personas
que habitan la casa (x)

Consumo de agua por


semana en m3 (y)

7.3

6.1

8.5

9.2

8.5

8.3

9.1

8.7

8.6

Nmero de personas
que habitan la casa (x)

Consumo de agua por


semana en m3 (y)

8.8

9.5

9.9

9.7

10.1

9.9

10.2

11.5

10.1

El primer paso consiste en observar los datos y extraer una


interpretacin preliminar.

El primer paso consiste en observar los datos y extraer una


interpretacin preliminar.

El mnimo nmero de habitantes en la muestra (uno) consume entre


2.2 y 4.9 m3, mientras el mximo nmero de habitantes en la
muestra (siete), consume entre 10.1 y 11.5 m3. Esto parece indicar
que, efectivamente existe correlacin entre las variables.

El primer paso consiste en observar los datos y extraer una


interpretacin preliminar.

El consumo mnimo en viviendas con dos habitantes (4.8) es menor que el


consumo mximo en viviendas con un habitante (4.9), lo cul parece contradecir
la idea de que existe correlacin entre las variables.

El primer paso consiste en observar los datos y extraer una


interpretacin preliminar.

El consumo mnimo en viviendas con dos habitantes (4.8) es menor que el


consumo mximo en viviendas con un habitante (4.9), esto mismo ocurre con el
consumo mnimo en viviendas con 3 habitantes (6.1) y el consumo mximo en
viviendas con 2 habitantes (7.4). Se incrementan las dudas acerca de la existencia
de correlacin entre las dos variables.

El primer paso consiste en observar los datos y extraer una


interpretacin preliminar.

El consumo mnimo en viviendas con dos habitantes (4.8) es menor que el


consumo mximo en viviendas con un habitante (4.9), esto mismo ocurre con el
consumo mnimo en viviendas con 3 habitantes (6.1) y el consumo mximo en
viviendas con 2 habitantes (7.4), y as en viviendas con 3 y 4, 4 y 5, 5 y 6, 6 y 7
habitantes. Es posible que no exista correlacin entre las variables.

El segundo paso consiste en representar los datos en un plano


cartesiano.

Dentro del segundo paso, despus de trazar la grfica, se


obtiene una nueva interpretacin.

Dentro del segundo paso, despus de trazar la grfica, se


obtiene una nueva interpretacin.
Se observa cierta
tendencia
ascendente

Dentro del segundo paso, despus de trazar la grfica, se


obtiene una nueva interpretacin.
Se observa cierta
tendencia
ascendente

Dentro del segundo paso, despus de trazar la grfica, se


obtiene una nueva interpretacin.
Se observa cierta
tendencia
ascendente, es decir,
aunque los puntos de la
grfica no estn
perfectamente
alineados, si se puede
afirmar que, al
aumentar el nmero de
habitantes por casa, se
incrementa el consumo
de agua.

Dentro del segundo paso, despus de trazar la grfica, se


obtiene una nueva interpretacin.
Se observa cierta
tendencia ascendente,
es decir, aunque los
puntos de la grfica no
estn perfectamente
alineados, si se puede
afirmar que, al aumentar
el nmero de habitantes
por casa, se incrementa
el consumo de agua.
Este comportamiento de la grfica parece indicar la existencia de
correlacin positiva.

Dentro del segundo paso, despus de trazar la grfica, se


obtiene una nueva interpretacin.
La interpretacin a partir de los
datos y, posteriormente, la
interpretacin de la grfica son
subjetivas y, por lo tanto,
cuestionables.
Es necesario determinar si existe
o no correlacin entre las
variables en forma ms objetiva.

Dentro del segundo paso, despus de trazar la grfica, se


obtiene una nueva interpretacin.
La interpretacin a partir de los
datos y, posteriormente, la
interpretacin de la grfica son
subjetivas y, por lo tanto,
cuestionables.
Es necesario determinar si existe
o no correlacin entre las
variables en forma ms objetiva.

Entre las herramientas estadsticas se encuentra una que se


emplea precisamente para cuantificar la correlacin entre dos
variables, especficamente la correlacin lineal entre ellas.

Coeficiente de correlacin lineal:

r de Pearson (para una muestra)


r de Pearson (para una poblacin)
Es una medida de la fuerza y direccin de la correlacin
lineal entre dos variables cuantitativas.
La variable independiente o explicativa se representa en el
eje x y la variable dependiente o variable de respuesta
se representa en el eje y.

La frmula para obtener la r de Pearson es:

x y
xy
n
r
2
2
2 x 2 y
x
y

n
n

La frmula para obtener la r de Pearson es:

x y
xy
n
r
2
2
2 x 2 y
x
y

n
n

Esta es la presentacin usual de la frmula, sin embargo, es


posible simplificarla al darnos cuenta que el denominador es la
raz cuadrada del producto; suma de cuadrados en x por suma
de cuadrados en y.

La frmula para obtener la r de Pearson es:

x y
xy
n
r
2 x 2 2 y 2
x
y

n
n

Esta es la presentacin usual de la frmula, sin embargo, es


posible simplificarla. Observa que el denominador es el
producto de la suma de cuadrados en x, por la suma de
cuadrados en y.
Y el numerador, aunque no es una suma de cuadrados,
podemos anotarlo como tal para simplificar la frmula.

La frmula para obtener la r de Pearson es:


x y
n
r
2 x 2 2 y 2
x
y

n
n

xy

Suma de cuadrados:

2
SCx x
n

2
SC y y
n
x y
SCxy xy
n
2

La frmula simplificada para obtener la r de Pearson es:

SC xy
SC x SC y

Para calcular las sumas de cuadrados necesitamos


completar la siguiente tabla.

Personas que
habitan la casa

Consumo
de agua

Nmero
de dato

x2

y2

xy

2.2

(1)2 = 1

(2.2)2 = 4.84

(1)(2.2) = 2.2

3.1

(1)2 = 1

4.9

(1)2 = 1

25

10.2

(7)2 = 49

26

11.5

(7)2 = 49

27

10.1

(7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

Personas que
habitan la casa

Consumo
de agua

Nmero
de dato

x2

y2

xy

2.2

(1)2 = 1

(2.2)2 = 4.84

(1)(2.2) = 2.2

3.1

(1)2 = 1

4.9

(1)2 = 1

25

10.2

(7)2 = 49

26

11.5

(7)2 = 49

27

10.1

(7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

100

206.5

476

1740.85

883.2

Personas que
habitan la casa

Consumo
de agua

Nmero
de dato

x2

y2

xy

2.2

(1)2 = 1

(2.2)2 = 4.84

(1)(2.2) = 2.2

3.1

(1)2 = 1

4.9

(1)2 = 1

25

10.2

(7)2 = 49

26

11.5

(7)2 = 49

27

10.1

(7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7

Sx = 100

Sy = 206.5

Sx2 = 476

Sy2 = 1740.85

Sxy = 883.2

Con los resultados de la tabla se calculan las sumas de


cuadrados:

SC x x

SC y y

100

476
27

___________

206.5

1740.85

__________

n
27
100 206.5

x y
SC xy xy
883.2
_______
n
27

Con los resultados de la tabla se calculan las sumas de


cuadrados:

SC x x

SC y y

100

476
27

105.6296

206.5

1740.85

161.5074

n
27
100 206.5

x y
SC xy xy
883.2
118.3851
n
27
Estos resultados se sustituyen en la frmula de r

Sustitucin en la frmula del Coeficiente de Correlacin


Lineal r de Pearson

SC x 105.6296
SC y 161.5074
SC xy 118.3851

SC xy
SC x SC y

Sustitucin en la frmula del Coeficiente de Correlacin


Lineal r de Pearson
SC x 105.6296
SC y 161.5074

Sustitucin

SC xy 118.3851

SC xy
SC x SC y

118.3851

105.6296161.5074

Sustitucin en la frmula del Coeficiente de Correlacin


Lineal r de Pearson
SC x 105.6296
SC y 161.5074

Sustitucin

SC xy 118.3851

SC xy
SC x SC y

118.3851

105.6296161.5074

r 0.906376

El valor del Coeficiente de Correlacin Lineal r de Pearson


es:

r 0.906376
Qu significa este nmero?

El valor del Coeficiente de Correlacin Lineal r de Pearson


es:

r 0.906376

El signo indica la direccin de la correlacin y la magnitud,


la fuerza de dicha correlacin.

El valor del Coeficiente de Correlacin Lineal r de Pearson


es:

r 0.906376

El signo indica la direccin de la correlacin y la magnitud,


la fuerza de dicha correlacin.
El signo es positivo, lo cul significa que al aumentar x,
aumenta y, es decir, entre ms personas habitan una
vivienda, mayor es el consumo de agua.

El valor del Coeficiente de Correlacin Lineal r de Pearson


es:

r 0.906376

El signo indica la direccin de la correlacin y la magnitud,


la fuerza de dicha correlacin.
El signo es positivo, lo cul significa que al aumentar x,
aumenta y, es decir, entre ms personas habitan una
vivienda, mayor es el consumo de agua.
La magnitud indica la fuerza de la correlacin, cuanto ms
cerca est de uno, mayor es la fuerza. En este caso la
correlacin es fuerte.

El valor del Coeficiente de Correlacin Lineal r de Pearson


es:

r 0.906376
Existe una fuerte correlacin lineal, positiva, entre el
nmero de habitantes en una vivienda (x) y su consumo de
agua (y).

El valor del Coeficiente de Correlacin Lineal r de Pearson


es:

r 0.906376
Existe una fuerte correlacin lineal, positiva, entre el
nmero de habitantes en una vivienda (x) y su consumo de
agua (y).
No existe una regla matemtica para matizar la
interpretacin del valor de r, depende del estudio que se
realiza.
Solamente existen reglas empricas que se aplican en casos
especficos.

El valor del Coeficiente de Correlacin Lineal r de Pearson


es:

r 0.906376
Existe una fuerte correlacin lineal, positiva, entre el
nmero de habitantes en una vivienda (x) y su consumo de
agua (y).
A pesar de que no tenemos reglas para matizar la
interpretacin de r, este valor nos permite comparar la
fuerza de la correlacin de una muestra con otra y de una
poblacin con otra.

El valor del Coeficiente de Correlacin Lineal r de Pearson


tiene ventajas sobre las interpretaciones subjetivas, pero
todava no resulta claro cmo interpretar variaciones en su
valor.

r 0.906376

Existe una fuerte correlacin lineal, positiva, entre el


nmero de habitantes en una vivienda (x) y su consumo de
agua (y).
Un valor que contribuye a comprender mejor la
dependencia entre las variables es el:

Coeficiente de Determinacin.

Coeficiente de determinacin:
A pesar de que
este valor se
calcula
simplemente
elevando el
Coeficiente de
Correlacin Lineal
al cuadrado, es
ms informativo
que el Coeficiente
de Correlacin
Lineal.

2
r

Coeficiente de determinacin:
Se interpreta
como la
proporcin de la
variabilidad de y
que puede ser
explicada por x.

2
r

Este valor significa que


existen otros factores
que explican los
cambios en y; si la casa
tiene jardn, el tamao
del mismo, los hbitos
de la familia, entre
otros.
Pero una proporcin
de 0.8215 de los
cambios en el consumo
de agua pueden
explicarse por el
nmero de personas
que habitan la casa.

r2 = 0.8215

Cuando existe fuerte correlacin entre las variables, como


en este caso: 2
r = 0.8215

Es posible encontrar una ecuacin:

y a0 a1 x
Que puede emplearse para predecir el valor de y, dado
cualquier valor de x.
Esta recta se llama:

Recta de regresin Lineal.

Para encontrar la ecuacin de la recta de regresin es


necesario determinar los valores de a0 y a1.
Las frmulas son:

x y x xy

n x x
2

a0

a1

n xy x y
n x x
2

Sustituyendo:
a0

2
x
y x xy

n x x
2

(476)(206.5) (100)(883.2)
a0
27(476) (100)2

a1

n xy x y
n x x
2

27(883.2) (100)(206.5)
a1
27(476) (100) 2

Sustituyendo:
a0

2
x
y x xy

n x x
2

(476)(206.5) (100)(883.2) 9974


a0

3.49719
2
27(476) (100)
2852

a1

n xy x y
n x x
2

27(883.2) (100)(206.5) 3196.4


a1

1.1207
2
27(476) (100)
2852

Una vez calculados los valores de a0 y a1 se sustituyen para


obtener la ecuacin de la recta:

a0 3.49719

a1 1.1207

y a0 a1 x
y 3.49719 1.1207 x

y 1.1207 x 3.49719

Con esta ecuacin es posible predecir cunta agua se


consumir en una casa teniendo como dato el nmero de
personas que la habitan.

y 1.1207 x 3.49719
Cunta agua debera consumirse en una casa habitada
por una persona? x = 1

Con esta ecuacin es posible predecir cunta agua se


consumir en una casa teniendo como dato el nmero de
personas que la habitan.

y 1.1207 x 3.49719
Cunta agua debera consumirse en una casa habitada
por una persona? x = 1
Se sustituye el valor de x = 1 en la ecuacin de la recta de
regresin lineal.

y 1.1207 x 3.49719

Con esta ecuacin es posible predecir cunta agua se


consumir en una casa teniendo como dato el nmero de
personas que la habitan.

y 1.1207 x 3.49719
Cunta agua debera consumirse en una casa habitada
por una persona? x = 1

y 1.1207(1) 3.49719
y 1.1207 3.49719

Con esta ecuacin es posible predecir cunta agua se


consumir en una casa teniendo como dato el nmero de
personas que la habitan.

y 1.1207 x 3.49719
Cunta agua debera consumirse en una casa habitada
por una persona? x = 1

y 1.1207(1) 3.49719 El consumo de agua en una


casa habitada por una
y 1.1207 3.49719
persona ser de:
4.61789 m3.
y 4.61789

Con esta ecuacin es posible predecir cunta agua se


consumir en una casa teniendo como dato el nmero de
personas que la habitan.

y 1.1207 x 3.49719
Cunta agua debera consumirse en una casa habitada
por ocho personas? x = 8

y 1.1207(8) 3.49719
y 8.9656 3.49719

Con esta ecuacin es posible predecir cunta agua se


consumir en una casa teniendo como dato el nmero de
personas que la habitan.

y 1.1207 x 3.49719
Cunta agua debera consumirse en una casa habitada
por una persona? x = 8

y 1.1207(8) 3.49719 El consumo de agua en una


casa habitada por ocho
y 8.9656 3.49719
personas ser de:
12.4627 m3.
y 12.4627

Estos valores (se corrigen los resultados utilizando todos


los decimales) son las coordenadas de dos puntos:

x
1
8

y
4.617952
12.463253

Que podemos representar sobre la grfica de dispersin.

Grfica de dispersin

Estos valores (se corrigen los resultados utilizando todos


los decimales) son las coordenadas de dos puntos que
podemos representar sobre la grfica de dispersin:

Y uniendo esos puntos se traza la recta de regresin lineal.

Grfica de dispersin con la recta de regresin lineal.

Esta grfica nos permite estimar, a simple vista, el


consumo de agua cuando, por ejemplo, la habitan 3
personas.

Esta grfica nos permite estimar, a simple vista, el


consumo de agua cuando, por ejemplo, la habitan 3
personas.

Esta grfica nos permite estimar, a simple vista, el


consumo de agua cuando, por ejemplo, la habitan 3
personas.

Esta grfica nos permite estimar, a simple vista, el


consumo de agua cuando, por ejemplo, la habitan 3
personas.

Esta grfica nos permite estimar, a simple vista, el


consumo de agua cuando, por ejemplo, la habitan 3
personas.

Esta grfica nos permite estimar, a simple vista, el


consumo de agua cuando, por ejemplo, la habitan 3
personas.

Poco menos
de 7

Esta grfica nos permite estimar, a simple vista, el


consumo aproximado de agua cuando, por ejemplo, la
habitan 3 personas.
El consumo de
agua en una casa
habitada por 3
personas ser de
aproximadamente
7 metros cbicos.

Esta grfica nos permite estimar, a simple vista, el


consumo aproximado de agua cuando, por ejemplo, la
habitan 3 personas.
El consumo de
agua en una casa
habitada por 3
personas ser de
aproximadamente
7 metros cbicos.

El consumo de agua en una casa habitada por 3 personas


ser de aproximadamente 7 metros cbicos.
Aproximadamente.
El uso de esta
palabra nos indica
que el valor
estimado tiene un
cierto error o
tolerancia.

El consumo de agua en una casa habitada por 3 personas


ser de aproximadamente 7 metros cbicos.
Aproximadamente.
El uso de esta
palabra nos indica
que el valor
estimado tiene un
cierto error o
tolerancia.

Una pregunta vlida es: Cul es la magnitud de ese error?

Error estndar al calcular y para un valor de x.


La frmula para calcular el error estndar es:

Sy x

x
y

xy

SC y
SCx
n2

Error estndar al calcular y para un valor de x.


La frmula puede simplificarse empleando SCxy:

Sy x

SC xy
SC y
SC x
n2

Error estndar al calcular y para un valor de x.


Sustitucin:
Sy x

SC xy
SC y
SC x
n2

SC x 105.6296
SC y 161.5074
SC xy 118.3851

118.3851

161.5074

Sy x

105.6296
27 2

Error estndar al calcular y para un valor de x.


Sustitucin:
Sy x

SC xy
SC y
SC x
n2

SC x 105.6296
SC y 161.5074
SC xy 118.3851

118.3851

161.5074
105.6296
Sy x
27 2

S y x 1.0738

El error estndar al calcular y para un valor de x se


interpreta como una tolerancia en los valores calculados
de y.

S y x 1.0738

x
y

1 4.617952
8 12.463253

1.0738
1.0738

S y x 1.0738
Cuando en una casa habita una persona el consumo de
agua debe ser: 4.617952 1.0738, es decir, debe estar
entre 3.544 y 5.691 m3.

Cuando en una casa habitan ocho personas el


consumo de agua debe ser: 12.463 1.0738, es
decir, debe estar entre 11.389 y 13.537 m3.

Referencias:
http://www.scoop.it/t/mathematics-learning
https://sites.google.com/site/mataspc/home
http://licmata-math.blogspot.com/
http://www.slideshare.net/licmata/
http://www.facebook.com/licemata
licmata@hotmail.com
Twitter: @licemata

Das könnte Ihnen auch gefallen