Sie sind auf Seite 1von 14

1

Regresin lineal y correlacin.


En esta unidad se estudia la relacin entre dos variables y se establece una ecuacin
que permite determinar una variable en funcin de la otra.
Ejemplo:
Existe relacin entre lo que gasta una escuela privada en publicidad y la demanda de
matrcula?
Se puede determinar el incremento en el aprovechamiento de los estudiantes en base
a la aplicacin de las nuevas propuestas metodolgicas?
Anlisis de correlacin.
Ejemplo:
La Direccin de Negocios, desea determinar la relacin que existe entre el nmero de
ejercicios de tarea resueltos por los estudiantes del grupo 90T y su calificacin en el
examen de estadstica.
Estudiante
Tom
Jeff
Brian
Juan
Susan
Carlos
Rich
Sandra
Luis
Mark
Sony
Julia

Problemas resueltos
(variable independiente)
20
40
20
30
10
10
20
15
20
15
20
30

Calificacin
(variable dependiente)
45
85
60
85
45
60
60
45
70
50
50
100

Parece haber cierta relacin entre el nmero de problemas de tarea resueltos y la


calificacin obtenida; sin embargo, casos como el de Julia, quien hizo menos problemas
que Jeff, y sin embargo sac una calificacin ms alta.
Existen tcnicas estadsticas para presentar en forma ms precisa la relacin entre las
dos variables (problemas resueltos en tareas calificacin obtenida en el examen).
El anlisis de correlacin es el conjunto de tcnicas estadsticas empleado para medir
la intensidad de relacin entre dos variables.
El primer paso a seguir es presentar los datos en un diagrama de dispersin.

2
El diagrama de dispersin es una grfica que representa la correlacin entre dos
variables.
La variable dependiente, que es la variable que se predice o se calcula.
En el ejemplo anterior, la calificacin supuestamente es la variable que depende del
nmero de ejercicios de tarea resueltos antes de presentar el examen.
La variable independiente es la variable que proporciona las bases para el clculo. Es
la variable de prediccin.
En el ejemplo, el nmero de ejercicios de ejercicios de tarea resueltos por el estudiante,
antes de presentar el examen, corresponde a la variable independiente.
C
A
L 100
I
F
I 90
C
A
C 80
I
O
N 70
60
50
40
30
0

10
15
20
25
Problemas de tarea resueltos

30

35

40

El diagrama de dispersin indica que los estudiantes que realizan ms ejercicios de


tarea tienden a sacar mejor calificacin. Sin embargo, aun cuando parece haber una
relacin positiva entre las dos variables, no todos los puntos quedan sobre una misma
lnea recta.

3
Coeficiente de correlacin.
El coeficiente de correlacin se define como medida de la intensidad de la relacin
lineal entre dos variables.
Al coeficiente de correlacin se le denota con la letra r.
Tambin se le conoce como r de Pearson.
El coeficiente de correlacin puede tomar cualquier valor entre -1 y +1. Cuando
alcanza precisamente esos valores extremos, se dice que hay una correlacin negativa
perfecta y una correlacin positiva perfecta, como se ilustra en los siguientes diagramas
de dispersin:

Los pronsticos que se puedan derivar de tales condiciones, tienen un alto grado de
certidumbre.
La correlacin se va debilitando para valores intermedios, de manera que cuando la r
de Pearson alcanza el valor de cero, se dice que no existe en absoluto, relacin alguna
entre los dos conjuntos de variables. Como se ilustra en los siguientes diagramas de
dispersin:

El valor numrico del coeficiente de correlacin se determina con la siguiente expresin:

n(XY ) (X )(Y )
{n(X ) (X ) 2 }{n(Y 2 ) (Y ) 2 }
2

En donde n es el nmero de pares de observaciones.


Ejercicio:

5
Regresando al caso del nmero de ejercicios de tarea resueltos por los estudiantes
del grupo 90T y su calificacin en el primer parcial en la materia de estadstica.
Determine el coeficiente de correlacin e interprete su valor.
No. Tareas
(X)
20
40
20
30
10
10
20
15
20
15
20
30
250

Estudiante
Tom
Jeff
Brian
Juan
Susan
Carlos
Rich
Sandra
Luis
Mark
Sony
Julia
TOTALES

r
r

Calificacin
(Y)
45
85
60
85
45
60
60
45
70
50
50
100
755

X2
400
1600
400
900
100
100
400
225
400
225
400
900
6050

Y2
2025
7225
3600
7225
2025
3600
3600
2025
4900
2500
2500
10000
51225

XY
900
3400
1200
2550
450
600
1200
675
1400
750
1000
3000
17125

n(XY ) (X )(Y )
{n(X ) (X ) 2 }{n(Y 2 ) (Y ) 2 }
2

12(17125) (250)(755)

205500 188750
({12(6050) (250)2 }{12(51225 ) (755)2}) 10100x44675

16750
16750

0.789
451217500 21241.881

Se observa que:
0.789 > 0

por lo tanto se tiene una correlacin positiva.

0.789 1

Se concluye que la correlacin es fuerte.

A medida que ms tareas resuelve un estudiante, mayores posibilidades de mejorar su


calificacin.
Coeficiente de determinacin.
El coeficiente de determinacin se calcula elevando al cuadrado el coeficiente de
correlacin.
Para el ejemplo anterior se tiene:
r2 = 0.6225

6
De acuerdo con este resultado puede decirse que 62.25% de la variacin en la
calificacin obtenida se explica por el nmero de problemas de tarea resueltos antes del
examen.

Correlaciones falsas o espurias


Hay casos en que existe una correlacin intensa. Por ejemplo entre la aplicacin de un
medicamento y la recuperacin de un paciente. No necesariamente si se incrementa la
dosis, el paciente se recupera ms rpido.
Anlisis de regresin.
En referencia al anlisis de caso en cuanto a la relacin existente entre los problemas
de tarea resueltos y la calificacin, suponga que se traza por medio de una regla la
recta que ms se acerque a representar el conjunto de puntos:
C
A
L 100
I
F
I 90
C
A
C 80
I
O
N 70
60
50
40
30
0

10
15
20
25
Problemas de tarea resueltos

30

35

40

El trazo de esta lnea tiene la desventaja de que representa el juicio del criterio personal
de quien la traza y puede variar. El juicio personal se elimina desarrollando una

7
ecuacin que exprese la relacin entre la variable dependiente Y y la variable
independiente X.
Definicin.
A la tcnica empleada para desarrollar la ecuacin de la recta y que permita predecir
valores de Y en base a un valor seleccionado de X, se le denomina anlisis de
regresin.
A la ecuacin de la lnea recta empleada para calcular valores de Y en funcin de X,
se le conoce como ecuacin de regresin.
Principio de los mnimos cuadrados.
Corresponde a la tcnica empleada para obtener la ecuacin de regresin, minimizando
la suma de los cuadrados de las distancias verticales entre los valores de Y verdaderos
y los valores pronosticados de Y.

Forma general de la ecuacin de regresin lineal.


Y = a + b X
Y = valor pronosticado de la variable Y, para un valor seleccionado de X.
a = ordenada de la interseccin con el eje X.
b = pendiente de la recta.
X = cualquier valor seleccionado de la variable independiente.

8
A a y b se les conoce como coeficientes de regresin estimados, y se calculan con:
b

n(XY ) (X )(Y )
n(X 2 ) (X ) 2

Y
x
b
n
n

n = nmero de elementos de la muestra.


Ejemplo.
Utilizando los datos de los problemas de tarea resueltos y la calificacin, calcule la
calificacin esperada de un estudiante que resuelve 35 problemas de tarea, antes de
haber presentado su examen.
Solucin:
Se utilizarn los clculos realizados para el coeficiente de correlacin.
Estudiante
Tom
Jeff
Brian
Juan
Susan
Carlos
Rich
Sandra
Luis
Mark
Sony
Julia
TOTALES

No. Tareas
(X)
20
40
20
30
10
10
20
15
20
15
20
30
250

Calificacin
(Y)
45
85
60
85
45
60
60
45
70
50
50
100
755

X2
400
1600
400
900
100
100
400
225
400
225
400
900
6050

Y2
2025
7225
3600
7225
2025
3600
3600
2025
4900
2500
2500
10000
51225

XY
900
3400
1200
2550
450
600
1200
675
1400
750
1000
3000
17125

n(XY ) (X )(Y ) 12(17125) (250)(755) 16750

1.6584
n(X 2 ) (X ) 2
12(6050) (250) 2
10100

Y
X
755
250
b

1.6584
62.9167 34.55 28.3667
n
n
12
12

Sustituyendo en la ecuacin general de regresin:

Y = a + b X

Y = 28.3667 + 1.6584 X
Para trazar la lnea de regresin, se le asignan valores seleccionados a X y se obtienen
los correspondientes valores esperados de Y.
Estudiante

(X)

(Y')

9
Tom
Jeff
Brian
Juan
Susan
Carlos
Rich
Sandra
Luis
Mark
Sony
Julia
TOTALES

20
40
20
30
10
10
20
15
20
15
20
30

61.8
95.0
61.8
78.4
45.2
45.2
61.8
53.5
61.8
53.5
61.8
78.4

Para X=35

Y=86.7

250

Con los pares de puntos indicados en la tabla. Se puede trazar la lnea de regresin:
C
A
L 100
I
F
I 90
C
A
C 80
I
O
N 70
60
50
40
30
0
Ejemplo:

10

15
20
25
Problemas de tarea

30

35

40

10
3. Hacienda investig los resultados de las ventas y ganancias en millones de
pesos de una muestra de 12 compaas, habiendo revelado los resultados
siguientes:
Cia.

Ica

Venta

89.2 18.6

Gananci 4.9

Gutsa Ceme Toltec Acer Texa Icel Rams Carsa Iusa Comx Iris

4.4

18.2

71.7

58.6 46.8 17.5 11.9

19.6

51.2 28.6

69.2

1.3

8.0

6.6

3.5

8.2

12.8

4.1

2.6

1.7

6.0

Trace un diagrama de dispersin


Calcule el coeficiente de correlacin y el de determinacin
Determine la ecuacin de correlacin.
Pronostique las ganancias de una compaa que calcula vender 50 millones de
pesos.
Problema 2. Coeficiente de regresin
Compaa
Ica
Gutsa
Cemex
Tolteca
Aceros
Texaco
Icel
Ramsa
Carsa
Iusa
Comex
Iris
TOTALES

Ventas
(X)
89.2
18.6
18.2
71.7
58.6
46.8
17.5
11.9
19.6
51.2
28.6
69.2

Ganancias
(Y)
4.9
4.4
1.3
8
6.6
4.1
2.6
1.7
3.5
8.2
6
12.8

El coeficiente de correlacin se calcula con:


r

n(XY ) (X )(Y )
{n(X ) (X ) 2 }{n(Y 2 ) (Y ) 2 }
2

Diagrama de dispersin:

X2

Y2

XY

11

12
11
10
9
G
A
N
A
N
C
I
A
S

8
7
6
5
4
3
2
1
0

10

20

Ecuacin de correlacin.

30
40
50
60
Ventas en millones de pesos

70

80

12
b

n(XY ) (X )(Y )

n(X 2 ) (X ) 2

Y
X
b

n
n

Sustituyendo en la ecuacin general de regresin:

Y = a + b X

Para X = 50
Y =

Modelo de regresin lineal simple.


La ecuacin que describe cmo se relaciona X con Y, corresponde a un modelo de
regresin lineal simple, que incluye un trmino para el error:
Y = o + 1 X +
o y 1 son los parmetros del modelo;

trmino del error

De acuerdo con este modelo, el valor esperado de Y se describe por la ecuacin:


E(Y) = o + 1 X
Y la ecuacin de regresin lineal simple estimada est dada por:
Y = b o + b1 X

Mtodo de mnimos cuadrados


En este procedimiento se utilizan los datos muestrales para encontrar la ecuacin de
regresin lineal simple estimada.

13

Ejemplo:
Las ventas trimestrales de una muestra de 10 restaurantes Armands Pizza, se registran
en la tabla siguiente. Determine la ecuacin de regresin estimada.

Restaura
nte
1
2
3
4
5
6
7
8
9
10
SUMAS

Ventas
Poblacin trim
(miles
(miles)
USD)
Xi
2
6
8
8
12
16
20
20
22
26
140

Yi
58
105
88
118
117
137
157
169
149
202
1300

Xm = 14

b1

Xi-Xm
-12,00
-8,00
-6,00
-6,00
-2,00
2,00
6,00
6,00
8,00
12,00
0

Ym = 130

( Xi Xm) (Yi Ym) 2840

5
568
( Xi Xm) 2

bo = Ym - b1 Xm

= 130 - 5 (14)

Ecuacin de regresin estimada:


Y = 60 + 5 X

Diagrama de dispersin:

60

Yi-Ym
-72,00
-25,00
-42,00
-12,00
-13,00
7,00
27,00
39,00
19,00
72,00
0

(Xi-Xm)(YiYm)

864
200
252
72
26
14
162
234
152
864
2840,00

(Xi-Xm)2
144,00
64,00
36,00
36,00
4,00
4,00
36,00
36,00
64,00
144,00
568,00

14

Ejercicio:
Los registros de las operaciones de compraventa de 10 automviles seminuevos
modelo Honda Accord, se registran en la tabla siguiente conforme a las millas
recorridas y el precio. Determine la ecuacin de regresin estimada.
Millas
Automvil

(miles)

Precio
(miles
USD)

Xi

Yi

58

105

88

118

12

117

16

137

20

157

20

169

22

149

10

26

202

SUMAS

Xi-Xm

Yi-Ym

(Xi-Xm)(Yi-Ym)

(Xi-Xm)2

Das könnte Ihnen auch gefallen