Sie sind auf Seite 1von 52

Analisis de Regresión y de

Correlación

©2003 Lucas Federico Chamorro Vega


FIUNA
Regresión y Correlación
• Análisis de regresión y correlación
• Relación entre variables
• Ajuste de curvas
• El método de los mínimos cuadrados:
• Relaciones lineales y no lineales
• Error típico de estimación
• Coeficiente de Correlación
Regresión y Correlación
• Recta de regresión y el coeficiente de
correlación lineal
DIAGRAMA DE DISPERSIÓN
CURVA DE APROXIMACIÓN
RELACIÓN LINEAL

RELACIÓN NO LINEAL
Ajuste de curvas
• Diagrama de dispersión
• Curva de aproximación
• Relación lineal
• Relación no lineal
• Curva de ajuste
Ecuaciones de curvas de
aproximación
• Linea recta
• Parábola
• Curva cúbica
• Curva cuártica
• Curva de grado n
• Hipérbola
• Exponencial
• Geométrica
El método de los mínimos cuadrados:
Y=mX+b
Coeficiente de Correlación

©2002 Lucas Federico Chamorro Vega


FIUNA
Medidas de Correlación
• Cualitativa ( observación directa sobre el
diagrama de dispersión)
• Cuantitativa ( dispersión de los datos
alrededor de las curvas o rectas)
¿Qué relación hay entre LxA de
una hoja con su area?
Relación entre LxA y el área de las hojas
del árbol A

16
14
Area de la hoja

12
10
8
6
4
2
0
4 6 8 10 12 14 16 18 20 22 24 26
Largo x Ancho de la hoja
Examina la relación
Relacion entre LxA y el area de las
hojas del arbol A

16
14
xi − x
12 -+ yi − y
Area de la hoja

10
++
8 y
6
4
-- +-
2
0
x
4 6 8 10 12 14 16 18 20 22 24 26

Largo x Ancho de la hoja


Coeficiente de correlación
Si la pendiente de la n
recta es positiva
esperamos que :
∑ (x
i =1
i − x )( y i − y ) > 0
n

∑( x i − x ) ( yi − y )
ya que m = i =1
n >0
∑ i
( x − x
i =1
) 2

Coeficiente de
∑ (x i − x )( y i − y )
s xy
correlación
r = i =1
=
n n sx s y
∑ (x
i =1
i − x) 2
∑ (y
i =1
i − y) 2
Significado de la correlación
n n

∑ (x i − x )( y i − y ) ∑ (x
i =1
i − x) 2

r= i =1
=m
n n n

∑ i
( x
i =1
− x ) 2
∑ i
( y − y ) 2

i =1
∑ i
( y
i =1
− y ) 2

El coeficiente de correlación y la pendiente tienen el


mismo signo.
r es una medida de la dependencia estadística
(numérica) lineal de la variables x, y.
Ejemplos de correlación
r>0
r cerca de 0

r<0

No hay relación
lineal
Propiedades de r
r > 0 si y solo si m > 0
-1 = < r <= 1
r cerca de 1 indica dependencia lineal creciente
fuerte
r cerca de 0 indica no hay dependencia estadística
lineal
r cerca de -1 indica dependencia lineal decreciente
fuerte
Propiedades de r
• x, y pueden estar correlacionadas, pero no
quiere decir que x causa y o que y causa a
x.
• x, y pueden ser dependientes, pero su
coeficiente de correlación puede ser 0:
• Ejemplo:
– x = -1, 0, 1 y = x2 r=0
– (la dependencia entre x , y NO es lineal)
Dependientes pero no
correlacionadas
Y

-1 0 1 X

numerador de r = (-1).33 + (0)0 + (1).33 = 0


Coeficiente de correlación
• Es la raíz cuadrada del coeficiente de
determinación:

SSR SST − SSE


r= R = 2
=
SST SST
Referencias
• Mann: Sec. 13. 6, 13.7
– probs: 59-67, 75-77, 80, 81,

• Weiss: Sec. 13.4


– probs: 75, 77, 79, 82, 85

• Datos en hoja de Excel


Análisis de los Residuos de la
Regresión

©2002 Lucas Federico Chamorro Vega


FIUNA
Residuos de la regresión
y
yi
ei
yi

x
xi
Suposiciones sobre ei = yi – yi
1, 2, ..., n
• Para cada valor de xi
– ei es un error aleatorio con media cero
– ei son independientes
– ei tiene distribución normal
• ei y ej son independientes i≠ j
• ei tiene desviación estándar común σ e
Distribución de ei
Línea de regresión
poblacional
y

x
LxA Area Predicted Area Residuals
1 13.4 8.28 7.73 0.55
2 15.9 9.36 8.59 0.77
3 13.7 8.28 7.83 0.45
4 14.6 8.64 8.13 0.51
Residuos

5 18.3 9.36 9.44 -0.08


6 24.5 14.40 x9 11.65 2.75
7 22.9 8.10 y9 11.10 y e9 -3.00
8 21.5 6.40 10.57 9 -4.17
9 11.4 8.53 7.02 1.51
10 13.5 8.72 7.75 0.97
11 19.5 10.08 9.88 0.20
12 8.2 3.96 5.87 -1.91
13 18.0 8.96 9.34 -0.38
14 10.6 5.76 6.71 -0.95
15 15.8 9.36 8.57 0.79
16 23 13 10.99 1.97
Desviación estándar σ e de ei
• Para cada valor de xi, i = 1, 2, ..., n

σ e mide la dispersión de los errores


alrededor de la línea de regresión
poblacional.
– yi es el valor observado
– yi = mxi + b es el correspondiente en la línea
– ei = yi - yi
Estimación de σ e

• La suma de los ei es cero: su media es cero.


• Estimamos σ e:
n n

∑ ( e − 0)i
2
∑ i i
( y
i =1
− ˆ
y ) 2

se = i =1
=
n−2 n−2
n

∑( y i − ( mxi + b))
2 SSE
= = n−2
i =1
n−2
Correlación múltiple y parcial
• Correlación múltiple
• Ecuación de regresión.Plano de regresión
• Coeficiente de correlación múltiple
• Regresión múltiple no lineal
X1 = b1.23 + b12.3 X2 +b13.2 X3

S 21.23
R1.23 = 1 − =
s21
ANOVA de la Regresión
MS=SS/df F=MSR/MSE Valor p

Signif.
ANOVA df SS MS F
F
Regression 1 43.041 43.041 12.610 0.003
Residual 14 47.785 3.413
Total 15 90.826

SSE SSR
Grados de
SST
libertad
Estimado de σ e en la regresión
de las hojas
• SSE = 47.785
• n = 16, df = 14
• MSE = 47.785/14 = 3.413 = se2

se = (3.413).5 = 1.85
Referencias
• Mann: Sec. 13.1, 13.2, 13.3
– probs: 1-14, 21, 24, 25, 29

• Weiss: Sec. 13.1, 13.2


– probs: 33, 35, 37, 38, 39, 41, 43, 45, 52, 57,
59, 65, 66, 67, 77, 85, 86, 88

• Datos en hoja de Excel


Datos (L y A: cm, Areas: cm ) 2

L A Area LxA L A Area LxA


1 5.6 2.4 8.28 13.44 9 5.2 2.2 8.53 11.44
2 6.1 2.6 9.36 15.86 10 5.4 2.5 8.72 13.50
3 4.9 2.8 8.28 13.72 11 6.5 3.0 10.08 19.50
4 5.4 2.7 8.64 14.58 12 4.1 2.0 3.96 8.20
5 6.3 2.9 9.36 18.27 13 6.0 3.0 8.96 18.00
6 7.0 3.5 14.40 24.50 14 4.6 2.3 5.76 10.58
7 6.2 3.7 8.10 22.94 15 5.1 3.1 9.36 15.81
8 6.5 3.3 6.40 21.45 16 7.3 3.1 12.96 22.63

Das könnte Ihnen auch gefallen