Sie sind auf Seite 1von 66

Tema 3: Análisis de Regresión

1
Agenda
• Definición de Regresión
• Función Aproximante
• Modelos de Regresión
• Análisis de Correlación
– Método de mínimos Cuadrados
• Precisión del modelo de regresión
• Regresión Lineal Simple

2
Definición de Análisis de Regresión
• Es el procedimiento de encontrar la relación
entre variables a partir de una serie de datos

datos
observados

3
Análisis de Regresión: UTILIDAD

– Permite predecir un valor basándonos en el


conocimiento de otro
• Valor a predecir: variable dependiente o
explicativa (y)
• Valor conocido: variable independiente (x)

4
Ŷ=b+aX
Dispersión de datos

Pendiente

Proyección

Datos
Históricos

Periodo de Observación Periodo Pronosticado


5
Análisis de Regresión
• Objetivo de la regresión
– Intentar reconocer a partir de un conjunto de
datos observados (xi, yi) si hay (1) relación entre
las variables, de (2) qué tipo, y si es (3) posible
predecir el valor de una de ellas en función de la
otra

6
Diagrama de Dispersión
• El conjunto de observaciones pueden ser
representadas en un diagrama de dispersión
(scatter plot).

7
Diagrama de Dispersión
• En los diagrama de dispersión, cada variables
observadas es representada por una
coordenada

8
Aproximación
• Buscamos una función que sea una buena
aproximación a una nube de puntos (xi,yi),
mediante una curva de algún tipo conocida
Y=f(X)
o Función aproximante o curva aproximante

9
Aproximación
Observación
(xi, yi)

Aproximación 𝐲𝐲�i= f(x)


(xi, 𝐲𝐲�i)

10
Aproximación

• Debemos de asegurarnos de que la diferencia


entre los valores Yi (observación) e 𝒀𝒀�𝒊𝒊
(aproximación) sea tan pequeña como sea
posible.

11
Tipos de modelos de Regresión

Regresión

Regresión Regresión
lineal no lineal

Regresión Regresión
simple múltiple

12
Tipos de modelos de Regresión

Ŷ=b+aX

Pendiente

b = Ŷ- a X
a

Regresión Regresión
lineal no lineal
13
Ejemplos: RN-L Creciente

Modelo no Lineal
Buen ajuste

Cuando x crece,
y crece

14
Ejemplos: RN-L Decreciente

Modelo no Lineal
Buen ajuste

Cuando x crece,
y decrece
15
Tipos de modelos de Regresión

Regresión

Regresión Regresión
lineal no lineal

Regresión Regresión
simple múltiple

16
Regresión simple Regresión múltiple

Interviene una sola Interviene dos o más


variable independiente variables independientes
17
Regresión Lineal Simple

18
Ejemplos: Relación directa
Modelo
Lineal Para los valores de
X mayores que la
media le
corresponden
valores de Y
mayores también

Cuando x crece,
y crece
19
Ejemplos: Relación inversa
Modelo
Para los valores de
Lineal
X mayores que la
media le
corresponden
valores de Y
menores

Cuando x crece,
y decrece
20
Ejemplos
− Variables no relacionadas
− Ninguna curva de regresión es adecuada

Para valores de X
por encima de la
media tenemos
valores de Y por
encima y por
debajo en
proporciones
similares

no-correlación 21
ANÁLISIS DE REGRESIÓN

22
Análisis de Regresion
• Podemos hacer un ajuste visual
– trazando una curva aproximante que representa
los datos observados
− las constantes del
modelo matemático
se obtienen del
mismo gráfico

23
Análisis de Regresión
• Podemos utilizar el método de mínimos cuadrados
– constantes del modelo matemático

Ŷ=b+aX Valor Observado


(xi, yi)

• b : ordenada en el origen,
constante
• a : pendiente de la recta 𝐲𝐲�ii= f(x)
Aproximación
(xi, 𝐲𝐲�i) 24
𝐲𝐲�i= f(x)
Ŷ=b+aX

Pendiente
a
b = Ŷ- a X

a : pendiente de la recta b : ordenada en el origen,


constante 25
26

Mínimos Cuadrados: Regresión Lineal

• solución del sistema de ecuaciones:

a : pendiente de la recta b : ordenada en el origen


Mínimos Cuadrados: Regresión Lineal
Ecuación:
Y = b + ax
(1) Aplicando sumatorias ΣY = b*n + a ΣX

(2) *(x) + sumatorias ΣXY = b ΣX +a ΣX2


• Solución del sistema de ecuaciones:

27
Mínimos Cuadrados: Regresión Lineal

• Solución del sistema de ecuaciones:

a : pendiente de la recta b : ordenada en el origen,


28
constante
OTROS MODELOS DE REGRESIÓN

29
Otros modelos de regresión
• Se pueden considerar otros tipos de modelos,
en función del aspecto que presente el
diagrama de dispersión (regresión no lineal)

30
Mínimos Cuadrados: Regresión no
Lineal
Y = a0 + a1x + a2x2
(1) Aplicando sumatorias ΣY = a0n + a1ΣX + a2 ΣX2
(2) *X y aplicando sumatorias ΣXY = a0 ΣX + a1 ΣX2 + a2 ΣX3
(3) *X2 y aplicando sumatorias ΣX2Y = a0 ΣX2+ a1 ΣX3 + a2 ΣX4

• Solución del sistema de ecuaciones:

31
Mínimos Cuadrados: Regresión no
Lineal
• Ecuaciones de curvas aproximantes:

Y=a+bx

𝒀𝒀 = 𝑎𝑎 + 𝑏𝑏 𝒙𝒙 + 𝑐𝑐 𝒙𝒙2

𝒀𝒀 = 𝑎𝑎 𝒙𝒙𝑏𝑏

𝒀𝒀 = 𝑎𝑎 𝑏𝑏 𝒙𝒙

32
LINEALIZACIÓN DE RELACIONES NO
LINEALES

33
Linealización de relaciones no lineales
• Exponencial
y

y = α1e β1x

𝐿𝐿𝐿𝐿 𝑦𝑦 = ln 𝛼𝛼1 + 𝛽𝛽1 x


• Empleando algunas operaciones matemáticas

34
Linealización de relaciones no lineales
• Ley de Potencia

𝐿𝐿𝑜𝑜𝑜𝑜 𝑦𝑦 = log 𝛼𝛼2 + 𝛽𝛽2 Logx


• Empleando algunas operaciones matemáticas

35
Linealización de relaciones no lineales
• Tasa de crecimiento saturada

1 𝛽𝛽3 1 1
= -
𝑦𝑦 𝛼𝛼3 𝑥𝑥 𝛼𝛼3

Empleando algunas operaciones matemáticas


36
Linealización de relaciones no lineales

y y y

x
y = α1e β1 x
y = α2x β2
y = α3
β3 + x
x x x

ln y log y 1/y

Pendiente = β3/α3
Pendiente = β1
Pendiente = β2 Intersección = 1/α3
x log x 1/x
Intersección = ln α1 Intersección = log α2
Mínimos Cuadrados: Regresión no
Lineal -MULTIVARIABLES
Z = a0 + a1X + a2Y
Aplicando sumatorias ΣZ = a0N + a1 ΣX + a2 ΣY
*X y aplicando sumatorias ΣXZ = a0 ΣX + a1 ΣX2 + a2 ΣXY
*Y y aplicando sumatorias ΣYZ = a0 ΣY+ a1 ΣXY + a2 ΣY2

• solución del sistema de ecuaciones:

39
Análisis de
Variabilidad
Datos Observados

40
41
Covarianza de dos variables X e Y
• La covarianza es la medida de dispersión conjunta de
un par de variables
• La covarianza entre dos variables, Sxy ó Cov(x,y), nos
indica si la posible relación entre dos variables es
directa o inversa

• El signo de la covarianza nos dice si el aspecto de la


nube de puntos es creciente o no.

42
Covarianza de dos variables X e Y

1
𝑆𝑆𝑥𝑥𝑥𝑥 = � 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦�
𝑛𝑛 − 1

• El signo de la covarianza nos dice si el aspecto de la


nube de puntos es creciente o decreciente

43
Covarianza de dos variables X e Y
• Magnitud de la covarianza
– Si el valor absoluto de la covarianza es alto,
indica una estrecha relación en los dos conjuntos
de datos (xi, yi), ya sea de forma positiva o
negativa
– Si es cercano o igual a 0, significa que los
conjuntos de datos casi no tienen relación

44
Varianza
• Es una medida vinculada a la dispersión de
una variable considerada frente a su media
• Sus unidades es el cuadrado de la unidad de la
variable en estudio
• Establece la variabilidad de una variable, a
mayor valor, mayor variabilidad.

45
Varianza de una Muestra
∑ 𝑥𝑥𝑖𝑖 −𝑥𝑥̅ 2
• 𝑆𝑆 2 =
𝑛𝑛−1
– 𝑆𝑆 2 : Varianza
– 𝑥𝑥𝑖𝑖 : Término del conjunto de datos
� Media de la muestra
– 𝑋𝑋:
– n: tamaño de la muestra

46
Desviación Estándar Muestral

𝑆𝑆 = 𝑆𝑆 2

∑ 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2
𝑆𝑆 =
𝑛𝑛 − 1

47
Precisión del Modelo de
Regresión

48
Coeficiente de Correlación Lineal de
Pearson
• Se denota con la letra r
• Este coeficiente indica si los puntos tienen una
tendencia a disponerse alineadamente
– Excluyendo rectas horizontales y verticales
• r es útil para determinar si hay relación lineal
entre dos variables
– No servirá para otro tipo de relaciones:
cuadrática, logarítmica, etc.

49
50
Coeficiente de Correlación Lineal de
Pearson (r)
• De su signo obtenemos el que la posible
relación sea directa o inversa ( mismo signo
que Sxy)
• Es adimensional
– Sólo toma valores en [-1,1]
– Las variables son no-correlacionadas  r=0
Relación Inversa Variables no Relación Directa
perfecta correlacionadas casi perfecta

-1 0 1
Relación Inversa Variables no Relación Directa
perfecta correlacionadas casi perfecta

-1 0 1 51
Coeficiente de Correlación Lineal de
Pearson (r)
Relación Variables no Relación Directa
Inversa perfecta correlacionadas casi perfecta

-1 0 1

52
Coeficiente de Correlación Lineal de
Pearson (r)

r= -0.5 r= -0.999

r= 0.4 r= 0.99

53
54
Precisión del modelo de regresión
• La precisión de un modelo de regresión se
mide usando una cantidad llamada:
– Coeficiente de Determinación ( R2)
• R2 representa la proporción de variabilidad
total en las observaciones de Y que se explica
por la línea de regresión

55
Coeficiente de determinación (R2)
Variabilidad
en el eje Y  La franja rosada
(sombreada)
indica la zona
donde varían los
valores de Y.

56
Coeficiente de Determinación (R2)
Errores de proyección
( eje Y)

2
2
𝐶𝐶𝐶𝐶𝐶𝐶 𝑥𝑥𝑥𝑥
𝑅𝑅 =
𝑉𝑉𝑉𝑉𝑉𝑉𝑥𝑥 𝑉𝑉𝑉𝑉𝑉𝑉𝑦𝑦

57
Valor Pronosticado

Valor Observado

Ventas Error residual

Precio (USD)

58
Coeficiente de determinación (R2)
2 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡−𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟
𝑅𝑅 = =
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇

2
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟
𝑅𝑅 = 1 −
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇

Cuanto menor sea la dispersión del error


residual mejor será el ajuste de regresión

R2 = r2  sólo cierto para la regresión lineal simple!!!


𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 + 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 59
Coeficiente de Determinación (R2)
• R2 es una cantidad adimensional que sólo puede
tomar valores en [0, 1]
• Para R2 cerca de 1
– Ajuste de regresión lineal bueno
– La línea de regresión puede explicar una gran porción
de la variabilidad en los valores de y
• Para R2 cerca de 0
– puede significar que el modelo de línea recta no
representa completamente la relación entre las
variables
– Ajuste lineal malo

62
Práctico
Ejercicio 1
• Se tienen datos experimentales que
representan la relación que existe entre el
cambio del volumen (pulg3) de un gas y la
presión (psi) del mismo
– Donde P = f(V).
• Se conoce que el comportamiento de del gas
sigue el modelo de la forma:

PV k =C 63
Práctico
• Datos:

64
Práctico
• Realizar:
1. El diagrama de dispersión en coordenadas rectangulares.
2. El diagrama de dispersión en coordenadas y escalas
adecuadas, conociendo que el comportamiento de
modelo
3. Determinar mediante el método gráfico las constantes K y
C, de la ecuación aproximante.
4. Determinar mediante el método de Mínimos Cuadrados,
las constantes K y C, de la ecuación aproximante.
5. Estimar P, para cuando V=100 , 150 y 200 pulg3.
6. Realizar la curva de la ecuación aproximante
7. Calcular la variabilidad de los datos

65
Práctico
Algunas sugerencias:
P*Vk = C
• Aplicando logaritmos:
log P + k log V = log C
• Ordenando términos:

log P = log C - k log V

Y b a X 66
Práctico

log P = Y; log C = b
log V = X ; -k = a
67
Mínimos Cuadrados: Regresión Lineal

• solución del sistema de ecuaciones:

a : pendiente de la recta b : ordenada en el origen,


constante 68
Práctico Kr Agua- Condensado
Sw Krw Krow
Ejercicio 2 0.5527 0.0319 0.7513
1. Determine el mejor 0.5675 0.0638 0.5477
ajuste para el 0.5822 0.0956 0.3847
siguiente conjunto de 0.5969 0.1275 0.2577
datos 0.6116 0.1594 0.1623
2. Presente la ecuación
0.6264 0.1913 0.0939
de las curvas
aproximantes 0.6411 0.2231 0.0481
3. Genere las curvas 0.6558 0.255 0.0203
aproximantes 0.6705 0.2869 0.006
0.6853 0.3188 0.0008
0.7 0.3506 0
69