Sie sind auf Seite 1von 14

El CONCEPTO DE LA

REGRESIÓ LINEAL
Modelos predictivos o de regresión
La representación de la relación entre dos (o más) variables a través de
un modelo formal supone contar con una expresión lógico-matemática
que, aparte de resumir cómo es esa relación, va a permitir realizar
predicciones de los valores que tomará una de las dos variables (la que
se asuma como variable de respuesta, dependiente, criterio o Y) a
partir de los valores de la otra (la que se asuma como variable
explicativa, independiente, predictora o X.
Conceptos Básicos
• Predicción Lineal:
La regresión Lineal Múltiple se puede aproximar mediante la siguiente
formula donde X es la variable aleatoria y 𝑌 es la variable predictiva.

𝑌෠ = 𝛽0 + 𝛽1 . 𝑋1 + ⋯ + 𝛽𝑟 . 𝑋𝑟
Error de Predicción
• Cuando se utiliza la recta de regresión para predecir el valor en Y a
partir del valor en X de un determinado sujeto (𝑋𝑖), es probable que
se cometa un error en la predicción realizada. A este error se le suele
denominar como error de predicción (𝐸𝑖):

𝐸𝑖 = 𝑌𝑖 − 𝑌෡𝑖
Error cuadrático medio
• Como el error arriba dicho es aleatorio, así el sumatorio de los errores
cuadrático al evaluar la magnitud de los errores de predicción la
mejor recta de regresión estará dada por:
2
𝑚𝑖𝑛 ෍ 𝑌𝑖 − 𝑌෡𝑖
Coeficiente de correlación Múltiple
• El coeficiente de correlación múltiple mide la asociación entre varias
variables independientes y una dependiente. se puede definir de
manera general como la raíz cuadrada de la suma de los cuadrados
explicados por la regresión sobre la suma de los cuadrados totales. Es
decir:
2
𝑛 ෡ ഥ
σ𝑖=1 𝑌𝑖 − 𝑌𝑖
𝑟𝑦(𝑥1 𝑥2 ….𝑥𝑘 ) =
ഥ𝑖 2
σ𝑛𝑖=1 𝑌𝑖 − 𝑌
Coeficiente de Correlación parcial
• La correlación entre varias variables se presenta cuando una o más
variables permanecen fijas a un nivel constante y a esto se le
denomina correlación parcial. Está dada por:

2
𝑟𝑦 𝑥1 .𝑥3 …𝑥𝑘 − 𝑟𝑦 𝑥2 𝑥3 … 𝑥𝑘 𝑟𝑥1 . 𝑥2 .𝑥3 … 𝑥𝑘
𝑟𝑦(𝑥1 𝑥2 ….𝑥𝑘 )
1 − 𝑟𝑟2𝑦 𝑥2 𝑥3 … 𝑥 1 − 𝑟𝑥1 . 𝑥2 .𝑥3 … 𝑥𝑘
𝑘
Ejemplo en software R
• En este modelo se fija la variable que se quiere predecir (variable
dependiente) y se determina la relación con el resto de variables
predictoras (independientes).

Problema: Determinar el tiempo necesario para organizar diferentes


bloques de cajas que se encuentran a diferentes distancias.
Explorar la relación entre todas las parejas de
variables
Calcular la intensidad de la relación mediante
un análisis de correlación
• Mostramos visualmente la relación de la variable dependiente con
cada una de las variables independientes
A partir de los análisis realizados se opta por realizar un
modelo múltiple lineal del tipo
y = ax1 + bx2 + c
A partir de este análisis deducimos que el
modelo queda:

𝑡𝑖𝑒𝑚𝑝𝑜 = 0,8872 ∗ 𝑁𝑐𝑎𝑗𝑎𝑠 + 0,4559 ∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 + 2,3112 + 𝑒𝑟𝑟𝑜𝑟

Das könnte Ihnen auch gefallen