Sie sind auf Seite 1von 62

REGRESIÓN LINEAL SIMPLE

"In God we trust; all others must bring data."

William Edwards Deming

TEMA 1

1
Para qué sirve?
• Determinar la ecuación de regresión sirve
para:

– Describir de manera concisa la relación entre


variables.

– Predecir los valores de una variable en función de


la otra.

2
Aplicaciones: Administración
• En la administración, las decisiones suelen
basarse en la relación entre dos o más
variables.

3
Aplicaciones: Administración
• Ejemplo:
Observar la relación entre el gasto en publicidad y las ventas
puede permitir a un gerente de mercadotecnia tratar de predecir
las ventas correspondientes a un determinado gasto en
publicidad.

4
Aplicaciones: Inteligencia Artificial
• En Machine Learning y Pattern Recognition, se
distinguen dos paradigmas:

5
Aplicaciones: Inteligencia Artificial
• Test de hipótesis: Dentro de la inferencia
estadística, un contraste de hipótesis (también
denominado test de hipótesis o prueba de
significación) es un procedimiento para juzgar
si una propiedad que se supone en una
población estadística es compatible con lo
observado en una muestra de dicha población.

6
Aplicaciones: Inteligencia Artificial
• Bondad de Ajuste: La bondad de ajuste de un
modelo estadístico describe lo bien que se
ajusta un conjunto de observaciones.

• Las medidas de bondad en general resumen la


discrepancia entre los valores observados y los
que valores esperados en el modelo de
estudio.

7
Aplicaciones: Inteligencia Artificial

• Análisis de Varianza: (Anova: Analysis of


variance) es un método para comparar dos o
más medias, que es necesario porque cuando
se quiere comparar más de dos medias es
incorrecto utilizar repetidamente el contraste
basado en la t de Student.

8
Aplicaciones: Inteligencia Artificial

9
Clustering:

-K-Means
-DBSCAN

10
Clustering: Cuáles?
¿Cuál es la forma natural de agrupar los personajes?

Hombres
vs.
Mujeres

11
Clustering: Cuáles?

¿Cuál es la forma natural de agrupar los personajes?

Simpsons
vs.
Empleados de la escuela
de Springfield

12
Clustering: Cuáles?

¿Cuál es la forma natural de agrupar los personajes?

¡¡¡ El clustering es subjetivo !!!

13
Clustering: Cuántos?

¿Cuántos ¿Dos?
agrupamientos?

¿Seis? ¿Cuatro?

14
Aplicaciones: Inteligencia Artificial

15
Clasificación Vs. Regresión:

16
Clasificación y Regresión:

17
Clasificación:
Si la variable de salida es categórica o nominal.

-Redes Neuronales
-Redes Bayesianas
-Árboles de Decisión
-Máquinas de
Soporte Vectorial

-Estimar el error:
*Precission/Recall
*Curva ROC
*Curva de Coste, etc

18
Regresión:
Si la variable de salida es numérica.

19
Regresión:

-Estimar el error:

*Error cuadrático
medio.
*Error absoluto medio.

20
Casos de Uso:

21
Casos de Uso:

22
Premisas

23
Alcance:
• Veremos EXCLUSIVAMENTE relaciones
lineales.

• La regresión lineal simple estudia la relación


entre sólo dos variables (el caso de relación
más sencillo posible).

24
Ecuación de la Recta:

25
Ecuación de la Recta:

26
Tipos de Variables

DENOMINACIÓN DE LAS VARIABLES


Y X
Criterio (var. a predecir) predictora, regresor
explicada explicativa
respuesta predeterminada
Dependiente Independiente
endógena exógena
(su variabilidad es explicada por otra (explica la variabilidad de otra variable)
variable)

27
DIAGRAMA DE DISPERSIÓN
A grandes rasgos, permite
vislumbrar si:
–Existe relación entre variables.
–La relación es lineal o de otro tipo.
– Intensidad de la relación (por la
estrechez de la nube de puntos).
– Valores anómalos (outliers)
distorsionan la relación.
–La dispersión de los datos es o no
uniforme (homocedasticidad vs.
heterocedasticidad).

28
Modelo de Regresión Lineal
Ejemplo:
Armand’s Pizza es una cadena de restaurantes. Sus
mejores ubicaciones son las que se encuentran
cerca de los campus de las universidades.

+ =

29
Modelo de Regresión Lineal
Los gerentes creen que:

Ventas trimestrales de los y


restaurantes
Tamaño de la población x
estudiantil

Restaurantes más Población Más Ventas


estudiantil

Empleando el análisis de regresión, se puede obtener una


ecuación que muestre cuál es la relación entre la variable
dependiente y y la variable dependiente x.
Modelo de Regresión Lineal Simple

 0 1 Parámetros del modelo


 Error
Subpoblaciones: conjunto de restaurantes
cercanos a un campus.
Cada una de las distribuciones tiene su
propia media (valor esperado)
Ecuación de Regresión Lineal Simple
Subpoblaciones: conjunto de restaurantes
cercanos a un campus.
Cada una de las distribuciones tiene su
propia media (valor esperado).
Ecuación de Regresión Lineal Simple

• Pendiente
• Media o Valor
Esperado
• Corte con el Eje y
Líneas de Regresión Lineal

• Cómo se relaciona y con x?


Ecuación de Regresión Lineal Simple

Se desconocen los
parámetros poblacionales

Usamos estimación muestral


Ecuación de Regresión Lineal Estimada

Cambiamos por estadísticos


muestrales

Gráfica: Recta de regresión estimada


Regresión Lineal - Resumen
Método de Mínimos Cuadrados
"In God we trust; all others must bring data."

William Edwards Deming

TEMA 2

38
Método de Mínimos Cuadrados
• Uso los datos muestrales para hallar la
ecuación de regresión estimada

Muestra de 10 restaurantes de Pizza en


todos los campos universitarios
i Restaurante i de la muestra.
xi tamaño de la población de estudiantes
(en miles) en el campus.
y i ventas trimestrales (en miles de dólares)
Método de Mínimos Cuadrados
Método de Mínimos Cuadrados
• Diagrama de Dispersión:

y: Variable
Dependiente

Observa: >> Población


>> Ventas

x: Variable Independiente
Método de Mínimos Cuadrados
• Ecuación de Regresión Simple Estimada:

Importante:

y i Ventas Reales
ŷi Ventas Estimadas min( yi , yˆ i )
Método de Mínimos Cuadrados
“El método de mínimos cuadrados usa los
datos muestrales para obtener los valores de
b0 y b1 que minimice la:

Suma de los cuadrados de las desviaciones


(diferencias)

entre los valores observados de la variable


dependiente yi y los valores estimados de la
variable dependiente xi.
Método de Mínimos Cuadrados

El criterio de mínimos cuadrados nos


Y’ proporciona un valor de A y uno de B, tal que
(Y)

 Y  Y 
n
'
i i sea mínimo
i 1
(X)
Método de Mínimos Cuadrados
• También llamda: Similaridad basada en el
Error Cuadrático Medio (Gauss):
Método de Mínimos Cuadrados
Ecuación de Regresión Estimada

1.-

2.-
3.-
4.-
5.-
6.- 7.- 8.-
Ecuación de Regresión Estimada
Ecuación de Regresión Estimada con R
Suposiciones del Modelo
Coeficientes de Determinación
"In God we trust; all others must bring data."

William Edwards Deming

TEMA 3

51
Coeficientes de Determinación
• Que tan bueno es el ajuste a los datos de la
ecuación de regresión estimada?

Solución: Medida de Bondad de Ajuste


Coeficiente de Determinación
Coeficientes de Determinación
• Residual i: diferencia existente, en la
observación i, entre: el valor observado de
la variable dependiente yi, y el valor
estimado de la variable dependiente ŷi .
• Error existente al usar ŷi para estimar yi.
Coeficientes de Determinación
Suma de Errores Cuadráticos (con respecto
al valor estimado)
Coeficientes de Determinación
• Calcular: Estimación de las ventas
trimestrales sin saber cuál es el tamaño de
la población de estudiantes. Sin tener
conocimiento de ninguna otra variable
relacionada con las ventas trimestrales.
Solución: Usar Media Muestral
Coeficientes de Determinación
Suma Total de Cuadrados (con respecto a
la media)
Coeficientes de Determinación
Coeficientes de Determinación
Coeficientes de Determinación
Coeficiente de Determinación: denotado
por r 2 :
Coeficiente de Correlación
Definición: Medida de Intensidad de
relación entre dos variables lineales x y y.

Dominio: [-1, +1]


+1: Perfectamente Relacionadas (positiva)
-1: Perfectamente Relacionadas (negativa)
0: Sin Relación
Coeficiente de Correlación
Coeficiente de Correlación

Das könnte Ihnen auch gefallen