Minimos Cuadrados y Regresión

UNIVERSIDAD NACIONAL DE LOJA
ÁREA DE ENERGÍA LAS INDUSTRIAS Y LOS RECURSOS
NATURALES NO RENOVABLES
INGENIERIA EN SISTEMAS
Unidad: Análisis Numérico
ESTUDIANTES:
Francisco Esteban Carrillo
Juana Catalina Malacatus.
LOJA -ECUADOR
2010
0
REGRESIÓN SIMPLE
PREAMBULO
Cuando se asocia un error sustancial a los datos, la interpolación polinomial es inapropiada y puede
llevar a resultados no satisfactorios cuando se usa para predecir valores intermedios. Los datos
experimentales a menudo son de ese tipo. Una estrategia mas apropiada en estos casos es la de
obtener una función aproximada que ajuste “adecuadamente” el comportamiento o la tendencia
general de los datos, sin coincidir necesariamente con cada punto en particular. Una línea recta puede
usarse en la caracterización de la tendencia de los datos sin pasar sobre ningún punto en particular.
Una manera de determinar la línea, es inspeccionar de manera visual los datos graficados y luego
trazar la “mejor” línea a través de los puntos. Aunque este enfoque recurre al sentido común y es
válido para cálculos a “simple vista” es deficiente ya que es arbitrario.
Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la interpolación seria
apropiada), cada analista trazará rectas diferentes.
La manera de quitar esta subjetividad es considerar un criterio que cuantifique la suficiencia del
ajuste. Una forma de hacerlo es obtener una curva que minimice la diferencia entre los datos y la curva
y el método para llevar a cabo este objetivo es al que se le llama regresión con mínimos cuadrados.
REGRESIÓN SIMPLE
La Regresión y la Correlación son dos técnicas estadísticas que se pueden utilizar para solucionar
problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación
Funcional entre dos o más variables, donde una variable depende de la otra variable.
Se puede decir que y depende de x , en donde y y x son dos variables cualquiera en un modelo de
Regresión Simple.
“ y es una función de x ” y = f(x)

Como y depende de x ,
y Es la variable dependiente, y
x Es la variable independiente.
1
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la

variable independiente.
En el Modelo de Regresión Simple se establece que y es una función de sólo una variable
independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos
variables, una dependiente y otra independiente y se representa así:
y = f(x) “Y está regresando por X”
La variable dependiente es la variable que se desea explicar, predecir. También se le llama

REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente x se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para

EXPLICAR Y.
En el estudio de la relación funcional entre dos variables poblacionales, una variable x, llamada
independiente, explicativa o de predicción y una variable y, llamada dependiente o variable respuesta,
presenta la siguiente notación:
y=a+ bx +e
Donde:
a : es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.
b: Es el coeficiente de regresión poblacional (pendiente de la línea recta)
e : Es el error
SUPOSICIONES DE LA REGRESIÓN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.

2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.
2
PROBLEMAS AL AJUSTAR UN MODELO DE REGRESION LINEAL SIMPLE.
Al ajustar un modelo de regresión lineal simple se pueden presentar diferentes problemas bien
porque no existe una relación lineal entre las variables o porque no se verifican las hipótesis
estructurales que se asumen en el ajuste del modelo. Estos problemas son los siguientes:
Falta de Linealidad, porque la relación entre las dos variables no es lineal o porque variables
explicativas relevantes no han sido incluidas en el modelo.
Existencia de valores atípicos e influyentes, existen datos atípicos que se separan de la nube de
datos muestrales e influyen en la estimación del modelo.
Falta de Normalidad, los residuos del modelo no se ajustan a una distribución normal.
Heterocedasticidad, La heterocedasticidad es la existencia de una varianza no constante en las
perturbaciones aleatorias de un modelo econométrico.
Dependencia (autocorrelación), existe dependencia entre las observaciones.
Un primer paso para el estudio de estos problemas es la realización de un estudio descriptivo, analítico
y gráfico, de la muestra. En particular el gráfico de puntos de la muestra bidimensional permite
detectar algunos problemas como se deja de manifiesto en las siguientes figuras (1 al 6).
Figura 1. La nube de puntos muestrales bidimensionales parece ajustarse bien a una recta.
Figura 2. El ajuste lineal no parece adecuado para esta muestra.
3
Figura 3. No existe relación lineal entre las dos variables.
Figura 4. Claros indicios de heterocedasticidad.
Figura 5. Existen puntos atípicos que probablemente influyan en la estimación de la recta ajustada.
4
Figura 6. Existe una variable regresora binaria que se debe de incluir en el modelo de regresión.
5
MÍNIMOS CUADRADOS
“Mínimos cuadrados es una técnica de análisis numérico encuadrada dentro de la optimización
matemática, en la que, dados un conjunto de pares (o ternas, etc.), se intenta encontrar la función que
mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error
cuadrático.”
Figura 7. El resultado del ajuste de un conjunto de datos a una función cuadrática
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas
(llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos.
Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es
1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede
demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por
iteración), pero requiere un gran número de iteraciones para converger.
Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos
cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de
Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de
datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los
datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser
resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados).
La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas
de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía
o maximizando la entropía.
6
HISTORIA
Figura 8. Carl Friedrich Gauss.
El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta enano Ceres.
Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año, muchos científicos
intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las ecuaciones no
lineales de Kepler de movimiento es muy difícil). La mayoría de evaluaciones fueron inútiles; el único
cálculo suficientemente preciso para permitir a Zach, astrónomo alemán, reencontrar a Ceres al final
del año fue el de un Carl Friedrich Gauss de 24 años (los fundamentos de su enfoque ya los había
planteado en 1795, cuando aún tenía 18 años).
Pero su método de mínimos cuadrados no se publicó hasta 1809, apareciendo en el segundo volumen
de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in sctionibus conicis solem
ambientium. El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente
en 1805.
En 1829 Gauss fue capaz de establecer la razón del éxito maravilloso de este procedimiento:
simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto
se conoce como teorema de Gauss-Márkov
APLICACIONES DEL MÉTODO DE MÍNIMOS CUADRADOS:
Actualmente se han desarrollado innumerables aplicaciones basadas en la minimización de una norma

cuadrática en diversos campos que tienen relación con procesamiento de datos estadísticos o
experimentales. Las principales aplicaciones se agrupan en:
Aproximación de funciones
Estimación de parámetros
7
Rectas de regresión por mínimos cuadrados.
Una de las fuentes habituales de problemas de mínimos cuadrados son los problemas de ajustes de
curvas.
¿Cómo se encuentra la mejor aproximación que pase cerca (no por encima de cada uno) de los
puntos? El error cuadrático medio es la elección tradicional porque es mucho más fácil de minimizar
computacionalmente que otros errores (por ejemplo, error máximo y error medio). El enfoque de
mínimos cuadrados le da mucho más peso a un punto que está fuera de la tendencia de los datos, pero
no permite que el punto domine completamente a la aproximación. Con base en la teoría estadística,
con este método, conocido con el nombre de regresión con mínimos cuadrados, se encuentra algún
tipo de función que con mayor probabilidad se aproxima a los valores verdaderos.
En la ciencia y la ingeniería los experimentos producen un conjunto de datos (x1; y1); :::; (xn; yn), con
las abscisas {xk} diferentes, y el problema que se plantea es determinar una función y = f(x) que
relacione los datos, lo mejor posible en algún sentido. Evidentemente, el resultado dependerá del tipo
de función que se elija, por ejemplo, en la regresión f(x) = ax + b es una recta, y para ajustar los
parámetros libres se pueden minimizar uno de los siguientes tres valores:
El error máximo:
El error medio:
El error medio cuadrático:
En el método de mínimos cuadrados el error que se minimiza es el error medio cuadrático. Por tanto,
la recta de regresión ajusta los parámetros a y b para minimizar el valor
que son la solución del sistema lineal conocido como ecuaciones normales de Gauss
𝑛 𝑛
𝑦𝑘 = 𝑁𝑎 + 𝑏 𝑥𝑘
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑥𝑘 𝑦𝑘 = 𝑎 𝑥𝑘 + 𝑏 (𝑥𝑘)2
𝑘=1 𝑘=1 𝑘=1
8
¿Cómo se obtiene las ecuaciones anteriores? :
Sea 𝑦 = 𝑎 + 𝑏𝑥
Donde 𝑥 = 𝑥1, 𝑥2, … 𝑥𝑛 ∴ 𝑦1 = 𝑎 + 𝑏𝑥1
𝑦2 = 𝑎 + 𝑏𝑥2
⋮
𝑦𝑘 = 𝑎 + 𝑏𝑥𝑛
Tal que la recta de mínimos cuadrados es:
2 2
S= 𝑎 + 𝑏𝑥1 − 𝑦1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 es mínimo
Entonces:
𝜕𝑆
= 2 𝑎 + 𝑏𝑥1 − 𝑦1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 =0
𝜕𝑎
𝜕𝑆
= 2 𝑎 + 𝑏𝑥1 − 𝑦1 𝑥1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 𝑥𝑛 = 0
𝜕𝑏
En donde las ecuaciones normales son:

𝑛 𝑛
𝑁𝑎 + 𝑏 𝑥𝑘 − 𝑦𝑘 = 0
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑎 𝑥𝑘 + 𝑏 𝑥𝑘 2 − 𝑥𝑘 𝑦𝑘 = 0
𝑘=1 𝑘=1 𝑘=1
Despejando:
𝑛 𝑛
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑘=1 𝑘=1 𝑘=1
9
EJEMPLO
Sean los siguientes datos:
x y
1.2 101
0.8 92
1.0 110
1.3 120
0.7 90
0.8 82
1.0 93
0.6 75
0.9 91
1.1 105
9.4 959
Obtener la recta de mínimos cuadrados.
SOLUCION
x y (xk) xk yk y= 46.49+52.57x
1 1,2 101 1,44 121,2 109,574
2 0,8 92 0,64 73,6 88,546
3 1,0 110 1 110,0 99,06
4 1,3 120 1,69 156,0 114,831
5 0,7 90 0,49 63,0 83,289
6 0,8 82 0,64 65,6 88,546
7 1,0 93 1 93,0 99,06
8 0,6 75 0,36 45,0 78,032
9 0,9 91 0,81 81,9 93,803
10 1,1 105 1,21 115,5 104,317
9,4 959 88,36 924,8
10
Justificación Teórica:
𝑛 𝑛
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑘=1 𝑘=1 𝑘=1
Sustituyendo:
959 = 10𝑎 + 9.4𝑏
924.8 = 9.4𝑎 + 9.28𝑏
Resolviendo el sistema de ecuaciones se tiene
a= 46.49
b= 52.57
𝑦 = 𝑎 + 𝑏𝑥
y= 46.49+52.57x
11
Grafica
12
ERROR MEDIO CUADRÁTICO
x y (xk) xk yk y= 46.49+52.57x f(xk)-yk (f(xk)-yk )2

1 1,2 101 1,44 121,2 109,574 8,574 73,513476
2 0,8 92 0,64 73,6 88,546 -3,454 11,930116
3 1 110 1 110 99,06 -10,94 119,6836
4 1,3 120 1,69 156 114,831 -5,169 26,718561
5 0,7 90 0,49 63 83,289 -6,711 45,037521
6 0,8 82 0,64 65,6 88,546 6,546 42,850116
7 1 93 1 93 99,06 6,06 36,7236
8 0,6 75 0,36 45 78,032 3,032 9,193024
9 0,9 91 0,81 81,9 93,803 2,803 7,856809
10 1,1 105 1,21 115,5 104,317 -0,683 0,466489
9,4 959 88,36 924,8 373,973312
𝟐 373,973312
𝐄 𝐟 =
10
𝐄 𝐟 = 𝟔. 𝟏𝟏𝟓𝟑𝟑𝟓𝟕𝟑𝟗
13
BIBLIOGRAFIA
Matus, R.; Hernández, Martha; García, E.. Estadística.
México: Instituto Politécnico Nacional, 2010. p 113.
http://site.ebrary.com/lib/unlsp/Doc?id=10365616&ppg=113
Copyright © 2010. Instituto Politécnico Nacional. All rights reserved.
LINKS
http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados
http://www.scribd.com/doc/25451422/Minimos-Cuadrados-1
http://www.google.com.ec/url?sa=t&source=web&oi=revisions_result&ct=result&cd=1&ved=0CAYQh
gIwAA&url=http%3A%2F%2Fwww.ehu.es%2F~mepvaarf%2Fquimicos%2Fajuste.pdf&ei=3BjZS9fPA5H4
9AT-zOBY&usg=AFQjCNE_0uGySWN-rvgQWF2vVi2lZVzQOA&sig2=xhX15joIPrHkZx8405G6ag
14

Minimos Cuadrados y Regresión

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Minimos Cuadrados y Regresión

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDAD NACIONAL DE LOJA

ÁREA DE ENERGÍA LAS INDUSTRIAS Y LOS RECURSOS

“ y es una función de x ” y = f(x)

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la

y = f(x) “Y está regresando por X”

La variable dependiente es la variable que se desea explicar, predecir. También se le llama

La variable Independiente x se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para

a : es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

b: Es el coeficiente de regresión poblacional (pendiente de la línea recta)

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error.

PROBLEMAS AL AJUSTAR UN MODELO DE REGRESION LINEAL SIMPLE.

Figura 2. El ajuste lineal no parece adecuado para esta muestra.

Figura 3. No existe relación lineal entre las dos variables.

Figura 4. Claros indicios de heterocedasticidad.

Figura 7. El resultado del ajuste de un conjunto de datos a una función cuadrática

Figura 8. Carl Friedrich Gauss.

APLICACIONES DEL MÉTODO DE MÍNIMOS CUADRADOS:

Actualmente se han desarrollado innumerables aplicaciones basadas en la minimización de una norma

Rectas de regresión por mínimos cuadrados.

El error medio cuadrático:

¿Cómo se obtiene las ecuaciones anteriores? :

Donde 𝑥 = 𝑥1, 𝑥2, … 𝑥𝑛 ∴ 𝑦1 = 𝑎 + 𝑏𝑥1

Tal que la recta de mínimos cuadrados es:

En donde las ecuaciones normales son:

Obtener la recta de mínimos cuadrados.

959 = 10𝑎 + 9.4𝑏

924.8 = 9.4𝑎 + 9.28𝑏

Resolviendo el sistema de ecuaciones se tiene

ERROR MEDIO CUADRÁTICO

x y (xk) xk yk y= 46.49+52.57x f(xk)-yk (f(xk)-yk )2

Matus, R.; Hernández, Martha; García, E.. Estadística.

México: Instituto Politécnico Nacional, 2010. p 113.

Copyright © 2010. Instituto Politécnico Nacional. All rights reserved.

Das könnte Ihnen auch gefallen