Sie sind auf Seite 1von 15

UNIVERSIDAD NACIONAL DE LOJA

ÁREA DE ENERGÍA LAS INDUSTRIAS Y LOS RECURSOS

NATURALES NO RENOVABLES

INGENIERIA EN SISTEMAS
Unidad: Análisis Numérico

ESTUDIANTES:
Francisco Esteban Carrillo
Juana Catalina Malacatus.

LOJA -ECUADOR
2010

0
UNIVERSIDAD NACIONAL DE LOJA

REGRESIÓN SIMPLE

PREAMBULO

Cuando se asocia un error sustancial a los datos, la interpolación polinomial es inapropiada y puede
llevar a resultados no satisfactorios cuando se usa para predecir valores intermedios. Los datos
experimentales a menudo son de ese tipo. Una estrategia mas apropiada en estos casos es la de
obtener una función aproximada que ajuste “adecuadamente” el comportamiento o la tendencia
general de los datos, sin coincidir necesariamente con cada punto en particular. Una línea recta puede
usarse en la caracterización de la tendencia de los datos sin pasar sobre ningún punto en particular.
Una manera de determinar la línea, es inspeccionar de manera visual los datos graficados y luego
trazar la “mejor” línea a través de los puntos. Aunque este enfoque recurre al sentido común y es
válido para cálculos a “simple vista” es deficiente ya que es arbitrario.

Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la interpolación seria
apropiada), cada analista trazará rectas diferentes.

La manera de quitar esta subjetividad es considerar un criterio que cuantifique la suficiencia del
ajuste. Una forma de hacerlo es obtener una curva que minimice la diferencia entre los datos y la curva
y el método para llevar a cabo este objetivo es al que se le llama regresión con mínimos cuadrados.

REGRESIÓN SIMPLE

La Regresión y la Correlación son dos técnicas estadísticas que se pueden utilizar para solucionar
problemas comunes en los negocios.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación
Funcional entre dos o más variables, donde una variable depende de la otra variable.

Se puede decir que y depende de x , en donde y y x son dos variables cualquiera en un modelo de
Regresión Simple.

“ y es una función de x ” y = f(x)


Como y depende de x ,
y Es la variable dependiente, y
x Es la variable independiente.

1
UNIVERSIDAD NACIONAL DE LOJA

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la


variable independiente.

En el Modelo de Regresión Simple se establece que y es una función de sólo una variable
independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos
variables, una dependiente y otra independiente y se representa así:

y = f(x) “Y está regresando por X”

La variable dependiente es la variable que se desea explicar, predecir. También se le llama


REGRESANDO ó VARIABLE DE RESPUESTA.

La variable Independiente x se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para


EXPLICAR Y.

En el estudio de la relación funcional entre dos variables poblacionales, una variable x, llamada
independiente, explicativa o de predicción y una variable y, llamada dependiente o variable respuesta,
presenta la siguiente notación:

y=a+ bx +e

Donde:

a : es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

b: Es el coeficiente de regresión poblacional (pendiente de la línea recta)

e : Es el error

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error.


2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

2
UNIVERSIDAD NACIONAL DE LOJA

PROBLEMAS AL AJUSTAR UN MODELO DE REGRESION LINEAL SIMPLE.

Al ajustar un modelo de regresión lineal simple se pueden presentar diferentes problemas bien
porque no existe una relación lineal entre las variables o porque no se verifican las hipótesis
estructurales que se asumen en el ajuste del modelo. Estos problemas son los siguientes:

Falta de Linealidad, porque la relación entre las dos variables no es lineal o porque variables
explicativas relevantes no han sido incluidas en el modelo.
Existencia de valores atípicos e influyentes, existen datos atípicos que se separan de la nube de
datos muestrales e influyen en la estimación del modelo.
Falta de Normalidad, los residuos del modelo no se ajustan a una distribución normal.
Heterocedasticidad, La heterocedasticidad es la existencia de una varianza no constante en las
perturbaciones aleatorias de un modelo econométrico.
Dependencia (autocorrelación), existe dependencia entre las observaciones.

Un primer paso para el estudio de estos problemas es la realización de un estudio descriptivo, analítico
y gráfico, de la muestra. En particular el gráfico de puntos de la muestra bidimensional permite
detectar algunos problemas como se deja de manifiesto en las siguientes figuras (1 al 6).

Figura 1. La nube de puntos muestrales bidimensionales parece ajustarse bien a una recta.

Figura 2. El ajuste lineal no parece adecuado para esta muestra.

3
UNIVERSIDAD NACIONAL DE LOJA

Figura 3. No existe relación lineal entre las dos variables.

Figura 4. Claros indicios de heterocedasticidad.

Figura 5. Existen puntos atípicos que probablemente influyan en la estimación de la recta ajustada.

4
UNIVERSIDAD NACIONAL DE LOJA

Figura 6. Existe una variable regresora binaria que se debe de incluir en el modelo de regresión.

5
UNIVERSIDAD NACIONAL DE LOJA

MÍNIMOS CUADRADOS
“Mínimos cuadrados es una técnica de análisis numérico encuadrada dentro de la optimización
matemática, en la que, dados un conjunto de pares (o ternas, etc.), se intenta encontrar la función que
mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error
cuadrático.”

Figura 7. El resultado del ajuste de un conjunto de datos a una función cuadrática

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas
(llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos.
Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es
1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede
demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por
iteración), pero requiere un gran número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos
cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de
Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de
datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los
datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser
resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas
de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía
o maximizando la entropía.

6
UNIVERSIDAD NACIONAL DE LOJA

HISTORIA

Figura 8. Carl Friedrich Gauss.

El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta enano Ceres.
Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año, muchos científicos
intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las ecuaciones no
lineales de Kepler de movimiento es muy difícil). La mayoría de evaluaciones fueron inútiles; el único
cálculo suficientemente preciso para permitir a Zach, astrónomo alemán, reencontrar a Ceres al final
del año fue el de un Carl Friedrich Gauss de 24 años (los fundamentos de su enfoque ya los había
planteado en 1795, cuando aún tenía 18 años).

Pero su método de mínimos cuadrados no se publicó hasta 1809, apareciendo en el segundo volumen
de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in sctionibus conicis solem
ambientium. El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente
en 1805.

En 1829 Gauss fue capaz de establecer la razón del éxito maravilloso de este procedimiento:
simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto
se conoce como teorema de Gauss-Márkov

APLICACIONES DEL MÉTODO DE MÍNIMOS CUADRADOS:

Actualmente se han desarrollado innumerables aplicaciones basadas en la minimización de una norma


cuadrática en diversos campos que tienen relación con procesamiento de datos estadísticos o
experimentales. Las principales aplicaciones se agrupan en:

Aproximación de funciones
Estimación de parámetros

7
UNIVERSIDAD NACIONAL DE LOJA

Rectas de regresión por mínimos cuadrados.

Una de las fuentes habituales de problemas de mínimos cuadrados son los problemas de ajustes de
curvas.

¿Cómo se encuentra la mejor aproximación que pase cerca (no por encima de cada uno) de los
puntos? El error cuadrático medio es la elección tradicional porque es mucho más fácil de minimizar
computacionalmente que otros errores (por ejemplo, error máximo y error medio). El enfoque de
mínimos cuadrados le da mucho más peso a un punto que está fuera de la tendencia de los datos, pero
no permite que el punto domine completamente a la aproximación. Con base en la teoría estadística,
con este método, conocido con el nombre de regresión con mínimos cuadrados, se encuentra algún
tipo de función que con mayor probabilidad se aproxima a los valores verdaderos.

En la ciencia y la ingeniería los experimentos producen un conjunto de datos (x1; y1); :::; (xn; yn), con
las abscisas {xk} diferentes, y el problema que se plantea es determinar una función y = f(x) que
relacione los datos, lo mejor posible en algún sentido. Evidentemente, el resultado dependerá del tipo
de función que se elija, por ejemplo, en la regresión f(x) = ax + b es una recta, y para ajustar los
parámetros libres se pueden minimizar uno de los siguientes tres valores:

El error máximo:

El error medio:

El error medio cuadrático:

En el método de mínimos cuadrados el error que se minimiza es el error medio cuadrático. Por tanto,
la recta de regresión ajusta los parámetros a y b para minimizar el valor

que son la solución del sistema lineal conocido como ecuaciones normales de Gauss
𝑛 𝑛

𝑦𝑘 = 𝑁𝑎 + 𝑏 𝑥𝑘
𝑘=1 𝑘=1
𝑛 𝑛 𝑛

𝑥𝑘 𝑦𝑘 = 𝑎 𝑥𝑘 + 𝑏 (𝑥𝑘)2
𝑘=1 𝑘=1 𝑘=1

8
UNIVERSIDAD NACIONAL DE LOJA

¿Cómo se obtiene las ecuaciones anteriores? :

Sea 𝑦 = 𝑎 + 𝑏𝑥

Donde 𝑥 = 𝑥1, 𝑥2, … 𝑥𝑛 ∴ 𝑦1 = 𝑎 + 𝑏𝑥1

𝑦2 = 𝑎 + 𝑏𝑥2

𝑦𝑘 = 𝑎 + 𝑏𝑥𝑛

Tal que la recta de mínimos cuadrados es:

2 2
S= 𝑎 + 𝑏𝑥1 − 𝑦1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 es mínimo

Entonces:

𝜕𝑆
= 2 𝑎 + 𝑏𝑥1 − 𝑦1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 =0
𝜕𝑎

𝜕𝑆
= 2 𝑎 + 𝑏𝑥1 − 𝑦1 𝑥1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 𝑥𝑛 = 0
𝜕𝑏

En donde las ecuaciones normales son:


𝑛 𝑛

𝑁𝑎 + 𝑏 𝑥𝑘 − 𝑦𝑘 = 0
𝑘=1 𝑘=1

𝑛 𝑛 𝑛

𝑎 𝑥𝑘 + 𝑏 𝑥𝑘 2 − 𝑥𝑘 𝑦𝑘 = 0
𝑘=1 𝑘=1 𝑘=1

Despejando:

𝑛 𝑛

𝑦𝑘 = 𝑁𝑎 + 𝑏 𝑥𝑘
𝑘=1 𝑘=1

𝑛 𝑛 𝑛

𝑥𝑘 𝑦𝑘 = 𝑎 𝑥𝑘 + 𝑏 (𝑥𝑘)2
𝑘=1 𝑘=1 𝑘=1

9
UNIVERSIDAD NACIONAL DE LOJA

EJEMPLO
Sean los siguientes datos:

x y
1.2 101
0.8 92
1.0 110
1.3 120
0.7 90
0.8 82
1.0 93
0.6 75
0.9 91
1.1 105
9.4 959

Obtener la recta de mínimos cuadrados.

SOLUCION

x y (xk) xk yk y= 46.49+52.57x
1 1,2 101 1,44 121,2 109,574
2 0,8 92 0,64 73,6 88,546
3 1,0 110 1 110,0 99,06
4 1,3 120 1,69 156,0 114,831
5 0,7 90 0,49 63,0 83,289
6 0,8 82 0,64 65,6 88,546
7 1,0 93 1 93,0 99,06
8 0,6 75 0,36 45,0 78,032
9 0,9 91 0,81 81,9 93,803
10 1,1 105 1,21 115,5 104,317
9,4 959 88,36 924,8

10
UNIVERSIDAD NACIONAL DE LOJA

Justificación Teórica:

𝑛 𝑛

𝑦𝑘 = 𝑁𝑎 + 𝑏 𝑥𝑘
𝑘=1 𝑘=1
𝑛 𝑛 𝑛

𝑥𝑘 𝑦𝑘 = 𝑎 𝑥𝑘 + 𝑏 (𝑥𝑘)2
𝑘=1 𝑘=1 𝑘=1

Sustituyendo:

959 = 10𝑎 + 9.4𝑏

924.8 = 9.4𝑎 + 9.28𝑏

Resolviendo el sistema de ecuaciones se tiene

a= 46.49

b= 52.57

𝑦 = 𝑎 + 𝑏𝑥
y= 46.49+52.57x

11
UNIVERSIDAD NACIONAL DE LOJA

Grafica

12
UNIVERSIDAD NACIONAL DE LOJA

ERROR MEDIO CUADRÁTICO

x y (xk) xk yk y= 46.49+52.57x f(xk)-yk (f(xk)-yk )2


1 1,2 101 1,44 121,2 109,574 8,574 73,513476
2 0,8 92 0,64 73,6 88,546 -3,454 11,930116
3 1 110 1 110 99,06 -10,94 119,6836
4 1,3 120 1,69 156 114,831 -5,169 26,718561
5 0,7 90 0,49 63 83,289 -6,711 45,037521
6 0,8 82 0,64 65,6 88,546 6,546 42,850116
7 1 93 1 93 99,06 6,06 36,7236
8 0,6 75 0,36 45 78,032 3,032 9,193024
9 0,9 91 0,81 81,9 93,803 2,803 7,856809
10 1,1 105 1,21 115,5 104,317 -0,683 0,466489
9,4 959 88,36 924,8 373,973312

𝟐 373,973312
𝐄 𝐟 =
10

𝐄 𝐟 = 𝟔. 𝟏𝟏𝟓𝟑𝟑𝟓𝟕𝟑𝟗

13
UNIVERSIDAD NACIONAL DE LOJA

BIBLIOGRAFIA

Matus, R.; Hernández, Martha; García, E.. Estadística.

México: Instituto Politécnico Nacional, 2010. p 113.

http://site.ebrary.com/lib/unlsp/Doc?id=10365616&ppg=113

Copyright © 2010. Instituto Politécnico Nacional. All rights reserved.

LINKS

http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados

http://www.scribd.com/doc/25451422/Minimos-Cuadrados-1

http://www.google.com.ec/url?sa=t&source=web&oi=revisions_result&ct=result&cd=1&ved=0CAYQh
gIwAA&url=http%3A%2F%2Fwww.ehu.es%2F~mepvaarf%2Fquimicos%2Fajuste.pdf&ei=3BjZS9fPA5H4
9AT-zOBY&usg=AFQjCNE_0uGySWN-rvgQWF2vVi2lZVzQOA&sig2=xhX15joIPrHkZx8405G6ag

14

Das könnte Ihnen auch gefallen