Chapra 490 526

CAPTULO 17
Regresin por mnimos

cuadrados
Cuando los datos tienen errores sustanciales, la interpolacin polinomial es inapropiada

y puede dar resultados poco satisfactorios cuando se utiliza para predecir valores inter-
medios. Con frecuencia los datos experimentales son de este tipo. Por ejemplo, en la
figura 17.1a se muestran siete datos obtenidos experimentalmente que presentan una
variabilidad significativa. Una inspeccin visual de esos datos sugiere una posible rela-
cin entre y y x. Es decir, la tendencia general indica que valores altos de y estn aso-
ciados con valores altos de x. Ahora, si un polinomio de interpolacin de sexto grado se
ajusta a estos datos (figura 17.1b), pasar exactamente a travs de todos los puntos. Sin
embargo, a causa de la variabilidad en los datos, la curva oscila mucho en el intervalo
entre los puntos. En particular, los valores interpolados para x = 1.5 y x = 6.5 parecen
estar bastante ms all del rango sugerido por los datos.
Una estrategia ms apropiada en tales casos consiste en obtener una funcin de
aproximacin que se ajuste a la forma o a la tendencia general de los datos, sin coincidir
necesariamente en todos los puntos. La figura 17.1c ilustra cmo se utiliza una lnea
recta para caracterizar de manera general la tendencia de los datos sin pasar a travs de
algn punto especfico.
Una manera para determinar la lnea de la figura 17.1c es inspeccionar en forma
visual los datos graficados y despus trazar una mejor lnea a travs de los puntos.
Aunque tales procedimientos a ojo apelan al sentido comn y son vlidos para clcu-
los superficiales, resultan deficientes por ser arbitrarios. Es decir, a menos que los
puntos definan una lnea recta perfecta (en cuyo caso la interpolacin resultara apro-
piada), diferentes analistas dibujaran lneas distintas.
Para dejar a un lado dicha subjetividad se debe encontrar algn criterio para esta-
blecer una base para el ajuste. Una forma de hacerlo es obtener una curva que minimice
la discrepancia entre los puntos y la curva. Una tcnica para lograr tal objetivo, llamada
regresin por mnimos cuadrados, se analizar en este captulo.
17.1 REGRESIN LINEAL
El ejemplo ms simple de una aproximacin por mnimos cuadrados es ajutar una lnea
recta a un conjunto de observaciones definidas por puntos: (x1, y1), (x2, y2),, (xn, yn).
La expresin matemtica para la lnea recta es
y = a0 + a1x + e (17.1)
17.1 REGRESIN LINEAL 467
0
0 5 x
a)
y
0
0 5 x
b)
y
5
FIGURA 17.1
a) Datos que muestran
un error significativo. b)
Ajuste polinomial oscilando
ms all del rango de los
datos. c) Resultados ms 0
satisfactorios mediante 0 5 x
el ajuste por mnimos c)
cuadrados.
donde a 0 y a1 son coeficientes que representan la interseccin con el eje y y la pendien-

te, respectivamente, e es el error, o diferencia, entre el modelo y las observaciones, el
cual se representa al reordenar la ecuacin (17.1) como
e = y a 0 a1x
As, el error o residuo es la discrepancia entre el valor verdadero de y y el valor aproxi-

mado, a0 + a1x, que predijo la ecuacin lineal.
468 REGRESIN POR MNIMOS CUADRADOS
17.1.1 Criterio para un mejor ajuste
Una estrategia para ajustar una mejor lnea a travs de los datos ser minimizar la
suma de los errores residuales de todos los datos disponibles, como sigue:
n n

i =1
ei = (y a
i =1
i 0 a1 xi ) (17.2)
donde n = nmero total de puntos. Sin embargo, ste es un criterio inadecuado, como lo
muestra la figura 17.2a, la cual presenta el ajuste de una lnea recta de dos puntos. Ob-
viamente, el mejor ajuste es la lnea que une los puntos. Sin embargo, cualquier lnea
FIGURA 17.2
Ejemplo de algunos criterios para el mejor ajuste que son inadecuados para la regresin:
a) minimizar la suma de los residuos, b) minimizar la suma de los valores absolutos de los
residuos y c) minimizar el error mximo de cualquier punto individual.
Punto medio
x
a)
y
x
b)
y
Punto fuera
del conjunto
x
c)
recta que pase a travs del punto medio que une la lnea (excepto una lnea perfectamen-
te vertical) da como resultado un valor mnimo de la ecuacin (17.2) igual a cero, debi-
do a que los errores se cancelan.
Por lo tanto, otro criterio lgico podra ser minimizar la suma de los valores abso-
lutos de las discrepancias,
n n

i =1
ei = i =1
yi a0 a1 xi
La figura 17.2b muestra por qu este criterio tambin es inadecuado. Para los cuatro
puntos dados, cualquier lnea recta que est dentro de las lneas punteadas minimizar
el valor absoluto de la suma. As, este criterio tampoco dar un nico mejor ajuste.
Una tercera estrategia para ajustar una mejor lnea es el criterio minimax. En esta
tcnica, la lnea se elige de manera que minimice la mxima distancia a que un punto
se encuentra de la lnea. Como se ilustra en la figura 17.2c, tal estrategia es inadecuada
para la regresin, ya que da excesiva influencia a puntos fuera del conjunto; es decir, a
un solo punto con un gran error. Deber observarse que el principio minimax es, en
algunas ocasiones, adecuado para ajustar una funcin simple a una funcin complicada
(Carnahan, Luther y Wilkes, 1969).
La estrategia que supera las deficiencias de los procedimientos mencionados con-
siste en minimizar la suma de los cuadrados de los residuos entre la y medida y la y
calculada con el modelo lineal
n n n
Sr =
i =1
ei2 =
i =1
( yi,medida yi,modelo ) 2 = (y a
i =1
i 0 a1 xi ) 2 (17.3)
Este criterio tiene varias ventajas, entre ellas el hecho de que se obtiene una lnea nica
para cierto conjunto de datos. Antes de analizar tales propiedades, presentaremos una
tcnica para determinar los valores de a 0 y a1 que minimizan la ecuacin (17.3).
17.1.2 Ajuste de una lnea recta por mnimos cuadrados
Para determinar los valores de a 0 y a1, la ecuacin (17.3) se deriva con respecto a cada
uno de los coeficientes:
Sr
a0
= 2 (y a i 0 a1 xi )
Sr
a1
= 2 [( y a i 0 a1 xi ) xi ]
Observe que hemos simplificado los smbolos de la sumatoria; a menos que se indique
otra cosa, todas las sumatorias van desde i = 1 hasta n. Al igualar estas derivadas a cero,
se dar como resultado un Sr mnimo. Si se hace esto, las ecuaciones se expresan
como
0= y a a x
i 0 1 i
0= y x a x a x
i i 0 i
2
1 i
Ahora, si observamos que a 0 = na 0, expresamos las ecuaciones como un conjunto de

dos ecuaciones lineales simultneas, con dos incgnitas (a 0 y a1):
( x ) a = y
na0 + i 1 i (17.4)
( x ) a + ( x ) a = x y
i 0
2
i i i i (17.5)
stas se llaman ecuaciones normales, y se resuelven en forma simultnea
n xi yi xi yi
a1 = (17.6)
n xi2 ( xi ) 2
Este resultado se utiliza conjuntamente con la ecuacin (17.4) para obtener

a = y a x
0 1 (17.7)
donde y y x son las medias de y y x, respectivamente.
EJEMPLO 17.1 Regresin lineal

Planteamiento del problema. Ajuste a una lnea recta los valores x y y en las dos
primeras columnas de la tabla 17.1.
Solucin. Se calculan las siguientes cantidades:
n=7 x y = 119.5
i i x 2
i = 140
x = 28
28
i x= =4
7
y = 24
24
i y= = 3.428571
7
Mediante las ecuaciones (17.6) y (17.7)
7(119.5) 28(24)
a1 = = 0.8392857
7(140) (28) 2
a 0 = 3.428571 0.8392857(4) = 0.07142857
TABLA 17.1 Clculos para el anlisis de error en el ajuste lineal.
)2
xi yi (yi y (yi a0 a1xi)2
1 0.5 8.5765 0.1687

2 2.5 0.8622 0.5625
3 2.0 2.0408 0.3473
4 4.0 0.3265 0.3265
5 3.5 0.0051 0.5896
6 6.0 6.6122 0.7972
7 5.5 4.2908 0.1993
24.0 22.7143 2.9911
Por lo tanto, el ajuste por mnimos cuadrados es

y = 0.07142857 + 0.8392857x
La lnea, junto con los datos, se muestran en la figura 17.1c.
17.1.3 Cuantificacin del error en la regresin lineal
Cualquier otra lnea diferente a la calculada en el ejemplo 17.1 dar como resultado una
suma mayor de los cuadrados de los residuos. As, la lnea es nica y, en trminos de
nuestro criterio elegido, es la mejor lnea a travs de los puntos. Varias propiedades
de este ajuste se observan al examinar ms de cerca la forma en que se calcularon los
residuos. Recuerde que la suma de los cuadrados se define como [ecuacin (17.3)]
n n
Sr =
i =1
ei2 = (y a
i =1
i 0 a1 xi ) 2 (17.8)
Observe la similitud entre las ecuaciones (PT5.3) y (17.8). En el primer caso, el

cuadrado del residuo representa el cuadrado de la discrepancia entre el dato y una esti-
macin de la medida de tendencia central: la media. En la ecuacin (17.8), el cuadrado
del residuo representa el cuadrado de la distancia vertical entre el dato y otra medida de
tendencia central: la lnea recta (figura 17.3).
La analoga se puede extender an ms en casos donde 1. la dispersin de los puntos
alrededor de la lnea es de magnitud similar en todo el rango de los datos, y 2. la distri-
bucin de estos puntos cerca de la lnea es normal. Es posible demostrar que si estos
criterios se cumplen, la regresin por mnimos cuadrados proporcionar la mejor (es
decir, la ms adecuada) estimacin de a 0 y a1 (Draper y Smith, 1981). Esto se conoce en
FIGURA 17.3
El residuo en la regresin lineal representa la distancia vertical entre un dato y la lnea recta.
Medicin
yi
n
esi
yi a0 a1xi e gr
der
ea
Ln
a0 + a1xi
xi x
estadstica como el principio de mxima verosimilitud. Adems, si estos criterios se

satisfacen, una desviacin estndar para la lnea de regresin se determina como sigue
[compare con la ecuacin (PT5.2)]
Sr
Sy / x = (17.9)
n2
donde a sy/x se le llama error estndar del estimado. El subndice y/x designa que el
error es para un valor predicho de y correspondiente a un valor particular de x. Tambin,
observe que ahora dividimos entre n 2 debido a que se usaron dos datos estimados (a 0
y a1), para calcular Sr; as, se han perdido dos grados de libertad. Como lo hicimos en
nuestro anlisis para la desviacin estndar en PT5.2.1, otra justificacin para dividir
entre n 2 es que no existe algo como datos dispersos alrededor de una lnea recta
que une dos puntos. De esta manera, en el caso donde n = 2, la ecuacin (17.9) da un
resultado sin sentido, infinito.
As como en el caso de la desviacin estndar, el error estndar del estimado cuan-
tifica la dispersin de los datos. Aunque, sy/x cuantifica la dispersin alrededor de la
lnea de regresin, como se muestra en la figura 17.4b, a diferencia de la desviacin
estndar original sy que cuantifica la dispersin alrededor de la media (figura 17.4a).
Los conceptos anteriores se utilizan para cuantificar la bondad de nuestro ajuste.
Esto es en particular til para comparar diferentes regresiones (figura 17.5). Para hacer-
lo, regresamos a los datos originales y determinamos la suma total de los cuadrados
alrededor de la media para la variable dependiente (en nuestro caso, y). Como en el caso
de la ecuacin (PT5.3), esta cantidad se designa por St. sta es la magnitud del error
residual asociado con la variable dependiente antes de la regresin. Despus de realizar
la regresin, calculamos Sr, es decir, la suma de los cuadrados de los residuos alrededor
de la lnea de regresin. Esto caracteriza el error residual que queda despus de la regre-
FIGURA 17.4
Datos de regresin que muestran a) la dispersin de los datos alrededor de la media de la variable dependiente y b) la
dispersin de los datos alrededor de la lnea de mejor ajuste. La reduccin en la dispersin al ir de a) a b), como lo indican
las curvas en forma de campana a la derecha, representa la mejora debida a la regresin lineal.
a) b)
x
a)
x
b)
FIGURA 17.5
Ejemplos de regresin lineal con errores residuales a) pequeos y b) grandes.
sin. Es por lo que, algunas veces, se le llama la suma inexplicable de los cuadrados. La
diferencia entre estas dos cantidades, St Sr , cuantifica la mejora o reduccin del error
por describir los datos en trminos de una lnea recta en vez de un valor promedio. Como
la magnitud de esta cantidad depende de la escala, la diferencia se normaliza a St para
obtener
St Sr
r2 = (17.10)
St
donde r 2 se conoce como el coeficiente de determinacin y r es el coeficiente de corre-

lacin (= r 2 ). En un ajuste perfecto, Sr = 0 y r = r 2 = 1, significa que la lnea explica
el 100% de la variabilidad de los datos. Si r = r 2 = 0, Sr = St el ajuste no representa al-
guna mejora. Una representacin alternativa para r que es ms conveniente para imple-
mentarse en una computadora es
n xi yi ( xi )( yi )
r= (17.11)
n xi2 ( xi ) 2 n yi2 ( yi ) 2
EJEMPLO 17.2 Estimacin de errores en el ajuste lineal por mnimos cuadrados
Planteamiento del problema. Calcule la desviacin estndar total, el error estndar

del estimado y el coeficiente de correlacin para los datos del ejemplo 17.1.
Solucin. Las sumatorias se realizan y se presentan en la tabla 17.1. La desviacin

estndar es [ecuacin (PT5.2)]
22.7143
sy = = 1.9457
7 1
y el error estndar del estimado es [ecuacin (17.9)]
2.9911
sy/ x = = 0.7735
72
Como sy/x < sy, el modelo de regresin lineal es adecuado. La mejora se puede cuantifi-
car mediante [ecuacin (17.10)]
22.7143 2.9911
r2 = = 0.868
22.7143
o
r = 0.868 = 0.932
Los resultados indican que el modelo lineal explic el 86.8% de la incertidumbre original.
Antes de implementar el programa computacional para la regresin lineal, debemos

tomar en cuenta algunas consideraciones. Aunque el coeficiente de correlacin ofrece
una manera fcil de medir la bondad del ajuste, se deber tener cuidado de no darle ms
significado del que ya tiene. El solo hecho de que r sea cercana a 1 no necesariamen-
te significa que el ajuste sea bueno. Por ejemplo, es posible obtener un valor relativa-
mente alto de r cuando la relacin entre y y x no es lineal. Draper y Smith (1981)
proporcionan guas y material adicional respecto a la evaluacin de resultados en la
regresin lineal. Adems, como mnimo, usted deber inspeccionar siempre una grfica
de los datos junto con su curva de regresin. Como se describe en la siguiente seccin,
los paquetes de software tienen estas capacidades.
17.1.4 Programa computacional para la regresin lineal
Es relativamente fcil desarrollar un seudocdigo para la regresin lineal (figura 17.6).

Como se mencion antes, la opcin de graficar resulta benfico para el uso efectivo y la
interpretacin de la regresin. Tales capacidades se incluyen en paquetes de software
populares como Excel y MATLAB. Si su lenguaje de computacin tiene capacidad para
graficar, recomendamos que expanda su programa para incluir una grfica de y contra
x, que muestre tanto los datos como la lnea de regresin. La inclusin de la capacidad
aumentar mucho la utilidad del programa en los contextos de solucin de problemas.
SUB Regress(x, y, n, al, a0, syx, r2)
sumx = 0: sumxy = 0: st = 0
sumy = 0: sumx2 = 0: sr = 0
DOFOR i = 1, n
sumx = sumx + xi
sumy = sumy + yi
sumxy = sumxy + xi*yi
sumx2 = sumx2 + xi*xi
END DO
xm = sumx/n
ym = sumy/n
a1 = (n*sumxy sumx*sumy)/(n*sumx2 sumx*sumx)
a0 = ym a1*xm
DOFOR i = 1, n
st = st + (yi ym)2
sr = sr + (yi a1*xi a0)2
END DO
syx = (sr/(n 2))0.5
r2 = (st sr)/st
END Regress
FIGURA 17.6
Algoritmo para la regresin lineal.
EJEMPLO 17.3 Regresin lineal usando la computadora
Planteamiento del problema. Se utiliza el software basado en la figura 17.6 para

resolver un problema de prueba de hiptesis relacionado con la cada del paracaidista
que se analiz en el captulo 1. Un modelo terico matemtico para la velocidad del
paracaidista se dio como sigue [ecuacin (1.10)]:
gm
v(t ) = (1 e( c/ m )t )
c
donde v = velocidad (m/s), g = constante gravitacional (9.8 m/s2), m = masa del para-
caidista igual a 68.1 kg y c = coeficiente de arrastre de 12.5 kg/s. El modelo predice la
velocidad del paracaidista en funcin del tiempo, como se describe en el ejemplo 1.1.
Un modelo emprico alternativo para la velocidad del paracaidista est dado por
gm t
v(t ) = (E17.3.1)
c 3.75 + t
Suponga que usted quiere probar y comparar la veracidad de esos dos modelos
matemticos. Esto se podra hacer al medir la velocidad real del paracaidista con valores
conocidos de tiempo y al comparar estos resultados con las velocidades predichas de
acuerdo con cada modelo.
TABLA 17.2 Velocidades medidas y calculadas para la cada del paracaidista.
v calculada v calculada
v medida, con el modelo, con el modelo,
m/s m/s [ec. (1.10)] m/s [ec. (E17.3.1)]
Tiempo, s a) b) c)
1 10.00 8.953 11.240

2 16.30 16.405 18.570
3 23.00 22.607 23.729
4 27.50 27.769 27.556
5 31.00 32.065 30.509
6 35.60 35.641 32.855
7 39.00 38.617 34.766
8 41.50 41.095 36.351
9 42.90 43.156 37.687
10 45.00 44.872 38.829
11 46.00 46.301 39.816
12 45.50 47.490 40.678
13 46.00 48.479 41.437
14 49.00 49.303 42.110
15 50.00 49.988 42.712
Se implement un programa para la recoleccin de datos experimentales, y los re-

sultados se enlistan en la columna a) de la tabla 17.2. Las velocidades calculadas con
cada modelo se enlistan en las columnas b) y c).
Solucin. La veracidad de los modelos se prueba al graficar la velocidad calculada

por el modelo contra la velocidad medida. Se puede usar la regresin lineal para calcu-
lar la pendiente y la interseccin con el eje y de la grfica. Esta lnea tendr una pen-
diente de 1, una interseccin de 0 y r 2 = 1 si el modelo concuerda perfectamente con los
datos. Una desviacin significativa de estos valores sirve como una indicacin de lo
inadecuado del modelo.
Las figuras 17.7a y b muestran grficas de la lnea y los datos para las regresiones
de las columnas b) y c), respectivamente, contra la columna a). Para el primer modelo
[ecuacin (1.10) como se ilustra en la figura 17.7a]
vmodelo = 0.859 + 1.032vmedida
y para el segundo modelo [ecuacin (E17.3.1) como se ilustra en la figura 17.7b],
vmodelo = 5.776 + 0.752vmedida
Esas grficas indican que la regresin lineal entre los datos y cada uno de los modelos
es altamente significativa. Ambos modelos ajustan los datos con un coeficiente de co-
rrelacin mayor a 0.99.
No obstante, el modelo descrito por la ecuacin (1.10) se ajusta mejor a nuestro
criterio de prueba de hiptesis que el descrito por la ecuacin (E17.3.1), ya que la pen-
diente y la interseccin con el eje y son ms cercanos a 1 y 0. As, aunque cada grfica
queda bien descrita por una lnea recta, la ecuacin (1.10) parece ser un mejor modelo que
la (E17.3.1).
55
Y 30
a)
5
5 30 55
X
(a)
55
Y 30
b)
5
5 30 55
X
(b)
FIGURA 17.7
a) Resultados con regresin lineal para comparar las predicciones calculadas con el modelo
terico [ecuacin (1.10)] contra valores medidos. b) Resultados con regresin lineal para
comparar predicciones calculadas con el modelo emprico [ecuacin (E17.3.1] contra
valores medidos.
La prueba y la seleccin del modelo son actividades comunes y muy importantes

en todas las ramas de la ingeniera. El material que se present antes en este captulo,
junto con su software, le ayudarn a resolver muchos problemas prcticos de este tipo.
El anlisis en el ejemplo 17.3 tiene un defecto: el ejemplo no fue ambiguo, ya que

el modelo emprico [ecuacin (E17.3.1)] fue claramente inferior al de la ecuacin (1.10).
La pendiente y la interseccin en el modelo emprico fueron mucho ms cercanos a los
resultados deseados 1 y 0, por lo que result obvio cul era el mejor modelo.
Sin embargo, suponga que la pendiente fuera de 0.85 y que la interseccin con el
eje y fuera de 2. Obviamente esto llevara a la conclusin de que la pendiente y la inter-
seccin fueran 1 y 0 respectivamente. Por lo anterior, es claro que, ms que apoyarse en

un juicio subjetivo, es preferible basar tal conclusin sobre un criterio cuantitativo.
Esto se logra al calcular intervalos de confianza para los parmetros del modelo, de
la misma forma que desarrollamos intervalos de confianza para la media en la seccin
PT5.2.3. Regresaremos a este punto al final del captulo.
17.1.5 Linealizacin de relaciones no lineales
La regresin lineal ofrece una poderosa tcnica para ajustar una mejor lnea a los datos.
Sin embargo, se considera el hecho de que la relacin entre las variables dependiente e
independiente es lineal. ste no es siempre el caso, y el primer paso en cualquier anli-
sis de regresin deber ser graficar e inspeccionar los datos en forma visual, para ase-
gurarnos que sea posible usar un modelo lineal. Por ejemplo, la figura 17.8 muestra
algunos datos que obviamente son curvilneos. En algunos casos, las tcnicas como la
regresin polinomial, que se describen en la seccin 17.2, son apropiadas. En otros, se
pueden utilizar transformaciones para expresar los datos en una forma que sea compa-
tible con la regresin lineal.
Un ejemplo es el modelo exponencial
y = a1eb1x (17.12)
FIGURA 17.8
a) Datos inadecuados para la regresin lineal por mnimos cuadrados. b) Indicacin
de que es preferible una parbola.
x
a)
x
b)
donde a1 y b1 son constantes. Este modelo se emplea en muchos campos de la ingeniera

para caracterizar cantidades que aumentan (b1 positivo) o disminuyen (b1 negativo), a
una velocidad que es directamente proporcional a sus propias magnitudes. Por ejemplo,
el crecimiento poblacional o el decaimiento radiactivo tienen este comportamiento. Como
se ilustra en la figura 17.9a, la ecuacin representa una relacin no lineal (para b1 0)
entre y y x.
Otro ejemplo de modelo no lineal es la ecuacin de potencias
y = a2xb2 (17.13)
donde a2 y b2 son coeficientes constantes. Este modelo tiene muchas aplicaciones en

todos los campos de la ingeniera. Como se ilustra en la figura 17.9b, la ecuacin (para
b2 0 o 1) es no lineal.
FIGURA 17.9
a) La ecuacin exponencial, b) la ecuacin de potencias y c) la ecuacin de razn del crecimiento.
Los incisos d), e) y f) son versiones linealizadas de estas ecuaciones que resultan de transformaciones simples.
y y y
y = a1e b1x y = a2 x b2 y = a3 x
b3 + x
x x x
a) b) c)
Linealizacin
Linealizacin
Linealizacin
ln y log y 1/y
Pendiente = b2
Pendiente = b3 /a3
Pendiente = b1
Interseccin = 1/a3
Interseccin = ln a1
x log x 1/x
Interseccin = log a2
d) e) f)
Un tercer ejemplo de un modelo no lineal es la ecuacin de razn del crecimiento

[recuerde la ecuacin (E17.3.1)]
x
y = 3 (17.14)
3 + x
donde a3 y b3 son coeficientes constantes. Este modelo particularmente es adecuado
para caracterizar la razn de crecimiento poblacional bajo condiciones limitantes, tam-
bin representa una relacin no lineal entre y y x (figura 17.9c) que se iguala o satura,
conforme x aumenta.
Hay tcnicas de regresin no lineal disponibles para ajustar estas ecuaciones de
manera directa a datos experimentales. (Observe que analizaremos la regresin no lineal
en la seccin 17.5.) Sin embargo, una alternativa simple consiste en usar manipulaciones
matemticas para transformar las ecuaciones en una forma lineal. Despus, se utiliza la
regresin lineal simple para ajustar las ecuaciones a los datos.
Por ejemplo, la ecuacin (17.12) se linealiza al aplicar el logaritmo natural se obtiene
ln y = ln a1 + b1x ln e
Pero como ln e = l,
ln y = ln a1 + b1x (17.15)
As, una grfica de ln y contra x dar una lnea recta con una pendiente b1 y una inter-
seccin con el eje de las ordenadas igual a ln a1 (figura 17.9d).
La ecuacin (17.13) es linealizada al aplicar el logaritmo de base 10 se obtiene
log y = b2 log x + log a2 (7.16)
De este modo, una grfica de log y contra log x dar una lnea recta con pendiente b2 e
interseccin con el eje de las ordenadas log a2 (figura 17.9e).
La ecuacin (17.14) es linealizada al invertirla para dar
1 3 1 1
= + (17.17)
y 3 x 3
De esta forma, una grfica de 1/y contra 1/x ser lineal, con pendiente b3/a3 y una in-
terseccin con el eje de las ordenadas 1/a3 (figura 17.9f).
En sus formas transformadas, estos modelos pueden usar la regresin lineal para
poder evaluar los coeficientes constantes. Despus, regresarse a su estado original y
usarse para fines predictivos. El ejemplo 17.4 ilustra este procedimiento con la ecuacin
(17.13). Adems, la seccin 20.1 proporciona un ejemplo de ingeniera de la misma
clase de clculo.
EJEMPLO 17.4 Linealizacin de una ecuacin de potencias
Planteamiento del problema. Ajuste la ecuacin (17.13) a los datos de la tabla 17.3
mediante una transformacin logartmica de los datos.
Solucin. La figura l7.10a es una grfica de los datos originales en su estado no trans-
formado. La figura 17.10b muestra la grfica de los datos transformados. Una regresin
lineal de esta transformacin mediante logoritmos dan el siguiente resultado:
log y = 1.75 log x 0.300
TABLA 17.3 Datos que se ajustarn con la ecuacin de potencias.
x y 1og x log y
1 0.5 0 0.301
2 1.7 0.301 0.226
3 3.4 0.477 0.534
4 5.7 0.602 0.753
5 8.4 0.699 0.922
FIGURA 17.10
a) Grfica de datos no transformados con la ecuacin de potencias que se ajusta a los
datos. b) Grfica de datos transformados para determinar los coeficientes de la ecuacin
de potencias.
0
0 5 x
a)
log y
0.5
0.5 log x
b)
As, la interseccin con el eje de las ordenadas es log a2 igual a 0.300 y, por lo tanto,
al tomar el antilogaritmo, a2 = 10 0.3 = 0.5. La pendiente es b2 = 1.75. En consecuencia,
la ecuacin de potencias es
y = 0.5x1.75
Esta curva, como se grafica en la figura 17.10a, indica un buen ajuste.
17.1.6 Comentarios generales sobre la regresin lineal
Antes de plantear la regresin curvilnea y lineal mltiple, debemos enfatizar la natura-

leza introductoria del material anterior sobre regresin lineal. Nos hemos concentrado en
la obtencin y el uso prctico de ecuaciones para ajustarse a datos. Deber estar cons-
ciente del hecho de que hay aspectos tericos de regresin que son de importancia prc-
tica, pero que van ms all del alcance de este libro. Por ejemplo, algunas suposiciones
estadsticas, inherentes a los procedimientos lineales por mnimos cuadrados, son
1. Cada x tiene un valor fijo; no es aleatorio y se conoce sin error.

2. Los valores de y son variables aleatorias independientes y todas tienen la misma
varianza.
3. Los valores de y para una x dada deben estar distribuidos normalmente.
Tales suposiciones son relevantes para la obtencin adecuada y el uso de la regresin.

Por ejemplo, la primera suposicin significa que 1. los valores x deben estar libres de
errores, y 2. la regresin de y contra x no es la misma que la de x contra y (vea el proble-
ma 17.4 al final del captulo). Usted debe consultar otras referencias tales como Draper
y Smith (1981) para apreciar los aspectos y detalles de la regresin que estn ms all
del alcance de este libro.
17.2 REGRESIN POLINOMIAL
En la seccin 17.1 se desarroll un procedimiento para obtener la ecuacin de una lnea

recta por medio del criterio de mnimos cuadrados. En la ingeniera, aunque algunos
datos exhiben un patrn marcado, como el que se advierte en la figura 17.8, son pobre-
mente representados por una lnea recta, entonces, una curva podr ser ms adecuada
para ajustarse a los datos. Como se analiz en la seccin anterior, un mtodo para lograr
este objetivo es utilizar transformaciones. Otra alternativa es ajustar polinomios a los
datos mediante regresin polinomial.
El procedimiento de mnimos cuadrados se puede extender fcilmente al ajuste de
datos con un polinomio de grado superior. Por ejemplo, suponga que ajustamos un po-
linomio de segundo grado o cuadrtico:
y = a 0 + a1x + a2 x2 + e
En este caso, la suma de los cuadrados de los residuos es [compare con la ecuacin (17.3)]
n
Sr = (y a
i =1
i 0 a1 xi a2 xi2 )2 (17.18)
17.2 REGRESIN POLINOMIAL 483
Al seguir el procedimiento de la seccin anterior, obtenemos la derivada de la ecuacin

(17.18) con respecto a cada uno de los coeficientes desconocidos del polinomio,
Sr
a0
= 2 (y a i 0 a1 xi a2 xi2 )
Sr
a1
= 2 x (y a
i i 0 a1 xi a2 xi2 )
Sr
a2
= 2 x (y a
2
i i 0 a1 xi a2 xi2 )
Estas ecuaciones se igualan a cero y se reordenan para desarrollar el siguiente conjunto

de ecuaciones normales:
( x ) a + ( x ) a = y
( n ) a0 + i 1
2
i 2 i
( x ) a + ( x ) a + ( x ) a = x y
i 0
2
i 1
3
i 2 i i (17.19)
( x ) a + ( x ) a + ( x ) a = x y
2
i 0
3
i 1
4
i 2
2
i i
donde todas las sumatorias van desde i = 1 hasta n. Observe que las tres ecuaciones
anteriores son lineales y tienen tres incgnitas: a 0, a1 y a2 . Los coeficientes de las in-
cgnitas se evalan de manera directa, a partir de los datos observados.
En este caso, observamos que el problema de determinar un polinomio de segundo
grado por mnimos cuadrados es equivalente a resolver un sistema de tres ecuacio-
nes lineales simultneas. En la parte tres se estudiaron las tcnicas para resolver tales
ecuaciones.
El caso bidimensional se extiende con facilidad a un polinomio de m-simo grado
como sigue
y = a0 + a1x + a2x2 + + amxm + e
El anlisis anterior se puede extender fcilmente a este caso ms general. As, se reco-
noce que la determinacin de los coeficientes de un polinomio de m-simo grado es
equivalente a resolver un sistema de m + 1 ecuaciones lineales simultneas. En este caso,
el error estndar se formula como sigue:
Sr
sy/ x = (17.20)
n ( m + 1)
Esta cantidad se dividide entre n (m + 1), ya que (m + 1) coeficientes obtenidos de los

datos, a 0, a1,, am, se utilizaron para calcular Sr; hemos perdido m + 1 grados de liber-
tad. Adems del error estndar, tambin se calcula un coeficiente de determinacin para
la regresin polinomial con la ecuacin (17.10).
EJEMPLO 17.5 Regresin polinomial

Planteamiento del problema. Ajustar a un polinomio de segundo grado los datos
dados en las dos primeras columnas de la tabla 17.4.
Solucin. A partir de los datos dados,
m=2 x = 15
i x = 979 4
i
n=6 y = 152.6 x y = 585.6

i i i
x = 2.5 x = 55 x y = 2 488.8
2
i
2
i i
y = 25.433 x = 225
3
i
TABLA 17.4 Clculos para un anlisis de error del ajuste cuadrtico por mnimos
cuadrados.
xi yi (yi y )2 (yi a0 a1xi a2xi2)
0 2.1 544.44 0.14332

1 7.7 314.47 1.00286
2 13.6 140.03 1.08158
3 27.2 3.12 0.80491
4 40.9 239.22 0.61951
5 61.1 1 272.11 0.09439
152.6 2 513.39 3.74657
FIGURA 17.11
Ajuste de un polinomio de segundo grado.
50 Parbola
de mnimos
cuadrados
0 5 x
17.2 REGRESIN POLINOMIAL 485
Entonces, las ecuaciones lineales simultneas son

6 15 55 a0 152.6
15 55 225 a = 585.6
1
55 225 979 a2 2 488.8
Resolviendo estas ecuaciones con una tcnica como la eliminacin de Gauss se tiene
a 0 = 2.47857, a1 = 2.35929 y a2 = 1.86071. Por lo tanto, la ecuacin cuadrtica por m-
nimos cuadrados en este caso es
y = 2.47857 + 2.35929x + 1.86071x2
El error estndar del estimado con base en la regresin polinomial es [ecuacin

(17.20)]
3.74657
sy/ x = = 1.12
63
El coeficiente de determinacin es
2 513.39 3.74657
r2 = = 0.99851
2 513.39
y el coeficiente de correlacin es r = 0.99925.
Estos resultados indican que con el modelo se explic el 99.851% de la incertidum-
bre original. Este resultado apoya la conclusin de que la ecuacin cuadrtica represen-
ta un excelente ajuste, como tambin es evidente en la figura 17.11.
17.2.1 Algoritmo para la regresin polinomial

Un algoritmo para la regresin polinomial se expone en la figura 17.12. Observe que la
principal tarea es la generacin de los coeficientes de las ecuaciones normales [ecuacin
(17.19)]. (El seudocdigo para esto se presenta en la figura 17.13.) Las tcnicas de la
parte tres sirven para resolver estas ecuaciones simultneas que determinan los coefi-
cientes.
FIGURA 17.12
Algoritmo para implementar la regresin polinomial y lineal mltiple.
Paso 1: Introduzca el grado del polinomio sujeto a ajuste, m.

Paso 2: Introduzca el nmero de datos, n.
Paso 3: Si n < m + 1, imprima un mensaje de error que indique que la regresin no es posible
y termine el proceso. Si n m + 1, contine.
Paso 4: Calcule los elementos de la ecuacin normal en la forma de una matriz aumentada.
Paso 5: Usando la matriz aumentada determine los coeficientes a0, a1, a2,, am, por medio
de un mtodo de eliminacin.
Paso 6: Imprima los coeficientes.
DOFOR i = 1, order + 1
DOFOR j = 1, i
k = i + j 2
sum = 0
D0FOR = 1, n
sum = sum + xk
END DO
ai,j = sum
aj,i = sum
END DO
sum = 0
FIGURA 17.13 DOFOR = 1, n
Seudocdigo para encontrar sum = sum + y xi1

los elementos de las END DO
ecuaciones normales en la ai,order+2 = sum
regresin polinomial. END DO
Un problema potencial en la implementacin de la regresin polinomial en la compu-

tadora es que las ecuaciones normales algunas veces estn mal condicionadas. Esto se
presenta especialmente cuando se plantean polinomios de grado superior. En tales casos,
los coeficientes calculados pueden ser altamente susceptibles al error de redondeo y, en
consecuencia, los resultados seran inexactos. Entre otras cuestiones, este problema se
relaciona con la estructura de las ecuaciones normales y con el hecho de que con poli-
nomios de grado superior las ecuaciones normales pueden tener coeficientes muy gran-
des y muy pequeos. Lo anterior se debe a que los coeficientes son sumas de datos
elevados a potencias.
Aunque las estrategias para disminuir el error de redondeo analizadas en la parte tres,
como el pivoteo, pueden ayudar a resolver parcialmente dicho problema, una alternativa
ms simple consiste en usar una computadora con alta precisin. Por fortuna, la mayora
de los problemas prcticos estn limitados a polinomios de grado inferior, en los cuales el
error de redondeo generalmente es insignificante. En situaciones donde se requieren ver-
siones de grado superior, se dispone de otras alternativas para ciertos tipos de datos. Sin
embargo, esas tcnicas (como polinomios ortogonales) estn ms all del alcance de este
libro. El lector deber consultar textos sobre regresin, como el de Draper y Smith (1981),
para mayor informacin respecto al problema y sus posibles alternativas.
17.3 REGRESIN LINEAL MLTIPLE
Una extensin til de la regresin lineal es el caso en el que y es una funcin lineal de
dos o ms variables independientes. Por ejemplo, y podra ser una funcin lineal de x1
y x2, como en
y = a 0 + a1x1 + a2 x2 + e
En particular tal ecuacin es til cuando se ajustan datos experimentales donde la va-
riable sujeta a estudio es una funcin de otras dos variables. En este caso bidimensional,
la lnea de regresin se convierte en un plano (figura 17.14).
17.3 REGRESIN LINEAL MLTIPLE 487
x1
FIGURA 17.14
Descripcin grfica de una
regresin lineal mltiple
donde y es una funcin x2
lineal de x1 y x2.
Como en los casos anteriores, los mejores valores para los coeficientes se deter-
minan al realizar la suma de los cuadrados de los residuos,
n
Sr = (y a
i =1
i 0 a1 x1i a2 x 2 i ) 2 (17.21)
y derivando con respecto a cada uno de los coeficientes desconocidos,
Sr
a0
= 2 (y a i 0 a1 x1i a2 x 2 i )
Sr
a1
= 2 x 1i ( yi a0 a1 x1i a2 x 2 i )
Sr
a2
= 2 x 2i ( yi a0 a1 x1i a2 x 2 i )
Los coeficientes que dan la suma mnima de los cuadrados de los residuos se obtienen
al igualar a cero las derivadas parciales y expresando el resultado en forma matricial:
n x1i x 2 i a0 yi
x
1i x12i x1i x 2 i a1 = x1i yi (17.22)
x 2 i x1i x 2 i x 22i a2 x 2 i yi
EJEMPLO 17.6 Regresin lineal mltiple
Planteamiento del problema. Los siguientes datos se calcularon con la ecuacin y =

5 + 4x1 3x2:
x1 x2 y
0 0 5
2 1 10
2.5 2 9
1 3 0
4 6 3
7 2 27
Utilice la regresin lineal mltiple para ajustar estos datos.
Solucin. Las sumatorias requeridas para la ecuacin (17.22) se calculan en la tabla

17.5. El resultado es
6 16.5 14 a0 54
16.5 76.25 48 a = 243.5
1
14 48 54 a2 100
que se resuelve mediante un mtodo como el de eliminacin de Gauss, obtenindose
a0 = 5 a1 = 4 a2 = 3
que es consistente con la ecuacin original, de la cual se obtienen los datos.
TABLA 17.5 Clculos requeridos para desarrollar las ecuaciones normales

para el ejemplo 17.6.
y x1 x2 x21 x22 x1x2 x 1y x2y
5 0 0 0 0 0 0 0
10 2 1 4 1 2 20 10
9 2.5 2 6.25 4 5 22.5 18
0 1 3 1 9 3 0 0
3 4 6 16 36 24 12 18
54 16.5 14 76.25 54 48 243.5 100
El caso bidimensional anterior fcilmente se extiende a m dimensiones as
y = a 0 + a1x1 + a2 x2 + + amxm + e
donde el error estndar se formula como

Sr
sy/ x =
n ( m + 1)
y el coeficiente de determinacin se calcula como en la ecuacin (17.10). En la figura
17.15 se da un algoritmo para establecer las ecuaciones normales.
17.4 MNIMOS CUADRADOS LINEALES EN GENERAL 489
DOFOR i 1, order 1
DOFOR j 1, i
sum 0
DOFOR 1, n
sum = sum xi1, xj1,
END DO
ai,j sum
aj,i sum
END DO
sum 0
DOFOR 1, n
sum sum y xi1,
END DO
ai,order2 sum
END DO
FIGURA 17.15
Seudocdigo para establecer los elementos de las ecuaciones normales en la regresin
mltiple. Observe que adems de guardar las variables independientes en x1,i, x2,i, etc., se
deben guardar 1 en x0,i para que funcione este algoritmo.
Aunque puede haber ciertos casos donde una variable est linealmente relacionada
con dos o ms variables, la regresin lineal mltiple tiene adems utilidad en la obtencin
de ecuaciones de potencias de la forma general
y = a 0x1a1x2a2 xmam
Tales ecuaciones son extremadamente tiles cuando se ajustan datos experimentales.

Para usar regresin lineal mltiple, la ecuacin se transforma al aplicar logaritmos:
log y = log a 0 + a1 log x1 + a2 log x2 + + am log xm
Esta transformacin es similar a la que se us en la seccin 17.1.5 y en el ejemplo

17.4 para ajustar una ecuacin de potencias cuando y era una funcin de una sola varia-
ble x. La seccin 20.4 muestra un ejemplo de una de estas aplicaciones para dos variables
independientes.
17.4 MNIMOS CUADRADOS LINEALES EN GENERAL
Hasta aqu nos hemos concentrado en la mecnica para obtener ajustes por mnimos
cuadrados de algunas funciones sencillas para datos dados. Antes de ocuparnos de la
regresin no lineal, hay varios puntos que nos gustara analizar para enriquecer nuestra
comprensin del material precedente.
17.4.1 Formulacin general de una matriz para mnimos

cuadrados lineales
En las pginas anteriores presentamos tres tipos de regresin: lineal simple, polinomial
y lineal mltiple. De hecho, las tres pertenecen al siguiente modelo lineal general de
mnimos cuadrados:
y = a0z0 + a1z1 + a2z2 + + amzm + e (17.23)
donde z0, z1, , zm son m + 1 funciones diferentes. Se observa con facilidad cmo la
regresin lineal simple y mltiple se encuentran dentro de este modelo; es decir, z0 = 1,
z1 = x1, z2 = x2, , zm = xm. Adems, la regresin polinomial se incluye tambin si las z
son monomios simples como z0 = x0 = 1, z1 = x, z2 = x2,, zm = xm .
Observe que la terminologa lineal se refiere slo a la dependencia del modelo
sobre sus parmetros (es decir, las a). Como en el caso de la regresin polinomial, las
mismas funciones llegan a ser altamente no lineales. Por ejemplo, las z pueden ser se-
noidales, como en
y = a 0 + a1 cos (wt) + a2 sen (wt)
Esta forma es la base del anlisis de Fourier que se describe en el captulo 19.
Por otro lado, un modelo de apariencia simple como
f(x) = a 0 (1 ea1x)
es no lineal porque no es posible llevarlo a la forma de la ecuacin (17.23). Regresaremos

a tales modelos al final de este captulo.
Mientras tanto, la ecuacin (17.23) se expresa en notacin matricial como
{Y} = [Z]{A} + {E} (17.24)
donde [Z] es una matriz de los valores calculados de las funciones z en los valores me-
didos de las variables independientes,
z01 z11 zm1

z z12 zm 2
02

[Z] =

z0 n z1n zmn
donde m es el nmero de variables en el modelo y n es el nmero de datos. Como n > m

+ 1, usted reconocer que, la mayora de las veces, [Z] no es una matriz cuadrada.
El vector columna {Y} contiene los valores observados de la variable dependiente
{Y}T = y1 y 2 yn
El vector columna {A} contiene los coeficientes desconocidos
{A}T = a 0 a1 am
y el vector columna {E} contiene los residuos
{E}T = e1 e2 en
Como se dio a lo largo de este captulo, la suma de los cuadrados de los residuos en
este modelo se definen como
2
n m
Sr =
i =1
yi

j =0
a j z ji

Esta cantidad se minimiza tomando las derivadas parciales con respecto a cada uno de
los coeficientes e igualando a cero la ecuacin resultante. El resultado de este proceso
son las ecuaciones normales, que se expresan en forma matricial como
[[Z]T[Z]]{A} = {[Z]T{Y}} (17.25)
Es posible mostrar que la ecuacin (17.25) es, de hecho, equivalente a las ecuaciones nor-
males desarrolladas antes para la regresin lineal simple, la polinomial y la mltiple.
Nuestra principal motivacin para lo anterior fue ilustrar la unidad entre los tres
procedimientos y mostrar cmo se pueden expresar de manera simple en la misma no-
tacin matricial. Tambin sienta las bases para el estudio de la siguiente seccin, donde
obtendremos un mejor conocimiento sobre las estrategias preferidas para resolver la
ecuacin (17.25). La notacin matricial tambin tendr relevancia cuando volvamos a
la regresin no lineal en la ltima seccin del presente captulo.
17.4.2 Tcnicas de solucin
En los anlisis anteriores en este captulo tratamos el asunto de las tcnicas numricas
especficas para resolver las ecuaciones normales. Ahora que hemos establecido la uni-
dad de los diversos modelos, podemos explorar esta cuestin con mayor detalle.
Primero, deber quedar claro que el mtodo de Gauss-Seidel no puede utilizarse aqu
debido a que las ecuaciones normales no son diagonalmente dominantes. De esta manera,
nos quedan solamente los mtodos de eliminacin. Para los propsitos actuales, podemos
dividir esas tcnicas en tres categoras: 1. mtodos de descomposicin LU, incluyendo
eliminacin de Gauss, 2. mtodo de Cholesky y 3. mtodo de la matriz inversa. En efecto,
hay interrelaciones en esta clasificacin. Por ejemplo, el mtodo de Cholesky es, de hecho,
una descomposicin LU, y todos los procedimientos se pueden formular de tal manera que
generen la matriz inversa. Sin embargo, el mrito de esta clasificacin es que cada catego-
ra ofrece ventajas respecto a la solucin de ecuaciones normales.
Descomposicin LU. Si usted est interesado slo en aplicar un ajuste por mnimos
cuadrados en un caso donde el modelo adecuado se conoce de antemano, cualquiera de
los procedimientos de descomposicin LU, descritos en el captulo 9, son perfectamen-
te aceptables. De hecho, tambin es posible emplear la formulacin de la descomposi-

cin LU de la eliminacin de Gauss. sta es una tarea de programacin relativamente
sencilla para incorporar cualquiera de estos procedimientos en un algoritmo de mnimos
cuadrados lineales. En realidad, si se ha seguido un enfoque modular, esto resulta casi
trivial.
Mtodo de Cholesky. El algoritmo de descomposicin de Cholesky tiene varias

ventajas para la solucin del problema general de regresin lineal. Primero, est expre-
samente diseado para resolver matrices simtricas como las ecuaciones normales. As
que es rpido y se requiere de menos espacio de almacenamiento para resolver tales
sistemas. Segundo, es ideal en casos donde el grado del modelo [es decir, el valor de m
en la ecuacin (17.23)] no se conoce de antemano (vase Ralston y Rabinowitz, 1978).
Uno de estos casos sera la regresin polinomial. En ella, no podemos saber a priori si
un polinomio lineal, cuadrtico, cbico o de grado superior es el mejor modelo para
describir nuestros datos. Debido tanto a la forma en la que se construyen las ecuaciones
normales como a la manera en la que se lleva a cabo el algoritmo de Cholesky (figura
11.3), podemos desarrollar modelos sucesivos de grado superior de manera muy eficien-
te. En cada paso es factible examinar la suma residual de los cuadrados del error (y una
grfica!), para examinar si la inclusin de trminos de grado superior mejora el ajuste
de manera significativa.
En la regresin lineal mltiple la situacin anloga se presenta cuando se agregan,
una por una, variables independientes al modelo. Suponga que la variable dependiente
de inters es funcin de varias variables independientes; por ejemplo, temperatura,
contenido de humedad, presin, etc. Primero realizaramos una regresin lineal con la
temperatura y calcularamos un error residual. En seguida, se podra incluir el conteni-
do de humedad para llevar a cabo una regresin mltiple de dos variables y observar si
la variable adicional resulta en una mejora del ajuste. El mtodo de Cholesky vuelve
eficiente el proceso, ya que la descomposicin del modelo lineal tan slo se completar
al incorporar una nueva variable.
Mtodo de la matriz inversa. De la ecuacin (PT3.6), recuerde que la matriz inver-

sa se emplea para resolver la ecuacin (17.25), como se muestra a continuacin:
{A} = [[Z]T[Z]]1 {[Z]T{Y}} (17.26)
Cada uno de los mtodos de eliminacin se puede utilizar para determinar la inversa y,
as, servir para implementar la ecuacin (17.26). Sin embargo, como aprendimos en la
parte tres, ste es un mtodo ineficiente para resolver un conjunto de ecuaciones simul-
tneas. As, si estuviramos solamente interesados en determinar los coeficientes de
regresin, sera preferible utilizar el mtodo de descomposicin LU sin inversin. No
obstante, desde una perspectiva estadstica, existen varias razones por las cuales esta-
ramos interesados en obtener la inversa y examinar sus coeficientes. Tales razones se
analizarn ms adelante.
17.4.3 Aspectos estadsticos de la teora de mnimos cuadrados
En la seccin PT5.2.1, revisamos diversos estadsticos descriptivos que se utilizan para

describir una muestra. stos son: la media aritmtica, la desviacin estndar y la varianza.
Adems de dar una solucin para los coeficientes de regresin, la formulacin ma-
tricial de la ecuacin (17.26) proporciona estimaciones de sus estadsticos. Es posible
demostrar (Draper y Smith, 1981) que los trminos en la diagonal y fuera de la diagonal
de la matriz [[Z] T [Z]] 1 dan, respectivamente, las varianzas y las covarianzas1 de las a.
Si los elementos de la diagonal de [[Z] T [Z]] 1 se designa por z1
i,i, entonces
var(ai1) = z1 2
i,i sy/x (17.27)
cov(ai1, aj1) = z1 2
i,j sy/x (17.28)
Dichos estadsticos poseen varias aplicaciones importantes. Para nuestros actuales

propsitos, ilustraremos cmo se utilizan para desarrollar intervalos de confianza para
la interseccin con el eje y y la pendiente.
Con un procedimiento similar al examinado en la seccin PT5.2.3, se demuestra
que los lmites inferior y superior para la interseccin con el eje y se pueden encontrar
(vase Milton y Arnold, 1995, para ms detalles) de la siguiente manera:
L = a0 t/2,n2s(a0) U = a0 + t/2,n2s(a0) (17.29)
donde s(aj) = el error estndar del coeficiente aj = var(aj). De manera similar, los l-
mites inferior y superior para la pendiente se calculan:
L = a1 t/2,n2s(a1) U = a1 + t/2,n2s(a1) (17.30)
El ejemplo 17.17 ilustra cmo se emplean esos intervalos para realizar inferencias cuan-
titativas respecto a la regresin lineal.
EJEMPLO 17.17 Intervalos de confianza para la regresin lineal
Planteamiento del problema. En el ejemplo 17.3 utilizamos la regresin para desa-

rrollar la siguiente relacin entre mediciones y predicciones del modelo:
y = 0.859 + 1.032x
donde y = las predicciones del modelo y x = las mediciones. Concluimos que haba una
buena concordancia entre las dos, puesto que la interseccin con el eje y era aproxima-
damente igual a 0, y la pendiente aproximadamente igual a 1. Vuelva a calcular la re-
gresin, pero ahora use el mtodo matricial para estimar los errores estndar de los
parmetros. Despus emplee tales errores para desarrollar los intervalos de confianza y
selos para realizar un planteamiento probabilstico respecto a la bondad del ajuste.
Solucin. Los datos se escriben en forma matricial para una regresin lineal simple
de la siguiente manera:
1
La covarianza es un estadstico que mide la dependencia de una variable respecto de otra. As, cov(x, y) indica
la dependencia de x y y. Por ejemplo, cov(x, y) = 0 indicara que x y y son totalmente independientes.
1 10 8.953
1 16.3 16.405

1 23 22.607

[Z] = {Y} =

1 50 49.988

Despus se usan la transposicin y la multiplicacin matriciales para generar las ecua-

ciones normales:
[[ Z ]T [ Z ]] {A} = {[ Z ]T {Y}}
15 548.3 a0 552.741
548.3 22 191.21 a = 22 421.43
1
Se emplea la inversin matricial para obtener la pendiente y la interseccin con el eje y
{A} = [[ Z ]T [ Z ]]1 {[ Z ]T {Y}}

0.688414 0.01701 552.741 0.85872
= =
0.01701 0.000465 22 421.43 1.031592
De esta manera, la interseccin con el eje y y la pendiente quedan como a0 = 0.85872 y

a1 = 1.031592, respectivamente. Estos valores, a su vez, sirven para calcular el error es-
tndar del estimado, sy/x = 0.863403. Este valor puede utilizarse, junto con los elementos
diagonales de la matriz inversa, para calcular los errores estndar de los coeficientes,
s( a0 ) = z111s y2/ x = 0.688414(0.863403) 2 = 0.716372

1 2
s( a1 ) = z22 s y / x = 0.000465(0.863403) 2 = 0.018625
El estadstico t/2,n1 necesario para un intervalo de confianza del 95% con n 2 =

15 2 = 13 grados de libertad se obtiene con una tabla estadstica o mediante software.
Usemos una funcin de Excel, TINV, para obtener el valor adecuado de la siguiente
manera:
= TINV(0.05, 13)
que da un valor de 2.160368. Las ecuaciones (17.29) y (17.30) entonces se usan para
calcular los intervalos de confianza:
a 0 = 0.85872 2.160368(0.716372)
= 0.85872 1.547627 = [2.40634, 0.688912]
a1 = 1.031592 2.160368(0.018625)
= 1.031592 0.040237 = [0.991355, 1.071828]
17.5 REGRESIN NO LINEAL 495
Observe que los valores deseados (0 para la interseccin, y 1 para la pendiente) caen
dentro de los intervalos. Considerando este anlisis podremos formular las siguientes
declaraciones sobre la pendiente: tenemos fundamentos slidos para creer que la pen-
diente de la lnea de regresin real est dentro del intervalo de 0.991355 a 1.071828.
Debido a que 1 est dentro de este intervalo, tambin tenemos fundamentos slidos para
creer que el resultado apoya la concordancia entre las mediciones y el modelo. Como
cero est dentro del intervalo de la interseccin, se puede hacer una declaracin similar
respecto a la interseccin.
Lo anterior constituye una breve introduccin al amplio tema de la inferencia esta-

dstica y de su relacin con la regresin. Hay muchos ms temas de inters que estn
fuera del alcance de este libro. Nuestra principal intencin es demostrar el poder del
enfoque matricial para los mnimos cuadrados lineales en general. Usted deber consul-
tar algunos de los excelentes libros sobre el tema (por ejemplo, Draper y Smith, 1981)
para obtener mayor informacin. Adems, habr que observar que los paquetes y las
bibliotecas de software pueden generar ajustes de regresin por mnimos cuadrados,
junto con informacin relevante para la estadstica inferencial. Exploraremos algunas
de estas capacidades cuando describamos dichos paquetes al final del captulo 19.
17.5 REGRESIN NO LINEAL
Hay muchos casos en la ingeniera donde los modelos no lineales deben ajustarse a
datos. En el presente contexto, tales modelos se definen como aquellos que tienen de-
pendencia no lineal de sus parmetros. Por ejemplo,
f(x) = a0(1 ea1x) + e (17.31)
Esta ecuacin no puede ser manipulada para ser llevada a la forma general de la ecuacin
(17.23).
Como en el caso de los mnimos cuadrados lineales, la regresin no lineal se basa
en la determinacin de los valores de los parmetros que minimizan la suma de los
cuadrados de los residuos. Sin embargo, en el caso no lineal, la solucin debe realizarse
en una forma iterativa.
El mtodo de Gauss-Newton es un algoritmo para minimizar la suma de los cua-
drados de los residuos entre los datos y las ecuaciones no lineales. El concepto clave
detrs de esta tcnica es que se utiliza una expansin en serie de Taylor para expresar la
ecuacin no lineal original en una forma lineal aproximada. Entonces, es posible aplicar
la teora de mnimos cuadrados para obtener nuevas estimaciones de los parmetros que
se mueven en la direccin que minimiza el residuo.
Para ilustrar cmo se logra esto, primero se expresa de manera general la relacin
entre la ecuacin no lineal y los datos, de la manera siguiente:
yi = f(xi; a 0 , a1, , am) + ei
donde yi = un valor medido de la variable dependiente, f(xi; a 0, a1, , am) = la ecuacin

que es una funcin de la variable independiente xi y una funcin no lineal de los par-
metros a 0, a1, , am, y ei = un error aleatorio. Por conveniencia, este modelo se expre-
sa en forma abreviada al omitir los parmetros,
yi = f(xi) + ei (17.32)
El modelo no lineal puede expandirse en una serie de Taylor alrededor de los valo-
res de los parmetros y cortarse despus de las primeras derivadas. Por ejemplo, para
un caso con dos parmetros,
f ( x i ) j f ( xi ) j
f ( xi ) j +1 = f ( xi ) j + a0 + a1 (17.33)
a 0 a1
donde j = el valor inicial, j + 1 = la prediccin, a 0 = a 0,j+1 a 0,j, y a1 = a1,j+1 a1,j. De

esta forma, hemos linealizado el modelo original con respecto a los parmetros. La
ecuacin (17.33) se sustituye en la ecuacin (17.32) para dar
f ( xi ) j f ( xi ) j
yi f ( xi ) j = a0 + a1 + ei
a0 a1
o en forma matricial [comprela con la ecuacin (17.24)],
{D} = [Zj]{A} + {E} (17.34)
donde [Zj] es la matriz de las derivadas parciales de la funcin evaluadas en el valor

inicial j,
f1 /a0 f1 /a1
f /a f2 /a1
2 0

[Z j ] =

fn /a0 fn /a1
donde n = el nmero de datos y fi /ak = la derivada parcial de la funcin con respecto

al k-simo parmetro evaluado en el i-simo dato. El vector {D} contiene las diferencias
entre las mediciones y los valores de la funcin,
y1 f ( x1 )
y f ( x )
2 2

{D} =

yn f ( x n )
17.5 REGRESIN NO LINEAL 497
y el vector {A} contiene los cambios en los valores de los parmetros,
a0
a
1

{A} =

am
Si se aplica la teora de los mnimos cuadrados lineales a la ecuacin (17.34) se obtienen

las siguientes ecuaciones normales [recuerde la ecuacin (17.25)]:
[[Zj]T[Zj]]{A} = {[Zj]T{D}} (17.35)
As, el procedimiento consiste en resolver de la ecuacin (17.35) para {A}, que se uti-
liza para calcular valores mejorados de los parmetros, como en
a 0,j+1 = a 0,j + a 0
a1,j+1 = a1,j + a1
Este procedimiento se repite hasta que la solucin converge, es decir, hasta que
ak , j +1 ak , j
a k = 100% (17.36)
ak , j +1
est por debajo de un criterio de terminacin aceptable.
EJEMPLO 17.9 Mtodo de Gauss-Newton
Planteamiento del problema. Ajuste la funcin f(x; a0, a1) = a0 (1 ea1x) a los datos:
x 0.25 0.75 1.25 1.75 2.25
y 0.28 0.57 0.68 0.74 0.79
Emplee a 0 = 1.0 y a1 = 1.0 como valores iniciales para los parmetros. Observe que para
estos valores la suma inicial de los cuadrados de los residuos es 0.0248.
Solucin. Las derivadas parciales de la funcin con respecto a los parmetros son
f
= 1 e a1x (E17.9.1)
a0
y
f
= a0 xe a1x (E17.9.2)
a1
Las ecuaciones (E17.9.1) y (E17.9.2) se utilizan para evaluar la matriz
0.2212 0.1947
0.5276 0.3543

[ Z0 ] = 0.7135 0.3581

0.8262 0.3041
0.8946 0.2371
Esta matriz multiplicada por su transpuesta nos da
2.3193 0.9489
[ Z0 ]T [ Z0 ] =
0.9489 0.4404
la cual, a su vez, se invierte con el siguiente resultado:
3.6397 7.8421
[[ Z0 ]T [ Z0 ]]1 =
7.8421 19.1678
El vector {D} consiste en las diferencias entre las mediciones y las predicciones del
modelo,
0.28 0.2212 0.0588

0.57 0.5276 0.0424

{D} = 0.68 0.7135 = 0.0335
0.74 0.8262 0.0862

0.79 0.8946 0.1046
ste se multiplica por [Z 0] T para dar
0.1533
[ Z0 ]T {D} =
0.0365
El vector {A}, entonces, se calcula al resolver la ecuacin (17.35):
0.2714
A =
0.5019
que se suma a los valores iniciales de los parmetros:
a0 1.0 0.2714 0.7286

= + =
a1 1.0 0.5019 1.5019
As, los estimados mejorados de los parmetros son a 0 = 0.7286 y a1 = 1.5019. Los nue-
vos parmetros dan una suma de los cuadrados de los residuos igual a 0.0242. La ecua-
PROBLEMAS 499
cin (17.36) se utiliza para obtener que 0 y 1 son iguales a 37 y 33%, respectivamente.
El clculo se repetira hasta que esos valores estn abajo del criterio de terminacin
establecido. El resultado final es a 0 = 0.79186 y a1 = 1.6751. Tales coeficientes dan una
suma de los cuadrados de los residuos de 0.000662.
Un problema potencial con el mtodo de Gauss-Newton, como se ha desarrollado

hasta ahora, es que las derivadas parciales de la funcin pueden ser difciles de evaluar.
En consecuencia, muchos programas computacionales usan diferentes ecuaciones para
aproximar las derivadas parciales. Un mtodo es
fi f ( xi ; a0 ,, ak + ak ,, am ) f ( xi ; a0 , ak ,, am )
(17.37)
ak ak
donde d = una perturbacin fraccional pequea.

El mtodo de Gauss-Newton tiene tambin algunas desventajas:
1. Puede converger con lentitud.

2. Puede oscilar ampliamente; es decir, cambia de direccin continuamente.
3. Puede no converger.
Se han desarrollado modificaciones del mtodo (Booth y Peterson, 1958; Hartley, 1961)
para disminuir las desventajas.
Adems, aunque hay varios procedimientos expresamente diseados para regresin,
un mtodo ms general es usar rutinas de optimizacin no lineal como las descritas en
la parte cuatro. Para hacer esto, se dan valores iniciales a los parmetros y se calcula la
suma de los cuadrados de los residuos. Por ejemplo, para la ecuacin (17.31) esto se
podra calcular como
n
Sr = [ y a (1 e
i =1
i 0
a1xi
)]2 (17.38)
Los parmetros, entonces, se ajustaran de manera sistemtica para minimizar Sr me-

diante tcnicas de bsqueda como las descritas previamente en el captulo 14. Ilustrare-
mos el modo para hacer esto cuando describamos las aplicaciones de software, al final
del captulo 19.
PROBLEMAS
17.1 Dados los datos Determine a) la media, b) la desviacin estndar, c) la varianza,

d) el coeficiente de variacin, y e) el intervalo de confianza del
8.8 9.5 9.8 9.4 10.0
95% para la media.
9.4 10.1 9.2 11.3 9.4
10.0 10.4 7.9 10.4 9.8 17.2 Construya un histograma de los datos del problema 17.1.
9.8 9.5 8.9 8.8 10.6 Use un rango de 7.5 a 11.5 con intervalos de 0.5.
10.1 9.5 9.6 10.2 8.9 17.3 Dados los datos
28.65 26.55 26.65 27.65 27.35 28.35 26.85 17.7 Emplee la regresin por mnimos cuadrados para ajustar
28.65 29.65 27.85 27.05 28.25 28.35 26.75 una lnea recta a
27.65 28.45 28.65 28.45 31.65 26.35 27.75
x 1 2 3 4 5 6 7 8 9
29.25 27.65 28.65 27.65 28.55 27.55 27.25
y 1 1.5 2 3 4 5 8 10 13
Determine a) la media, b) la desviacin estndar, c) la varianza,

a) Adems de la pendiente y la interseccin, calcule el error
d) el coeficiente de variacin, y e) el intervalo de confianza del
estndar de la estimacin y el coeficiente de correlacin.
90% para la media. f ) Construya un histograma. Use un rango
Grafique los datos y la lnea recta. Evale el ajuste.
de 26 a 32 con incrementos de 0.5. g) Si se supone que la distri-
b) Vuelva a hacer el clculo del inciso a), pero use regresin
bucin es normal y que la estimacin de la desviacin estndar
polinomial para ajustar una parbola a los datos. Compare
es vlida, calcule el rango (es decir, los valores inferior y superior)
los resultados con los del inciso a).
que agrupa al 68% de los datos. Determine si esta es una estima-
cin vlida para los datos del problema. 17.8 Ajuste los datos siguientes con a) un modelo de tasa de
17.4 Utilice la regresin por mnimos cuadrados para ajustar una crecimiento de saturacin, b) una ecuacin de potencias, y c)
lnea recta a una parbola. En cada caso, haga una grfica de los datos y la
ecuacin.
x 0 2 4 6 9 11 12 15 17 19
y 5 6 7 6 9 8 7 10 12 12 x 0.75 2 3 4 6 8 8.5
y 1.2 1.95 2 2.4 2.4 2.7 2.6
Adems de la pendiente y la interseccin, calcule el error estn-
dar de la estimacin y el coeficiente de correlacin. Haga una 17.9 Ajuste los datos siguientes con el modelo de potencias (y
grfica de los datos y la lnea de regresin. Despus repita el = axb). Use la ecuacin de potencias resultante para hacer el
problema, pero ahora efecte la regresin de x versus y, es decir, pronstico de y en x = 9.
intercambie las variables. Interprete sus resultados.
17.5 Use la regresin por mnimos cuadrados para ajustar una x 2.5 3.5 5 6 7.5 10 12.5 15 17.5 20
lnea recta a y 13 11 8.5 8.2 7 6.2 5.2 4.8 4.6 4.3
x 6 7 11 15 17 21 23 29 29 37 39 17.10 Ajuste a un modelo exponencial a

y 29 21 29 14 21 15 7 7 13 0 3
x 0.4 0.8 1.2 1.6 2 2.3
Adems de la pendiente y la interseccin, calcule el error estn- y 800 975 1500 1950 2900 3600
dar de la estimacin y el coeficiente de correlacin. Haga una
grfica de los datos y la lnea de regresin. Si otra persona hi-
Grafique los datos y la ecuacin tanto en papel milimtrico como
ciera una medicin adicional de x = 10, y = 10, usted pensara,
en semilogartmico.
con base en una evaluacin visual y el error estndar, que la
17.11 En vez de usar el modelo exponencial de base e (ecuacin
medicin era vlida o invlida? Justifique su conclusin.
17.22), una alternativa comn consiste en utilizar un modelo de
17.6 Con el mismo enfoque que se emple para obtener las
base 10.
ecuaciones (17.15) y (17.16), obtenga el ajuste por mnimos
cuadrados del modelo siguiente: y = a510b5x
y = a 1x + e Cuando se usa para ajustar curvas, esta ecuacin lleva a resultados
idnticos que los de la versin con base e, pero el valor del par-
Es decir, determine la pendiente que resulta en el ajuste por metro del exponente (b5) difiere del estimado con la ecuacin 17.22
mnimos cuadrados para una lnea recta con interseccin en el (b1). Use la versin con base 10 para resolver el problema 17.10.
origen. Ajuste los datos siguientes con dicho modelo e ilustre Adems, desarrolle una formulacin para relacionar b1 con b5.
el resultado con una grfica. 17.12 Adems de los ejemplos de la figura 17.10, existen otros
modelos que se pueden hacer lineales con el empleo de transfor-
x 2 4 6 7 10 11 14 17 20 maciones. Por ejemplo,
y 1 2 5 2 8 7 6 9 12 y = a4xeb4x
PROBLEMAS 501
Haga lineal este modelo y selo para estimar a4 y b4 con base en 17.17 Use regresin lineal mltiple para ajustar
los datos siguientes. Elabore una grfica del ajuste junto con los
datos.
x1 0 0 1 2 0 1 2 2 1
x2 0 2 2 4 4 6 6 2 1
x 0.1 0.2 0.4 0.6 0.9 1.3 1.5 1.7 1.8
y 14 21 11 12 23 23 14 6 11
y 0.75 1.25 1.45 1.25 0.85 0.55 0.35 0.28 0.18
Calcule los coeficientes, el error estndar de la estimacin y el

17.13 Un investigador reporta los datos tabulados a continuacin,
coeficiente de correlacin.
de un experimento para determinar la tasa de crecimiento de
17.18 Emplee regresin no lineal para ajustar una parbola a los
bacterias k (per d), como funcin de la concentracin de oxgeno
datos siguientes:
c (mg/L). Se sabe que dichos datos pueden modelarse por medio
de la ecuacin siguiente:
k mxc 2 x 0.2 0.5 0.8 1.2 1.7 2 2.3
k= y 500 700 1 000 1 200 2 200 2 650 3 750
cs + c 2
donde cs y kmx son parmetros. Use una transformacin para
hacer lineal esta ecuacin. Despus utilice regresin lineal pa- 17.19 Use regresin no lineal para ajustar una ecuacin de tasa
ra estimar cs y kmx, y pronostique la tasa de crecimiento para c = de crecimiento de saturacin a los datos del problema 17.14.
2 mg/L. 17.20 Vuelva a calcular los ajustes de regresin de los problemas
a) 17.4, y b) 17.15, con el enfoque matricial. Estime los errores
estndar y desarrolle intervalos de confianza del 90% para los
c 0.5 0.8 1.5 2.5 4 coeficientes.
k 1.1 2.4 5.3 7.6 8.9 17.21 Desarrolle, depure y pruebe un programa en cualquier
lenguaje de alto nivel o de macros que elija, para implantar el
17.14 Dados los datos anlisis de regresin lineal. Entre otras cosas: a) incluya comen-
tarios para documentar el cdigo, y b) determine el error estndar
y el coeficiente de determinacin.
x 5 10 15 20 25 30 35 40 45 50 17.22 Se hace la prueba a un material para estudiar la falla por
y 17 24 31 33 37 37 40 40 42 41 fatiga cclica, en la que se aplica un esfuerzo, en MPa, al material
y se mide el nmero de ciclos que se necesita para hacer que
use regresin por mnimos cuadrados para ajustar a) una lnea falle. Los resultados se presentan en la tabla siguiente. Al hacer-
recta, b) una ecuacin de potencias, c) una ecuacin de tasa de se una grfica log-log, del esfuerzo versus los ciclos, la tendencia
crecimiento de saturacin, y d) una parbola. Grafique los datos de los datos presenta una relacin lineal. Use regresin por m-
junto con todas las curvas. Alguna de las curvas es superior a nimos cuadrados para determinar la ecuacin de mejor ajuste
las dems? Si as fuera, justifquelo. para dichos datos.
17.15 Ajuste una ecuacin cbica a los datos siguientes:
N, ciclos 1 10 100 1 000 10 000 100 000 1 000 000
x 3 4 5 7 8 9 11 12 Esfuerzo, MPa 1 100 1 000 925 800 625 550 420
y 1.6 3.6 4.4 3.4 2.2 2.8 3.8 4.6

17.23 Los datos siguientes muestran la relacin entre la viscosidad
Adems de los coeficientes, determine r2 y sy/x. del aceite SAE 70 y su temperatura. Despus de obtener el loga-
17.16 Utilice regresin lineal mltiple para ajustar ritmo de los datos, use regresin lineal para encontrar la ecuacin
de la recta que se ajuste mejor a los datos y al valor de r 2.
x1 0 1 1 2 2 3 3 4 4
x2 0 1 2 1 2 1 2 1 2 Temperatura, oC 26.67 93.33 148.89 315.56
Viscosidad, m, N s/m2 1.35 0.085 0.012 0.00075

y 15.1 17.9 12.7 25.6 20.5 35.1 29.7 45.4 40.2
Calcule los coeficientes, el error estndar de la estimacin y el 17.24 Los datos siguientes representan el crecimiento bacterial
coeficiente de correlacin. en un cultivo lquido durante cierto nmero de das.
Da 0 4 8 12 16 20 Emplee regresin por mnimos cuadrados para ajustar estos datos

con a) una lnea recta, b) una ecuacin de potencias basada en
Cantidad 106 67 84 98 125 149 185
transformaciones logartmicas, y c) un modelo de potencias con
base en regresin no lineal. Muestre los resultados grficamente.
Encuentre la ecuacin de mejor ajuste a la tendencia de los datos. 17.27 Ajuste un modelo de potencias a los datos del problema
Pruebe varias posibilidades: lineal, parablica y exponencial. Utilice 17.26, pero emplee logaritmos naturales para hacer las transfor-
el paquete de software de su eleccin para obtener la mejor ecuacin maciones.
para pronosticar la cantidad de bacterias despus de 40 das. 17.28 Con el mismo enfoque que se emple para obtener las
17.25 Despus de una tormenta, se vigila la concentracin de la ecuaciones (17.15) y (17.16), obtenga el ajuste por mnimos
bacteria E. coli en un rea de natacin: cuadrados del modelo siguiente:
t (hrs) 4 8 12 16 20 24
y = a1x + a2x2 + e
c (CFU/100mL) 1 590 1 320 1 000 900 650 560
Es decir, determine los coeficientes que generan el ajuste por
El tiempo se mide en horas transcurridas despus de finalizar la
mnimos cuadrados de un polinomio de segundo orden con in-
tormenta, y la unidad CFU es una unidad de formacin de co-
terseccin en el origen. Pruebe el enfoque con el ajuste de los
lonia. Use los datos para estimar a) la concentracin al final de
datos del problema 17.26.
la tormenta (t = 0), y b) el tiempo en el que la concentracin
17.29 En el problema 17.12, en el que se usaron transformacio-
alcanzar 200 CFU / 100 mL. Observe que la eleccin del mo-
nes para hacer lineal y ajustar el modelo siguiente:
delo debe ser consistente con el hecho de que las concentraciones
negativas son imposibles y de que la concentracin de bacterias
siempre disminuye con el tiempo. y = a4xeb4x
17.26 Un objeto se suspende en un tnel de viento y se mide la
fuerza para varios niveles de velocidad del viento. A continuacin Emplee regresin no lineal para estimar a4 y b4 con base en
estn tabulados los resultados. Use la regresin por mnimos los datos siguientes. Haga una grfica del ajuste junto con los
cuadrados para ajustar una lnea recta a estos datos. datos.
v, m/s 10 20 30 40 50 60 70 80 x 0.1 0.2 0.4 0.6 0.9 1.3 1.5 1.7 1.8
FN 25 70 380 550 610 1 220 830 1 450 y 0.75 1.25 1.45 1.25 0.85 0.55 0.35 0.28 0.18

Chapra 490 526

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Chapra 490 526

Hochgeladen von

Copyright:

Verfügbare Formate

CAPTULO 17

Regresin por mnimos

Cuando los datos tienen errores sustanciales, la interpolacin polinomial es inapropiada

17.1 REGRESIN LINEAL

donde a 0 y a1 son coeficientes que representan la interseccin con el eje y y la pendien-

As, el error o residuo es la discrepancia entre el valor verdadero de y y el valor aproxi-

17.1.1 Criterio para un mejor ajuste

17.1.2 Ajuste de una lnea recta por mnimos cuadrados

Ahora, si observamos que a 0 = na 0, expresamos las ecuaciones como un conjunto de

stas se llaman ecuaciones normales, y se resuelven en forma simultnea

Este resultado se utiliza conjuntamente con la ecuacin (17.4) para obtener

donde y y x son las medias de y y x, respectivamente.

EJEMPLO 17.1 Regresin lineal

Solucin. Se calculan las siguientes cantidades:

TABLA 17.1 Clculos para el anlisis de error en el ajuste lineal.

1 0.5 8.5765 0.1687

Por lo tanto, el ajuste por mnimos cuadrados es

La lnea, junto con los datos, se muestran en la figura 17.1c.

17.1.3 Cuantificacin del error en la regresin lineal

Observe la similitud entre las ecuaciones (PT5.3) y (17.8). En el primer caso, el

estadstica como el principio de mxima verosimilitud. Adems, si estos criterios se

donde r 2 se conoce como el coeficiente de determinacin y r es el coeficiente de corre-

EJEMPLO 17.2 Estimacin de errores en el ajuste lineal por mnimos cuadrados

Planteamiento del problema. Calcule la desviacin estndar total, el error estndar

Solucin. Las sumatorias se realizan y se presentan en la tabla 17.1. La desviacin

Antes de implementar el programa computacional para la regresin lineal, debemos

17.1.4 Programa computacional para la regresin lineal

Es relativamente fcil desarrollar un seudocdigo para la regresin lineal (figura 17.6).

SUB Regress(x, y, n, al, a0, syx, r2)

EJEMPLO 17.3 Regresin lineal usando la computadora

Planteamiento del problema. Se utiliza el software basado en la figura 17.6 para

TABLA 17.2 Velocidades medidas y calculadas para la cada del paracaidista.

1 10.00 8.953 11.240

Se implement un programa para la recoleccin de datos experimentales, y los re-

Solucin. La veracidad de los modelos se prueba al graficar la velocidad calculada

vmodelo = 0.859 + 1.032vmedida

y para el segundo modelo [ecuacin (E17.3.1) como se ilustra en la figura 17.7b],

vmodelo = 5.776 + 0.752vmedida

La prueba y la seleccin del modelo son actividades comunes y muy importantes

El anlisis en el ejemplo 17.3 tiene un defecto: el ejemplo no fue ambiguo, ya que

seccin fueran 1 y 0 respectivamente. Por lo anterior, es claro que, ms que apoyarse en

17.1.5 Linealizacin de relaciones no lineales

donde a1 y b1 son constantes. Este modelo se emplea en muchos campos de la ingeniera

donde a2 y b2 son coeficientes constantes. Este modelo tiene muchas aplicaciones en

Un tercer ejemplo de un modelo no lineal es la ecuacin de razn del crecimiento

EJEMPLO 17.4 Linealizacin de una ecuacin de potencias

TABLA 17.3 Datos que se ajustarn con la ecuacin de potencias.

Esta curva, como se grafica en la figura 17.10a, indica un buen ajuste.

17.1.6 Comentarios generales sobre la regresin lineal

Antes de plantear la regresin curvilnea y lineal mltiple, debemos enfatizar la natura-

1. Cada x tiene un valor fijo; no es aleatorio y se conoce sin error.

Tales suposiciones son relevantes para la obtencin adecuada y el uso de la regresin.

17.2 REGRESIN POLINOMIAL

En la seccin 17.1 se desarroll un procedimiento para obtener la ecuacin de una lnea

Al seguir el procedimiento de la seccin anterior, obtenemos la derivada de la ecuacin

Estas ecuaciones se igualan a cero y se reordenan para desarrollar el siguiente conjunto

y = a0 + a1x + a2x2 + + amxm + e

Esta cantidad se dividide entre n (m + 1), ya que (m + 1) coeficientes obtenidos de los

EJEMPLO 17.5 Regresin polinomial

n=6 y = 152.6 x y = 585.6

xi yi (yi y )2 (yi a0 a1xi a2xi2)

0 2.1 544.44 0.14332

Entonces, las ecuaciones lineales simultneas son