Beruflich Dokumente
Kultur Dokumente
AJUSTE DE CURVAS
Para determinar una ecuacin que relacione variables, un primer paso es recolectar datos que muestran los valores correspondientes de las variables en c o n s i d e r a c i n . Por ejemplo, s u p n g a s e que X y Y denotan la estatura y el peso de hombres adultos, respectivamente: entonces, una muestra de N individuos revelara las estaturas X , , X , . . . , X , as como los pesos correspondientes Y ,Y ,..., Y.
2 N L 2 N
El siguiente paso es granear los puntos (X,y,), (X ,Y ),..., (X ,Y ) en un sistema rectangular de coordenadas. E l conjunto de puntos resultante suele denominarse diagrama de dispersin.
2 2 N N
A partir del diagrama de dispersin es posible visualizar una curva suave que se aproxima a los datos. Tal curva se denomina curva de aproximacin. Por ejemplo, en la figura 13-1, los datos parecen aproximarse bien a una lnea recta, por lo que se dice que hay una relacin lineal entre las variables. Sin embargo, en la figura 13-2, aunque existe una relacin entre las variables, sta no es lineal, por lo que se le conoce como relacin no lineal. El problema general para encontrar ecuaciones de curvas de a p r o x i m a c i n que se ajusten a conjuntos de datos se denomina ajuste de curvas.
Ecuaciones
de curvas de aproximacin
285
+a + a X + aX
2 2
U)
Y---a y = -a
(2) + a X
3 3
+ a X + aX
2 0
(3) + a X
4 4
y = --a
0
a X + aX
2 2
(4) (5)
a + a X + a X
Las partes derechas de las ecuaciones se denominan polinomios de primero, segundo, tercero, cuarto y rc-simo grados, respectivamente. Las funciones definidas por las primeras cuatro ecuaciones se llaman funciones lineal, cuadrtica, cbica y curtica, en ese orden. Las siguientes son algunas otras de las muchas ecuaciones usadas en la prctica con frecuencia: Hiprbola Curva exponencial Curva g e o m t r i c a Curva exponencial modificada Curva g e o m t r i c a modificada Curva de Gompertz Curva de Gompertz modificada Curva logstica Y=aX
b
Y=
0
a + aX
x
o o o
= a + aX
0 x
(6)
Y = ab
Y = aX
(8)
Y = ab" + g
(9)
+g
b
Y = pq * o Y - pcf +h
q) = ab* + g
(11) (12)
-l~=ab +g Y + a (\ogX)
: 2
(13) (14)
Para decidir q u curva debe utilizarse es necesario obtener diagramas de dispersin de variables transformadas. Por ejemplo, si un diagrama de dispersin de log Y contra X muestra una relacin lineal, la e c u a c i n tiene la forma (7), mientras que si log y contra log X indica una relacin lineal la e c u a c i n es de la forma (8). A menudo se usa papel milimtrico para facilitar la decisin sobre cul curva utilizar. El papel para granear que contiene una escala dividida en forma l o g a r t m i c a se conoce como papel grfico semilogartmico (o semilog), y aquel con las dos escalas divididas en forma logartmica se llama papel grfico log-log.
C A f f f U l O 13
cuadrados
LA LINEA RECTA
El tipo m s simple de curva de a p r o x i m a c i n es una lnea recta, cuya e c u a c i n puede e sarse Y2
+ aX
x
Dados cualesquiera dos puntos (X^Y^ y (X ,Y ) en la recta, es posible determinar las c tantes a y a,. L a e c u a c i n resultante de la recta se expresara as:
2 Q
Y-
^ =( f ^ r ) ^ - * ! )
Y-Y,=m{X-X )
x
donde
Y Y m = X - X\
2
se llama la pendiente de la recta y representa el cambio en Y, dividido entre el c a m h : correspondiente en X. Cuando la e c u a c i n se escribe en la forma (75), la constante a es la pendiente m. L j constante a , que es el valor de Y cuando X = 0, se denomina la interseccin en Y.
0
Una medida de la "bondad de ajuste" de la curva C de los datos est proporcionada por la cantidad D, + D\ + + D\. Si sta es p e q u e a , el ajuste es bueno; si es grande, el ajuste es malo. Por lo tanto, se tiene la siguiente D e f i n i c i n : De todas las curvas que se aproximan a un conjunto de datos definidos por puntos, la curva que tiene la propiedad de que D] + D\ + + D es un m n i m o se denomina curva de ajuste ptimo.
2 N
Se dice que una curva con esta propiedad se ajusta a los datos en el sentido de mnimos cuadrados y se le llama curva de mnimos cuadrados. Entonces, una recta con esta propiedad se denomina recta de mnimos cuadrados, una p a r b o l a con esta propiedad se denomina parbola de mnimos cuadrados, etctera.
La recta de mnimos
cuadrados
287
Es habitual emplear la definicin anterior cuando X es la variable independiente y y es la variable dependiente. Si X es la variable dependiente, la definicin se modifica pues en este caso se consideran desviaciones horizontales en lugar de desviaciones verticales, que es lo mismo que intercambiar los ejes X y Y. Estas dos definiciones generalmente conducen a curvas diferentes de m n i m o s cuadrados. A menos que se especifique lo contrario, se debe considerar Y como la variable dependiente y X como la variable independiente. Es posible definir otra curva de m n i m o s cuadrados si se toman en cuenta distancias perpendiculares a partir de cada uno de los puntos de la curva, en lugar de distancias horizontales o verticales; sin embargo, esto no suele utilizarse.
(X ,Y ),...,
2 2
Y=a
0
+ X
a
(17)
E E
0
Y = aN
Q 0
+ a, E E
X -i
X X
2
XY = a
a,
(18)
denominadas ecuaciones normales para la recta de mnimos cuadrados (17). Las constantes a y a, de las ecuaciones (18) pueden calcularse a partir de las f r m u l a s
(E
Y)(Z
X)
2
- (E x)(E
- ( E xf
XY)
E
N
XY
N Z X
- (E *)(E E x - (E xf
2
0
Y)
(19)
Las ecuaciones normales (18) son fciles de recordar si se observa que la primera ecuacin puede obtenerse sumando en ambos lados de (17), [es decir, X Y = X (a + a X) = a . V + a X X], mientras que la segunda e c u a c i n resulta multiplicando primero ambos lados de (17) por Xy sumando d e s p u s [por ejemplo, X XY= X X(a + AX) = a ^.X + a _ V O b s r v e s e que no es una consecuencia de las ecuaciones normales, sino slo un medio p o n recordarlas. N t e s e t a m b i n que en las ecuaciones (18) y (19) se utiliz la notacin abrevada X X, X XY, etctera, en lugar de X^i X X ^ = i XY, etctera.
t 0 0 p
El trabajo requerido para encontrar una recta de m n i m o s cuadrados puede < se algunas veces si se transforman los datos de manera que x - X- X la e c u a c i n de la recta de m n i m o s cuadrados se expresara con y =
xy
2
E-v
m)
IMMMO
73
de mnimos
cuadrados
L a e c u a c i n (20) implica que y - 0 cuando JC = 0; por lo tanto, la recta de m n i m o s cuadrados pasa por el punto (X, Y), denominado centroide o centro de gravedad de los datos Si la variable X se toma como la variable dependiente en lugar de la independiente, j . e c u a c i n (17) se expresa como X - b + b Y. Entonces, los resultados son vlidos si X intercambian y si a y a se sustituyen por b y >,, respectivamente. Sin embargo, la recta de m n i m o s cuadrados resultante, por lo general, no es igual a la obtenida [vanse los problemas 13.11 y 13.15d)].
0 x 0 0
RELACIONES N O LINEALES
En ocasiones las relaciones no lineales pueden reducirse a relaciones lineales por medie e una trasformacin adecuada de las variables (vase el problema 13.21).
Y = a
0 2
+ aj
+ OTX
(21
2> = N XAT = a X x
ao
+ a,
L
XX
2
+ +
a 1*
2
2
+a XX
l
a ^X
4 2 J
lX Y
a Xx
0
+ a ZX
+ aIX
(23]
denominadas ecuaciones normales de la parbola de mnimos cuadrados (22). Las ecuaciones (23) se recordarn fcilmente si se observa que pueden obtenerse multiplicando la e c u a c i n (22) por 1, X y X , en ese orden, y sumando en ambos lados de las ecuaciones resultantes. Esta tcnica suele extenderse para lograr ecuaciones normales de curvas c b i c a s de m n i m o s cuadrados, curvas curticas de m n i m o s cuadrados y, en general, cualquiera de las curvas de m n i m o s cuadrados correspondientes a la ecuacin (5).
2
A l igual que en el caso de la recta de m n i m o s cuadrados, se pueden simplificar las ecuaciones (23) si se elige X de modo que X X = 0. L a simplificacin t a m b i n se da escogiendo las nuevas variables x = X- X yy=Y-Y.
REGRESIN
Con frecuencia, basados en datos m u s t r a l e s , se busca estimar el valor de una variable Y correspondiente a un valor dado de una variable X. Esto se puede lograr estimando el valor de K a partir de una curva de m n i m o s cuadrados que se ajuste a los datos m u s t r a l e s . L a curva resultante se llama curva de regresin de y sobre X, ya que Y se estima a partir de X. Si se deseara estimar el valor de X a partir de un valor dado de Y, se utilizara una curva de regresin de X sobre Y, que es igual que intercambiar las variables en el diagrama de dispersin, de tal modo que X sea la variable dependiente y Y la variable independiente. Esto es equivalente a sustituir las desviaciones verticales en la definicin de la curva de m n i m o s cuadrados de la pgina 287 con desviaciones horizontales. En general, la recta o curva de regresin de Y sobre X no es igual que la recta o curva de regresin de X sobre Y.
Problemas
res.s
-;s
289
(24)
conocido como ecuacin lineal en las variables X, YyZ. En un sistema rectangular de coordenadas en tres dimensiones, esta ecuacin representa un plano y los puntos mustrales reales ( X , , K,, Z , ) , ( X , Y , Z^,..., (X , Y , Z ) pueden "dispersarse" no demasiado lejos de este plano, denominado plano de aproximacin.
2 2 N N N
Por e x t e n s i n del m t o d o de m n i m o s cuadrados es posible hablar de un plano de mnimos cuadrados que se aproxima a los datos. Si se estima Z a partir de valores dados de X y Y, esto se llamara plano de regresin de Z sobre XyY. Las ecuaciones normales, correspondientes al plano de m n i m o s cuadrados (24), estn dadas por
Xz
XXZ XKZ
= N
AO
+a,Xx
0 l 2
+
2
a Xy
2
2 2
=a XX =a I,Y
0
y pueden recordarse como obtenidas de la e c u a c i n (24), multiplicando por 1, X y Y, sucesivamente, y d e s p u s sumando. T a m b i n pueden considerarse ecuaciones m s complicadas que la (24). Estas representan superficies de regresin. Si el n m e r o de variables excede de 3, se pierde la intuicin g e o m t r i c a , ya que entonces se requiere de espacios de 4, 5,... dimensiones. Los problemas que implican la e s t i m a c i n de una variable a partir de dos o m s variables se denominan problemas de regresin mltiple y se estudian con mayor detalle en el captulo 15.