Curso Estadistica Marquez

REGRESION LINEAL MULTIPLE APLICADA A LA TASACION DE INMUEBLES Sea la siguiente muestra de campo levantada por un tasador en una zona
residencial: registro 1 2 ... i n valor Y($) y1 y2 yi yn frente X1(m) x11 x21 xi1 xn1 fondo X2(m) x12 x22 xi2 xn2 rea X3(m2) x13 x23 xi3 xn3 sup cub n hab X4(m2) X5 x14 x15 x24 x25 xi4 xi5 xn4 xn5 nba. X6 x16 x26 xi6 xn6 distan. X7(m) x17 x27 xi7 xn7
El precio Y de un inmueble es una relacin estocstica cuantitativa de las variables Xj j = 1, 2,.., k; es decir: Y = f ( x1 , x 2 ,..., x k ) + donde: Y variable dependiente, de inters o explicada. xj j =1,2,,k variables independientes, regresoras o explicativas. error de observacin. Si aceptamos que f es lineal: y i = 0 + 1 xi1 + 2 xi 2 + + k xik + i i = 1, 2, k (2) (1)
Estimacin de los parmetros (regresores) 0 , 1 , 2 , k a partir de una muestra de tamao n: De la (2): y1 = 0 + 1 x11 + 2 x12 + + k x1k + 1 y 2 = 0 + 1 x 21 + 2 x 22 + + k x 2 k + 2 ... y n = 0 + 1 x n1 + 2 x n 2 + + k x nk + n Expresando (3) en forma matricial: 1 x11 1 x 21 1 x n1 x12 x1k 0 y1 1 x 22 x 2 k 1 y 2 2 = + x n 2 x nk k y n n
(3)
(4)
La forma matricial sinttica del modelo es: X =Y +
(5)
Debe verificarse las siguientes hiptesis: 1.- la funcin f es lineal: y i = 0 + j xij + i

j =1 k
i = 1, , n
2.- la esperanza de los errores de observacin es cero: E ( ) = 0 . 2 2 3.- la varianza es constante (homocedasticidad): y i = = cte . 4.- la distribucin de los errores es normal: i N (0,2) 5.- las observaciones yi son no correladas (independientes). 2 0 Y = Cov(Y) = 0 0 2 0 0 1 0 2 0 = 2 0 0 1 0 0 0 =2 I 1
ij = 0 i j
6.- n > k + 1. En caso contrario no se dispone de informacin suficiente para estimar los regresores 0 , 1 , 2 , k del modelo. 7.- las variables explicativas son linealmente independientes; es decir que las filas y columnas de la matriz X tambin lo son. Por tanto, la matriz X es de rango completo ((X) = k + 1). Sea un estimador del vector de parmetros . El vector de predicciones, o vector de los estimadores del vector Y de precios, se define por: Y=X El vector de los residuos es: V = Y Y (7) (6)
El estimador mnimos cuadrados de se obtiene minimizando la suma de los residuos al cuadrado; es decir, se minimiza la funcin de k+1 variables: ( ) = V T V = vi = mnimo
2 i =1 n
(8)
Reemplazando (6) y (7) en (8): ( ) = V T V = (Y X ) T (Y X ) = (Y T T X T )(Y X ) ( ) = Y T Y Y T X T X T Y + T X T X = mnimo de la condicin de mnimo:
d ( ) =0 d d ( ) = Y T X X T Y + X T X + T X T X = 0 d 2 X T Y + 2 X T X = 0 se llega al sistema de las ecuaciones normales: XTX = XT Y
(9)
(10)
Resolviendo por inversin matricial, el estimador mnimos cuadrados (la solucin mnimos cuadrados) es:
1 = ( X T X ) X TY
(11)
La (11) es vlida si y solamente si la matriz normal N= XTX es invertible. Esto est garantizado por la hiptesis 7. Si la matriz X es de rango completo, la matriz normal tambin lo es; es decir, (X) = (XTX) = k+1, entonces el determinante de N es distinto de cero ( XTX 0), existe inversa nica y la solucin mnimos cuadrados es tambin nica. Interpretacin geomtrica: la matriz X es: 1 x11 1 x 21 X = 1 x n1 x12 x1k x 22 x 2 k x n 2 x nk
T
(12)
El vector de los residuos V = ( v1 , v 2 , , v n ) , por tener longitud (mdulo o norma) mnima, es ortogonal al espacio columna de la matriz X, ECX, que es un subespacio vectorial de R n. Debe cumplirse entonces las siguientes k+1 restricciones: V 1 => VT. 1 = 0 V Xj => VT. Xj = 0
j = 1, 2,, k
(13)
As pues, el vector de los residuos tiene n (k+1) grados de libertad.
figura 1 La matriz varianza covarianza del estimador : de la (11) = X T X 1 se tiene: = N 1 X T Y De la ley general de propagacin de la varianza covarianza: = N 1 X T Y N 1 X T
X T Y , siendo (XTX)-1 = N-
(14)
= N 1 X T 2 I X N 1
= 2 N 1 X T X N 1 = 2 N 1 N N 1 = 2 N 1 = 2 N 1 = 2 Q (15)
1 donde Q = N es la matriz cofactor del vector . As pues, la matriz varianza covarianza de es:
0 2 = sim
0 1 2 1
j 2
0 k q 00 q 01 q11 1k 2 jk = 2 sim k
q0k q1k q jj q jk q kk
(16)
entonces los errores estndar de los regresores son:
j = q jj
j = 0,1, 2, , k
(17)
El estimador de la varianza 2: 2 es la varianza poblacional, generalmente desconocida. Se estima a partir de los datos de la muestra, por:
2 = SY 2 =
V V = i =1 n (k + 1) n (k + 1)
2 i
(18)
Aceptar que el valor j es cero equivale a aceptar que la variable xj no est relacionada linealmente con la variable y (precio), debiendo ser removida; es decir, eliminada del modelo. Se demuestra que j j = 1, 2,, k distribuye normal con media j y varianza 2qjj; es decir, j N (j, 2qjj), entonces la variable estocstica normalizada:
j =
j j
q jj
(19)
distribuye normal con media cero y varianza 1, es decir: j N (0, 1) (20)
Puesto que 2 no se conoce, se la sustituye por su estimador SY2 (18), lo que permite obtener el estadstico muestral o de prueba: tj = j j SY q jj = j j j (21)
que distribuye t de Student con n-(k+1) grados de libertad. Cabe pues, hacer el contraste de hiptesis siguiente: H0: j = 0 H1: j 0
(22)
para decidir a un cierto nivel de confianza si la variable explicativa Xj influye individualmente o no, en la variable explicada Y. Si H0 es verdadera ( o no se rechaza a un nivel de significacin ) entonces Xj no influye linealmente sobre Y debiendo ser eliminada del modelo. Por el contrario, si H1 es verdadera, Xj s influye linealmente sobre Y formando parte del modelo. As pues, el estadstico de prueba es: tj = j (23)
obtenindose el valor t crtico, tc = t n-(k+1), de la tabla t de Student, puesto que tj distribuye t de Student con n (k+1) grados de libertad. Si t c < t j < t c , entonces se acepta H0 al nivel de confianza 1 - y la variable Xj no influye linealmente sobre Y. Si, en cambio, tj > tc, entonces se rechaza H0 al nivel de confianza 1 - y Xj s influye linealmente sobre Y. La figura 2, ilustra la situacin. Si tj cae en la zona de aceptacin de H0 al nivel de confianza 1 - , el regresor j no influye linealmente sobre Y, y la variable explicativa Xj deber ser eliminada del modelo. Si tj cae en la zona de rechazo de H0 al nivel de significacin , el regresor j influye linealmente sobre Y y la variable explicativa Xj forma parte del modelo. La regin de aceptacin del contraste al nivel de significacin es: j t o bien:
n ( k +1), 1
j j t
n ( k +1), 1
(24)
SY
q jj t
n ( k +1), 1
j SY
q jj t
n ( k +1), 1
(25)
El anlisis de la varianza (ANOVA test): A continuacin se expone como descomponer la variabilidad de la variable de inters o explicada Y cuando se ajusta un modelo de regresin mltiple. En cada observacin muestral puede hacerse la siguiente descomposicin: yi Y = ( yi yi ) + ( yi Y ) (26)
donde Y = X y se demuestra que:
Y =
y
i =1
n
2 2
( y
i =1
Y ) = ( yi yi ) + ( yi Y )
2 I =1 i =1
(27)
donde: variabilidad total: SCT = ( y i Y )

i =1 n n 2
con n 1 grados de libertad

2
variabilidad randmica: SCR = ( y i y i )

i =1 n
con n-(k+1) grados de libertad con k grados de libertad
variabilidad explicada: SCE = ( y i Y )

i =1
Ilustramos el concepto con el modelo de Regresin Lineal Simple RLS, figura 3.
figura3
De la (27): SCT = SCR + SCE Dividiendo miembro a miembro por SCT: SCT SCR SCE = + = 1 (100% ) SCT SCT SCT El coeficiente de determinacin, definido por: (28)
r2 =
SCE = SCT
( y
i =1 n i =1
yi ) Y )
( y
(29)
2
mide el porcentaje de la variabilidad explicada (por la regresin) SCE, respecto de la variabilidad total SCT. Si dicho porcentaje es alto (cercano al 100%) el modelo explica la mayor parte de la SCR variabilidad y es de utilidad. En caso contrario; es decir cercano 1 (100%), casi toda la SCT variabilidad es randmica o al azar y el modelo no tiene utilidad puesto que no explica variabilidad alguna o lo hace en un porcentaje inaceptable. El coeficiente de determinacin r2 es entonces una medida del ajuste del modelo respecto de los datos de la realidad. Si el ajuste es suficientemente bueno, r2 cercano a 1, el modelo explica el mayor porcentaje de la variabilidad de los datos y es buen predictor. De acuerdo a su definicin, el coeficiente de determinacin vara entre cero y uno; es decir: 0 r2 1 (30)
Contraste acerca de la influencia conjunta del modelo de regresin Lineal Mltiple (RLM) sobre la variable explicada Y. El contraste mltiple se plantea: H0: 1 = 2 == k = 0 => todos los regresores son nulos H1: algn j 0 para algn j => al menos un regresor es no nulo Si H0 es verdadera ninguna de las variables explicativas influye linealmente sobre la variable explicada Y (precio del inmueble). En este supuesto se verifica que: y i Y = > SCE 0 (31)
Siendo el modelo RLM de ninguna utilidad puesto que no explica variabilidad alguna. En el caso de la Regresin Lineal Simple, la figura 4 ilustra el concepto.
figura 4 Si se tienen dos variables explicativas, X1 y X2, la figura 5 resulta ilustrativa.
figura 5 Para el contraste mltiple se considera el estadstico muestral o de prueba: SCE k F= SCR n (k + 1)
(32)
que ,bajo la hiptesis nula H0, distribuye F(Fisher) con 1 = k y 2 = n-(k+1). El valor crtico, obtenido de la tabla F, es: Fc = Fk, n ( k +1) (33)
figura 6 al nivel de significacin (ver figura 6). Si F > Fc, se rechaza H0 al nivel , la variabilidad explicada es mayor que la variabilidad randmica (al azar) y el modelo tiene utilidad. En caso contrario (F < Fc) la variabilidad explicada es menor que la variabilidad randmica y el modelo no tiene utilidad. Otra causa de aceptacin de H0 es el tamao insuficiente de la muestra de datos. Multicolinealidad: La matriz Correlacin: el problema de multicolinealidad se presenta cuando en las variables explicativas (independientes) X1, X2, , Xk, existen relaciones lineales de dependencia entre algunas de ellas; es decir, las variables explicativas estn relacionadas entre s, unas dependen de otras, contradiciendo la hiptesis 7 (pgina 2). Cuando se presenta el problema de multicolinealidad entre las variables explicativas, el sistema de las ecuaciones normales se vuelve inestable puesto que el determinante de la matriz normal N= XTX tiende a cero. La multicolinealidad en una serie de datos se mide a travs de la matriz de correlacin que permite conocer la tendencia y magnitud de la relacin lineal o asociacin entre las variables explicativas Xj j= 1, 2,k. El modelo de Regresin Lineal Mltiple (RLM) se vuelve cada vez menos confiable a medida que aumenta la correlacin entre las variables explicativas. La matriz de correlacin tiene las siguientes caractersticas: 1.- la diagonal principal est compuesta por unos (1). 2.- es una matriz simtrica. 3.- los elementos no diagonales son los coeficientes de correlacin dados por: rij =
xi x j xi xj
(34)
donde xixj , xi , xj son la covarianza muestral entre xi y xj y las desviaciones estndar muestrales de xi y xj respectivamente. Si el coeficiente de correlacin es positivo, indica que una de las variables est directamente relacionada con la otra. Si el coeficiente de correlacin es negativo indica que una de las variables est inversamente relacionada con la otra. Si el coeficiente de correlacin es nulo, indica que las variables no estn correlacionadas entre s, cumplindose as la hiptesis 7 de la pagina 2, ver figura 7.
figura 7 En general puede sealarse que: cuando 0 < r 0.30 => la correlacin es dbil. cuando 0.30 < r 0.75 => la correlacin es moderada. cuando 0.75 < r < 1 => la correlacin es fuerte. Se define que existe multicolinealidad entre dos variables explicativas cuando la correlacin entre ambas es fuerte (r 0.75). Para solucionar el problema de multicolinelidad, deber eliminarse del modelo una de ambas variables autocorrelacionadas, ya que al estar una en funcin de la otra, no se obtendr una solucin aceptable de la regresin mnimos cuadrados. El criterio para el caso de RLM donde dos variables explicativas estn fuertemente correlacionadas entre s, es decidir cual de las dos tiene que salir del modelo. De ambas conservaramos aquella con la cual se obtiene el mejor coeficiente de determinacin r2. Si existen tres variables explicativas fuertemente correlacionadas, deben eliminarse dos de ellas; es decir, el par que presente el coeficiente de correlacin ms alto, y as siguiendo. Es importante sealar que la existencia de multicolinealidad entre las variables explicativas debe verificarse aun si el coeficiente de determinacin de la RLM es cercano a 1, ya que este hecho no necesariamente implica la inexistencia de problemas de multicolinealidad. Valores Atpicos: se definen como valores atpicos (en Topografa y Geodesia diramos errores groseros) aquellos valores que no perteneciendo a la serie estudiada, forman parte de la muestra recolectada. En un sistema de registro publico no sincero, donde una gran cantidad de operaciones de compra-venta de inmuebles no estn sujetas a la realidad, es muy comn la presencia de valores atpicos en la serie de referenciales estudiada. En la estadstica de regresin se define como residuo o residual a la diferencia entre los valores (precios) observados en la serie y los valores calculados o estimados por la regresin: vi = y i y i i = 1, 2, , n . Grficamente, para una correlacin simple, se puede observar que existen valores o pares ordenados (xi, yi) muy cercanos a la recta de regresin, mientras que otros estn muy alejados, figura 8.
figura 8 en el caso de correlacin mltiple, donde no se habla de recta de regresin sino ms bien de planos de regresin, si se conocen tres variables ( y = 0 + 1 x1 + 2 x 2 ) es muy difcil representar grficamente los valores observados en relacin con el plano de ajuste (figura 9):
figura 9 sin embargo es imposible la representacin grfica cuando existen ms de tres variables, ya que estaramos fuera del espacio tridimensional. Por eso se habla de hiperplanos de ajuste que aunque no pueden ser representados grficamente, existen matemticamente. La representacin de valores atpicos en planos o hiperplanos de ajuste es posible de visualizar mediante el siguiente procedimiento: 1.- se define el eje de ordenadas y para representar los valores observados (precios) yi i = 1, 2,,n. 2.- se define el eje de abscisa x para representarlos valores estimados por la regresin mnimos cuadrados y i i = 1, 2, , n. 3.- se define una recta bisectriz y = y que corta al divide al plano x-y en dos semiplanos. 4.- se plotean los puntos ( y, y ); la distancia perpendicular de cada punto a la recta bisectriz definir los valores atpicos, que sern los ms alejados de esa recta bisectriz, figura 10.
figura 10 Los valores atpicos debern ser eliminados a fin de obtener un mejor ajuste en la regresin; es decir, un coeficiente de regresin r2 ms cercano a 1. En realidad lo que se busca es el modelo RLM que mejor ajuste a los datos de la muestra escogida. El procedimiento analtico para la deteccin y remocin de valores atpicos, es el criterio de Chauvenet aplicado a los residuales. En la prctica se combinan ambos procedimientos; es decir, el mtodo grfico y el criterio de Chauvenet. Estimacin del precio de un inmueble y de su error estndar. Un intervalo de confianza. Una vez construido el modelo RLM se desea estimar el valor Yh de un inmueble para las variables explicativas Xh1, Xh2,, Xhk. Calculados los regresores 0 , 1 , , k , el valor estimado del inmueble es: Yh = 0 + 1 x h1 + + k x hk y en forma matricial: 0 x hk ] 1 = X h k (35)
Yh = [1 x h1
(36)
Segn la ley general de la propagacin de la varianza covarianza, la varianza de Yh es: S Yh = X h X h = X h S Y X h = S Y X h X T X El error estndar de Yh es entonces:
2 T 2 T 2
Xh
(37)
S Yh = S Y
Xh X T X
Xh
(38)
Un intervalo de confianza para el verdadero valor Yh al nivel de significacin, es: Yh t Ejemplo: Evaluar un lote de 300 m2 de superficie situado a una distancia de 2100 m de un polo de inters. Se recolect una muestra de 10 datos, todos ofertas de ventas de lotes con caractersticas semejantes al lote a evaluar Referenciales 1 2 3 4 5 6 7 9 10 Precio Total($) 30000 37400 32400 50400 34000 52500 72000 28500 54000 60000 P.U. ($/m2) Y 100 110 120 140 85 105 120 95 150 100 Distancia (m) X1 2200 2000 1800 1500 2300 1900 1300 2200 900 1700 rea (m2) X2 300 340 270 360 400 500 600 300 360 600
n ( k +1), 1
S Y h Yh Yh + t
n ( k +1), 1
S Y h
(39)
El modelo es: Y = 0 + 1 X 1 + 2 X 2 Los regresores: 0 = 222.79, 1 = 0.046252 , 2 = 0.069381 Y = 222.79 0.046252 X 1 0.069381 X 2 Error estndar de la estima: SY = 6.0308 SCR = 254.5975 SCE = 3457.9025 SCT = 3712.5000 r2 = 0.9314
F = 47.54 F0 = 4.74 (1 = 2, 2 = 7) => el modelo tiene utilidad Para X1h =2100 m y X2h = 300 m2: Yh = 104.85 $ / m 2 ,
S Yh = 2.73 $ / m 2
Aparentemente todo est bien; no obstante veamos que sucede con la multicolinealidad y los valores atpicos.
Multicolinealidad. La matriz de correlacin: X1 X2 X1 1.0000 0.3149 X2 0.3149 1.0000
IDC = 1.385 coeficiente de correlacin: rx1x2 = 0.3149 => la correlacin entre X1 y X2 es dbil, no hay problemas de multicolinealidad. Valores Atpicos: Criterio de Chauvenet : referencial residuo 1 -0.22 2 3.30 3 -0.80 4 11.57 5 -3.66 referencial 6 7 8 9 10 residuo 4.78 -1.03 -5.22 -6.18 -2.53 v = 0.01
v = 0.001, S v = 5.3186 1 1 1 19 1 =1 = 1 = = 0.95 2n 2 x10 20 20 0.95 = 0.4750 = > z c = 1.96 2 Lmites superior e inferior: LI = v z c S v = 0.001 1.96 x5.3186 = 10.423 LS = v + z c S v = 0.001 + 1.96 x5.3186 = 10.425 El referencial i = 4 es un valor atpico; lo eliminamos de la muestra de datos y reejecutamos el clculo con una muestra de tamao n = 9. referencial residuo 1 0.78 2 4.57 3 1.60 4 5 -3.73 referencial 6 7 8 9 10 residuo 5.08 0.22 -4.22 -1.87 -2.44 v =- 0.01
v = 0.0011, S v = 3.3742 1 1 1 17 1 =1 = 1 = = 0.9444 2n 2 x9 18 18 0.9444 = 0.4722 = > z c = 1.92 2
Lmites superior e inferior: LI = v z c S v = 0.0011 1.92 x3.3742 = 6.480 LS = v + z c S v = 0.0011 + 1.92 x3.3742 = 6.477 La muestra est saneada. Regresores: 0 = 213.02, 1 = 0.0443342 , 2 = 0.061492 El modelo es: Y = 213.02 0.04443342 X 1 0.061492 X 2 Prueba individual para los regresores: t1 = -13.518 t2 = -5.353 tc= t 6, 0.05 = 2.45 t1, t2 < tc => las variables explicativas X1, X2 son parte del modelo. Prueba global para los regresores: r2 = 0.9683 F = 91.55 0.05 Fc = F2, 6 = 5.14 F > Fc => el modelo tiene utilidad. La prueba global indica que el modelo mejora sensiblemente al eliminar el valor atpico i = 4. Para Xh = [2100, 300], se tiene entonces el valor del inmueble en cuestin y su error estndar: Yh = 103.55 $ / m 2 , S Yh = 1.81 $ / m 2
)
S Y h
Un intervalo de confianza para Yh al nivel = 0.05, es: Yh t

n ( k +1), 1
S Y h Yh Yh + t
n ( k +1), 1
103.55 - 2.45x1.81 Yh 103.55 + 2.45x1.81 99.12 ($/m2) Yh 107.98 ($/m2)
Ral Mrquez 2010

Curso Estadistica Marquez

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Curso Estadistica Marquez

Hochgeladen von

Copyright:

Verfügbare Formate

REGRESION LINEAL MULTIPLE APLICADA A LA TASACION DE INMUEBLES Sea la siguiente muestra de campo levantada por un tasador en una zona

La forma matricial sinttica del modelo es: X =Y +

Debe verificarse las siguientes hiptesis: 1.- la funcin f es lineal: y i = 0 + j xij + i

Reemplazando (6) y (7) en (8): ( ) = V T V = (Y X ) T (Y X ) = (Y T T X T )(Y X ) ( ) = Y T Y Y T X T X T Y + T X T X = mnimo de la condicin de mnimo:

d ( ) =0 d d ( ) = Y T X X T Y + X T X + T X T X = 0 d 2 X T Y + 2 X T X = 0 se llega al sistema de las ecuaciones normales: XTX = XT Y

As pues, el vector de los residuos tiene n (k+1) grados de libertad.

entonces los errores estndar de los regresores son:

distribuye normal con media cero y varianza 1, es decir: j N (0, 1) (20)

donde Y = X y se demuestra que:

donde: variabilidad total: SCT = ( y i Y )

con n 1 grados de libertad

variabilidad randmica: SCR = ( y i y i )

con n-(k+1) grados de libertad con k grados de libertad

variabilidad explicada: SCE = ( y i Y )

Ilustramos el concepto con el modelo de Regresin Lineal Simple RLS, figura 3.

figura 4 Si se tienen dos variables explicativas, X1 y X2, la figura 5 resulta ilustrativa.

Multicolinealidad. La matriz de correlacin: X1 X2 X1 1.0000 0.3149 X2 0.3149 1.0000

v = 0.0011, S v = 3.3742 1 1 1 17 1 =1 = 1 = = 0.9444 2n 2 x9 18 18 0.9444 = 0.4722 = > z c = 1.92 2

Un intervalo de confianza para Yh al nivel = 0.05, es: Yh t

103.55 - 2.45x1.81 Yh 103.55 + 2.45x1.81 99.12 ($/m2) Yh 107.98 ($/m2)

Ral Mrquez 2010

Das könnte Ihnen auch gefallen