Sie sind auf Seite 1von 31

Regresin de Ridge

Barrios Arlanzn Mildred


Yenisa
Martnez Prez Carla Itzel
Mendoza Mendoza Abril Iris
El anlisis de la regresin es un proceso estadstico para
estimar las relaciones entre variables.
Incluye muchas tcnicas para el modelado y anlisis de
diversas variables, la atencin se centra en la relacin entre
una VARIABLE DEPENDIENTE y una o ms
VARIABLES INDEPENDIENTE (o predictoras).
Para ello proponemos un MODELO que relaciona una
variable dependiente (Y) con una o mas variables
independientes/explicativas (X1, X2, ..XK.)
LAS PRUEBAS LAS PRUEBAS NO
PARAMTRICAS PARAMTRICAS

1. Se conoce el modelo de
distribucin de la poblacin
1. Son mtodos de distribucin
objeto de estudio y se desconoce libre. No requieren conocer la
un nmero finito de parmetros distribucin de la muestra.
de dicha distribucin que hay
que estimar con los datos de la
muestra. 2. Se utilizan estadsticos cuya
distribucin se determina con
2. Requieren conocer la
independencia de cul sea la
distribucin de la muestra para
distribucin de la poblacin.
poder realizar inferencias sobre
la poblacin poblacin.
Linealidad
Establece la linealidad en los parmetros en la relacin entre la
variable endgena (a explicar) y las exgenas (explicativas).
Si no se tiene linealidad se dice que tenemos un error de
especificacin.

Inclusin de variables irrelevantes.


Omisin de variables relevantes.
Errores de medida en las variables.
Independencia

Dos variables X e Y, son independientes entre si, cuando


una de ellas no influye en la distribucin de la otra
condicionada por el valor que adopte la primera.

Por el contrario existir dependencia cuando los valores de


una distribucin condicionan a los de la otra.
Independencia entre los residuos mediante el estadstico de
Durbin-Watson que toma valor 2 cuando los residuos son
completamente independientes (entre 1.5 y 2.5 se considera
que existe independencia), DW2 autocorrelacin negativa.
Homocedasticidad
Las varianzas de los diferentes
grupos tienen que ser iguales.
Homogeneidad de varianzas.
El supuesto de homocedasticidad
implica que la variacin de los
residuos sea uniforme en todo el
rango de valores de los pronsticos.
Formalizando, se dice que existe
homocedasticidad cuando
la varianza de los errores
estocsticos de la regresin es la
misma para cada observacin i (de
1 a n observaciones).
El numerador y el denominador
de la prueba F son estimaciones
de la misma varianza
poblacional.
Prueba de Levne.
covarianzas segn la prueba de
Mauchley.
Un grfico de dispersin .
Normalidad de los residuos tipificados
El Teorema Central del Lmite dice que si tenemos un grupo
numeroso de variables independientes y todas ellas siguen el
mismo modelo de distribucin (cualquiera que ste sea), la
suma de ellas se distribuye segn una distribucin normal
tambin llamada distribucin gaussiana, curva de
Gauss o campana de Gauss).
Las observaciones se extraen de poblaciones distribuidas
segn la Normal para cada grupo.
Pruebas de bondad de ajuste.
Pruebas de Normalidad: -pruebas grficas basadas en grficos
de normalidad como Q-Q plots.

Test de Kolmogorov Smirnov de bondad de ajuste. Es


vlido slo para variables aleatorias continuas.
Test de Test de Lillefors Lillefors. Es el Test de . Es el Test
de Kolmogorov Kolmogorov Smirnov Smirnov con la
correccin con la correccin de Lillefors. Sus valores son
menores que los de Kolmogorov.
Prueba de Shapiro-Wilks.
MULTICOLINEALIDAD:

Cuando una variable independiente posee alta


correlacin con otra otras puede ser explicada
como una combinacin lineal de alguna de ellas.
Cuando se emplean los mnimos cuadrados ordinarios en la
estimacin de los parmetros de regresin y existe el
problema de multicolinealidad en las variables
independientes:
Inestabilidad.
Signos incorrectos en los parmetros.
Frecuentemente elevados errores estndar.
Conduce a generar modelos con:
Muy poco poder explicativo
Difcil interpretacin.
Cuando las variables predictoras estn muy
correlacionadas, los coeficientes de regresin
resultantes de un ajuste por MCO pueden llegar a ser
muy errticos e imprecisos, debido a los efectos
desastrosos que la multicolinealidad tiene sobre su
varianza.
Minimiza el problema al contraer los coeficientes w de
MCO, logrando:
Coeficientes ajustados con menor varianza, dando
estabilidad as a la prediccin del modelo y solucionando
dicho problema.
La matriz XTX es reemplazada por otra matriz
numricamente ms estable debido a la agregacin
(suma) de un sesgo con la finalidad de reducir el error
estndar de stos.
Agregacin de un sesgo a MCO
El procedimiento RR no es ms que una ligera
modificacin (adiccin de un trmino constante a cada
coeficiente o factor de regularizacin k) de dicha
ecuacin:
Medidas al problema de multicolinealidad:

Eliminar variables
predictoras, con lo Suprimir ciertas Regresin
que se reduce el variables que se de
nmero de encuentran altamente
parmetros a Componente
correlacionadas. s Principales
estimar

Trabajar con
Incluir informacin Regresin de Stein
externa a los
estimadores
contrados o Regresin Ridge
datos originales
bayesianos.

Se sustituyen los estimadores mnimo cuadrticos de los


coeficientes de regresin por estimadores sesgados

Algunos autores no recomiendan estos estimadores para


trabajos con modelos tericos, ya que los estimadores
resultantes son sesgados y adems no permiten ni el uso
de intervalos confidenciales, ni pruebas de significacin .
Estos estimadores corrigen el efecto de la
colinealidad, en el sentido de que contraen el
tamao de .
Sabemos
que es:

Con lo que el estimador contrado ser:

Donde K es una constante y Q es una matriz


definida positiva.
Donde el parmetro de encogimiento K (por lo
general 0<K<1) debe ser estimado de los datos
tomados.
Si tomamos Q=I, entonces:

Obteniendo as los estimadores ridge.


Regresin Ridge
Hoerl y Kennard (1970)

Supone un procedimiento de ajuste de los


estimadores mnimo cuadrticos con el objetivo de
reducir su variacin.
Proporciona una evidencia grfica de los efectos de
la colinealidad en la estimacin de los coeficientes
de regresin.
Proporciona nuevos estimadores que garantizan
minimizar la varianza asociada a la estimacin de
los coeficientes de regresin , de forma que
constituye un mtodo alternativo cuando las
variables explicativas son altamente no ortogonales.
Los nuevos estimadores ridge son parciales o
sesgados, pero dado que su media cuadrtica es
menor, son ms estables.
Los estimadores ridge de los coeficientes de
regresin se pueden hallar alterando ligeramente
las ecuaciones normales. Esta modificacin
consiste en aadir pequeas cantidades positivas
a la diagonal de la matriz de datos XX, siempre y
cuando sta se encuentre en forma
estandarizada.
Tomando
la forma estandarizada del modelo

Las ecuaciones de estimacin para el modelo


ridge con p variables explicativas son:

Donde es la correlacin simple entre los predictores


i y j, y es la correlacin entre la isima variable
explicativa y la variable respuesta. La solucin es el
grupo de coeficientes de regresin ridge estimados:
El parmetro fundamental que distingue la regresin ridge de

la regresin MCO es K, denominado estimador ridge.
Cuando K=0, los coinciden con los estimadores de MCO.

El estimador ridge se expresa tal que:

Donde aparece la suma de la pequea constante K, cuyo valor


oscila entre 0 y 1, aadida a los elementos de la diagonal de XX.
Eligiendo un K lo suficientemente pequeo, no slo se reducen
los efectos de la colinealidad, sino que el estimador ridge est
proximo a que es el verdadero estimador mnimo cuadrtico.
Regresin Elige un solo K
ridge simple para todos los
predictores
Regresion
ridge Hay un valor de
generalizad K para cada
a predictor

El error cuadrtico medio tiende a ser


menor en la regresin ridge simple y
mayor en la generalizada
Eleccin de K
Trazas ridge
Se prueban diversos valores representndose las
diferentes estimaciones del vector (trazas ridge).

Validacin cruzada
Calculo de la suma de cuadrados de los residuos
obtenidos al ajustar cada observacin con una
regresin que la ha dejado fuera al estimar los
parmetros.
Cattin (1981)
K=1/F, donde F es el estadstico obtenido por MCO.
Para elegir K hay que considerar los siguientes
aspectos:

Que los valores de los coeficientes de regresin


se estabilizen.
Que los coeficientes de regresin que tenan un
valor demasiado grande comiencen a tener
valores razonables.
Que los coeficientes de regresin que
inicialmente tenan el signo equivocado cambien
de signo.
Bibliografa:
Akdeniz, F. 2001. "The examination and analysis of residuals for
some biased estimators in linear regression". Communications in
Statistics: Theory and Methods.
Garca, Jorge. et al. 2006. "Efectos de la colinealidad en el modelado
de la regresin y su solucin". Cultura Cientfica y Tecnolgica.
Lpez, E. (1998). Tratamiento de la colinealidad en
regresin mltiple. Psicothema, 10(II): 491:507.
Pereira A. 2010. Anlisis predictivo de datos mediante tcnicas de
regresin estadstica. Facultad de Informtica. Universidad
Complutense de Madrid.
Shawe-Taylor, J. Cristianini, N. 2004. "Kernel Methods for Pattern
Analysis". Cambridge University Press.

Das könnte Ihnen auch gefallen