You are on page 1of 5

\documentclass[legalpaper,10pt]{article}

\usepackage{graphicx}
\DeclareGraphicsExtensions{.eps,.bmp,.jpg}
\pagestyle{empty}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Paquetes %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage{pstricks}
\usepackage{pb-diagram}
\usepackage{pst-all}
\usepackage{pstcol}
\usepackage[ansinew]{inputenc}
\usepackage[spanish]{babel}
\usepackage[mathcal]{euscript}
\usepackage{amsmath,amsfonts,amssymb,theorem,latexsym,mathrsfs, %hyperref,
epsfig, multicol,anysize,graphicx,enumitem,mdwlist}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Mrgenes %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\marginsize{4cm}{4cm}{1.8cm}{3cm}
%\marginsize{izquierdo}{derecho}{arriba}{abajo}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Definiciones %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\def\r{\mathbb{R}} % para los simbolos de matematicas
\def\n{\mathbb{N}}
\def\q{\mathbb{Q}}
\def\c{\mathbb{C}}
\def\z{\mathbb{Z}}
%otra forma de hacerlo es \newcommand{\simbolo}{\mathbb{simbolo}}
\def\sen{\mathop{\mbox{\normalfont sen}}\nolimits}
\def\intt{\mathop{\mbox{\normalfont int}}\nolimits}
\def\diag{\mathop{\mbox{\normalfont diag}}\nolimits}
\def\arcsen{\mathop{\mbox{\normalfont arcsen}}\nolimits}
\def\ln{\mathop{\mbox{\normalfont ln}}\nolimits}
\def\tr{\mathop{\mbox{\normalfont tr}}\nolimits}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{document}
%%%%%%%%%%%%%%%%%%%%%%%%%%%% Encabezado %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{minipage}{0.12\linewidth}
\end{minipage}
\begin{minipage}{0.78\linewidth}
\centerline{Universidad de Nacional de Colombia-Sede Medell\'in}
\centerline{Facultad de Ciencias Exactas y Naturales}
\centerline{Tarea de de an\'alisis de regresi\'on}

\end{minipage}
\vspace{5mm}

\rightline{05 de mayo de 2016}


\vspace{5mm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\vspace*{5mm}
%\begin{center}
%\textbf{Parte 1 (Espacios Mtricos)}
%\end{center}
\begin{enumerate}[topsep=0pt, partopsep=0pt]
\item
Haga un an\'alisis de observacones influyentes.tenemos el modelo:\\
$Y_{i}=\beta0+\beta1 X_{1}+\beta2 X_{2}+\beta3 X_{3}+\beta4 X_{4}+\epsilon_{i}$
\\
* Seg\'un el criterio de la distancia de los cook:
Consideramos que la observaci\'on i es influyente si los $D_{i}$ son cercanos o
mayores al percentil 50 de $F_{p,n-p}$.
Seg\'un este criterio no hay observaciones influyentes en el modelo.
* Ahora usamos el criterio de |DFFITS| el cual nos dice que la observaci\'on i
es influencial dado que los datos provienen una muestra grande si $\mid DFFITS \
mid >2 \sqrt{\frac{p}{n}}$.
con p=5 y n= 31 tenemos que si hay observaciones influ\'enciales si $\mid DFFIT
S \mid >0.803219$
Teniendo en encuenta este criterio las observaciones 2,10,15,20 son influyentes.
* Ahora usamos como criterio la diagonal de la matriz sombrero H es decir los $h
_{ii}$ que dice la observaci\'on i es outlier si $h_{ii}>2\frac{p}{n}$.
con p=5 y n= 31 tenemos que la observaci\'on i es un outlier si hay observacione
s tal que $h_{ii}>0.3225$
Seg\'un este criterio las observaciones 20,26 son observaciones de balanceo o ou
tliers.
* Ahora usaremos el criterio llamado DFBETEAS para mirar identificar observacion
es influyentes sobre los par\'ametros, este criterio nos dice que si $\mid DFBE
TAS_{k(i)} \mid >\frac{2}{\sqrt{n}}$ entonces la observaci\'on i tiene un impact
o grande sobre el par\'ametro j.
Al reemplazar tenemos que la obs. i es influyente si $\mid DFBETAS_{k(i)} \mid >
0.3592$, por lo tanto las observaciones 2,4,10,15 son influyentes sobre el par\
'ametro $\beta1$, la observac\'ion 15 es influyente sobre $\beta2$, y la obser
vaci\'on 20 es influyente sobre los par\'ametros $\beta3$, y $\beta4$,

\item
Determinar si hay multicolinealidad en el modelo:
$$Y_{i}=\beta0+\beta1 X_{1}+\beta2 X_{2}+\beta3 X_{3}+\beta4 X_{4}+\beta5 X_{5}+
\beta6 X_{6}+\epsilon_{i}$$
* Primero miramos la matriz de correlaci\'on la cual nos muestra que hay multico
linealiad entre dos variable si $ \mid\gamma_{ij}\mid \rightsquigarrow 1$
Seg\'un este criterio tenemos que las variables que pueden presentar multicoline
alidad o que estan correlacionadas son las variables $X_{5}$ y $X_{6}$ porque $
\mid \gamma_{56} \mid =0.9298$, el cual es muy cercano a uno por eso decimos que
pueden estar correlacionadas.
\newpage
* Ahora usaremos el criterio de factores de inflaci\'on de la varianza (VIF)
el cual no dice que $VIF \leq 5 $ NO hay multicolinealidad, $5 < VIF <10$ hay mu
lticolinealidad moderada y si $VIF \geq 10$ hay multicolinealidad severa.
segun este criterio tenemos que las variables $X_{5}$ y $X_{6}$ presentan multic
olinealidad moderada con VIF de 8.51634 y 8.79847 respectivamente
*Ahora usamos el indice de condici\'on el cual nos dice que si para $\sqrt{K_{j}
}<10$ no hay multicolinealidad y si para algun $10 \leq \sqrt{K_{j}} \leq 31.6$
hay multicolinealidad moderada y si $\sqrt{ K_{j}} \geq 31.6 $ hay milticolineal
idad severa. la raiz de los $K_{j}$ se debe a que los resultados son salidas del
programa SAS
Seg\'un este criterio tenemos que hay multicolinealidad moderada debido a que te
nemos valores de los $K_{j}$ de 18.41, 21.40, tambien multicolinealidad grave po
r los valores 32.68,82.49 y 197,632
* Ahora usamos el n\'umero condici\'on $K=\sqrt{\frac{\lambda_{max}}{\lambda_{mi
n}}}$ y si $K<10$ no hay multicolinealidad , $10 \leq K\leq 31.6$ hay multicoli
nealidad moderada y si $ K \geq 31.6 $ hay milticolinealidad severa.
Tenemos que $\lambda_{max}=6.94692$ y $\lambda_{min}=0.00017786$ asi tenemos que
K=197.63 lo cual nos dice que hay multicolinealidad muy fuerte en el modelo.
*Ahora usaremos el criterio de porcentaje de variaci\'on del j-esimo regresor de
bido al i-esimo valor propio.
este criterio nos dice que si dos variables correspondientes al mismo valor prop
io tiene valores mayores a 0.5 indican que los regresores est\'an implicados en
una relaci\'on multicolineal.
Analizando la proporci\'on de la varianza tenemos que las variables $X_{5}$ y $X
_{6}$ est\'an en una relaci\'on multicolineal debido a que presentan valores de
proporci\'on de la varianza de 0.91331 y 0.98404 en el valor propio 7 y estos so
n mayores a 0.5.
\item
Una vez detectado el problema de multicolinealidad de alternativas de soluci\'on
para manejar la multicolinelidad.
Para resolver el problema de muticolinealidad podemos:\\
$1.$ Aumentar el tama\~no muestral puede reducir un problema de colinealidad apr
oximada.

$2.$ Si se suprimen variables que est\'an correlacionadas con otras, la p\'erdid


a de capacidad explicativa ser\'a peque\~na y la colinealidad se reducir\'a.
$3.$ Mejora del dise\~no muestral extrayendo la informaci\'on m\'axima de las v
ariables observadas.
$4.$ Redefinir una nueva variable regresora en funci\'on de las variables regres
oras que son L.D.
\item
Haga una evaluaci\'on de los modelos y decir cual de ellos es el mejor para expl
icar el consumo de ox\'igeno.
\textbf{modelo sin x5}
*Seg\'un el criterio de los VIF no encontramos problemas de multicolinealidad.\
\
*Seg\'un el criterio de \'indices de condici\'on hay problemas de multicolineal
idad moderada, severa y grave \\
*Seg\'un el criterio de la proporci\'on de la variacion no encontramos variables
que esten correlacionadas\\
*Seg\'un el n\'umero de condici\'on tenemos que $\lambda_{max}=5.94993$ y $\lamb
da_{min}=0.00075062$ asi tenemos que K=89.031 lo cual nos dice que multicolineal
idad muy fuerte.
\newpage
\textbf{modelo sin x6}
*Seg\'un el criterio de los VIF no encontramos problemas de multicolinealidad.\
\
*Seg\'un el criterio de \'indices de condici\'on hay problemas de multicolineal
idad moderada, severa y grave \\
*Seg\'un el criterio de la proporci\'on de la variaci\'on no encontramos variabl
es que esten correlacionadas\\
*Se\'un el n\'umero de condici\'on tenemos que $\lambda_{max}=5.94981$ y $\lambd
a_{min}=0.00099257$ asi tenemos que K=77.42 lo cual nos dice que multicolinealid
ad muy fuerte.
\textbf{modelo sin x6 y sin variables no sinificativas}
*Seg\'un el criterio de los VIF no encontramos problemas de multicolinealidad.\
\
*Seg\'un el criterio de indices de condici\'on hay problemas de multicolinealid
ad moderada, severa y grave\\
*Seg\'un el criterio de laproporci\'on de la variacion no encontramos variables
que esten correlacionadas\\
*Seg\'un el n\'umero de condici\'on tenemos que $\lambda_{max}=3.97790$ y $\lamb
da_{min}=0.00108$ asi tenemos que K=60.60 lo cual nos dice que multicolinealidad
muy fuerte.
-el mejor modelo para explicar el consumo de oxigeno es el modelo \textbf{model
o sin x6 y sin variables no significativas} debido a que este modelo tiene menor
multicolinealidad seg\'un el criterio del n\'umero de condici\'on, este modelo
ser\'ia $Y_{i}=\beta0+\beta1 X_{1}+\beta3 X_{3}+\beta5 X_{5}+\epsilon_{i}$ adem
\'as aqu\'i estamos quitando una variable que presentaba multicolinealidad en el
modelo, tambi\'en es el modelo con tres variables con menor SSE(160.83069) y ma
yor $R^{2}$

\end{enumerate}
\vspace{5mm}
\end{document}