Sie sind auf Seite 1von 22

TAREA Nª2

MÉTODOS ESTADÍSTICOS 1
ALUMNO: NICOLAS ERNESTO AGUIRRE TOBAR
RUT: 17.680.167-0

1. Considere en problema estudiando en ayudantía, sobre la relación entre la distancia que toma
a un automóvil detenerse luego de aplicar el freno y la velocidad a la que el automóvil transita.
Los datos se encuentran en el archivo distancia.txt, y las unidades de medida corresponden a
km/h y metros, para velocidad y distancia, respectivamente.

a) Vamos a graficar los datos y la recta ajustada del modelo. Además, discutiremos la
pertinencia del intercepto.

Si consideramos un intercepto con esta recta ajustada, obtendríamos una distancia negativa
para una velocidad 0, lo cual es imposible físicamente. Si optáramos por un modelo a través
del origen, excluiríamos el intercepto, lo que provocaría un cambio en la inclinación de la
pendiente y deberíamos estudiar ambos modelos (con y sin intercepto) para determinar
cuál se ajusta mejor.
b) Para estimar este modelo a través del método de mínimos cuadrados ordinarios, se debe
encontrar el valor de 𝛽" que minimiza la función:

𝑆$𝛽%" & = 𝑚𝑖𝑛 +, 𝑒./ 2


.1"

0
/
= 𝑚𝑖𝑛 +,$𝑌. − 𝛽%" 𝑥. & 2
.1"

0
𝑑𝑆
= 0 ⇒ −2 ,$𝑌. − 𝛽%" 𝑥. &𝑥. = 0
𝑑𝛽%"
.1"

,$𝑌. − 𝛽%" 𝑥. &𝑥. = 0


.1"

0 0

, 𝑌. 𝑥. − , 𝛽%" 𝑥./ = 0
.1" .1"

0 0 0

, 𝑌. 𝑥. = , 𝛽%" 𝑥./ = 𝛽%" , 𝑥./


.1" .1" .1"

∑0.1" 𝑌. 𝑥.
∴ 𝛽%" =
∑0.1" 𝑥./

c) Considere el estimador 𝛽%" obtenido en el apartado anterior, y expréselo como una


combinación lineal de las observaciones 𝑌" , . . ., 𝑌0

0
𝑥.
𝛽%" = , 𝑌. 𝑑. ; 𝑑𝑖 =
∑.1" 𝑥./
0
.1"

𝐸$𝛽%" & = 𝐸 ?, 𝑌. 𝑑. @
.1"

= , 𝑑. 𝐸(𝑌. )
.1"
0

= , 𝑑. (𝛽" 𝑥. )
.1"

∑0.1" 𝑥. (𝛽" 𝑥. ) ∑0.1" 𝑥./ 𝛽"


= = = 𝛽"
∑0.1" 𝑥./ ∑0.1" 𝑥./

∴ 𝐸$𝛽%" & = 𝛽"

𝑉𝑎𝑟$𝛽%" & = 𝑉𝑎𝑟 ?, 𝑌. 𝑑. @


.1"

0 0

= , 𝑑. 𝑉𝑎𝑟(𝑌. = , 𝑑./ 𝜎 /
/
)
.1" .1"

∑0.1" 𝑥./ /
𝜎/
= / 𝜎 =
$∑0.1" 𝑥./ & ∑0.1" 𝑥./

𝜎/
∴ 𝑉𝑎𝑟$𝛽%" & =
∑0.1" 𝑥./

𝜎/
∴ 𝛽%" ~ 𝑁𝑜𝑟𝑚𝑎𝑙 K𝛽" , M
∑0.1" 𝑥./
d) Ajustaremos el modelo a través del origen.

El modelo ajustado a través del origen se ajusta bastante bien al modelo, sin embargo mas
adelantes probaremos cual de los dos modelos se ajusta mejor y tomaremos una decisión
de cual modelo utilizar en este problema.
e) Aplicamos test de hipótesis con

𝐻O : 𝛽" = 0

𝐻" : 𝛽" ≠ 0

Obtenemos el estadístico y el valor-p utilizando summary()

> summary(modelo.no.intercept)

Call:
lm(formula = distancia ~ velocidad - 1, data = distancia)

Residuals:
Min 1Q Median 3Q Max
-85.94 -41.39 -17.83 14.96 164.71

Coefficients:
Estimate Std. Error t value Pr(>|t|)
velocidad 5.9299 0.2882 20.58 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 53.34 on 49 degrees of freedom


Multiple R-squared: 0.8963, Adjusted R-squared: 0.8941
F-statistic: 423.4 on 1 and 49 DF, p-value: < 2.2e-16

Donde obtenemos el valor del estadístico t y el valor-p:

𝑡O = 20.58

𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2 ∙ 10Z"[

Podemos concluir que, partir de un valor-p muy pequeño, se rechaza 𝐻O con un nivel de sig
nificancia del 5%. Esto quiere decir que hay suficiente evidencia para sostener que el 𝛽" es
significativo.
f) Contrastamos ambos modelos

El modelo con intercepto, toma distancias negativas a partir de una velocidad menor a 7
km/hrs, esto carece de sentido, debido a que no existen distancias negativas, aun así,
podemos excluir ese intervalo de valores. El modelo sin intercepto toma una distancia
mayor a 0 con velocidad 0, esto tampoco es posible, ya que el problema plantea la detención
cuando un vehículo está en marcha y para que esto suceda, la velocidad del vehículo debe
ser mayor a cero, aun así, podemos excluir la velocidad 0 del modelo sin intercepto.

Para tomar una decisión veremos el coeficiente de determinación, este es la proporción de


varianza de Y explicada por X en el modelo.

Modelo con intercepto:


𝑅/ = 0.6508

Modelo sin intercepto:


𝑅/ = 0.8963
2.- La construcción de proyectos inmobiliarios en las comunas induce no solo ingresos sino
también gastos a los municipios. Un proyecto para estudiar este fenómeno recolecto información
relativa a 870 municipios. En este problema se estudiará la relación entre el valor, por persona,
de los bienes raíces de la comuna y los gastos del municipio, por persona, generados por su
gestión. Los datos se encuentran en el archivo gasto.txt, y se encuentran expresados en miles de
pesos.

a) Graficaremos los datos como vienen, luego aplicaremos una escala logarítmica y
volveremos a graficar los datos.
La escala logarítmica se utiliza para reducir los rangos de variación de los resultados, la
riqueza tiene una gran brecha de desigualdad con respecto a sus valores. Aplicando una
escala logarítmica, nos permitirá apreciar con mayor detalle el cumulo de puntos entre el
intervalo de 0 a 50000. En este punto utilizaremos la escala logarítmica para modelar los
datos.
b) Ajustaremos el modelo de regresión lineal de los datos, reportaremos la ecuación de la recta
ajustada y el estimador de la desviación estándar de las observaciones. Realizaremos el test
t para determinar la significancia del modelo y la tabla ANOVA.

• Recta ajustada es:

𝑌]. = 0.061 + 0.49 ∙ 𝑥.

• Estimador de la desviación estándar de las observaciones:

𝜎b = 0.3761

• Hacemos un summary() y obtenemos información del test-t:

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.06107 0.22365 0.273 0.785
riqueza 0.49403 0.02188 22.584 <2e-16 ***

El valor-p es grande para el intercepto, por lo que se puede aceptar la hipótesis nula
para el coeficiente 𝛽O igual a 0, para el modelo no es un coeficiente significativo. En
cambio, para el coeficiente 𝛽" el valor-p es muy pequeño, por lo que el coeficiente
es significativo para el modelo.
La tabla ANOVA se muestra a continuación:
> anova(modelo.log)
Analysis of Variance Table

Response: gasto
Df Sum Sq Mean Sq F value Pr(>F)
riqueza 1 72.135 72.135 510.02 < 2.2e-16 ***
Residuals 868 122.766 0.141
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1

El valor-p es pequeño, por lo que tenemos suficiente evidencia que el modelo es


bueno para predecir con la covariable riqueza.

c) Obtenemos los residuos, los residuos estandarizados y los residuos studentizados.

Para obtener los residuos utilizamos la función residuals(modelo.log)


Para obtener los residuos estandarizados utilizamos la función ls.diag(modelo.log)$std.res

Para obtener los residuos studentizados utilizamos la función ls.diag(modelo.log)$stud.res


d) Estudiamos el supuesto de linealidad de la media de los residuos igual a 0 y que no siga
ningún patrón. Podemos observar que la media es cero con respecto a la línea roja, además
de no seguir ningún patrón definido.

e) Utilizamos el grafico anterior para estudiar la homocedasticidad. Hay algunos puntos que la
varianza se mantiene mas o menos constante el intervalo [4.75, 5.75]. Sin embargo, hay una
variabilidad distinta en el intervalo [5.75, 6.0]. Aun así, no es tan significativa la variación de
variabilidad en los intervalos, por lo que empíricamente aceptamos el supuesto de
homocedasticidad.
f) Estudiamos normalidad de los errores con un QQplot.

El supuesto de normalidad en el centro es aceptable. Sin embargo, en los extremos se


escapan de la recta en algunos puntos. Para asegurarnos de la normalidad de los residuos,
utilizamos el test de Shapiro-Wilk:

> shapiro.test(modelo.log$residuals)

Shapiro-Wilk normality test

data: modelo.log$residuals
W = 0.99706, p-value = 0.1134

El valor-p es grande, por lo que se acepta la hipótesis nula, por lo que podemos afirmar que
los residuos se distribuyen siguiendo una normal.
g) Estudiaremos los outliers, tomando los quantiles de las colas 0.975 y 0.025. Dibujaremos
una recta roja por quantil y veremos los outliers para aquellos que queden fuera del centro
del gráfico.

Podemos identificarlos, a partir de su index o row.names, utilizando la siguiente función:

𝑟𝑜𝑤. 𝑛𝑎𝑚𝑒𝑠(𝑔𝑎𝑠𝑡𝑜𝑠. 𝑙𝑜𝑔)h𝑤ℎ𝑖𝑐ℎ$𝑙𝑠. 𝑑𝑖𝑎𝑔(𝑚𝑜𝑑𝑒𝑙𝑜. 𝑙𝑜𝑔)𝑠𝑡𝑢𝑑. 𝑟𝑒𝑠 > 𝑞𝑡(0.975, 𝑛 − 2)&n

𝑟𝑜𝑤. 𝑛𝑎𝑚𝑒𝑠(𝑔𝑎𝑠𝑡𝑜𝑠. 𝑙𝑜𝑔)[𝑤ℎ𝑖𝑐ℎ(𝑙𝑠. 𝑑𝑖𝑎𝑔(𝑚𝑜𝑑𝑒𝑙𝑜. 𝑙𝑜𝑔)$𝑠𝑡𝑢𝑑. 𝑟𝑒𝑠 < 𝑞𝑡(0.025, 𝑛 − 2))]

h) Estudiaremos los puntos influyentes como puntos palancas, distancias de cooks y dffits.
Antes de esto, calculamos el hat para determinar si un punto es influyente o no a partir de
una cota definida dependiendo de los tres métodos.

1 (𝑥. − 𝑥̅ )/
ℎ.. = +
𝑛 𝑆tt
También podemos obtenerlo de la función ls.diag(modelo.log)$hat.

El criterio para un punto palanca es:

4
ℎ.. >
𝑛
El criterio para distancia de Cooks es:

4
ℎ.. >
𝑛−2−1
El criterio de Dffits es de dos colas:

2 2
𝑑𝑓𝑓𝑖𝑡𝑠 ∈ ] − ∞, −2x ] 𝑈 [2x , ∞[
𝑛 𝑛
i) Graficaremos la recta ajustada identificando los valores solo outliers de color verde, solo
puntos influyentes (Cooks, palancas y Dffits) de color verde y aquellos puntos influyentes y
outliers de color rojo. Estimaremos si eliminar algún dato.

No hay ningún punto influyente y outliers a la vez, por lo que no se tomara ninguna medida
para abordar los outliers y puntos influyentes.
3. La instalación de señalética vial debe considerar la distancia desde la que ella será realmente
visible a los conductores. Para estudiar la relación entre esta distancia y la edad de las personas,
se pidió a 27 personas entre 18 y 82 años que declararan la distancia desde la que fueron capaces
de leer una señalética particular. Los datos se encuentran en el archivo vision.txt. Edad y distancia
de visión se encuentran expresadas en años y metros, respectivamente.

a) Graficaremos los datos con la recta ajustada del modelo y verificaremos la significancia de
la regresión. Discutiremos la pendiente ajustada y el valor del intercepto de la recta
ajustada.

Los puntos tienen la forma de un poliniomio, por lo que quizas el modelo de regresion no
sea tan significativo en este problema.

La pendiente es negativa y tiene sentido, ya que mientras mayor edad, la distancia de vision
disminuye, aunque el intercepto carece de sentido, ya que este se explica con la edad 0,
esto quiere decir que la persona no ha nacido, por lo que el problema no tiene aplicacion y
esto no puede sostenerse.
b) Reportamos el coeficiente de determinación y el coeficiente de correlación de las
observaciones.

El coeficiente de determinación es la proporción de varianza de Y explicada por X y en este


problema toma el siguiente valor:

𝑅/ = 0.628

Esto quiere decir que la proporción de varianza del modelo es 62.8% con la variable
explicativa de edad.

El coeficiente de correlación mide el grado de asociación lineal entre dos variables, en este
problema solo relaciona la variable predictora (distancia de visión) y la variable explicativa
(edad). El coeficiente de correlación es la raíz del coeficiente de determinación. El
coeficiente de correlación del predictor con la variable explicativa es:

𝑟 = −0.79

Esto quiere decir que la asociación lineal entre ambas variables es bastante alta y la
correlación es negativa.

c) Reportamos el coeficiente de determinación y el coeficiente de correlación de las


observaciones.

> anova(modelo)
Analysis of Variance Table

Response: distancia
Df Sum Sq Mean Sq F value Pr(>F)
edad 1 10574.1 10574.1 42.239 8.308e-07 ***
Residuals 25 6258.5 250.3
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

La hipotesis nula sostiene que algun coeficiente es igual a 0, el estadistico F toma un valor
de 42.24 y el valor-p es un valor muy pequeño. Esto quiere decir que el modelo es muy
bueno para predecir con la covariable edad, por lo que se rechaza la hipotesis nula, siendo
la covariable edad significativa para el modelo.
d) Obtendremos un intervalo de confianza de 95% para la distancia media que las personas de
20 años son capaces de leer las señaléticas de interés. Obtenemos el intervalo de confianza
a partir de:

"Z•// 1 (𝑥O − 𝑥̅ )/ "Z•// 1 (𝑥O − 𝑥̅ )/


𝐼𝐶 = |𝜇̂ O − 𝑡0Z/ 𝜎bx + , 𝜇̂ O + 𝑡0Z/ 𝜎bx + •
𝑛 𝑆tt 𝑛 𝑆tt

también podemos utilizar la función predict:

𝑝𝑟𝑒𝑑𝑖𝑐𝑡(𝑚𝑜𝑑𝑒𝑙𝑜, 𝑛𝑒𝑤𝑑𝑎𝑡𝑎 = 𝑑𝑓, 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 = ′𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒′)


Donde df se define como la columna edad tomando el valor 20.

𝑑𝑓 = 𝑑𝑎𝑡𝑎. 𝑓𝑟𝑎𝑚𝑒(𝑒𝑑𝑎𝑑 = 𝑥0)


> (predict(modelo,newdata = df,interval = 'confidence'))
fit lwr upr
1 157.9067 146.8344 168.9791

𝐼𝐶 = [146.83, 168.98]

El intervalo de confianza es [146.83, 168.98] de la distancia promedio de visión de las pe


rsonas de 20 años para las señaléticas de interés.

Ahora vamos a graficar el intervalo de confianza del 95% para la recta ajustada del mode
lo y tomaremos como los puntos azules la estimación puntual de la media de interés.
e) Obtendremos un intervalo de confianza de 95% para la distancia media que las personas de
50 años son capaces de leer las señaléticas de interés. Además, compararemos con el
intervalo de confianza de la distancia media de visión de las personas de 20 años que son
capaces de leer señaléticas de interés.
> (predict(modelo,newdata = df,interval = 'confidence'))
fit lwr upr
1 130.3365 124.0532 136.6197

𝐼𝐶 = [124.05, 136.62]

Esto tiene sentido, ya que como sostuvimos al principio del análisis, las personas con meno
s edad tienen en promedio, mejor visión que las personas con mayor edad y esto se refleja
en ambas cotas, tanto inferior como superior.

f) Obtendremos un intervalo de predicción de 95% de probabilidad para la distancia a la que


yo seré capaz de leer la señalética. Además, discutiremos la diferencia conceptual entre el
intervalo de confianza y el intervalo de predicción.

"Z•// 1 (𝑥O − 𝑥̅ )/ "Z•// 1 (𝑥O − 𝑥̅ )/


𝐼𝑃𝑅 = |𝜇̂ O − 𝑡0Z/ 𝜎bx1 + + , 𝜇̂ O + 𝑡0Z/ 𝜎bx1 + + •
𝑛 𝑆tt 𝑛 𝑆tt

También podemos utilizar la función predict:

> (predict(modelo,newdata = df,interval = 'prediction'))


fit lwr upr
1 151.4737 117.5411 185.4063

Calculamos el intervalo de predicción (IPR) a partir de la siguiente expresión:

𝐼𝑃𝑅 = [117.5, 185.4]

La diferencia entre el intervalo de confianza y el intervalo de probabilidad es que el intervalo


de confianza toma la distancia promedio de las personas (promedio de observaciones), y el
intervalo de probabilidad toma una sola persona y su distancia de visión para leer la
señalética de interés (1 solo punto de predicción). Ahora Calcularemos el intervalo de
confianza de la distancia que las personas de 27 años que pueden leer una señalética de
interés:

𝐼𝐶 = [142.01, 160.93]

Das könnte Ihnen auch gefallen