Beruflich Dokumente
Kultur Dokumente
MÉTODOS ESTADÍSTICOS 1
ALUMNO: NICOLAS ERNESTO AGUIRRE TOBAR
RUT: 17.680.167-0
1. Considere en problema estudiando en ayudantía, sobre la relación entre la distancia que toma
a un automóvil detenerse luego de aplicar el freno y la velocidad a la que el automóvil transita.
Los datos se encuentran en el archivo distancia.txt, y las unidades de medida corresponden a
km/h y metros, para velocidad y distancia, respectivamente.
a) Vamos a graficar los datos y la recta ajustada del modelo. Además, discutiremos la
pertinencia del intercepto.
Si consideramos un intercepto con esta recta ajustada, obtendríamos una distancia negativa
para una velocidad 0, lo cual es imposible físicamente. Si optáramos por un modelo a través
del origen, excluiríamos el intercepto, lo que provocaría un cambio en la inclinación de la
pendiente y deberíamos estudiar ambos modelos (con y sin intercepto) para determinar
cuál se ajusta mejor.
b) Para estimar este modelo a través del método de mínimos cuadrados ordinarios, se debe
encontrar el valor de 𝛽" que minimiza la función:
0
/
= 𝑚𝑖𝑛 +,$𝑌. − 𝛽%" 𝑥. & 2
.1"
0
𝑑𝑆
= 0 ⇒ −2 ,$𝑌. − 𝛽%" 𝑥. &𝑥. = 0
𝑑𝛽%"
.1"
0 0
, 𝑌. 𝑥. − , 𝛽%" 𝑥./ = 0
.1" .1"
0 0 0
∑0.1" 𝑌. 𝑥.
∴ 𝛽%" =
∑0.1" 𝑥./
0
𝑥.
𝛽%" = , 𝑌. 𝑑. ; 𝑑𝑖 =
∑.1" 𝑥./
0
.1"
𝐸$𝛽%" & = 𝐸 ?, 𝑌. 𝑑. @
.1"
= , 𝑑. 𝐸(𝑌. )
.1"
0
= , 𝑑. (𝛽" 𝑥. )
.1"
0 0
= , 𝑑. 𝑉𝑎𝑟(𝑌. = , 𝑑./ 𝜎 /
/
)
.1" .1"
∑0.1" 𝑥./ /
𝜎/
= / 𝜎 =
$∑0.1" 𝑥./ & ∑0.1" 𝑥./
𝜎/
∴ 𝑉𝑎𝑟$𝛽%" & =
∑0.1" 𝑥./
𝜎/
∴ 𝛽%" ~ 𝑁𝑜𝑟𝑚𝑎𝑙 K𝛽" , M
∑0.1" 𝑥./
d) Ajustaremos el modelo a través del origen.
El modelo ajustado a través del origen se ajusta bastante bien al modelo, sin embargo mas
adelantes probaremos cual de los dos modelos se ajusta mejor y tomaremos una decisión
de cual modelo utilizar en este problema.
e) Aplicamos test de hipótesis con
𝐻O : 𝛽" = 0
𝐻" : 𝛽" ≠ 0
> summary(modelo.no.intercept)
Call:
lm(formula = distancia ~ velocidad - 1, data = distancia)
Residuals:
Min 1Q Median 3Q Max
-85.94 -41.39 -17.83 14.96 164.71
Coefficients:
Estimate Std. Error t value Pr(>|t|)
velocidad 5.9299 0.2882 20.58 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
𝑡O = 20.58
𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2 ∙ 10Z"[
Podemos concluir que, partir de un valor-p muy pequeño, se rechaza 𝐻O con un nivel de sig
nificancia del 5%. Esto quiere decir que hay suficiente evidencia para sostener que el 𝛽" es
significativo.
f) Contrastamos ambos modelos
El modelo con intercepto, toma distancias negativas a partir de una velocidad menor a 7
km/hrs, esto carece de sentido, debido a que no existen distancias negativas, aun así,
podemos excluir ese intervalo de valores. El modelo sin intercepto toma una distancia
mayor a 0 con velocidad 0, esto tampoco es posible, ya que el problema plantea la detención
cuando un vehículo está en marcha y para que esto suceda, la velocidad del vehículo debe
ser mayor a cero, aun así, podemos excluir la velocidad 0 del modelo sin intercepto.
a) Graficaremos los datos como vienen, luego aplicaremos una escala logarítmica y
volveremos a graficar los datos.
La escala logarítmica se utiliza para reducir los rangos de variación de los resultados, la
riqueza tiene una gran brecha de desigualdad con respecto a sus valores. Aplicando una
escala logarítmica, nos permitirá apreciar con mayor detalle el cumulo de puntos entre el
intervalo de 0 a 50000. En este punto utilizaremos la escala logarítmica para modelar los
datos.
b) Ajustaremos el modelo de regresión lineal de los datos, reportaremos la ecuación de la recta
ajustada y el estimador de la desviación estándar de las observaciones. Realizaremos el test
t para determinar la significancia del modelo y la tabla ANOVA.
𝜎b = 0.3761
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.06107 0.22365 0.273 0.785
riqueza 0.49403 0.02188 22.584 <2e-16 ***
El valor-p es grande para el intercepto, por lo que se puede aceptar la hipótesis nula
para el coeficiente 𝛽O igual a 0, para el modelo no es un coeficiente significativo. En
cambio, para el coeficiente 𝛽" el valor-p es muy pequeño, por lo que el coeficiente
es significativo para el modelo.
La tabla ANOVA se muestra a continuación:
> anova(modelo.log)
Analysis of Variance Table
Response: gasto
Df Sum Sq Mean Sq F value Pr(>F)
riqueza 1 72.135 72.135 510.02 < 2.2e-16 ***
Residuals 868 122.766 0.141
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
e) Utilizamos el grafico anterior para estudiar la homocedasticidad. Hay algunos puntos que la
varianza se mantiene mas o menos constante el intervalo [4.75, 5.75]. Sin embargo, hay una
variabilidad distinta en el intervalo [5.75, 6.0]. Aun así, no es tan significativa la variación de
variabilidad en los intervalos, por lo que empíricamente aceptamos el supuesto de
homocedasticidad.
f) Estudiamos normalidad de los errores con un QQplot.
> shapiro.test(modelo.log$residuals)
data: modelo.log$residuals
W = 0.99706, p-value = 0.1134
El valor-p es grande, por lo que se acepta la hipótesis nula, por lo que podemos afirmar que
los residuos se distribuyen siguiendo una normal.
g) Estudiaremos los outliers, tomando los quantiles de las colas 0.975 y 0.025. Dibujaremos
una recta roja por quantil y veremos los outliers para aquellos que queden fuera del centro
del gráfico.
h) Estudiaremos los puntos influyentes como puntos palancas, distancias de cooks y dffits.
Antes de esto, calculamos el hat para determinar si un punto es influyente o no a partir de
una cota definida dependiendo de los tres métodos.
1 (𝑥. − 𝑥̅ )/
ℎ.. = +
𝑛 𝑆tt
También podemos obtenerlo de la función ls.diag(modelo.log)$hat.
4
ℎ.. >
𝑛
El criterio para distancia de Cooks es:
4
ℎ.. >
𝑛−2−1
El criterio de Dffits es de dos colas:
2 2
𝑑𝑓𝑓𝑖𝑡𝑠 ∈ ] − ∞, −2x ] 𝑈 [2x , ∞[
𝑛 𝑛
i) Graficaremos la recta ajustada identificando los valores solo outliers de color verde, solo
puntos influyentes (Cooks, palancas y Dffits) de color verde y aquellos puntos influyentes y
outliers de color rojo. Estimaremos si eliminar algún dato.
No hay ningún punto influyente y outliers a la vez, por lo que no se tomara ninguna medida
para abordar los outliers y puntos influyentes.
3. La instalación de señalética vial debe considerar la distancia desde la que ella será realmente
visible a los conductores. Para estudiar la relación entre esta distancia y la edad de las personas,
se pidió a 27 personas entre 18 y 82 años que declararan la distancia desde la que fueron capaces
de leer una señalética particular. Los datos se encuentran en el archivo vision.txt. Edad y distancia
de visión se encuentran expresadas en años y metros, respectivamente.
a) Graficaremos los datos con la recta ajustada del modelo y verificaremos la significancia de
la regresión. Discutiremos la pendiente ajustada y el valor del intercepto de la recta
ajustada.
Los puntos tienen la forma de un poliniomio, por lo que quizas el modelo de regresion no
sea tan significativo en este problema.
La pendiente es negativa y tiene sentido, ya que mientras mayor edad, la distancia de vision
disminuye, aunque el intercepto carece de sentido, ya que este se explica con la edad 0,
esto quiere decir que la persona no ha nacido, por lo que el problema no tiene aplicacion y
esto no puede sostenerse.
b) Reportamos el coeficiente de determinación y el coeficiente de correlación de las
observaciones.
𝑅/ = 0.628
Esto quiere decir que la proporción de varianza del modelo es 62.8% con la variable
explicativa de edad.
El coeficiente de correlación mide el grado de asociación lineal entre dos variables, en este
problema solo relaciona la variable predictora (distancia de visión) y la variable explicativa
(edad). El coeficiente de correlación es la raíz del coeficiente de determinación. El
coeficiente de correlación del predictor con la variable explicativa es:
𝑟 = −0.79
Esto quiere decir que la asociación lineal entre ambas variables es bastante alta y la
correlación es negativa.
> anova(modelo)
Analysis of Variance Table
Response: distancia
Df Sum Sq Mean Sq F value Pr(>F)
edad 1 10574.1 10574.1 42.239 8.308e-07 ***
Residuals 25 6258.5 250.3
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La hipotesis nula sostiene que algun coeficiente es igual a 0, el estadistico F toma un valor
de 42.24 y el valor-p es un valor muy pequeño. Esto quiere decir que el modelo es muy
bueno para predecir con la covariable edad, por lo que se rechaza la hipotesis nula, siendo
la covariable edad significativa para el modelo.
d) Obtendremos un intervalo de confianza de 95% para la distancia media que las personas de
20 años son capaces de leer las señaléticas de interés. Obtenemos el intervalo de confianza
a partir de:
𝐼𝐶 = [146.83, 168.98]
Ahora vamos a graficar el intervalo de confianza del 95% para la recta ajustada del mode
lo y tomaremos como los puntos azules la estimación puntual de la media de interés.
e) Obtendremos un intervalo de confianza de 95% para la distancia media que las personas de
50 años son capaces de leer las señaléticas de interés. Además, compararemos con el
intervalo de confianza de la distancia media de visión de las personas de 20 años que son
capaces de leer señaléticas de interés.
> (predict(modelo,newdata = df,interval = 'confidence'))
fit lwr upr
1 130.3365 124.0532 136.6197
𝐼𝐶 = [124.05, 136.62]
Esto tiene sentido, ya que como sostuvimos al principio del análisis, las personas con meno
s edad tienen en promedio, mejor visión que las personas con mayor edad y esto se refleja
en ambas cotas, tanto inferior como superior.
𝐼𝐶 = [142.01, 160.93]