Sie sind auf Seite 1von 5

Regresin Mltiple - Caso: Prestige CAR.

Ing. Oliver Vilca.

Se pude encontrar los datos con la siguiente consulta en un buscador: Prestige CAR data set.
Tambin puede disponer los datos instalando la librera Car en R. [library(car)], para lo cual
debe tener acceso a internet.
Descargar los datos en formato texto de:
http://socserv.socsci.mcmaster.ca/jfox/books/Companion/data/Prestige.txt

En Windows debe descargar en la carpeta Documentos, si se requiere saber el directorio de trabajo


puede consultar en R con el comando: getwd().
Los datos consisten en 102 observaciones y seis variables, donde:
Variables: Descripcin
education

Educacin promedio de los incumbentes por ocupacin, en 1971 (primaria, secundaria, otros).

income

Ingreso promedio en dlares.

women

Porcentaje de mujeres en la ocupacin.

prestige

Puntuacin de prestigio Pineo-Porter para ocupacin, de una encuesta social efectuada en los mediados de la
dcada 1960.

census

El cdigo de la ocupacin utilizado en la encuesta.

type

Professional and managerial (prof), white collar (wc), blue collar (bc), or missing (NA)
(Fox and Weisberg 2011).

Prestige <-read.table("Prestige.txt", header=TRUE)


r <- lm(prestige ~ education + log2(income) + women, data=Prestige)
summary(r)
O bien puede instalar la libreria car y luego efectuar la regresin:
install.packages("car")
library(car)
r <- lm(prestige ~ education + log2(income) + women, data=Prestige)
summary(r)

Call:
lm(formula = prestige ~ education + log2(income) + women, data = Prestige)
Residuals:
Min
1Q Median
-17.364 -4.429 -0.101

3Q
Max
4.316 19.179

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -110.9658
14.8429 -7.476 3.27e-11 ***
education
3.7305
0.3544 10.527 < 2e-16 ***
log2(income)
9.3147
1.3265 7.022 2.90e-10 ***
women
0.0469
0.0299 1.568
0.12
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 7.093 on 98 degrees of freedom
Multiple R-squared: 0.8351,
Adjusted R-squared: 0.83
F-statistic: 165.4 on 3 and 98 DF, p-value: < 2.2e-16

Ecuacin de regresin:

Prestige = -110.9658 + 3.7305*education + 9.3147*log2(income) + 0.0469*women


Interpretacin:
B1 = 3.7305 Implica que: Se espera que la puntuacin de prestigio (prestige) se incremente en 3.7305 unidades
por cada ao adicional de educacin de la ocupacin, suponiendo que las dems variables permanecen contantes
(sin cambiar).
B2 = 9.3147 El incremento de una unidad de Log2(income) es equivale a duplicar el ingreso (income). Por lo
tanto manteniendo las otras variables constantes, se espera que la puntuacin de prestigio se incremente en
9.3147 puntos cada vez que se duplica el ingreso (income).
B3 = 0.0469. La puntuacin de prestigio (prestige) incrementa en 0.0469 puntos por cada punto (porcentaje)
adicional de la variable woman (Porcentaje de mujeres), suponiendo que las dems variables permanecen sin
cambiar.
B0 = -110.9658 no tiene interpretacin prctica, es cuando todas las variables toman el valor de cero, suponiendo
que las dems variables permanecen sin cambiar..
Prueba T.
Recuerde que: Se puede aceptar Ha : en el nivel de significancia si se mantiene algunas de las condiciones
siguientes:

valor p <
F(modelo) > F []

(F de tablas)

Prueba de la variable educacin al nivel de significancia de 5%: El valor de p=2*10^(-16) (p-value) para la
prueba estadstica t es menor que 0.05. Del mismo modo, el estadstico de prueba t = 10.527 es mayor que
1.9844674545 (valor T de tablas al 5% y 98 g.l). Por lo tanto, se rechaza la hiptesis nula B1 = 0, y tambin
muestra evidencia de una relacin lineal positiva entre nivel de educacin y prestigio. A continuacin la prueba
para otros niveles de significancia:
Tcalculado = 10.527 > 1.9844674545 (al 5%) es significativo
Tcalculado = 10.527 > 2.6269310958 (al 1%) es muy significativo
Tcalculado = 10.527 > 3.3925881141 (al 0.1%) es muy significativo
Nota: El valor de Ttablas se puede obtener utilizando Libre Office Cal con la siguiente funcin (para =5%):
=INV.T.2C(0.05,98)
Prueba de significancia de la variable ingreso con = 5%: El valor de p=2.9 *10^(-10) (p-value) para la
prueba estadstica t es menor que 0.05, que el lo mismo que comprobar que el estadstico de prueba t = 7.022 sea
mayor que 1.9844674545 (valor T de tablas al 5% y 98 g.l). Se rechaza la hiptesis nula B2=0, y tambin
muestra evidencia de una relacin lineal positiva entre Log2(ingreso) y prestigio. A continuacin prueba para los
niveles de significancia de 1% y 0.1%:
Tcalculado = 7.022 > 1.9844674545 (al 5%) es significativo
Tcalculado = 7.022 > 2.6269310958 (al 1%) es muy significativo
Tcalculado = 7.022 > 3.3925881141 (al 0.1%) es muy significativo
Prueba de la variable porcentaje de mujeres al nivel de significancia de 5%: Sin embargo, el valor de p= 0.12
(p-value) para la prueba estadstica t, NO es menor que valor de alfa = 0.05 (nivel de significancia). Por lo tanto,
se acepta la hiptesis nula B2=0, y ello muestra que NO hay relacin lineal entre woman (porcentaje de mujeres
en la ocupacin) y prestigio. Por lo que se puede considerar un modelo nuevo de regresin sin la variable
woman. A continuacin la prueba utilizando el valor de T calculado.
Tcalculado = 1.568 NO ES MAYOR QUE 1.9844674545 (al 5%) NO es significativo.

Si no es significativo al 5% menos lo sera para valores menores a 5%, por lo tanto se puede decir tambin que no
pasa la prueba al 1%. A qu nivel de significancia pasa la prueba?
Prueba F.
El estadstico F para la hiptesis nula Ho:b1=b2=b3=0 (que no hay relacin lineal entre las variables
independientes y la variable respuesta) la hiptesis alternativa Ha: algn coeficiente no es igual a cero (al menos
una variable independiente tiene relacin lineal significativa con la variable dependiente) y el valor de
p=2.2*10^(-16) (p-value) es menor que 0.05. El cual implica que se rechaza la hiptesis nula al 5% de nivel de
significancia (incluso al 0.1%). Es decir, al menos uno de los coeficientes de estas variables es
significativamente diferente de 0. A continuacin a otros niveles de significancia.
F(modelo) = 165.4 > 2.6974232198 es significativo (con alfa=5%)
F(modelo) = 165.4 > 3.9879573126 es muy significativo (con alfa=1%)
F(modelo) = 165.4 > 5.8661293644 es muy significativo (con alfa=0.1%)
Nota: El valor de Ftablas se puede obtener utilizando Libre Office Cal con la siguiente funcin (para = 5%):
=INV.F.CD(0.05,3,98) que es igual a 2.6974232198.
Valor de R.
El valor del R cuadrado mltiple es 0.835 lo que implica que aproximadamente el 83.5% de la variabilidad de la
variable dependiente es explicada por la ecuacin de regresin ajustada. As la combinacin ponderada de las variables
predictoras (independientes) explican aproximadamente el 83,5% de la varianza de la variable dependiente.

Ejercicios:
- Se sabe que cierta profesin que acaba de implantarse tiene los siguientes datos: Educacin 10 aos, Ingreso
(income) 10000 y Porcentaje de Mujeres (woman) 50. Pronostique la puntuacin de prestigio Pineo-Porter
(Prestige). En cuanto incrementa la puntuacin Prestige si el ingreso se duplica permaneciendo sin cambiar las
dems variables.
- Qu cambios se observa con el siguiente modelo?
r2 <- lm(prestige ~ education + log2(income) + type, data=Prestige)
- La nube de puntos entre variables:
Sin libreras:
plot(prestige~income,main="Nube de puntos",xlab="Ingresos
promedio",ylab="Puntuacin Prestige",data=Prestige)
abline(lm(prestige~income,data=Prestige),col="red") # regresion (y~x)

Con librera ggplot2:


install.packages("ggplot2")
library(ggplot2)
qplot(income,prestige,xlab="Ingresos promedio",ylab="Puntuacin Prestige",
geom = c("point","smooth"),data=Prestige)

Con librera car: Requiere la librera CAR que se puede instalar con:
install.packages("car")
library(car)
scatterplotMatrix(~prestige+income+education+women,span=0.7,data=Prestige)

scatterplotMatrix(~prestige+log2(income)
+education+women,span=0.7,data=Prestige)

Bibliografa:
Fox, John, and Harvey Sanford Weisberg. 2011. An R Companion to Applied Regression. 2nd ed. Thousand
Oaks, CA: Sage Publications.
https://books.google.com.pe/books?
id=l9eiNeME8ukC&pg=PA358&lpg=PA358&dq=An+R+Companion+to+Applied+Regression+pdf&source=bl&ots=KlLYfjfqpl&sig=Hf2rVOOaHmFpFk4YrKaWGTUQYUk&hl=en&sa=X&ved=0ahUKE
wjC1eX7lePNAhUDmR4KHQm1BpY4ChDoAQg3MAU#v=onepage&q=An%20R%20Companion%20to%20Applied%20Regression%20pdf&f=false

Das könnte Ihnen auch gefallen