Beruflich Dokumente
Kultur Dokumente
Tarea 2 de estadstica II
Anlisis de regresin con R
Integrantes:
Andrade Flores Arlette Elena
Hernndez Casteln Marco Antonio
Reyes Escalera Leonardo Daniel
Sanpedreo Martnez Lizbeth
Serna Cambrn Cristina
Tarea Estadstica II
2.- Da 5 ejemplos de problemas que puedas analizar por medio del anlisis de regresin,
tal que las variables tanto dependiente como i ndependiente puedan ser una o la otra.
1. Relacionar la cantidad de unidades producidas contra las horas de trabajo de cierto grupo de personas que
trabajan bajo las mismas condiciones
2. Conocer la relacin existente entre el peso y la estatura de un grupo de personas que se encuentran en
ciertos intervalos de edad.
3. Estudiar la relacin entre calificaciones de un estudiante durante su carrera vs el salario que gana en su
trabajo actual
4. Estudiar las calificaciones obtenidas de un test de aptitud para un vendedor de una compaa en base a las
ventas logradas en un mes.
5. El tiempo de ejecucin de un programa en base a la cantidad de usuarios que tiene en un cierto momento.
3.- Investigar, la diferencia o relacin que hay entre la correlacin lineal y el anlisis de
regresin. Y la relacin entre causalidad y correlacin.
El anlisis de correlacin es una medida numrica que nos da como resultado el grado de relacin entre dos
variables y el anlisis de regresin da lugar a una ecuacin matemtica que nos indica que las variables en cuestin
varan de forma parecida. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin
cuando se trata de determinar que variables son potenciales e importantes, el inters radica bsicamente en la
fuerza de la relacin, una vez hecho este trabajo se puede proceder a realizar una regresin lineal o no,
dependiendo del resultado de exploracin de los datos.
La causalidad es un trmino estadstico que determina que una variable es producida o causada por otra. La
diferencia entre sta y la correlacin es que en la causalidad se parte de una variable para llegar a otra, mientras
que en la correlacin se determina la relacin entre las variables. En general, decimos que si existe una causalidad,
entonces hay una correlacin, pero no porque haya una correlacin existir una causalidad.
Tarea Estadstica II
a) graficar
Y vs x1:
50
40
30
20
10
0
0
10000000
20000000
30000000
40000000
Y vs X2
50
45
40
35
30
25
20
15
10
5
0
0
200
400
600
800
1000
X1 vs X2
1000
900
800
700
600
500
400
300
200
100
0
0
10000000
20000000
30000000
40000000
Tarea Estadstica II
b) obtengan los estimadores de los parmetros para los modelos:
Modelo: Y =1 + 2X1 + e
Coefficients:
(Intercept)
x1
Estimate Std.Error
t value
Pr(>|t|)
2.41E+01
1.96E+00
12.297 8.81E-11***
9.40E-07
2.26E-07
4.167 0.000476***
60
50
40
30
Y vs X1
20
reg
10
0
0
20000000
40000000
Como podemos observar el P value para los dos coeficientes es muy pequeo, se rechaza la hiptesis
nula en ambos casos, tambin se puede observar que el error estndar no es cero por lo que da puntos
a favor del modelo, pero observando el estadstico R ajustada que no es lo suficientemente grande y la
grfica de la regresin vs los datos decidimos no quedarnos con este modelo porque creemos que no
explica de forma adecuada a los datos.
Modelo: Y =1 + 2X2+ e
Tarea Estadstica II
Coefficients:
(Intercept)
x2
50
45
40
35
30
25
20
15
10
5
0
Y vs x2
Reg
200
400
600
800
1000
Para este modelo se observa que en los dos coeficientes se rechaza la hiptesis nula por lo que indica
que stos son tiles para el modelo, tambin vemos que el error estndar no es cero, nos indica que el
modelo tiende a ser bueno; el estadstico R ajustada es muy bueno, se acerca mucho a 1 esto significa
que el modelo explica bien a los datos, y por ltimo observando la grfica vemos que la regresin se
ajusta muy bien a los datos, as que nos quedaremos con este modelo.
Tarea Estadstica II
Coefficients:
(Intercept)
x1
x2
Estimate
1.11E+01
-2.03E-07
4.05E-02
Para este modelo observamos que para los tres coeficientes se rechaza la hiptesis nula, el error estndar
es distinto de cero y R ajustada es muy cercana a 1 por lo que creemos que las dos variables en conjunto (X1 y X2)
son buenas para el modelo.
c) Obtengan Y y grafiquen
Tarea Estadstica II
Modelo: Y =1 + 2X1 + e
1.50E+01
1.00E+01
5.00E+00
0.00E+00
0
-5.00E+00
-1.00E+01
-1.50E+01
Y-
-1.31E+01
-11.1401704
-10.1402542
-9.140379223
-7.140843976
-6.141259065
-5.141878304
-3.144180243
-2.146236189
1.829111952
3.791257385
6.63176648
7.519515597
9.102238027
9.979267661
10.17356972
10.10678037
7.507056111
5.841327224
4.398872046
-0.729818538
-8.872750346
Modelo: Y =1 + 2X2+ e
10
15
20
25
Tarea Estadstica II
3
2
1
0
0
-1
-2
-3
-4
Y-
-3.1697434
-2.0272826
-1.5096484
-1.027745
-0.1711306
0.2035804
0.5425606
1.1133286
1.3451164
1.9149596
1.9854964
1.8233206
1.6978004
1.3395676
0.97709965
0.8384116
0.1943324
-0.59267
-0.856640744
-1.0397674
-1.5225956
-2.0411546
10
15
20
25
Tarea Estadstica II
2
1.5
1
0.5
0
-0.5 0
10
15
20
-1
-1.5
-2
-2.5
-3
Y-
-2.501228465
-1.453768202
-0.989565103
-0.565043104
0.164977263
0.470491904
0.736360634
1.149257755
1.296366752
1.491450504
1.35636548
0.878243728
0.652250142
0.122824341
-0.311481819
-0.454922822
-0.945644271
-1.048119564
-0.918522739
-0.768371623
-0.091970252
1.195688958
25
Tarea Estadstica II
a) graficar
Y vs lnx1:
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
Y vs (x2)(1/2)
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
25
30
35
Lnx1 vs (x2)(1/2)
35
30
25
20
15
10
5
b)
los
0
0
10
15
20
Tarea Estadstica II
Modelo: Y =1 + 2lnx1 + e
Coefficients:
(Intercept)
lnx1
Datos
Regresin
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
En este caso se puede observar que el intercepto no es necesario para el modelo puesto que no se rechaz la
hiptesis nula; el valor para 2 es si es significativo para el modelo; el estadstico R ajustada igual a uno nos
indica que se ajusta totalmente a los datos y por ltimo el error estndar es distinto de cero. Concluimos
que este modelo es muy bueno.
Nota:
Haciendo la transformacin de x1 a lnx1 el modelo se mejora puesto que la
grfica X1 vs Y es de tipo exponencial:
50
40
30
Entonces:
20
10
0
0
20000000
40000000
Y al hacer esta transformacin es de tipo lineal.
Tarea Estadstica II
Modelo: Y =1 + 2(X2)(1/2)+ e
Coefficients:
Estimate
Std.Error tvalue
Pr(>|t|)
(Intercept)
6.06E-15 8.78E-16 6.90E+00 0.00000106***
sqtx2
1.43E+00 4.19E-17 3.41E+16 <0.0000000000000002***
Residual standard error: 0.000000000000001449 on 20 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.164E+33 on 1 and 20 DF, p-value: <0.00000000000000022
Mensajes de aviso perdidos
In summary.lm(regresionTb) :
essentially perfect fit: summary may be unreliable
Datos
Regresin
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
25
30
35
Para este modelos no se rechaza ninguno de los coeficientes, R ajustada es uno y por la grfica vemos que el
modelo es muy bueno, incluso es mejor que el anterior.
Nota:
(1/2)
50
40
30
Entonces:
20
10
0
0
500
1000
Y al hacer esta transformacin es de tipo lineal.
Tarea Estadstica II
Coefficients: (1not defined because of singularities)
Estimate
Std.Error
tvalue
Pr(>|t|)
(Intercept)
-7.21E-10
2.64E-09
-2.73E-01 7.88E-01
lnx1
2.50E+00
2.20E-10
1.14E+10 <2e-16***
sqtx2
NA
NA
NA
NA
Residual standard error: 0.000000004354 on 20 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.289E+20 on 1 and 20 DF, p-value: <0.00000000000000022
Para este caso se puede notar que ni el intercepto ni la segunda variable son buenos para el modelo, por lo que es
mejor quedarse con el modelo Y =1 + 2lnx1 + e o bien Y =1 + 2X1 + 3X2 + e.
Tarea Estadstica II
c) Obtengan Y y grafiquen
Modelo: Y =1 + 2lnx1 + e
1.2E-08
1E-08
8E-09
6E-09
4E-09
2E-09
0
-2E-09 0
10
15
-4E-09
-6E-09
-8E-09
Y-
-3.54344E-10
-1.00094E-09
4.66054E-09
3.77432E-09
-2.52491E-10
8.92292E-09
-5.40448E-09
-5.72168E-10
-6.81712E-10
-1.22348E-09
1.86322E-09
5.85187E-09
-1.96223E-09
1.10543E-09
1.32175E-10
4.3526E-09
-2.27766E-09
8.63785E-10
1.15335E-08
8.35178E-09
-4.52553E-09
2.11445E-09
Modelo: Y =1 + 2(X2)(1/2)+ e
20
25
Tarea Estadstica II
0
-0.005
10
15
-0.01
-0.015
-0.02
-0.025
-0.03
-0.035
-0.04
-0.045
-0.05
Y-
-0.011
-0.013
-0.014
-0.015
-0.017
-0.018
-0.019
-0.021
-0.022
-0.026
-0.028
-0.031
-0.032
-0.034
-0.0355
-0.036
-0.038
-0.04
-0.0406
-0.041
-0.042
-0.043
20
25
Tarea Estadstica II
Nota: es el mismo modelo que: Y =2lnx1 + e puesto que los otros coeficientes son despreciables.
1.2E-08
1E-08
8E-09
6E-09
4E-09
2E-09
0
-2E-09 0
-4E-09
-6E-09
-8E-09
Y-
-1.07524E-09
-1.72184E-09
3.93964E-09
3.05342E-09
-9.7339E-10
8.20203E-09
-6.12538E-09
-1.29307E-09
-1.40261E-09
-1.94438E-09
1.14233E-09
5.13097E-09
-2.68314E-09
3.84524E-10
-5.88727E-10
3.6317E-09
-2.99856E-09
1.42883E-10
1.08126E-08
7.63087E-09
-5.24643E-09
1.39354E-09
10
15
20
25
Tarea Estadstica II
d) Analicen y concluyan.
Los mejores modelos son los resultantes despus de las transformaciones por las razones descritas anteriormente:
Modelo: Y = 2lnx1 + e
Modelo: Y =1 + 2(X2)(1/2)+ e
O si se quisieran incluir ambas variables debern usarse sin las respectivas transformaciones.
Tarea Estadstica II
(Intercept)
EstFather
El intercepto no pasa la prueba y R ajustada es muy distante de uno terminamos concluyendo que
no es un buen modelo.
Modelo de hija-madre
(Intercept)
EstMother
Modelo de hijo-padre
Coefficients:
(Intercept)
EstFather
En este modelo tambin se puede notar que las variables no se relacionan, y R ajustada es muy
pequea, no es un buen modelo.
Tarea Estadstica II
Modelo de hijo-madre
Coefficients:
Estimate Std.Error tvalue
Pr(>|t|)
(Intercept)
0.4951
0.3637
1.361
0.2156
EstMother
7.84E-01 2.30E-01 3.42E+00 0.0112*
Residual standard error: 0.04391 on 7 degrees of freedom
Multiple R-squared: 0.6251, Adjusted R-squared: 0.5716
F-statistic: 11.67 on 1 and 7 DF, p-value: 0.01119
Para este modelo vemos que es posible relacionar las variables, pero el estadstico R ajustada no es
demasiado grande, no es un buen modelo.
En este modelo notamos que las dos variables en conjunto no se relacionan con la dependiente, R
ajustada es muy pequeo.
Conclusin:
Podemos concluir que de los modelos obtenidos para nuestros datos de estaturas la regresin lineal no es
eficiente, porque el estadstico R ajustada en cada uno de ellos es muy pequeo, sin embargo si tuviramos que
elegir alguno de ellos elegiramos el modelo (hijo vs madre) puesto que R ajustada es de 0.5716 que es el mayor de
todos los modelos obtenidos, aunque consideramos que aun as no es un buen modelo porque dista mucho de 1 y
revisando la grfica hay datos que no se ajustan.
Datos
Regresi
n
1.85
Estatura Hijo
1.8
1.75
1.7
1.65
1.6
1.55
1.6
1.65
1.7
Estatura Padre
1.75
1.8