Tarea 2 de Estadística II: UNAM FES Acatlán

UNAM FES Acatln
Tarea 2 de estadstica II
Anlisis de regresin con R
Integrantes:
Andrade Flores Arlette Elena
Hernndez Casteln Marco Antonio
Reyes Escalera Leonardo Daniel
Sanpedreo Martnez Lizbeth
Serna Cambrn Cristina
Tarea Estadstica II
1.- Muestra y explica, la proyeccin ortogonal geomtricamente.

La proyeccin ortogonal es la representacin de un objeto en 3 dimensiones
a un plano de dos dimensiones. Por lo general se usan matrices para
representar de forma numrica dichas figuras.
La imagen que de la izquierda nos da una muy buena idea de lo que es la
proyeccin ortogonal representada geomtricamente:
2.- Da 5 ejemplos de problemas que puedas analizar por medio del anlisis de regresin,
tal que las variables tanto dependiente como i ndependiente puedan ser una o la otra.
1. Relacionar la cantidad de unidades producidas contra las horas de trabajo de cierto grupo de personas que
trabajan bajo las mismas condiciones
2. Conocer la relacin existente entre el peso y la estatura de un grupo de personas que se encuentran en
ciertos intervalos de edad.
3. Estudiar la relacin entre calificaciones de un estudiante durante su carrera vs el salario que gana en su
trabajo actual
4. Estudiar las calificaciones obtenidas de un test de aptitud para un vendedor de una compaa en base a las
ventas logradas en un mes.
5. El tiempo de ejecucin de un programa en base a la cantidad de usuarios que tiene en un cierto momento.
3.- Investigar, la diferencia o relacin que hay entre la correlacin lineal y el anlisis de
regresin. Y la relacin entre causalidad y correlacin.
El anlisis de correlacin es una medida numrica que nos da como resultado el grado de relacin entre dos
variables y el anlisis de regresin da lugar a una ecuacin matemtica que nos indica que las variables en cuestin
varan de forma parecida. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin
cuando se trata de determinar que variables son potenciales e importantes, el inters radica bsicamente en la
fuerza de la relacin, una vez hecho este trabajo se puede proceder a realizar una regresin lineal o no,
dependiendo del resultado de exploracin de los datos.
La causalidad es un trmino estadstico que determina que una variable es producida o causada por otra. La
diferencia entre sta y la correlacin es que en la causalidad se parte de una variable para llegar a otra, mientras
que en la correlacin se determina la relacin entre las variables. En general, decimos que si existe una causalidad,
entonces hay una correlacin, pero no porque haya una correlacin existir una causalidad.
4.- De los siguientes datos:
Tarea Estadstica II
a) graficar
Y vs x1:
50
40
30
20
10
0
0
10000000
20000000
30000000
40000000
Y vs X2
50
45
40
35
30
25
20
15
10
5
0
0
200
400
600
800
1000
X1 vs X2
1000
900
800
700
600
500
400
300
200
100
0
0
10000000
20000000
30000000
40000000
Tarea Estadstica II
b) obtengan los estimadores de los parmetros para los modelos:
Modelo: Y =1 + 2X1 + e
Coefficients:
(Intercept)
x1
Estimate Std.Error
t value
Pr(>|t|)
2.41E+01
1.96E+00
12.297 8.81E-11***
9.40E-07
2.26E-07
4.167 0.000476***
Residual standard error: 8.088 on 20 degrees of freedom

Multiple R-squared: 0.4647, Adjusted R-squared: 0.438
F-statistic: 17.36 on 1 and 20 DF, p-value: 0.0004761
60
50
40
30
Y vs X1
20
reg
10
0
0
20000000
40000000
Como podemos observar el P value para los dos coeficientes es muy pequeo, se rechaza la hiptesis
nula en ambos casos, tambin se puede observar que el error estndar no es cero por lo que da puntos
a favor del modelo, pero observando el estadstico R ajustada que no es lo suficientemente grande y la
grfica de la regresin vs los datos decidimos no quedarnos con este modelo porque creemos que no
explica de forma adecuada a los datos.
Modelo: Y =1 + 2X2+ e
Tarea Estadstica II
Coefficients:
(Intercept)
x2
Estimate Std.Error t value Pr(>|t|)

1.20E+01 5.98E-01
20.07
1.01E-14***
3.65E-02 1.14E-03
31.98 <0.0000000000000002***

F-statistic: 1023 on 1 and 20 DF, p-value: <0.00000000000000022
50
45
40
35
30
25
20
15
10
5
0
Y vs x2
Reg
200
400
600
800
1000
Para este modelo se observa que en los dos coeficientes se rechaza la hiptesis nula por lo que indica
que stos son tiles para el modelo, tambin vemos que el error estndar no es cero, nos indica que el
modelo tiende a ser bueno; el estadstico R ajustada es muy bueno, se acerca mucho a 1 esto significa
que el modelo explica bien a los datos, y por ltimo observando la grfica vemos que la regresin se
ajusta muy bien a los datos, as que nos quedaremos con este modelo.
Modelo: Y =1 + 2X1 + 3X2 + e
Tarea Estadstica II
Coefficients:
(Intercept)
x1
x2
Estimate
1.11E+01
-2.03E-07
4.05E-02
Std.Error t value Pr(>|t|)

4.92E-01 22.492
3.73E-15***
4.75E-08
-4.275
0.000409***
1.27E-03
31.96 <0.0000000000000002***

F-statistic: 962.4 on 2 and 19 DF, p-value: <0.00000000000000022
Para este modelo observamos que para los tres coeficientes se rechaza la hiptesis nula, el error estndar
es distinto de cero y R ajustada es muy cercana a 1 por lo que creemos que las dos variables en conjunto (X1 y X2)
son buenas para el modelo.
c) Obtengan Y y grafiquen
Tarea Estadstica II
Modelo: Y =1 + 2X1 + e
1.50E+01
1.00E+01
5.00E+00
0.00E+00
0
-5.00E+00
-1.00E+01
-1.50E+01
Y-
-1.31E+01
-11.1401704
-10.1402542
-9.140379223
-7.140843976
-6.141259065
-5.141878304
-3.144180243
-2.146236189
1.829111952
3.791257385
6.63176648
7.519515597
9.102238027
9.979267661
10.17356972
10.10678037
7.507056111
5.841327224
4.398872046
-0.729818538
-8.872750346
Modelo: Y =1 + 2X2+ e
10
15
20
25
Tarea Estadstica II
3
2
1
0
0
-1
-2
-3
-4
Y-
-3.1697434
-2.0272826
-1.5096484
-1.027745
-0.1711306
0.2035804
0.5425606
1.1133286
1.3451164
1.9149596
1.9854964
1.8233206
1.6978004
1.3395676
0.97709965
0.8384116
0.1943324
-0.59267
-0.856640744
-1.0397674
-1.5225956
-2.0411546
10
15
20
25
Tarea Estadstica II
Modelo: Y =1 + 2X1 + 3X2 + e
2
1.5
1
0.5
0
-0.5 0
10
15
20
-1
-1.5
-2
-2.5
-3
Y-
-2.501228465
-1.453768202
-0.989565103
-0.565043104
0.164977263
0.470491904
0.736360634
1.149257755
1.296366752
1.491450504
1.35636548
0.878243728
0.652250142
0.122824341
-0.311481819
-0.454922822
-0.945644271
-1.048119564
-0.918522739
-0.768371623
-0.091970252
1.195688958
Realicen los siguientes cambios x 1 = ln X 1 y x 2 = (X 2 ) (1/2)
25
Tarea Estadstica II
a) graficar
Y vs lnx1:
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
Y vs (x2)(1/2)
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
25
30
35
Lnx1 vs (x2)(1/2)
35
30
25
20
15
10
5
b)
los
0
0
10
15
20
obtengan los estimadores de

parmetros para los modelos:
Tarea Estadstica II
Modelo: Y =1 + 2lnx1 + e
Coefficients:
(Intercept)
lnx1
Estimate Std.Error tvalue

Pr(>|t|)
-7.21E-10 2.64E-09 -2.73E-01
7.88E-01
2.50E+00 2.20E-10 1.14E+10 <2e-16***

Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.289E+20 on 1 and 20 DF, p-value: <0.00000000000000022
Datos
Regresin
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
En este caso se puede observar que el intercepto no es necesario para el modelo puesto que no se rechaz la
hiptesis nula; el valor para 2 es si es significativo para el modelo; el estadstico R ajustada igual a uno nos
indica que se ajusta totalmente a los datos y por ltimo el error estndar es distinto de cero. Concluimos
que este modelo es muy bueno.
Nota:
Haciendo la transformacin de x1 a lnx1 el modelo se mejora puesto que la
grfica X1 vs Y es de tipo exponencial:
50
40
Haciendo un cambio de variable:
30
Entonces:
20
10
0
0
20000000
40000000
Y al hacer esta transformacin es de tipo lineal.
Tarea Estadstica II
Modelo: Y =1 + 2(X2)(1/2)+ e
Coefficients:
Estimate
Std.Error tvalue
Pr(>|t|)
(Intercept)
6.06E-15 8.78E-16 6.90E+00 0.00000106***
sqtx2
1.43E+00 4.19E-17 3.41E+16 <0.0000000000000002***
Mensajes de aviso perdidos
In summary.lm(regresionTb) :
essentially perfect fit: summary may be unreliable
Datos
Regresin
50
45
40
35
30
25
20
15
10
5
0
0
10
15
20
25
30
35
Para este modelos no se rechaza ninguno de los coeficientes, R ajustada es uno y por la grfica vemos que el
modelo es muy bueno, incluso es mejor que el anterior.
Nota:
(1/2)
50
Haciendo la transformacin de x2 a (x2)

que la grfica X2 vs Y es cuadrtica:
40
Haciendo un cambio de variable:
el modelo se mejora puesto
30
Entonces:
20
10
0
0
500
1000
Y al hacer esta transformacin es de tipo lineal.
Modelo: Y =1 + 2lnX1 + 3(X2)(1/2) + e
Tarea Estadstica II
Coefficients: (1not defined because of singularities)
Estimate
Std.Error
tvalue
Pr(>|t|)
(Intercept)
-7.21E-10
2.64E-09
-2.73E-01 7.88E-01
lnx1
2.50E+00
2.20E-10
1.14E+10 <2e-16***
sqtx2
NA
NA
NA
NA
Para este caso se puede notar que ni el intercepto ni la segunda variable son buenos para el modelo, por lo que es
mejor quedarse con el modelo Y =1 + 2lnx1 + e o bien Y =1 + 2X1 + 3X2 + e.
Tarea Estadstica II
c) Obtengan Y y grafiquen
Modelo: Y =1 + 2lnx1 + e
1.2E-08
1E-08
8E-09
6E-09
4E-09
2E-09
0
-2E-09 0
10
15
-4E-09
-6E-09
-8E-09
Y-
-3.54344E-10
-1.00094E-09
4.66054E-09
3.77432E-09
-2.52491E-10
8.92292E-09
-5.40448E-09
-5.72168E-10
-6.81712E-10
-1.22348E-09
1.86322E-09
5.85187E-09
-1.96223E-09
1.10543E-09
1.32175E-10
4.3526E-09
-2.27766E-09
8.63785E-10
1.15335E-08
8.35178E-09
-4.52553E-09
2.11445E-09
Modelo: Y =1 + 2(X2)(1/2)+ e
20
25
Tarea Estadstica II
0
-0.005
10
15
-0.01
-0.015
-0.02
-0.025
-0.03
-0.035
-0.04
-0.045
-0.05
Y-
-0.011
-0.013
-0.014
-0.015
-0.017
-0.018
-0.019
-0.021
-0.022
-0.026
-0.028
-0.031
-0.032
-0.034
-0.0355
-0.036
-0.038
-0.04
-0.0406
-0.041
-0.042
-0.043
Modelo: Y =1 + 2lnX1 + 3(X2)(1/2) + e
20
25
Tarea Estadstica II
Nota: es el mismo modelo que: Y =2lnx1 + e puesto que los otros coeficientes son despreciables.
1.2E-08
1E-08
8E-09
6E-09
4E-09
2E-09
0
-2E-09 0
-4E-09
-6E-09
-8E-09
Y-
-1.07524E-09
-1.72184E-09
3.93964E-09
3.05342E-09
-9.7339E-10
8.20203E-09
-6.12538E-09
-1.29307E-09
-1.40261E-09
-1.94438E-09
1.14233E-09
5.13097E-09
-2.68314E-09
3.84524E-10
-5.88727E-10
3.6317E-09
-2.99856E-09
1.42883E-10
1.08126E-08
7.63087E-09
-5.24643E-09
1.39354E-09
10
15
20
25
Tarea Estadstica II
d) Analicen y concluyan.
Los mejores modelos son los resultantes despus de las transformaciones por las razones descritas anteriormente:
Modelo: Y = 2lnx1 + e
Modelo: Y =1 + 2(X2)(1/2)+ e
O si se quisieran incluir ambas variables debern usarse sin las respectivas transformaciones.
Modelo: Y =1 + 2X1 + 3X2 + e
Tarea Estadstica II
Comparacin de los modelos de regresin lineal de los datos de estaturas
Modelo de hija- padre
(Intercept)
EstFather
Estimate Std. Error t value Pr(>|t|)

0.3162
2.085
0.0612
0.6591
0.1858
3.078
0.0105
*
0.5717

El intercepto no pasa la prueba y R ajustada es muy distante de uno terminamos concluyendo que
no es un buen modelo.
Modelo de hija-madre
(Intercept)
EstMother
Estimate Std. Error t value Pr(>|t|)

0.3829
3.064 0.0108 *
1.1733
0.2392
1.198
0.2561
0.2865

Revisando los datos es evidente que las variables no se relacionan adems de que R ajustada es
muy pequea, por lo que no es un buen modelo.
Modelo de hijo-padre
Coefficients:
(Intercept)
EstFather

Pr(>|t|)
1.4379
0.8388
1.714
0.13
1.78E-01 5.00E-01 3.56E-01
0.732

Multiple R-squared: 0.01782, Adjusted R-squared: -0.1225
En este modelo tambin se puede notar que las variables no se relacionan, y R ajustada es muy
pequea, no es un buen modelo.
Tarea Estadstica II
Modelo de hijo-madre
Coefficients:
Pr(>|t|)
(Intercept)
0.4951
0.3637
1.361
0.2156
EstMother
7.84E-01 2.30E-01 3.42E+00 0.0112*
Para este modelo vemos que es posible relacionar las variables, pero el estadstico R ajustada no es
demasiado grande, no es un buen modelo.
Modelo hijo(a)-padre y madre

Coefficients:
Pr(>|t|)
(Intercept)
0.9363
0.5285
1.771
0.0925
EstFather
1.24E-01 3.13E-01 3.95E-01
0.6972
EstMother
3.32E-01 2.88E-01
1.155
0.2626
En este modelo notamos que las dos variables en conjunto no se relacionan con la dependiente, R
ajustada es muy pequeo.
Conclusin:
Podemos concluir que de los modelos obtenidos para nuestros datos de estaturas la regresin lineal no es
eficiente, porque el estadstico R ajustada en cada uno de ellos es muy pequeo, sin embargo si tuviramos que
elegir alguno de ellos elegiramos el modelo (hijo vs madre) puesto que R ajustada es de 0.5716 que es el mayor de
todos los modelos obtenidos, aunque consideramos que aun as no es un buen modelo porque dista mucho de 1 y
revisando la grfica hay datos que no se ajustan.
Datos
Regresi
n
1.85
Estatura Hijo
1.8
1.75
1.7
1.65
1.6
1.55
1.6
1.65
1.7
Estatura Padre
1.75
1.8

Tarea 2 de Estadística II: UNAM FES Acatlán

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tarea 2 de Estadística II: UNAM FES Acatlán

Hochgeladen von

Copyright:

Verfügbare Formate

UNAM FES Acatln

1.- Muestra y explica, la proyeccin ortogonal geomtricamente.

4.- De los siguientes datos:

Residual standard error: 8.088 on 20 degrees of freedom

Estimate Std.Error t value Pr(>|t|)

Residual standard error: 1.531 on 20 degrees of freedom

Modelo: Y =1 + 2X1 + 3X2 + e

Std.Error t value Pr(>|t|)

Residual standard error: 1.121 on 19 degrees of freedom

Modelo: Y =1 + 2X1 + 3X2 + e

Realicen los siguientes cambios x 1 = ln X 1 y x 2 = (X 2 ) (1/2)

obtengan los estimadores de

Estimate Std.Error tvalue

Residual standard error: 0.000000004354 on 20 degrees of freedom

Haciendo un cambio de variable:

Haciendo la transformacin de x2 a (x2)

Haciendo un cambio de variable:

el modelo se mejora puesto

Modelo: Y =1 + 2lnX1 + 3(X2)(1/2) + e

Modelo: Y =1 + 2lnX1 + 3(X2)(1/2) + e

Modelo: Y =1 + 2X1 + 3X2 + e

Comparacin de los modelos de regresin lineal de los datos de estaturas

Modelo de hija- padre

Estimate Std. Error t value Pr(>|t|)

Residual standard error: 0.04407 on 11 degrees of freedom

Estimate Std. Error t value Pr(>|t|)

Residual standard error: 0.05655 on 11 degrees of freedom

Estimate Std.Error tvalue

Residual standard error: 0.07107 on 7 degrees of freedom

Modelo hijo(a)-padre y madre

Das könnte Ihnen auch gefallen