Sie sind auf Seite 1von 19

UNAM FES Acatln

Tarea 2 de estadstica II
Anlisis de regresin con R
Integrantes:
Andrade Flores Arlette Elena
Hernndez Casteln Marco Antonio
Reyes Escalera Leonardo Daniel
Sanpedreo Martnez Lizbeth
Serna Cambrn Cristina

Tarea Estadstica II

1.- Muestra y explica, la proyeccin ortogonal geomtricamente.


La proyeccin ortogonal es la representacin de un objeto en 3 dimensiones
a un plano de dos dimensiones. Por lo general se usan matrices para
representar de forma numrica dichas figuras.
La imagen que de la izquierda nos da una muy buena idea de lo que es la
proyeccin ortogonal representada geomtricamente:

2.- Da 5 ejemplos de problemas que puedas analizar por medio del anlisis de regresin,
tal que las variables tanto dependiente como i ndependiente puedan ser una o la otra.
1. Relacionar la cantidad de unidades producidas contra las horas de trabajo de cierto grupo de personas que
trabajan bajo las mismas condiciones
2. Conocer la relacin existente entre el peso y la estatura de un grupo de personas que se encuentran en
ciertos intervalos de edad.
3. Estudiar la relacin entre calificaciones de un estudiante durante su carrera vs el salario que gana en su
trabajo actual
4. Estudiar las calificaciones obtenidas de un test de aptitud para un vendedor de una compaa en base a las
ventas logradas en un mes.
5. El tiempo de ejecucin de un programa en base a la cantidad de usuarios que tiene en un cierto momento.

3.- Investigar, la diferencia o relacin que hay entre la correlacin lineal y el anlisis de
regresin. Y la relacin entre causalidad y correlacin.
El anlisis de correlacin es una medida numrica que nos da como resultado el grado de relacin entre dos
variables y el anlisis de regresin da lugar a una ecuacin matemtica que nos indica que las variables en cuestin
varan de forma parecida. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin
cuando se trata de determinar que variables son potenciales e importantes, el inters radica bsicamente en la
fuerza de la relacin, una vez hecho este trabajo se puede proceder a realizar una regresin lineal o no,
dependiendo del resultado de exploracin de los datos.
La causalidad es un trmino estadstico que determina que una variable es producida o causada por otra. La
diferencia entre sta y la correlacin es que en la causalidad se parte de una variable para llegar a otra, mientras
que en la correlacin se determina la relacin entre las variables. En general, decimos que si existe una causalidad,
entonces hay una correlacin, pero no porque haya una correlacin existir una causalidad.

4.- De los siguientes datos:

Tarea Estadstica II

a) graficar

Y vs x1:
50
40
30
20
10
0
0

10000000

20000000

30000000

40000000

Y vs X2
50
45
40
35
30
25
20
15
10
5
0
0

200

400

600

800

1000

X1 vs X2
1000
900
800
700
600
500
400
300
200
100
0
0

10000000

20000000

30000000

40000000

Tarea Estadstica II
b) obtengan los estimadores de los parmetros para los modelos:

Modelo: Y =1 + 2X1 + e
Coefficients:
(Intercept)
x1

Estimate Std.Error
t value
Pr(>|t|)
2.41E+01
1.96E+00
12.297 8.81E-11***
9.40E-07
2.26E-07
4.167 0.000476***

Residual standard error: 8.088 on 20 degrees of freedom


Multiple R-squared: 0.4647, Adjusted R-squared: 0.438
F-statistic: 17.36 on 1 and 20 DF, p-value: 0.0004761

60
50
40
30

Y vs X1

20

reg

10
0
0

20000000

40000000

Como podemos observar el P value para los dos coeficientes es muy pequeo, se rechaza la hiptesis
nula en ambos casos, tambin se puede observar que el error estndar no es cero por lo que da puntos
a favor del modelo, pero observando el estadstico R ajustada que no es lo suficientemente grande y la
grfica de la regresin vs los datos decidimos no quedarnos con este modelo porque creemos que no
explica de forma adecuada a los datos.

Modelo: Y =1 + 2X2+ e

Tarea Estadstica II
Coefficients:
(Intercept)
x2

Estimate Std.Error t value Pr(>|t|)


1.20E+01 5.98E-01
20.07
1.01E-14***
3.65E-02 1.14E-03
31.98 <0.0000000000000002***

Residual standard error: 1.531 on 20 degrees of freedom


Multiple R-squared: 0.9808, Adjusted R-squared: 0.9799
F-statistic: 1023 on 1 and 20 DF, p-value: <0.00000000000000022

50
45
40
35
30
25
20
15
10
5
0

Y vs x2
Reg

200

400

600

800

1000

Para este modelo se observa que en los dos coeficientes se rechaza la hiptesis nula por lo que indica
que stos son tiles para el modelo, tambin vemos que el error estndar no es cero, nos indica que el
modelo tiende a ser bueno; el estadstico R ajustada es muy bueno, se acerca mucho a 1 esto significa
que el modelo explica bien a los datos, y por ltimo observando la grfica vemos que la regresin se
ajusta muy bien a los datos, as que nos quedaremos con este modelo.

Modelo: Y =1 + 2X1 + 3X2 + e

Tarea Estadstica II
Coefficients:
(Intercept)
x1
x2

Estimate
1.11E+01
-2.03E-07
4.05E-02

Std.Error t value Pr(>|t|)


4.92E-01 22.492
3.73E-15***
4.75E-08
-4.275
0.000409***
1.27E-03
31.96 <0.0000000000000002***

Residual standard error: 1.121 on 19 degrees of freedom


Multiple R-squared: 0.9902, Adjusted R-squared: 0.9892
F-statistic: 962.4 on 2 and 19 DF, p-value: <0.00000000000000022

Para este modelo observamos que para los tres coeficientes se rechaza la hiptesis nula, el error estndar
es distinto de cero y R ajustada es muy cercana a 1 por lo que creemos que las dos variables en conjunto (X1 y X2)
son buenas para el modelo.

c) Obtengan Y y grafiquen

Tarea Estadstica II

Modelo: Y =1 + 2X1 + e

1.50E+01
1.00E+01
5.00E+00
0.00E+00
0

-5.00E+00
-1.00E+01
-1.50E+01

Y-
-1.31E+01
-11.1401704
-10.1402542
-9.140379223
-7.140843976
-6.141259065
-5.141878304
-3.144180243
-2.146236189
1.829111952
3.791257385
6.63176648
7.519515597
9.102238027
9.979267661
10.17356972
10.10678037
7.507056111
5.841327224
4.398872046
-0.729818538
-8.872750346

Modelo: Y =1 + 2X2+ e

10

15

20

25

Tarea Estadstica II

3
2
1
0
0
-1
-2
-3
-4

Y-
-3.1697434
-2.0272826
-1.5096484
-1.027745
-0.1711306
0.2035804
0.5425606
1.1133286
1.3451164
1.9149596
1.9854964
1.8233206
1.6978004
1.3395676
0.97709965
0.8384116
0.1943324
-0.59267
-0.856640744
-1.0397674
-1.5225956
-2.0411546

10

15

20

25

Tarea Estadstica II

Modelo: Y =1 + 2X1 + 3X2 + e

2
1.5
1
0.5
0
-0.5 0

10

15

20

-1
-1.5
-2
-2.5
-3

Y-
-2.501228465
-1.453768202
-0.989565103
-0.565043104
0.164977263
0.470491904
0.736360634
1.149257755
1.296366752
1.491450504
1.35636548
0.878243728
0.652250142
0.122824341
-0.311481819
-0.454922822
-0.945644271
-1.048119564
-0.918522739
-0.768371623
-0.091970252
1.195688958

Realicen los siguientes cambios x 1 = ln X 1 y x 2 = (X 2 ) (1/2)

25

Tarea Estadstica II

a) graficar

Y vs lnx1:
50
45
40
35
30
25
20
15
10
5
0
0

10

15

20

Y vs (x2)(1/2)
50
45
40
35
30
25
20
15
10
5
0
0

10

15

20

25

30

35

Lnx1 vs (x2)(1/2)

35
30
25
20
15
10
5

b)
los

0
0

10

15

20

obtengan los estimadores de


parmetros para los modelos:

Tarea Estadstica II

Modelo: Y =1 + 2lnx1 + e
Coefficients:
(Intercept)
lnx1

Estimate Std.Error tvalue


Pr(>|t|)
-7.21E-10 2.64E-09 -2.73E-01
7.88E-01
2.50E+00 2.20E-10 1.14E+10 <2e-16***

Residual standard error: 0.000000004354 on 20 degrees of freedom


Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.289E+20 on 1 and 20 DF, p-value: <0.00000000000000022

Datos

Regresin

50
45
40
35
30
25
20
15
10
5
0
0

10

15

20

En este caso se puede observar que el intercepto no es necesario para el modelo puesto que no se rechaz la
hiptesis nula; el valor para 2 es si es significativo para el modelo; el estadstico R ajustada igual a uno nos

indica que se ajusta totalmente a los datos y por ltimo el error estndar es distinto de cero. Concluimos
que este modelo es muy bueno.
Nota:
Haciendo la transformacin de x1 a lnx1 el modelo se mejora puesto que la
grfica X1 vs Y es de tipo exponencial:

50
40

Haciendo un cambio de variable:

30
Entonces:

20
10
0
0

20000000

40000000
Y al hacer esta transformacin es de tipo lineal.

Tarea Estadstica II
Modelo: Y =1 + 2(X2)(1/2)+ e

Coefficients:
Estimate

Std.Error tvalue
Pr(>|t|)
(Intercept)
6.06E-15 8.78E-16 6.90E+00 0.00000106***
sqtx2
1.43E+00 4.19E-17 3.41E+16 <0.0000000000000002***
Residual standard error: 0.000000000000001449 on 20 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.164E+33 on 1 and 20 DF, p-value: <0.00000000000000022
Mensajes de aviso perdidos
In summary.lm(regresionTb) :
essentially perfect fit: summary may be unreliable

Datos
Regresin

50
45
40
35
30
25
20
15
10
5
0
0

10

15

20

25

30

35

Para este modelos no se rechaza ninguno de los coeficientes, R ajustada es uno y por la grfica vemos que el
modelo es muy bueno, incluso es mejor que el anterior.

Nota:

(1/2)

50

Haciendo la transformacin de x2 a (x2)


que la grfica X2 vs Y es cuadrtica:

40

Haciendo un cambio de variable:

el modelo se mejora puesto

30
Entonces:

20
10
0
0

500

1000
Y al hacer esta transformacin es de tipo lineal.

Modelo: Y =1 + 2lnX1 + 3(X2)(1/2) + e

Tarea Estadstica II
Coefficients: (1not defined because of singularities)
Estimate
Std.Error
tvalue
Pr(>|t|)
(Intercept)
-7.21E-10
2.64E-09
-2.73E-01 7.88E-01
lnx1
2.50E+00
2.20E-10
1.14E+10 <2e-16***
sqtx2
NA
NA
NA
NA
Residual standard error: 0.000000004354 on 20 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.289E+20 on 1 and 20 DF, p-value: <0.00000000000000022

Para este caso se puede notar que ni el intercepto ni la segunda variable son buenos para el modelo, por lo que es
mejor quedarse con el modelo Y =1 + 2lnx1 + e o bien Y =1 + 2X1 + 3X2 + e.

Tarea Estadstica II
c) Obtengan Y y grafiquen

Modelo: Y =1 + 2lnx1 + e

1.2E-08
1E-08
8E-09
6E-09
4E-09
2E-09
0
-2E-09 0

10

15

-4E-09
-6E-09
-8E-09

Y-
-3.54344E-10
-1.00094E-09
4.66054E-09
3.77432E-09
-2.52491E-10
8.92292E-09
-5.40448E-09
-5.72168E-10
-6.81712E-10
-1.22348E-09
1.86322E-09
5.85187E-09
-1.96223E-09
1.10543E-09
1.32175E-10
4.3526E-09
-2.27766E-09
8.63785E-10
1.15335E-08
8.35178E-09
-4.52553E-09
2.11445E-09

Modelo: Y =1 + 2(X2)(1/2)+ e

20

25

Tarea Estadstica II
0
-0.005

10

15

-0.01
-0.015
-0.02
-0.025
-0.03
-0.035
-0.04
-0.045
-0.05

Y-
-0.011
-0.013
-0.014
-0.015
-0.017
-0.018
-0.019
-0.021
-0.022
-0.026
-0.028
-0.031
-0.032
-0.034
-0.0355
-0.036
-0.038
-0.04
-0.0406
-0.041
-0.042
-0.043

Modelo: Y =1 + 2lnX1 + 3(X2)(1/2) + e

20

25

Tarea Estadstica II
Nota: es el mismo modelo que: Y =2lnx1 + e puesto que los otros coeficientes son despreciables.

1.2E-08
1E-08
8E-09
6E-09
4E-09
2E-09
0
-2E-09 0
-4E-09
-6E-09
-8E-09

Y-
-1.07524E-09
-1.72184E-09
3.93964E-09
3.05342E-09
-9.7339E-10
8.20203E-09
-6.12538E-09
-1.29307E-09
-1.40261E-09
-1.94438E-09
1.14233E-09
5.13097E-09
-2.68314E-09
3.84524E-10
-5.88727E-10
3.6317E-09
-2.99856E-09
1.42883E-10
1.08126E-08
7.63087E-09
-5.24643E-09
1.39354E-09

10

15

20

25

Tarea Estadstica II

d) Analicen y concluyan.
Los mejores modelos son los resultantes despus de las transformaciones por las razones descritas anteriormente:

Modelo: Y = 2lnx1 + e

Modelo: Y =1 + 2(X2)(1/2)+ e

O si se quisieran incluir ambas variables debern usarse sin las respectivas transformaciones.

Modelo: Y =1 + 2X1 + 3X2 + e

Tarea Estadstica II

Comparacin de los modelos de regresin lineal de los datos de estaturas

Modelo de hija- padre

(Intercept)
EstFather

Estimate Std. Error t value Pr(>|t|)


0.3162
2.085
0.0612
0.6591
0.1858
3.078
0.0105
*
0.5717

Residual standard error: 0.04407 on 11 degrees of freedom


Multiple R-squared: 0.4627, Adjusted R-squared: 0.4139
F-statistic: 9.473 on 1 and 11 DF, p-value: 0.01051

El intercepto no pasa la prueba y R ajustada es muy distante de uno terminamos concluyendo que
no es un buen modelo.

Modelo de hija-madre

(Intercept)
EstMother

Estimate Std. Error t value Pr(>|t|)


0.3829
3.064 0.0108 *
1.1733
0.2392
1.198
0.2561
0.2865

Residual standard error: 0.05655 on 11 degrees of freedom


Multiple R-squared: 0.1154, Adjusted R-squared: 0.03497
F-statistic: 1.435 on 1 and 11 DF, p-value: 0.2561
Revisando los datos es evidente que las variables no se relacionan adems de que R ajustada es
muy pequea, por lo que no es un buen modelo.

Modelo de hijo-padre
Coefficients:
(Intercept)
EstFather

Estimate Std.Error tvalue


Pr(>|t|)
1.4379
0.8388
1.714
0.13
1.78E-01 5.00E-01 3.56E-01
0.732

Residual standard error: 0.07107 on 7 degrees of freedom


Multiple R-squared: 0.01782, Adjusted R-squared: -0.1225
F-statistic: 0.127 on 1 and 7 DF, p-value: 0.732

En este modelo tambin se puede notar que las variables no se relacionan, y R ajustada es muy
pequea, no es un buen modelo.

Tarea Estadstica II

Modelo de hijo-madre

Coefficients:
Estimate Std.Error tvalue
Pr(>|t|)
(Intercept)
0.4951
0.3637
1.361
0.2156
EstMother
7.84E-01 2.30E-01 3.42E+00 0.0112*
Residual standard error: 0.04391 on 7 degrees of freedom
Multiple R-squared: 0.6251, Adjusted R-squared: 0.5716
F-statistic: 11.67 on 1 and 7 DF, p-value: 0.01119
Para este modelo vemos que es posible relacionar las variables, pero el estadstico R ajustada no es
demasiado grande, no es un buen modelo.

Modelo hijo(a)-padre y madre


Coefficients:
Estimate Std.Error tvalue
Pr(>|t|)
(Intercept)
0.9363
0.5285
1.771
0.0925
EstFather
1.24E-01 3.13E-01 3.95E-01
0.6972
EstMother
3.32E-01 2.88E-01
1.155
0.2626
Residual standard error: 0.07943 on 19 degrees of freedom
Multiple R-squared: 0.109, Adjusted R-squared: 0.0152
F-statistic: 1.162 on 2 and 19 DF, p-value: 0.3341

En este modelo notamos que las dos variables en conjunto no se relacionan con la dependiente, R
ajustada es muy pequeo.
Conclusin:
Podemos concluir que de los modelos obtenidos para nuestros datos de estaturas la regresin lineal no es
eficiente, porque el estadstico R ajustada en cada uno de ellos es muy pequeo, sin embargo si tuviramos que
elegir alguno de ellos elegiramos el modelo (hijo vs madre) puesto que R ajustada es de 0.5716 que es el mayor de
todos los modelos obtenidos, aunque consideramos que aun as no es un buen modelo porque dista mucho de 1 y
revisando la grfica hay datos que no se ajustan.
Datos
Regresi
n

1.85
Estatura Hijo

1.8

1.75
1.7

1.65
1.6
1.55

1.6

1.65
1.7
Estatura Padre

1.75

1.8

Das könnte Ihnen auch gefallen