Beruflich Dokumente
Kultur Dokumente
Como la Estadstica Inferencial nos permite trabajar con una variable a nivel de
intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables
y nos permitir relacionar mediante ecuaciones, una variable en relacin de la otra
variable llamndose Regresin Lineal y una variable en relacin a otras variables
llamndose Regresin mltiple.
Casi constantemente en la prctica de la investigacin estadstica, se encuentran
variables que de alguna manera estn relacionados entre s, por lo que es posible que
una de las variables puedan relacionarse matemticamente en funcin de otra u otras
variables.
La Regresin se define como un procedimiento mediante el cual se trata de determinar
si existe o no relacin de dependencia entre dos o ms variables. Es decir, conociendo
los valores de una variable independiente, se trata de estimar los valores, de una o
ms variables dependientes.
La regresin en forma grfica, trata de lograr que una dispersin de las frecuencias sea
ajustada a una lnea recta o curva.
Como sabemos la estadstica inferencial es muy importante en nuestra vida cotidiana
ya que veremos los dos tipos de estadstica ya sea descriptiva o inferencial y cul es su
importancia y abarca lo que son los tipos de regresiones lineales que a continuacin
vamos a ver.
L Ei 2
i 1
(Y
i
i 1
1X 1)
EC.4
L
| 0 1 2 (Y 1 0 i X i ) 0
0
i 1
n
L
| 0 1 2 (Y 1 0 i X i ) X 1 0
0
i 1
La simplificacin de estas dos ecuaciones produce:
n 0 X i
EC.6
i 1
0 X 1 1 x1 y
i 1
EC.5
i 1
0 y 1 x
EC.7
Y X
I 1
i 1
i 1
i 1
Y X
2
i
X
i
EC.8
i 1
Donde:
_
1 n
1 n
Y
i
Y
X
X1
n i 1
n i 1
Por lo tanto, las ecuaciones 7 y 8 son los estimadores por mnimos cuadrados, de la
ordenada al origen y la pendiente, respectivamente. El modelo de regresin lineal
simple ajustado es:
EC.9
y 0 1 X
DIAGRAMA DE DISPERSIN
RENDIMIENTO
120
100
80
60
40
20
Respecto a la 0notacin, es conveniente dar smbolos especiales al numerador y al
denominador de la
8, esto es: 100
0 ecuacin 50
150
200
Sxx X i X
i 1
n
Xi
Sxy Yi ( Xi X ) XiYi
i 1
i 1
EC.10
i 1
i 1
Xi
TEMPERATURA
2
Xi Yi
i 1
i 1
EC.11
Sxy
Sxx
Ejemplo 1:
EC.12
Rendimiento
% Y
45
51
54
61
66
70
74
78
85
89
673
Xj2
10000
12100
14400
16900
19600
22500
25600
28900
32400
36100
218500
XjYj
4500
5610
6480
7930
9240
10500
11840
13260
15300
16910
101570
Yj2
2025
2601
2916
3721
4356
4900
5476
6084
7225
7921
47225
El examen de este diagrama de dispersin indica que hay una fuerte relacin entre el
rendimiento y la temperatura, y la suposicin tentativa del modelo de lnea recta
y 0 1 X E parece razonable.
n = 10
10
10
1450
x 145
10
X
j 1
673
j 1
j 1
2
j
y 67.3
218500
10
Y
j 1
10
XY
j j
2
j
47225
101570
j 1
10
Sxx X
2
j
j 1
10
Sxx 218500
X
j
j 1
1450 2
10
10
10
10
Sxy XjYj
10
X Y
j
j 1
10
j 1
1450 673
Sxy 101570
101570 97585 3985
10
j 1
Sxy
Sxx
3985
0.483030303
8250
y 0 1 X 2.73939 0.48303 X
, la diferencia digamos ej = Yj - Y j
SSE =
j 1
, se
suma
de
ej
SSE
j 1
(Yj
2
Y j)
EC. 14
Una frmula de clculo ms conveniente para SSE puede encontrarse sustituyendo el
modelo ajustado
_
2
Yj )
Y
1 X j
en la EC.
14 0ysimplificando
considerando que
j 1
(Yj
EC. 15
El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo tanto:
2
SS E
MS E el cual es un estimador de .
n2
H 0 : 1 (1,0 )
EC. 16
H 1 : 1 (1, 0 )
Donde hemos supuesto una alternativa de dos lados (bilateral). Como resultado de la
suposicin de normalidad, el estadstico es:
t0
1 (1,0)
EC. 17
MS E
Sxx
EC. 18
H 1 : 0 ( 0,0)
Usaramos el estadstico:
1 ( 0,0 )
t0
EC. 20
1 x2
n Sxx
MS E
H 0 : 1 0
H1 : 1 0
EC. 21
Esta hiptesis se relaciona con la significacin de la regresin. El procedimiento de
prueba para H 0 : 1 0 puede desarrollarse a partir de desplazamientos. El primer
planteamiento se inicio con la siguiente divisin.
n
Syy (Y j Y j ) 2
j 1
(Y j Y j )2 +
j 1
(Y j Y j )2
EC. 22
j 1
EC. 23
Al comparar la EC. 23 con la EC. 15, notaremos que la suma de regresin de cuadrados
SSR es :
SSR = 1Sxy
EC. 24
Syy tiene n-1 grados de libertad, y SS R y SSE tiene 1 y n-2 grados de libertad
respectivamente. Podemos mostrar que:
E SSE = 2
(n-2)
y
E(SSR)= 2 + 12Sxx
Y que SSE y SSR son independientes. Por tanto, si H o: 1 = 0; es verdadera, entonces el
estadstico:
F0 =
SSR
1
SSE
(n-2)
= MSR
MSE
EC. 25
1, n 2
Suma de
cuadrados
SSR = 1Sxy
Error
Residual
Grados de
Libertad
1
Media
cuadrtica
MSR
n-2
MSE
SSE = Syy -
1Sxy
Syy
Total de
Grados
F0
MSR / MSE
n-1
1
MS E
Sxx
t0
EC. 26
t02 =
EC. 27
Ntese que t02 en la Ec. 27 es idntico a F0 en la EC. 25, es cierto en general, que el
cuadrado de una variable aleatoria t con f grados de libertad es una variable aleatoria
F, con uno y f grados de libertad en el numerador y el denominador, respectivamente.
En consecuencia, la prueba que utiliza t0 es equivalente a la prueba basada en F0.
Ejemplo 2: Probablemente el modelo desarrollado en el ejemplo 1 en lo que
se refiere a la significacin de regresin. El modelo ajustado es:
Syy Yj 2
j 1
Yj
j 1
47225
673 2
10
1932.10
Suma de los
cuadrados
1924.87
7.23
1932.10
F01, 1, 8 = 11.26
Grados de
libertad
1
8
9
Media
cuadrtica
1924.87
0.90
Fo
2138.74
1 1
MS E / Sxx
0 0
1 x
n Sxx
MS E
^
MS E
MS E
B1 t / 2,n2 B1 B1 t / 2,n2
Sxx
Sxx
^
EC.28
0 t / 2, n 2
1 x 2
0 0 t / 2, n 2
n Sxx
MS E
1 x 2
n Sxx
MS E
EC.29
MS E
MS E
1 1 t 0.025, 8
Sxx
Sxx
1 p 1 0.95 0.05; t / 2 t 0.025 2.306v.t.
1 t 0.025, 8
0.90
0.90
1 0.48303 2.306
8250
8250
0.48303 2.306(0.010444659) 1 0.48303 2.306(0.010444659)
0.48303 2.306
Y 0 t / 2 , n 2
(
X
X
)
1
1
(
Xo
X
)2
0
E (Y / X 0 ) Y0 t / 2,n2 MS E
MS E
n
Sxx
Sxx
EC.30
El intervalo de confianza para E (y / X 0)es una funcin de X0. El ancho de un intervalo
es un mnimo para Xo = X y se ensancha conforme l X0-X l aumenta.
e yj y j
X0
yj
100
110
120
130
140
150
160
170
180
45
51
54
61
66
70
74
78
85
89
190
LIMITES DE INTERVALO
Y0
INTERVALO 95% E(Y/X0)
45.56 -1.29
1.2944.27 A 46.84
50.39
1.09
1.0949.29 A 51.48
55.22
0.92
0.9254.30 A 56.14
60.05
0.78
0.7859.27 A 60.83
64.88
0.7
0.764.18 A 65.58
69.72
0.7
0.769.02 A 70.42
74.55
0.78
0.7873.77 A 75.33
79.38
0.92
0.9278.46 A 80.30
84.21
1.09
1.0983.12 A 85.30
-0.56
0.61
-1.22
0.95
1.12
0.28
-0.55
-1.38
0.79
0.3136
0.3721
1.4884
0.9025
1.2544
0.0784
0.3025
1.9044
0.6241
89.04
-0.04
0.0016
e yj y j
1.29
1.2987.75 A 90.33
0.00
7.2420
Ejemplo 4: Construimos un intervalo de confianza del 95% en torno a la lnea
de regresin
para los datos en el ejemplo 1. El modelo ajustado es
Y0 = - 2.73939 + 0.48303 X. X0 y el intervalo de confianza en E (y/X0).
Y0 t / 2, n 2
1 ( Xo 145) 2
1 ( Xo X ) 2
MS E
y0 2.306 0.90
n
Sxx
10
8250
Los valores ajustados de Y 0 y los correspondientes limites de confianza del 95% para
los puntos Xo = Xj, j = 1, 2, . . . ,10, se representan en la tabla 3, podemos encontrar el
intervalo de confianza del 95% en la media real del proceso en Xo = 140 C.
64.88 2.306 0.901 / 10 (140 145)2 / 8250 64.88 2.306 0.90 0.103030303
64.88 2.306 0.092727272 64.88 2.303(0.304511531) 64.88 0.7022003
64.88 0.70 E y / x 0 140) (64.88 0.70
64.18 E y / x 0 140 65.58
Y 0 1 X 1 2 X 2 3 X 3 k X k
Donde 0, 1, 2, ..., k son los parmetros del modelo ( se tienen k variables
independientes y p parmetros ).
En este caso 0 representa la ordenada en el origen, es decir, el punto donde el
hiperplano corta al aje Y (al haber ms de dos variables independientes la relacin
queda representada por medio de un hiperplano).
En general i representa el cambio esperado en Y por cada incremento unitario en X i,
siempre y cuando las dems variables independientes permanezcan constantes .
Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasin slo
dos variables independientes. Quedar al lector utilizar ms de dos variables
independientes para futuras aplicaciones.
Al utilizar dos variables independientes, el modelo general de regresin lineal mltiple
queda representado por:
Y 0 1 X 1 2 X 2
Donde:
0 representa el punto donde el plano corta al eje Y (ahora la relacin entre las dos
variables independientes y Y est representada por un plano).
Y 0 1 X 1 2 X 2
X2
X1
ESTIMACION DE PARAMETROS
Para encontrar los estimadores de los parmetros del modelo, partiremos de una
muestra aleatoria de tamao n para valores de X1, X2 y Y:
X1i
X11
X12
X13
X2i
X21
X22
X23
Yi
Y1
Y2
Y3
.
.
.
.
.
.
.
.
.
X1n
X2n
Yn
Al utilizar una muestra aleatoria para estimar los parmetros, incurriremos en un error
en la estimacin. Debemos agregar dicho error al modelo de regresin lineal mltiple:
Y 0 1 X 1 2 X 2
Donde es un error aleatorio con media 0 y varianza 2.
Cada una de las observaciones de Y se puede representar mediante el modelo anterior:
Yi 0 1 X 1i 2 X 2i i
Si utilizamos el enfoque de vectores y matrices, las observaciones de Y quedarn
representadas mediante:
Y X
donde:
Y1
Y
2
.
Y
.
.
Yn
1 X11
1 X
12
.
.
X
.
.
.
.
1 X1n
X 21
X 22
.
.
.
X 2n
0
1
2
1
2
.
.
.
n
L i2
i 1
i2
i1
L
Ahora bien, si de la ecuacin vectorial del modelo de regresin anterior despejamos el
error:
Y X
Sustituyndolo en L:
L Y X Y X
Al realizar las operaciones anteriores y simplificando se llega a lo siguiente:
L Y Y 2X Y X X 2
e igualando a cero:
, evaluando para
L
0
X Y X X
Despejando
X X 1 X Y
Donde:
1
2
i 1
n
X X
i 1
n
1i
X
n
i 1
i1
2i
i1
1i
X1i X 2i
i 1
2i
X
i1
2
2i
X Y
i1
i1
X Y
X 2i
2
1i
X X X
X1i
i1
n
i1
1i
2i
Yi
De esta manera, el modelo de regresin lineal mltiple ajustado queda definido por:
0
1 X1
2 X2
Y
PRUEBA DE SIGNIFICANCIA
La prueba de significancia del modelo nos permite determinar estadsticamente si las
variables independientes (en conjunto) tienen efecto o no sobre la variable
dependiente.
Para realizar esta prueba se requiere descomponer la suma total de cuadrados,
representada por Syy, en dos componentes: SSR y SSE
Syy = SSR + SSE
Donde:
Syy es la suma total de cuadrados
SSR es la suma de cuadrados de la regresin
SSE es la suma de cuadrados del error
Las ecuaciones apropiadas para calcular las expresiones anteriores son:
Syy Yi
i 1
i 1
SSR X Y
i 1
Suma de
cuadrados
Grados
de libertad
Regresin
SSR
Error
SSE
np
Total
Syy
n1
Media de
cuadrados
MSR
SSR
k
MSE
SSE
np
Estadstico de
prueba
F0
MSR
MSE
H0 : j 0
para j = 1, 2, ..., k
Ha : j 0
t0
MSE C jj
X X
i1
n
i1
n
1i
X
n
i1
X X
i1
2i
i1
1i
1i
2
1i
X 2i
X
n
i1
X
i1
1i
C 00 C 01 C 02
C10 C11 C12
C 20 C 21 C 22
X 2i
X
i1
2i
2
2i
CONCLUSION
Como ya vimos en los temas anteriores son muy importantes ya que podemos ver los
tipos de regresiones y para que nos sirven ya que son una herramienta que hoy en da
necesitamos para resolver cualquier problema tambin debemos de saber los
conceptos de regresiones.
Dentro de estos anlisis encontramos diagramas de dispersin, tambin debemos de
saber para que nos sirven las pruebas de hiptesis y donde debemos de aplicarla estos
anlisis de regresin tanto como la prueba de hiptesis debemos aplicarla para cada
problema y darle solucin como dice la palabra hay una hiptesis y esa hiptesis
debemos de resolverla como vimos estos temas son de muy gran importancia para
cada uno de nosotros en nuestra vida laboral.