Sie sind auf Seite 1von 7

TERCERA UNIDAD

INTRODUCCIN AL ANLISIS DE REGRESIN

En la tercera unidad del curso se presenta una introduccin al anlisis de regresin, que es
el tema al que se le dedica la mayor parte del curso de econometra para estudiantes de
bachillerato en economa.
Como se indica en la tabla siguiente, el anlisis de regresin puede ser SIMPLE o MLTIPLE,
y tambin puede ser LINEAL o NO-LINEAL.
Regresin
lineal no lineal
simple X ---
mltiple --- ---

Como indica la marca X en la tabla, en esta unidad nos concentramos casi exclusivamente
en la REGRESIN LINEAL SIMPLE. Si alcanza el tiempo antes de terminar el semestre, se
cubrir algo de regresin lineal mltiple.

Ejemplo ilustrativo
En la teora econmica, los economistas estudiamos relaciones entre variables econmicas
y frecuentemente postulamos que una variable determina el comportamiento de otra. Por
ejemplo, decimos que el ingreso personal disponible determina el gasto de consumo; o
decimos que el precio de un producto determina la cantidad del producto demanda por los
consumidores; o decimos que la inversin depende de la tasa de inters, etc A estas
relaciones les llamamos funciones, en el sentido matemtico. As, por ejemplo, hablamos
de una funcin de consumo, una funcin de demanda, una funcin de inversin, etc
El anlisis de regresin nos permite utilizar datos empricos para estimar estas relaciones
entre diferentes variables. En el ejemplo de esta seccin utilizaremos datos hipotticos
para estimar una funcin de consumo.
La tabla que sigue presenta el gasto de consumo y el ingreso personal disponible de los
consumidores en un pas en trece (13) aos. Utilizamos la letra Y para referirnos al gasto de
consumo, que es la VARIABLE DEPENDIENTE, y la letra X para referirnos al ingreso personal
disponible, que es la VARIABLE INDEPENDIENTE (o, como tambin se le llama, variable
explicativa).
El objetivo de la regresin lineal es utilizar los datos que tenemos para estimar la ecuacin
de una lnea recta que describe la relacin entre X y Y. En este ejemplo, esa lnea recta ser
la ecuacin de la funcin de consumo que estamos estimando. Obtenemos la ecuacin de
la lnea utilizando una tcnica que se llama CUADRADOS MNIMOS ORDINARIOS (CMO).
Esta lnea es la que mejor se ajusta a los datos disponibles, por lo tanto es la que mejor
representa la relacin a estimarse. Se le suele llamar tambin LNEA DE REGRESIN.
X Y
27 22
29 23
33 26
30 24
25 20
31 25 Y = gasto de consumo (miles de millones de $)
33 26 X = Ingreso de los consumidores (miles de millones de $)
36 28
26 21 Y variable dependiente
35 28 X variable independiente (variable explicativa)
25 21
37 29
35 27

Antes de proceder a estimar la LNEA DE REGRESIN por el mtodo de CMO, se acostumbra obtener
una idea visual de la relacin que se observa en los datos disponibles, para lo cual se construye un
DIAGRAMA DE DISPERSIN (Scatter diagram, en ingls). El diagrama de dispersin de los datos de
este ejemplo se presenta a continuacin.

Diagrama de dispersin del Consumo y el Ingreso Personal Disponible

Y 35

30
C
o 25
n
s 20
u
m 15
o
10

0
0 10 20 30 40
(Ingreso Personal Disponible) X

A ojo, en el diagrama podemos observar que existe una relacin directa entre las dos variables:
cuando aumenta el ingreso personal disponible (X), aumenta tambin el Consumo (Y). La segunda
variable depende en forma directa de la primera.
Estimacin de la lnea de regresin (la funcin de consumo, en este ejemplo)
Para estimar la ecuacin de una lnea recta se necesita estimar dos parmetros: la
pendiente y el intercepto de la lnea. El mtodo de CMO nos provee las frmulas para
calcular los estimados de estos parmetros. Son las siguientes:
Para estimar la pendiente y, para estimar el intercepto

1
XY n X Y
b
X X
1
2 2

n a Y bX

Para hacer ms fcil la utilizacin de estas frmulas, conviene trabajar con una tabla como
la siguiente, en la cual calculamos todo lo necesario para usar las frmulas.

Y X X2 XY
22 27 729 594
23 29 841 667
26 33 1089 858
24 30 900 720
20 25 625 500 Los valores en negritas
25 31 961 775 en la ltima fila son las
26 33 1089 858 sumatorias de las
28 36 1296 1008
columnas.
21 26 676 546
28 35 1225 980
21 25 625 525
29 37 1369 1073
27 35 1225 945
320 402 12650 10049

Con los valores dados, y las frmulas de CMO, estimamos los siguientes valores:
Pendiente: b = 0.7017 Intercepto: a = 2.9171
Por lo tanto, la lnea de regresin estimada (la funcin de consumo de este pas) es la
siguiente:
Y = 2.9171 + 0.7017 X
O, escribindola con los nombres de las variables especficas de este ejemplo:
C = 2.9171 + 0.7017 Yd
Tanto la pendiente como el intercepto tienen una interpretacin econmica, y es esencial
que la hagamos explcita una vez realizada la regresin. La pendiente nos dice que por cada
dlar adicional de ingreso disponible los consumidores gastarn 70 centavos ms
(redondeando) en bienes y servicios de consumo. El intercepto nos dice que si el ingreso
disponible fuera cero, el gasto de consumo sera 2.9 miles de millones de dlares.
La grfica a continuacin muestra la lnea de regresin en el diagrama de dispersin.

Y 35

30
C
Y = 2.9171 + 0.7017 X
o 25
n
s 20
u
m 15
o 10

0
0 5 10 15 20 25 30 35 40
(ingreso personal disponible) X

Evaluacin de la ecuacin estimada


Lo prximo que hay que hacer es calcular varias estadsticas que se usan para evaluar si la
lnea de regresin estimada es de buena calidad o no. Es posible que al aplicar el mtodo
de CMO obtengamos una estimacin excelente, pero tambin puede ser que nos salga una
estimacin meramente aceptable, o, peor an, que la ecuacin sea de tan mala calidad
estadstica que haya que desecharla. Por lo tanto, el trabajo de regresin no termina con la
estimacin; hay que pasar de inmediato a evaluar si la lnea de regresin estimada sirve o
no sirve.

Evaluando la calidad o bondad del ajuste: la estadstica R2


Vamos a calcular una estadstica que se denomina R2 para determinar si el ajuste de la
lnea de regresin a los datos es bueno, mediocre, o malo. La frmula para el clculo de la
estadstica es la siguiente:

Y Y
2

R 2
1
Y Y
2

Para utilizar esta frmula, tenemos que aadirle dos columnas a nuestra tabla de trabajo,
como se muestra a continuacin
Y X X2 XY Y Y Y
2

22 27 729 594 21.86261 0.01887


23 29 841 667 23.26599 0.07075
26 33 1089 858 26.07273 0.00529
24 30 900 720 23.96767 0.00104
20 25 625 500 20.45924 0.21090
25 31 961 775 24.66936 0.10932
26 33 1089 858 26.07273 0.00529
28 36 1296 1008 28.17779 0.03161
21 26 676 546 21.16093 0.02590
28 35 1225 980 27.47611 0.27446
21 25 625 525 20.45924 0.29242
29 37 1369 1073 28.87948 0.01453
27 35 1225 945 27.47611 0.22668
320 402 12650 10049 1.28707

En este caso, R2 = .9882


Este valor nos dice cul es la proporcin o por ciento de la variacin en la variable
dependiente explicado por la variacin en la variable independiente. En este caso,
podemos hacer la siguiente afirmacin:
Las variaciones del Ingreso Personal Disponible explican el 98.82% de las variaciones
observadas en el Consumo.
Obviamente, mientras ms alta sea la R2 (su valor mximo es 1, o 100%), mejor es el valor
explicativo de la lnea de regresin estimada. En este ejemplo hemos obtenido un valor
excelente (cercano a 100%), pero no siempre va a ser as.

Evaluando la significancia estadstica de los estimados de la pendiente y el intercepto


Hacemos una prueba de hiptesis para ver si el estimado de la pendiente es
significativamente diferente de cero. Tambin lo hacemos para el intercepto, pero en este
espacio slo vamos a mostrar cmo se hace para la pendiente.
La hiptesis nula es que el verdadero valor de la pendiente estimada es cero (0). Si la
rechazamos, entonces concluimos que la pendiente estimada es estadsticamente
significativa. Para la prueba se utiliza una estadstica t con n-2 grados de libertad. El
clculo de la estadstica t se hace de la siguiente forma:
b
tb
Y Y
2

n2

X 2 n X
1 2
En este ejemplo, el valor de la estadstica es
t = 30.3518

La prueba de hiptesis se presenta a continuacin:


Ho : 0
Ha : 0
Rechace Ho si t < 2.2010 o t > 2.2010 para = .05 con 11 g.l.
t = 30.3518
Se rechaza Ho y se concluye que la verdadera pendiente de la funcin de consumo no es
cero (la pendiente estimada es estadsticamente significativa).

Evaluacin conjunta de la significancia estadstica de la pendiente y el intercepto estimados


Lo prximo es hacer una prueba de anlisis de varianza con la estadstica F para evaluar si
los estimados de la pendiente y el intercepto son conjuntamente (simultneamente)
diferentes de cero (es decir, estamos evaluando si la ecuacin es estadsticamente
significativa).
La tabla de ANOVA para esta prueba es la siguiente:

TABLA DE ANOVA PARA LA ECUACIN DE REGRESIN


Fuente de la variacin Variacin g.l. Variacin F
promedio
por variacin/
Explicada por la regresin k-1
diferencia g.l.

Y Y
2 variacin/
No explicada por la regresin n-k
g.l.

Y Y
2
Total n-1

La cual, en este ejemplo especfico, tiene los siguientes valores:

ANOVA
Variacin Variacin g.l. Var. prom. F
explicada 107.7899 1 107.7899 921.231
no explicada 1.28707 11 0.117006
Total 109.0769 12
La prueba de hiptesis para la significancia de la ecuacin estimada es como sigue:

Ho : 0
Ha : y 0
Rechace Ho si F > 4.8443 para = .05 con 1 y 11 g.l.
F = 921.231
Se rechaza Ho y se concluye que la pendiente y el intercepto no son ambos,
simultneamente, iguales a cero (es decir, la ecuacin estimada es estadsticamente
significativa)

Das könnte Ihnen auch gefallen