Sie sind auf Seite 1von 15

MAE

MTODOS
CUANTITATIVOS
Profesor: Pablo Tapia Grin

MAGSTER EN ANLISIS ECONMICO


(MAE)

MTODOS CUANTITATIVOS

Profesor: Pablo Tapia Grin

REGRESIN LINEAL

1
MAE

OBJETIVOS DE LA UNIDAD

Entender el concepto de correlacin y que sta no distingue entre una


causalidad de una casualidad. Adems, el candidato debiera ser capaz de
asociar factores por su grado de explicacin y contrastarlo con su grado de
correlacin.

TEMAS A DISCUTIR

Origen de una regresin


Regresin lineal simple
Regresin lineal mltiple
Efecto de los errores en la estimacin
Cmo enfrentar una regresin
Ejemplo de regresin lineal simple
Ejemplo de regresin lineal mltiple

EVOLUCIN DEL HOMBRE Y EL COMPUTADOR

2
MAE

REGRESIONES LINEALES

Todos los das, las personas deben tomar decisiones personales y/o
profesionales basadas en predicciones de sucesos futuros. Para hacer estas
predicciones, se apoyan en la relacin (intuitiva y calculada) entre lo que ya se
sabe y lo que se debe estimar. Si los responsables de la toma de decisiones
pueden determinar cmo lo conocido se relaciona con el evento futuro,
pueden ayudar considerablemente al proceso de toma de decisiones. se es el
objetivo de este captulo: cmo determinar la relacin entre variables.

El trmino regresin fue utilizado por primera


vez como concepto estadstico en 1877 por sir
Francis Galton. ste hizo un estudio que
mostr que la altura de los nios nacidos de
padres altos tender a retroceder o regresar
hacia la altura media de la poblacin. Design
la palabra regresin como nombre del proceso
general de predecir una variable (la altura de
los nios) de otra (la altura del padre).

TIPOS DE RELACIONES

La regresin y los anlisis de correlacin se basan en la relacin, o asociacin,


entre dos (o ms) variables. La variable (o variables) conocida(s) se
denomina(n) variable(s) independiente(s), la (s) cual (es) tendr (n) carcter
endgeno o en palabras estocsticas ser determinstico. La variable que
tratamos de predecir es la variable dependiente.
Uno de los aspectos ms tiles del modelo de regresin mltiple es su
capacidad para identificar los efectos de un conjunto de variables
independientes sobre una variable dependiente.

DEFINICIN DE UNA RELACIN LINEAL

El objetivo de la tcnica de regresin es establecer la relacin estadstica que


existe entre la variable dependiente (Y) y una o ms variables independientes
(X1, X2, Xn). Para poder realizar esto, se postula una relacin funcional entre
las variables. Debido a su simplicidad analtica, la forma que ms se utiliza en la
prctica es la relacin lineal:

3
MAE

REGRESIN LINEAL SIMPLE (una variable explicativa)

La idea es evidenciar numricamente la existencia de causalidad entre dos


componentes. Sin embargo, para que sea causal debe existir un fundamento o
creencia terica de dicha relacin. Por ejemplo:

Se asume que gastar en publicidad debera generar un aumento en la


demanda por el bien que se produce.
Se cree que un mayor nmero de accidentes en el proceso productivo
influye negativamente en la calidad de lo que se produce.
Se espera que la demanda por un producto disminuya cuando el precio
aumente.

Estos ejemplos son causalidad esperable entre dos componentes, si no fuera


as, no se gastara en publicidad, no se hara control de calidad y no existira la
competencia en precio. Sin embargo, no es claro si realmente existe dicha
relacin, cul es esa relacin y por supuesto la magnitud de la misma.

REGRESIN LINEAL SIMPLE


Para medir esta relacin se deben hacer algunas aclaraciones y sealar las
limitaciones que pueden tener en el proceso de cuantificacin.

TIPO DE VARIABLE
En el modelo ms sencillo existen dos tipos de variables, que definiremos como
X e Y, las cuales pueden tener la siguiente denominacin.

Y X
Dependiente Independiente
Explicada Explicativa
Predicha Predictora
Endgena Exgena

Tngase presente que la direccin de causalidad es que X explica a Y.

4
MAE

MODELO LINEAL
Debido a que no conocemos a priori la forma de la causalidad entre X e Y,
supondremos la forma ms bsica de expresar esta relacin, que es por medio
de una lnea recta, de la forma:
Y a b X e
Donde a es una constante, que representa el efecto promedio, mientras que b
es la pendiente de la recta, pero que en nuestro caso sera la evidencia que se
necesita para demostrar empricamente que existe una relacin entre X e Y. El
trmino e, conocido como trmino de error, representa la diferencia entre el
valor real y el predicho por el modelo.
Y
Grficamente, una lnea yi
recta se representa como se ei a b X
ve en la figura, donde a es yi
la interseccin con el eje Y,
mientras que b es el grado
de inclinacin de la recta.
xi X

REGRESIN LINEAL MLTIPLE


Trmino de error
Variable dependiente Coeficientes shock

Y b 0 b1 X 1 b 2 X 2 b k X k e

Variables explicativas

MODELO

Donde los coeficientes son los factores que definen la variacin promedio de Y,
para cada valor de X. Estimada esta funcin terica a partir de los datos, cabe
preguntarse qu tan bien se ajusta a la distribucin real.

Existe el elemento fortuito que no puede ser predicho por el investigador, por
lo que es llamado trmino de error idiosincrtico o shock, del que esperamos
un comportamiento normal, es decir, que algunas veces nos afecte
positivamente, y otras negativamente, pero en promedio nos deje igual.

5
MAE

COMO EL TRMINO DE ERROR PUEDE AFECTAR LA ESTIMACIN.


Modelo verdadero
Y
Distorsin por efecto de un
error fortuito demasiado
grande.

Modelo estimado
X

Modelo estimado
Y Modelo
verdadero Distorsin por efecto de
exceso de diversidad en los
errores fortuitos o relacin
con las variables
explicativas.

Modelo verdadero
Y
Distorsin por efecto de
que los errores fortuitos
que se potencian entre s,
lo cual denominamos como
dependencia entre los
Modelo estimado errores.
X

Estos tipos de efectos fortuitos de los errores, se


conocen en la econometra como heterocedasticidad,
o tambin como la magnitud de la dispersin de los
errores en los datos.

6
MAE

CMO SE OBSERVARIA ESTO DE LOS ERRORES EN LOS DATOS

Modelo bien comportado Existe mucha varianza


250
160 y = 1,134x + 59,6
140 y = 2,6779x + 0,5786 200
120
100 150
80
100
60
40 50
20
0
0
0 10 20 30 40 50 60
0 10 20 30 40 50 60

CONCLUSIN

Para que nuestra estimacin del modelo lineal sea confiable, se deben cumplir
algunas propiedades, como
1. No existen diferencias importantes entre los errores.
2. No existe mucha variedad entre los errores, ni relacin con las
variables explicativas.
3. No debe existir relacin entre los errores.

CMO PROCEDER FRENTE A UNA REGRESIN

La razn para utilizar una regresin, es buscar una relacin de causalidad, y que
en el mejor de los casos se pueda establecer la magnitud de esta relacin.
Ahora, si el instrumento a utilizar es una regresin, se deben seguir los
siguientes pasos:

1. Justificar tericamente la relacin de causalidad y la direccin de sta,


reconociendo la variable explicada de la explicativa. Bsicamente es
proporcionar un argumento lgico de su existencia
2. Definir un modelo razonable de la relacin sostenido a partir de lo anterior.
3. Justificacin emprica. Hacer las estimaciones respectivas:
a) Anlisis general del modelo.
b) Anlisis particular del modelo.
4. Luego se debe hacer una comparacin entre lo terico y lo emprico. En el
caso de que no concuerden se deben hacer los ajustes necesarios, tomando
como referencia lo terico.
5. Concluir de acuerdo a las limitaciones encontradas.

7
MAE

EJEMPLO
Supongamos que deseamos probar que la publicidad influye positivamente en la
demanda, es decir, a mayor publicidad mayor demanda.
Cmo medir la publicidad?
Al no existir una variable directa asociada a esto (primer mejor), utilizaremos una
variable indirecta, la cantidad de dinero invertida en la publicidad.
Diremos que
Y : Representar la cantidad de unidades en que aumento la demanda
X : La inversin realizada en publicidad en miles de pesos [$M]

MODELO
Y a b X e
a : Representa el efecto promedio de todas la variables no registradas en el
modelo. No sera posible sealar el signo que tendra.
b : Corresponde a la cantidad de unidades que aumenta la demanda por cada
$100.000 invertidos en publicidad. El signo debera ser positivo.
e : Establece el efecto aleatorio de todo lo no observable.

ESTIMACIN POR MEDIO DE EXCEL

El anlisis de datos no viene instalado por defecto, por lo tanto, debemos


instalarlo primero
Ir a ms comandos
Click en complementos + ir
(activar) Herramientas de anlisis

Una vez instalado, podemos proceder a realizar una regresin, siguiendo los
siguientes pasos:
Datos
Anlisis de datos
Regresin (ver figura)

8
MAE

SALIDA DE EXCEL (OUTPUT) Estos tres cuadros proporcionan la


Estadsticas de la regresin informacin sobre la estimacin del
Coeficiente de correlacin modelo, el cual se debe analizar en dos
0,7722
mltiple partes.
Coeficiente de determinacin
0,5963
R^2
R^2 ajustado 0,5893 Anlisis general
Error tpico 489,6458
Observaciones 60

ANLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crtico
F
libertad cuadrados cuadrados de F
Regresin 1 20541209,91 20541209,91 85,6765 0,0000
Residuos 58 13905679,06 239753,08
Total 59 34446888,98

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%


Intercepcin 197,9687 157,4280 1,2575 0,2136 -117,1577 513,0952
PUBLICIDAD [$MM] 33,7860 3,6501 9,2562 0,0000 26,4795 41,0925

Anlisis particular

ANLISIS GENERAL

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,7722
Coeficiente de determinacin R^2 0,5963
R^2 ajustado 0,5894
Error tpico 489,6459
Observaciones 60

ANLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 20541209,91 20541209,91 85,6765 0,0000
Residuos 58 13905679,07 239753,09
Total 59 34446888,98

El coeficiente de determinacin R^2, seala que el modelo explica en un 58% los


movimientos de la demanda.
El valor crtico F = 0,0000, indica que se rechaza la hiptesis nula, por lo tanto,
estamos seguros de que al menos una variable en el modelo explica a Y.

9
MAE

ANLISIS PARTICULAR

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%


Intercepcin 197,9687 157,4280 1,2575 0,2136 -117,1577 513,0952
PUBLICIDAD [$MM] 33,7860 3,6501 9,2562 0,0000 26,4795 41,0925

La columna Coeficientes especifica el valor estimado de los parmetros, a y b.


La columna Error tpico, seala la desviacin estndar de la estimacin
Estadstico t, representa el valor de tabla para la hiptesis nula de que el
parmetro es cero.
La columna Probabilidad, corresponde al valor p de la hiptesis nula de que el
parmetro es igual cero, por lo tanto, si p es menor al 5%, rechazamos la
hiptesis, por lo que estamos seguros de que el parmetro no es cero.

CONCLUSIN PRELIMINAR: De acuerdo a estos datos la inversin en publicidad


s est relacionada positivamente con un aumento en la demanda. Adems, es
posible sealar que en forma aproximada por cada milln de pesos en
publicidad invertidos, existe un aumento en promedio de 34 unidades.

PROBLEMAS EN EL PARAISO
Algunos problemas a los cuales un investigador se puede exponer en estos
casos, son:

No poder diferenciar una casualidad de una causalidad.


Sesgos de seleccin o errores muestrales.
Posibles no linealidades existentes en el modelo lineal.
Colinealidad entre las variables explicativas.
Endogeneidad entre variable dependiente y explicativa (qu es primero
el huevo o la gallina)
Cada uno de estos elementos, puede ayudar a obtener estimaciones confiables,
ya que de una u otra manera estaran influyendo en los resultados, y por ende
en las conclusiones, las cuales podran estar lejos de la realidad.

10
MAE

EJEMPLO CON MS DE UNA VARIABLE EXPLICATIVA.

El modelo base corresponde a:

Salud a b1 Edad b 2 Ingreso b 3Casado error

Donde
Salud : Cantidad de dinero gastada en salud en miles de pesos [M$]
Edad : Edad del entrevistado
Ingreso : Ingresos declarados por el entrevistado en [M$]
Casado : Es una variable dicotmica (dummy) que toma el valor 1 si el
entrevistado es casado y 0 si no.

OUTPUT DE EXCEL

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,3600
Coeficiente de determinacin R^2 0,1296
R^2 ajustado 0,1198
Error tpico 28,1886
Observaciones 271

ANLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 3 31589,6212 10529,8737 13,2519 0,0000
Residuos 267 212157,1537 794,5961
Total 270 243746,7749

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%


Intercepcin 18,5976 5,6709 3,2794 0,0012 7,4321 29,7630
Edad 0,1452 0,1993 0,7284 0,4670 -0,2472 0.5375
Ingreso 0,0245 0,0055 4,4160 0,0000 0,0136 0.0354
Casado 6,8976 3,5273 1,9555 0,0516 -0,0473 13.8425

11
MAE

Problemas que se presentan al comparar lo emprico con lo terico.

A nivel de modelo no se presentan mayores problemas


A nivel particular
Algunas estimaciones no resultaron estadsticamente importantes
(ser distintas de cero)

Algunas causas posibles, son:

La relacin puede ser no lineal


Puede que exista mucha dispersin entre los datos.
Podra deberse a relaciones entre variables explicativas.

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%


Intercepcin 16.222 5.408 2.999 0.003 5.578 26.866
Edad 0.164 0.192 0.852 0.395 -0.215 0.542
Ingreso 0.027 0.005 5.030 0.000 0.017 0.038
Casado 7.250 3.386 2.141 0.033 0.586 13.913

7,250** Los asteriscos estn asociados al valor


CASADO p de la hiptesis nula de que es cero o
(3,386) distinto de cero, que corresponde al
valor de la columna Probabilidad.

Si p<0,01 se colocan tres asteriscos (***)


Si 0,01 p<0,05 se colocan dos asteriscos (**)
Si 0,05 p<0,10 se coloca un asterisco (*)
Si p es mayor a 0,10 no se coloca nada.

12
MAE

PRESENTACIN DE RESULTADOS
MODELOS
VARIABLES
I II III IV
0,1422 0,1452 0,1442 0,1750
Edad [Aos]
(0,2003) (0,1993) (0,1997) (0,1999)
0,0267*** 0,0245*** 0,0244*** 0,0204***
Ingreso [M$]
(0,0055) (0,0055) (0,0056) (0,0060)
6,8976* 6,96116* 7,8008**
Casado [ S = 1 ]
(3.5273) (3,5505) (3,5745)
0,6788 0,9020
Gnero [Mujer =0]
(3,6598) (3,6502)
0,0972*
Escolaridad [ Aos ]
(0,3882)
20,1595*** 16,2219*** 18,2238*** 15,6721***
Constante
(5,6439) (5,4084) (6,0281) (6.2007)
Observaciones 271 271 271 271
R^2 0,1171 0,1296 0,1297 0,1387
F 17,7785 13,2519 9,9115 8,5360
Estadstico F 0,0000 0,0000 0,0000 0,0000

EJEMPLO. Forma indebida de realizar la estimacin


MODELOS
VARIABLES
BIEN MAL [1] MAL [2]
0,1750 -0,1237 0,2087
Edad [Aos]
(0,1999) (0,1884) (0,1937)
0,0204*** -0,0040 0,0218***
Ingreso [M$]
(0,0060) (0,0069) (0,0059)
7,8008** -0,6489 8,3194**
Casado [ S = 1 ]
(3,5745) (3,5001) (3.4098)
0,9020 1,7576 2,7883
Gnero [Mujer =0]
(3,6502) (3,2417) (3,4474)
0,0972* -0,3300 0,7513**
Escolaridad [ Aos ]
(0,3882) (0,3922) (0,3761)
0,0002***
CAL
(0,0000)
15,6721*** 1380586,58*** 11,9105**
Constante
(6.2007) (217428,96) (5,8829)
Observaciones 271 13,2519 300
R^2 0,1387 0,0000 0,1643

13
MAE

COMENTARIOS. EJEMPLOS INDEBIDOS

Modelo MAL [1] : Cuando los investigadores tienen poca experiencia, suelen
hacer una regresin con todas las variables explicativas, sin discriminacin
alguna, llegando a resultados poco intuitivos y sin sustento lgico. Esto se
conoce como hacer regresiones por deporte.

Modelo MAL [2] : Es mucho ms frecuente que el problema anterior, pero es


mucho menos visible. Este tipo de error ocurre por falta de asociacin entre
los datos que se estn usando y la pregunta que se busca responder. Este
problema se conoce como sesgo de seleccin.

CONCLUSIONES

1. No toda correlacin es sinnimo de causalidad.


2. No toda regresin es realmente explicativa linealmente.
3. La responsabilidad del investigador es mucho mayor que simplemente
extraer un output.
4. Un buen investigador estar atento a los resultados.
5. Un buen investigador sostiene una teora hasta el final.

14
MAE

MUCHAS GRACIAS

15

Das könnte Ihnen auch gefallen