Sie sind auf Seite 1von 15

Estadistica y Mtodos Numricos Aplicados

a las Finanzas
Estadstica a travs de Regresin Lineal
ANLISIS DE REGRESIN
El anlisis de regresin es un proceso estadstico para relacionar variables. La regresin
lineal es un mtodo matemtico que modela una variable dependiente (y) relacionada con
varias variables independientes (xi) y un trmino aleatorio .
MODELO DE REGRESIN LINEAL MLTIPLE (MRLM)
Este modelo une a la teora econmica, la estadstica, y la matemtica para establecer
relaciones entre una variable dependiente llamada y y dos o ms variables explicativas
llamadas x, con el fin establecer un prediccin o en su defecto el impacto que tienen las
variables explicativas sobre la variable explicada. A la variable dependiente y, tambin se
le llama: regresando, explicada, predicha o endgena) y las variables independientes,
tambin se le conoce como: Regresores, explicativas, predictoras o exgenos).
Uriel y Alds (2005), nos dice que el MRLM es uno de los ms conocidos y aplicados del
anlisis multivariante y constituye el ncleo en el cual se ha desarrollado la econometra.
La variable respuesta es de tipo cuantitativa y las variables explicativas deben ser
cuantitativas y/o categricas (en situaciones especiales). (Sifuentes, V 2002)
1. VENTAJAS DEL MRLM
Nos permite encontrar el efecto combinado de dos o ms variables sobre una variable que
es explicada. Adems nos permite conocer la relacin de una sola explicativa (x) sobre la

explicada (y), dejando todo lo dems constantes. En economa y en administracin este


concepto se llama CETERIS PARIBUS.
2. MODELO ESTADSTICO DE LA REGRESIN LINEAL MLTIPLE

y = es la variable aleatoria cuantitativa para el i-simo objeto.

0 , 1 ,..., p

0
,

son los parmetros desconocidos. Donde

es el trmino

independiente. y Siendo p el nmero de de variables independientes.

es la perturbacin aleatoria (ruido blanco), se supone tiene distribucin

V ( ) 2

E ( ) 0
normal, con media 0. Es decir

y varianza constante.

En la prctica los valores de los parmetros generalmente no se conocen, en ese sentido


tendran que estimarse a partir de datos muestrales.
3. ECUACION DE REGRESION MLTIPLE ESTIMADA

y
Son los valores estimados de la variable aleatoria dependiente y

b0 , b1 ,..., bp
Entonces los valores de los estadsticos muestrales

0 , 1 ,..., p

son los estimadores de

.
Para el caso particular de dos variables independientes, la lnea de regresin
mltiple estimada sera:

y b0 b1 x1 b2 x2
En este caso el clculo de b0, b1 y b2

es similar cuando se trabajaba con un modelo de

regresin lineal simple donde se tena una variable independiente.

4. MTODO DE MNIMOS CUADRADOS


ara estimar los parmetros se us el mtodo de mnimos cuadrados ordinarios, que permiti
P

minimizar la expresin siguiente:

i min ( yi - yi )2

CRITERIO DE MNIMOS CUADRADOS

i
Donde

yi
se le llama error aleatorio, es la diferencia entre el valor observado (

) menos

yi
el valor esperado (

). Esta es una distancia entre ambos valores y puede ser negativa o

positiva. Para hacer estudios inferenciales de regresin el error debe tener las siguientes
propiedades:

1) E i 0
2) V i 2

3) Cov i , j 0

i j

La primera propiedad indica que en promedio los errores es igual a cero, la segunda que
las varianza de cada error, para un conjunto de variables x determinado son constantes
(homocedstico) y la tercera que es que debe existir incorrelacin entre los errores.
(Sifuentes, 2002).
En regresin lineal simple se trabaja con conjuntos de datos relativamente pequeos, ah

0 y 1
fue posible usar las frmulas para obtener

mediante clculos manuales.

En la regresin mltiple, las frmulas para los coeficientes de regresin

b0 , b1 ,..., bp
, se utiliza el lgebra matricial y se obtiene los resultados manualmente luego
de un proceso no muy rpido; el uso de estas frmulas no es el objetivo de la presente
sesin. Para la estimacin de dichos parmetros se utilizar el paquete estadstico IBM
SPSS en cualquier versin.

Solo para ilustrar, si son dos las variables independientes, entonces las tres ecuaciones
normales son:

y nb x b x b
0

1.

1 1

2 2

yx x b x b x x b
1

2.

2
1 1

1 0

1 2 2

yx x b x x b x b
2

3.

2 0

1 2 1

2
2 2

Que luego resolviendo el sistema de tres ecuaciones, se determina los valores de

b0 , b1 y b2
.
5. COEFICIENTE DE CORRELACIN MLTIPLE Y COEFICIENTE DE DETERMINACIN
MLTIPLE
Al igual de determinacin simple, el coeficiente de determinacin mltiple R 2, mide el
porcentaje de la varianza de y que queda explicada al conocer dos o ms variables
independientes. Cuanto mayor es R2, mayor es el ajuste del plano de regresin y menor
es la dispersin de los datos.
El coeficiente de regresin mltiple se puede definir de manera general como la raz
cuadrada de la suma de los cuadrados explicados sobre la suma de los cuadrados
totales.

R2

SCR R
SCT

(Y Y )

(Y Y )

2
1.23

b0 y b1 yx1 b2 yx2 R 2 1 S1.23


S y2
n
2

Donde:
SCR = Suma de cuadrados debido a la regresin
SCT = Suma de cuadrados totales
SCE = Suma de cuadrados debido a los errores

SIGNIFICADO DE LAS BONDADES DE AJUSTE:


R2: Mide el porcentaje de explicacin del modelo
R2 corregido: Permite comprar modelos con distintos nmeros de regresores. No
est acotado por la parte inferior. Puede tomar valores negativos cuando el ajuste
realizado es muy malo.
AIC: Informa que cunto ms pequeo es el valor del estadstico, mejor es el ajuste del
modelo. (Uriel Et al., 2005)
EJEMPLO 1
La empresa Buenosaires se dedica a la fabricacin y venta de abanicos, habiendo
obtenido en los ltimos aos unos resultados econmicos relativamente aceptables. Los
directivos de la empresa consideran que los resultados habran sido muchos mejores si el
absentismo laboral en la empresa no fuera tan elevado.
Este absentismo tiene una incidencia negativa que se refleja en los costes de personal y
en desajustes en las operaciones de fabricacin y distribucin.
Por las razones expuestas, la direccin de la empresa tiene gran inters en conocer
cules pueden ser los factores ms relevantes del absentismo laboral que sufre la
empresa.
Se nos encarga el estudio, y para ello el jefe de personal facilita informacin acerca de los
das que en el ltimo ao han faltado al trabajo cada uno de los empleados de planilla
(excluidos los directivos). Esta informacin aparece en el siguiente cuadro.

PASOS PARA PROPONER UN MODELO DE REGRESIN LINEAL:


1. Analice la existencia de la multicolinealidad
rX1,X2= 0.872
rX1,X3= 0.316
rX2,X3= 0.439

r Y,X1= 0.675
r Y,X2= 0.715
r Y,X1= 0.675
r Y,X3= 0.667
r Y,X2= 0.715
r Y,X3= 0.667

Si hay multicolinealidad
No hay multicolinealidad
No hay multicolinealidad

2. Determine el mejor modelo de regresin lineal mltiple.


Los modelos propuestos son: YX1, YX2, YX3, YX1X3, YX2X3
Correr la regresin lineal mltiple para cada modelo propuesto.
Identifique el coeficiente de determinacin corregido para cada modelo.
MODELO 1: YX1
Resumen del modelo

Modelo
1

R cuadrado

,675a

R cuadrado

Error estndar

ajustado

de la estimacin

,456

,444

2,823

a. Predictores: (Constante), edad

MODELO 2: YX2

Resumen del modelo

Modelo
1

R cuadrado
a

,715

R cuadrado

Error estndar

ajustado

de la estimacin

,512

,501

2,675

a. Predictores: (Constante), antigedad

MODELO 3: YX3
Resumen del modelo

Modelo
1

R
,667a

R cuadrado

R cuadrado

Error estndar

ajustado

de la estimacin

,445

,433

2,852

a. Predictores: (Constante), salario

MODELO 4: YX1X3
Resumen del modelo

Modelo
1

R
,828a

R cuadrado
,685

a. Predictores: (Constante), salario, edad

R cuadrado

Error estndar

ajustado

de la estimacin

,671

2,172

MODELO 5: YX2X3
Resumen del modelo

Modelo
1

R cuadrado
a

,816

R cuadrado

Error estndar

ajustado

de la estimacin

,666

,651

2,236

a. Predictores: (Constante), salario, antigedad

ORDEN
4
3
5
1
2

Modelos
Y X1
Y X2
Y X3
Y X1X3
Y X2X3

R2 Corregido
0.444
0.501
0.433
0.671
0.651

3. Valide el modelo de regresin lineal mltiple seleccionado, usando un nivel de


significacin de 0.05. (ANOVA y prueba t)
1

Y X1X3

0.671

Prueba Global:
Ho: 1 = 3 =0
H1: al menos un i es 0

ANOVAa
Suma de
Modelo
1

Media

cuadrados

gl

cuadrtica

Regresin

461,631

230,815

Residuo

212,369

45

4,719

Total

674,000

47

Sig.
,000b

48,909

a. Variable dependiente: absen


b. Predictores: (Constante), salario, edad

Sig= 0.000 < 0.05 Se rechaza Ho. EL MODELO ES SIGNIFICATIVO.


Pruebas Individuales

Coeficientesa
Coeficientes
Coeficientes no estandarizados
Modelo
1

B
(Constante)

Error estndar
15,672

1,179

edad

-,143

,025

salario

-,039

,007

estandarizados
Beta

Sig.

13,289

,000

-,516

-5,854

,000

-,504

-5,717

,000

a. Variable dependiente: absen

Ho: 1 = 0
H1: 1 0

Ho: 3 = 0
H1: 3 0

Para 1
Sig = 0.000 < 0.05, Se rechaza Ho. El aporte de 1 es significativo para el modelo.
Para 3
Sig = 0.000 < 0.05, Se rechaza Ho El aporte de 3 es significativo para el modelo.

Conclusin: Con un nivel de significacin del 5%, se puede afirmar que el modelo es
vlido.
4. Determine el modelo de regresin estimado e interprete los coeficientes de
regresin. (Mtodo de mnimos cuadrados)

^y =15,6720,143 x 10,039 x 3
1 = -0.143
Cuando la edad del trabajador se incrementa en un ao, se espera que en promedio
los das de absentismo laboral disminuyan en un 0,143 das; manteniendo constante
a la variable salario.
3 = -0.039
Cuando el salario del trabajador se incrementa en una unidad monetaria, se espera
que en promedio los das de absentismo laboral disminuyan en un 0,039 das;
manteniendo constante a la variable edad.
5. Probar los supuestos del modelo de regresin lineal mltiple.
OBS.: Tener en cuenta si los errores estn autocorrelacionados, las estimaciones pierden
fidelidad. (Es decir los trminos de perturbacin correlacionados)
PRUEBA DE NORMALIDAD
Ho: Los errores tienen distribucin normal
H1: Los errores no tienen distribucin normal

Prueba de Kolmogorov-Smirnov para una muestra


Unstandardized
Residual
N
Parmetros normales

48
a,b

Media
Desviacin estndar

,0000000
2,12567440

Mximas diferencias

Absoluta

,116

extremas

Positivo

,068

Negativo

-,116

Estadstico de prueba
Sig. asinttica (bilateral)

,116
,105c

a. La distribucin de prueba es normal.


b. Se calcula a partir de datos.
c. Correccin de significacin de Lilliefors.

Sig = 0.105 > 0.05 No se rechaza Ho


Los errores tienen distribucin normal
SUPUESTO DE AUTOCORRELACIN:
Prueba de Durbin Watson
Ho: Los residuos no estn autocorrelacionados (valor entre 1 y 3)
H1: Los residuos estn autocorrelacionados (valores fuera del rango)

Resumen del modelob

Modelo
1

R cuadrado

,828a

R cuadrado

Error estndar

ajustado

de la estimacin

,685

,671

a. Predictores: (Constante), salario, edad


b. Variable dependiente: absen

DW= 1.841 No se rechaza Ho.


Los residuos no estn autocorrelacionados

CONCLUSION:
Se cumplen los dos supuestos
6. Estimaciones y pronsticos. Puntual e intervalar

2,172

Durbin-Watson
1,841

EJERCICIOS PARA EL ESTUDIANTE


1. En la siguiente tabla se tiene informacin acerca de los salarios percibidos por los
trabajadores de una empresa, se seleccion una muestra y se obtuvieron los siguientes
datos.
Persona
muestreada

Salario
anual (Y)

1
2
3
4
5
6
7
8

55
60
59
59
58
56
56
53

Aos de
experiencia
(X1)
5,5
9
4
8
9,5
3
7
1,5

Aos de educacin
despus de secundaria
(X2)
4
4
5
4
5
4
3
4,5

a. Realizar los pasos que se necesita para plantear y modelar la ecuacin que tiene
mayor r^2 corregido.
b. Interprete los valores de cada parmetro estimado y seleccionado
c. Qu variable explicativa es ms relevante para la variable explicada?
d. Evaluar e interpreta la bondad de ajuste del modelo
e. Estimar el sueldo anual de un trabajador si este tiene ocho aos de experiencia y
cinco aos de educacin. Ser posible realizar la estimacin?

2.

La empresa Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las
preguntas que los posibles compradores hacen con ms frecuencia es: si adquirimos esta
casa, Cunto tendremos que pagar por la calefaccin en invierno? Se le pidi al
departamento de investigacin de la compaa que elabore algunos lineamientos
relacionados con los costos de calefaccin para casas unifamiliares. Se consider que el
costo incluye tres variables: (1) la temperatura media diaria en el exterior, (2) el espesor en
pulgadas del material de aislamiento trmico que se coloca en el desvn, y (3) la
antigedad del calefactor. Para realizar esta investigacin, el departamento en cuestin
seleccion una muestra aleatoria de 20 casas vendidas recientemente. Determin el costo
de la calefaccin de cada casa en el mes de enero, la temperatura exterior en la regin, el
espesor en pulgadas de material aislante instalado en el desvn, y la antigedad del
calefactor. En la tabla se presenta la informacin muestral.

TABLA: Factores en el costo de la calefaccin de 20 casas, en el mes de enero, para


una muestra de 20 casas.

Utiliza el paquete de cmputo para estadstica IBM SPSS


a. Cul es variable dependiente? (con el modelo seleccionado)
b. Cules son las variables independientes? (con el modelo seleccionado)
c. De ser posible estime el costo estimado para la calefaccin de una casa, si la
temperatura media en el exterior es de 30 F, hay 5 pulg de material aislante en el
desvn y el calefactor tiene 10 aos de antigedad es:
(Reemplazar en la ecuacin estimada del modelo seleccionado)

3.

Se han observado los siguientes datos experimentales de una muestra de 10 trabajadores


de la empresa Mviles S.A. para estimar salarios
Salario ($)

Aos de servicio

Edad

N de hijos

600
620
500
700
800
850
750
900
500

5
4
2
7
7
9
4
6
3

33
34
35
34
35
40
38
29
39

0
3
4
2
2
0
3
4
6

a. Cul es la variable dependiente?


b. Cules son las variables independientes?
c. Proponer el mejor modelo de acuerdo a los pasos del ejemplo
d. Interprete los valores de cada parmetro estimado y seleccionado
e. Qu variable explicativa es ms relevante para la variable explicada?
f.

Evaluar e interpreta la bondad de ajuste del modelo

g. El salario estimado para un trabajador que tiene 10 aos de servicio, tiene 37 aos
y con 3 hijos es:
4.

La gerencia de Nuevo Mundo Viajeros para realizar decisiones importantes en directorio,


desea saber si el gasto individual por viaje que realiza el estudiante universitario est en
funcin del nmero de veces que viaj en los 2 ltimos aos (x1), el nmero de
acompaantes al viaje (x2) y cunto dinero lleva como bolsa de viaje (x3). La base de datos
se encuentra en el archivo Data Turismo en Per.xls.
Qu variable explicativa es ms relevante para la variable explicada?

5.

Investiga en fuentes confiables de internet el uso de la regresin lineal mltiple en el


campo de la Administracin. Muestre dos importancias y cite la(s) pgina(s) web
consultada.

GLOSARIO
1. Regresin: En trminos generales, se designa con el trmino de regresin al retroceso o
a la accin de volver hacia atrs especialmente una actividad, proyecto o proceso, entre
otros. En trminos estadsticos

se refiere cuando se quiere predecir una medida

basndose en el conocimiento de otra(s) medida (s).


2. Homocedasticidad: Propiedad de una variable aleatoria que tiene varianza finita
constante. *Antnimo: heterocedasticidad.
BIBLIOGRAFA
Anderson, Et al. (2012). Estadstica para negocios y economa (11va Edicin).
Cengage Learning Editores S.A. Santa Fe, D.F. Mxico.
vila, R. (2000). Estadstica elemental. Lima. Estudios y ediciones R.A.
Crdova, M. (2006). Estadstica aplicada. (1ra. Edicin). Lima. Editorial MOSHERA
S.R.L.
Uriel, E. (2005). Anlisis Multivariante Aplicado. Thomson Editores Spain. Espaa.

Direcciones electrnicas:
http://www.definicionabc.com/general/regresion.php
http://personal.us.es/aggonzalez/Docencia/Problemas_3.pdf
http://www.youtube.com/watch?v=Bye0ZBdd6iI&feature=fvst

Das könnte Ihnen auch gefallen