Sie sind auf Seite 1von 17

CORRELACION Y REGRESION LINEAL MULTIPLE

OBJETIVOS

1- Explicar como los conceptos del DIAGRAMA DE DISPERSION Y


MINIMOS CUADRADOS, se aplican a la regresin mltiple

2- Obtener e interpretar la ECUACION DE REGRESION MULTIPLE, y


luego hacer estimaciones puntuales y de intervalo para la variable
dependiente.

3- Interpretar el valor del COEFICIENTE DE DETERMINACION, y


efectuar una prueba de hiptesis de su significancia.

4- Construir INTERVALOS DE CONFIANZA Y REALIZAR PRUEBAS


DE HIPOTESIS relacionadas con los coeficientes de regresin parcial.

5- Explicar EL SIGNIFICADO Y LA APLICABILIDAD de una variable


cualitativa

6- Emplear el anlisis de RESIDUOS, para examinar si el modelo de


regresin mltiple es apropiado, y el grado en que se cumplen los supuestos
estadsticos correspondientes (LINEALIDAD, NORMALIDAD,
HOMOCEDASTICIDAD, INDEPENDENCIA)

1
EL ANALISIS DE REGRESION: Se emplea para determinar e interpretar la
relacin lineal

EL ANALISIS DE CORRELACION: Se emplea para medir la fuerza de la


relacin lineal

Yi = Bo + B1X1 + B2X2 +---------+ BnXn + ei DE LA POBLACION

Yi = Valor de la variable dependiente OBSERVADO

Bo = Una constante

X1 + X2 +---------+ Xn = Valores de las variables independientes

B1 + B2 +---------+ Bn = Coeficientes de regresin parcial de V.I.

ei = El error aleatorio, o residuo

= bo + b1X1 + b2X2 + ------+ bnXn DE LA MUESTRA

= Valor de la variable dependiente ESTIMADO

bo , b1, b2 +---------+ bn = Estimaciones de las constantes poblacionales (Bo ,


B1, B2 +---------+ Bn )

Esta ecuacin de regresin mltiple corresponde a un plano de tres


dimensiones.

2
EJEMPLO 1: Se muestra a continuacin un cuadro demostrativo de las ventas
y ganancias obtenidas por un negocio de comidas rpidas durante un ao.
Determinar cual seria la ganancia puntual y de intervalo para un monto de
6,00 millones de dlares en ventas en el lugar y de 4,00 millones de dlares en
ventas para llevar.

Y = Ganancia neta

X1 = Ventas en el lugar

X2 = Ventas para llevar

N Y X1 X2

1 1,5 8,4 7,7

2 0,8 3,3 4,5

3 1,2 5,8 8,4

4 1,4 10,0 7,8

5 0,2 4,7 2,4

6 0,8 7,7 4,8

7 0,6 4,5 2,5

8 1,3 8,6 3,4

9 0,4 5,9 2,0

10 0,6 6,3 4,1

Coeficientes de
Ganancia neta Intercepcin de y
regresin parcial

3
= - 0,216 + 0,085 X1 + 0,1132 X2

Ventas en el lugar Ventas para llevar

EL PROPOSITO DEL ANALISIS DE CORRELACION MULTIPLE ES :


Medir la fuerza de la relacin entre la variable dependiente ( ) y el conjunto
de variables independientes ( Xi ). Esta fuerza se mide en forma general
mediante el Coeficiente de Determinacin Mltiple ( R2 ).

El Coeficiente de Determinacin Mltiple ( R2 ) cuyo valor varia entre 0 y 1


es decir 0 R2 1 es la proporcin de la variacin en que se explica por
la ecuacin de regresin multiple. Su raz cuadarada positiva ( R2 ) es el
Coeficiente de Correlacion multiple ( R ), una medida que es menos
importante que su correspondiente ( r )

PRIMERA PRUEBA SIGNIFICATIVA GENERAL DE LA ECUACION


DE REGRESION MULTIPLE.

Hiptesis Nula

1- H0 : B1 = B2 = ----- Bn = 0 La E.R.M. no es significativa

4
Hiptesis Alternativa

2- H1 : Uno o mas de los valores Bi 0 La E.R.M. es significativa

3- Estadstico de prueba ( F )

Fc = SCR/K Fc = calculado

SCE/(n (K+1)

SCR = Suma de cuadrados de la regresin

SCE = Suma de cuadrados del error

n = N de datos

K = N de variables independientes

4- Valor critico del estadstico F

F = Valor buscado en tabla con un determinado que generalmente es 0,05 y


con K grados de libertad en el numerador y con n ( K+1) en el denominador.

Comparamos Fc con F

Si Fc > F Se rechaza H0

5
Si Fc < F Se acepta H0

Esta prueba investiga si es posible que todas las variables independientes


tengan los coeficientes de regresin iguales a cero.

SEGUNDA PRUEBA SIGNIFICATIVA DE LOS COEFICIENTES DE


REGRESION PARCIAL DE LA ECUACION DE REGRESION
MULTIPLE.

1- Hiptesis Nula

H0 : Bi = 0

2- Hiptesis Alternativa

H1 : Bi 0

3- Estadstico de prueba ( t )

tc = bi 0 tc = calculado
Sbi

bi = Valor observado del coeficiente de regresin parcial

Sbi = Desviacin estndar estimado de Bi

4- Valor critico del estadstico t de student

t = Valor buscado en tabla con un determinado que generalmente es 0,05 o


sea con una confianza de 95% y con n-1

6
Comparamos tc con t

Si tc > t Se rechaza H0

Si tc < t Se acepta H0

Esta prueba investiga si es posible que algunas variables independientes,


tengan coeficientes de regresin iguales a cero.

ESTIMACION DE INTERVALOS PARA LOS COEFICIENTES DE


REGRESION PARCIAL.

Adems de ser usados en la prueba significativa, la desviacin estndar


estimada de bi se usa tambin con el fin de construir un intervalo de confianza
para su contraparte poblacional Bi.
El mtodo utilizado se describe a continuacin:
El intervalo es:
bi t Sbi bi = Coeficiente de regresin parcial
sbi = Desviacin estndar estimada de bi

Cuando el anlisis de regresin se hace con ayuda de SPSS, es comn que


incluya bi y la desviacin estndar estimada de bi, al aplicar estos valores al

7
ejemplo de ventas de comidas rapidas, construimos los intervalos de confianza
de 95 % para B1 y B2.

1- Intervalos de confianza para B1. Segn los resultados tenemos que b1 ( el


coeficiente de regresin parcial para X1 las ventas en el lugar ) es 0,855 y la
desviacin estndar de b1 es 0,04380, hay n igual a 10 datos, K igual a 2

variables independientes para n-1 igual 9 grados de libertad el valor de t de


student para intervalo de confianza de 95 % es t = 2,26 el intervalo de
confianza ser :

b1 t Sbi = 0,0855 2,26 ( 0,0430)

= 0,0855 0,09718

-0,11168 ; 0,18268

Tenemos una confianza de 95 % de que B1 esta entre -0,11168 y 0,18268.


Observe que B1 = 0 cae dentro del intervalo. Esto coincide con nuestro
resultado anterior de que en el nivel de 0,05, b1 = 0,0855 no es
significativamente diferente de cero como vimos antes.

2- Intervalo de confianza de 95 % para B2 segn los resultados b2 ( asociados a


las ventas para llevar) es 011315 y la desviacin estndar de b2 = 0,03853, con
n = 10, K = 2 y n-1 = 9 el valor de t = 2,26, entonces el intervalo de confianza
es:

b2 t Sb2 = 0,11315 2,26 (0,03853)

= 0,11315 0,0871
8
= 0,02605 ; 0,20025

Tenemos una confianza de 95 % de que B2 esta entre 0,02605 y 0,20025.


Observe que B2 = 0 no cae dentro del intervalo. Esto coincide con nuestro
resultado anterior de que, con un nivel de 95 %, b2 = 0,11315 es
significativamente diferente de cero.

ANALISIS DE LOS RESIDUOS

HISTOGRAMA DE RESIDUOS: Solo hay 10 franquicias de comida rpida.


Dado este histograma, parece que los 10 residuos provienen de una
distribucin normal con una media de 0 ( cero)

GRAFICA DE PROBABILIDADES NORMALES: La grafica de las


probabilidades normales es bastante lineal, lo cual apoya la suposicin de que
los residuos pueden provenir de una distribucin normal con media 0 ( cero).

RESIDUOS COMPARADOS CON LOS VALORES DE PREDICHOS:


Parece que los residuos tienen una dispersin aleatoria, de modo que no
parece que exista una relacin entre los residuos y las ganancias predichas
para las 10 franquicias.

RESIDUOS COMPARADOS CON EL ORDEN DE LAS


OBSERVACIONES: Aqu se asemeja un poco a la forma de la U . Parece
que el orden en que se listan las franquicias en los datos originales de algn

9
modo se relaciona como si han obtenido: a) una ganancia mas alta que la
predicha por la ecuacin o b) una ganancia mas bajo que la predicha por la
ecuacin. Por ejemplo, la franquicia n 5 se ha comportado por debajo de lo
esperado, con una ganancia mucha mas baja (0,2 millones de dlares) que los
04574 millones de dlares predichos por la ecuacin, un residuo de 0,2574
millones de dlares.

RESIDUOS COMPARADOS CON X1 : Esto tambin se asemeja a una


curva con forma de U, los residuos tal vez no sean independientes del nivel de
ventas en el lugar.

RESIDUOS COMPARADOS CON X2 : Si bien los residuos parecen un


poco mas dispersos para las franquicias con niveles mas bajos de ventas para
llevar, no hay muchos puntos de datos y este patrn pudo haber ocurrido por
casualidad

RELACION ENTRE LOS CONTRASTE INDIVIDUALES Y LOS


CONTRASTE CONJUNTOS

10
En un modelo de regresin multiple al hacer los contrastes sobre la influencia
individual de cada variable independiente con la variable dependiente, y el
contraste del conjunto de todas las variables independientes con la variable
dependiente, pueden darse las siguientes situaciones.

Caso Contraste ( F ) Conjunto Contraste ( t ) Individual

1 Significativo Todos Significatvo

2 Significativo Algunos Significativo

3 Significativo Ninguno Significativo

4 No Significativo Todos Significatvo

5 No Significativo Algunos Significativo

6 No Significativo Ninguno Significativo

Caso 1: Todas las variables independientes influyen en la variable dependiente

Caso 2: Influyen algunas variables independientes.

Caso 3: Las variables independientes son muy dependiente entre si. Entonces
conjuntamente influyen. Pero los coeficientes de regresin y las varianzas son
muy altas en relacin con el valor de las estimaciones que no son

11
significativas. Este problema se llama Multicolinealidad y se soluciona
eliminando algunas variables independientes.

Caso 4: Es otro caso de Multicolinealidad, las variables son muy dependientes


pero con una fuerte Correlacin negativa, es poco frecuente.

Caso 5: Igual al caso 4

Caso 6: Ninguna de las variables independientes influyen en la variable


dependiente o la influencia no la detecta la muestra tomada

Cada una de estas pruebas bsicas de significacin, el Avaluador obtendr una


mejor compresin de la ecuacin de regresin mltiple y del nivel de que se
pude depositar en las estimaciones desarrolladas a partir de la misma.

SUPUESTOS DEL MODELO DE REGRESION LINEAL

LINEALIDAD: La relacin entre la variable dependiente y las


independientes sean de tipo lineal. Ver los graficos de diagrama de regresin

12
parcial, permite formarse una rpida idea sobre el tamao y el signo de
coeficiente de regresin parcial.

SOLUCIONES A LA FALTA DE LINEALIDAD

1- Transformar las variables para intentar conseguir linealidad

2- Introducir variables adicionales

3- Detectar la presencia de datos atpicos o ausencia de otras variables


importantes para explicar la variable dependiente.

NORMALIDAD: Para cada valor de la variable independiente o combinacin


de valores de las variables independientes, los RESIDUOS se distribuyen
normalmente con media cero.Para verificar esto se busca en el recuadro
Graficos de los residuos tipificado que contiene dos graficas:

a- Histogramas de los residuos tipificados

b- Probabilidad normal de los residuos. Si esto es as, el grafico ha de mostar


aproximadamente una recta.

Un supuesto que suele hacer sobre los residuos, es que los mismos se
distribuyen normalmente. Recordar que esto no es necesario para que MCC,
produzca estimadores MELI, sino que lo requerimos para hacer test de
hiptesis sobre las estimaciones de los parmetros (Por que). Por que de esta
manera conocemos la funcin de probabilidades de los parmetros estimados.

HOMOCEDASTICIDAD: Para cada valor de la variable independiente o


combinacin de valores de las variables independientes, la VARIANZA de los

13
RESIDUOS es constante. Para verificar en forma general, utilizamos el
diagrama de dispersin de las variables ZPRED ( valores estimados

tipificados i ) versus ZRESID ( valores de los residuos tipificados ei ) no


deben mostrar ninguna pauta de asociacin.

a- Se observa si hay Heterocedasticidad, ( lo contrario a la homocedasticidad)


varianza no constante, se deben transformar los datos.

b- Error en el anlisis, se observa si se ha realizado un mal ajuste y se verifica


que los residuos negativos se corresponden con valores pequeos, y los
residuos positivos se corresponden con los valores grandes o al revs.

c- Se observa si el modelo es inadecuado por falta de linealidad, en este caso


se deben transformar los datos o se introducen nuevas variables.

d- Se observa la existencia de datos atpicos o puntos extremos.

En el grafico de residuos ei frente a una variable independiente xi, si se

sospecha que la HETEROCEDASTICIDAD es de debido a la variable xi.

SOLUCIONES A LA HETEROCEDASTICIDAD

a- Si la variabilidad de la respuesta aumenta con x segn la ecuacin = g(x),


dividimos la ecuacin de regresin entre g(x).

2- Transformar la variable dependiente ( ), y puede que tambin las


variables independientes.

c- Si lo anterior no funciona, cambiar el mtodo de estimacin.

14
INDEPENDENCIA: El estadstico DURBIN-WATSON proporciona
informacin sobre el grado de independencia entre los residuos o si se
prefiere, el grado de autocorrelacin. El estadstico DW oscila entre 0 y 4 y

toma el valor de 2 cuando los residuos ei son completamente independientes.


Valores < 2 indica autocorrelacin positiva, valores > 2 indica autocorrelacin
negativa. Si los casos constituyen una muestra aleatoria su evaluacin no es
restrictivo.

CONSECUENCIAS DE LA ESTIMACION EN PRESENCIA DE


AUTOCORRELACION

a- Los estimadores continan siendo linealmente insesgados, pero ineficientes

b- Por lo tanto, los test de hiptesis no entregan resultados validos

NO-COLINEALIDAD: No existe correlacion lineal exacta ( r = 0 ) entre las


variables independientes.El incumplimiento de este supuesto da origen a la
COLINEALIDAD O MULTICOLINEALIDAD.

La NORMALIDAD, HOMOCEDASTICIDAD y la INDEPENDENCIA

pertenecen al ANALISIS DE LOS RESIDUOS ( ei )

DIAGNOSTICO DE COLINEALIDAD O MULTICOLINEALIDAD

15
1- Chequear si hay COEFICIENTES DE REGRESION PARCIAL con
valores bien grandes o de signo opuesto a lo que se esperaba que ocurriera.

2- Chequear si las VARIABLES INDEPENDIENTES que se esperaban sean


importantes, tengan valores de t pequeos para la hiptesis de sus
coeficientes o sea ( p > o p > 0,05 ), y de paso R2 > 0,80 podemos sospechar
del efecto de Multicolinealidad.

3- Chequear LA MATRIZ DE CORRELACION, para detectar los que son


bastantes altos r > 0,70 entre las variables independientes, la matriz de
correlacin es efectiva para la regresin mltiple de hasta dos variables
independientes, no es totalmente suficiente para la regresin mltiple de mas
de dos variables independientes.

4- Chequear el FIV ( Factor de Inflacion de la Varianza ) si el FIV es grande


mayor de 10, entonces puede haber multicolinealidad o colinealidad.

5- Chequear el IC ( Indice de Condicin ), si 10 IC 30 existe


Multicolinealidad moderada, si IC > 30 indica alta Multicolinealidad

En caso de multicolinealidad perfecta, no se pueden obtener una solucin


nica para los Coeficientes de Regresion Parcial de las variables Xi, son
indeterminados y sus errores estndar son infinitos. Si la Multicolinealidad es
menos perfecta los Coeficientes de Regresion Parcial poseen grandes errores
estndar, lo que hace que los Coeficientes de Regresion Parcial no pueden ser
estimados con precisin.

FUENTES DE MULTICOLINEALIDAD

16
1- El mtodo de recoleccin de muestras o referenciales es obtenidos en un
rango limitado.

2- Un mtodo sobredeterminado, es decir que posee mas variables


independientes que el N de observaciones o casos.

3- Transformaciones realizadas a los datos

4- Tipo de datos

SOLUCIONES A LA MULTICOLINEALIDAD

1- Aumentar el N de observaciones o casos

2- Suprimiendo variables que estn altamentes correlacionadas

3- Realizar transformaciones de los casos originales, como por ejemplo, con


series logartmicas, exponenciales y otras mas.

4- Utilizar componentes principales

17

Das könnte Ihnen auch gefallen