Beruflich Dokumente
Kultur Dokumente
Abstract
This is a course material for an introductory course in Probability and Statistics for
Engineering and Management. It is part of some course notes for my courses in Spanish on
that subject. The draft of the book is Apuntes de Probabilidad y Estadstica para Ingeniera
y Administracin (Notes for Probability and Statistic for Engineering and Management)
and this part is Anlisis de regresin (Basic Regression Analysis).
In this chapter we present the basic tools for linear regression analysis. With linear
regression analysis we can find models that relate variables linked by causal relationships
between given variables. The idea is to use this tool to predict the behavior of some
independent variable and other dependent variables.
Before performing any statistical analysis we should examine if there is a logical
relationship between independent and dependent variables. This effort is of utmost
importance. Calculations are easily made using the computing and inexpensive power of
software and computers. To find the possible relationships between variables is a delicate
work of observation, intelligent, experience and intuition. All these methods are studied
using intensively the spreadsheet.
Resumen
Con el anlisis de regresin se busca encontrar modelos que a partir de las
relaciones causales entre una variable dependiente (la que se supone que es el resultado de
la influencia o comportamiento de otras variables) y una o ms variables independientes,
permitan predecir un resultado conociendo el valor estimado de una variable independiente.
Antes de realizar cualquier anlisis se debe examinar si existe una relacin lgica
entre las variables independientes y la variable dependiente. Este esfuerzo es el ms
importante. Lo relacionado con los clculos es muy fcil porque existen herramientas
computacionales para hacerlos. Encontrar las posibles relaciones lgicas entre las variables
es un trabajo de observacin, inteligencia, experiencia e intuicin.
ii
Se puede observar alguna relacin entre las dos variables? En este caso en que
analizamos dos variables esa posible relacin se puede observar mejor por medio de una
grfica.
Figura 1. Tasa de inflacin y aumento del salario mnimo por ao
De la grfica anterior podemos intuir una relacin muy estrecha entre las dos
variables. Observemos cmo la tendencia de una es bastante estrecha con la de la otra. Ms
aun, si comparamos inflacin contra aumento en salario mnimo, vemos de otra forma esa
relacin.
Figura 2. Tasa de inflacin y aumento del salario mnimo
En esta grfica podemos deducir que hay una relacin entre las variables.
Claramente vemos que a mayor inflacin mayor aumento de salario mnimo.
La pregunta que nos hacemos ahora es si esa influencia existe o no y cmo hacerlo.
Podremos imaginarnos una relacin matemtica entre esos valores tal y como se muestran
en la figura 2? Imaginemos que esa relacin o tendencia se puede representar con una lnea
recta. Habr muchas lneas rectas que a ojo nos parecen aceptables, por ejemplo, tal y
como se muestra en la siguiente figura.
Figura 3. Varias rectas que ajustan los datos
El lector quedar ms satisfecho con unas que con otras y hasta este momento la
seleccin se hara por gusto. Tenemos que encontrar una forma objetiva con base en un
criterio definido y preciso que nos permita encontrar cul es la recta que mejor se ajusta a
los datos. El lector con seguridad tendra muy claro que la recta inferior en esa grfica no
sera adecuada. Inclusive la superior le puede parecer inapropiada. La duda surge de las
rectas intermedias (y de una cantidad infinita de posibilidades que habra con diferentes
inclinaciones de las rectas).
Un criterio que se puede examinar con la intuicin sera el de escoger una recta que
fuera equidistante de alguna manera de todos los puntos. O que por ejemplo, la suma de las
diferencias entre los puntos reales y la recta sea mnima. En este caso tendramos un
problema porque el mnimo sera cuando se tuviera la suma de las diferencias en un nmero
negativo muy grande y eso no tiene sentido. Quizs podemos buscar la lnea recta que esa
suma de las diferencias sea cero. La recta horizontal, que es el promedio de los aumentos de
salario mnimo cumple esta ltima condicin. El lector quedara satisfecho con esa lnea
como la que seala la relacin entre la inflacin y el aumento de salario mnimo? Con
seguridad no. El lector podr verificar que la suma de las diferencias entre el promedio del
aumento y cada aumento es cero.
Por ltimo podemos pensar que la lnea que refleje la relacin entre las dos variables
minimice la suma de los cuadrados de las diferencias (que en el prrafo anterior veamos
que se cancelaban entre s). Esta es una forma de tener en cuenta la desviacin entre el
valor observado y la media en trminos absolutos (sea por defecto o por exceso). Esta lnea
se conoce como la recta de mnimos cuadrados. Los cuadrados de las diferencias sern
siempre positivos porque una cifra negativa o positiva elevada al cuadrado ser siempre
positiva. Es fcil imaginar que la recta que est ms arriba en la grfica o la que est ms
abajo o la horizontal (que es el promedio) no cumplen con esta condicin.
En cualquier caso nuestra recta se puede representar con la siguiente ecuacin
Yest = a + bX
(1)
Donde Yest es el valor de la variable dependiente, X el valor de la variable
independiente observado, b es la pendiente de la lnea y a es la constante que muestra el
punto de corte con el eje de las coordenadas.
El modelo que represente el comportamiento de los datos ser
Yobser = a + bX +
(2)
donde representa el error, o sea la diferencia entre el valor que toma la variable
dependiente en la realidad y el valor que hemos pronosticado con nuestra recta.
Entonces lo que debemos minimizar es 2 y esto es igual a
(Yobser Yest)2 = (Yobser bX a)2
(3)
En realidad lo que debemos encontrar es los valores de a y b que hacen que el valor
de la anterior expresin sea mnimo. Esto se puede lograr hallando la derivada del cuadrado
de la diferencia con respecto a a y a b.
(Yobser bX a)2
= (Yobser2 + b2X2 + a2 2YobserbX 2Yobsera + 2baX)
(5)
Al derivar con respecto de a y haciendo el resultado igual a cero (para hallar el
mnimo) se obtiene
( 2a 2Yobser + 2bX) = 0
(6)
(a Yobser + bX) = 0
(7)
4
a Yobser + bX = 0
(8)
na Yobser + bX = 0
(9)
Yobser b X Y bX
(10)
a
n
De igual manera derivando con respecto a b y haciendo la derivada igual a cero se
tiene,
a
X
Reemplazando a (16) en la derivada con respecto a a en (10), se tiene
Yobser b X Y b X
a
n
Yobser X - b X 2 Yobser b X
n
X
De esta expresin despejamos b
obser
X b X 2
- b X 2 Yobser X
b X
obser
obser
b
X 2
n
b
X 2 X Yobser Yobser X
n
n
X Yobser Y X
obser
n
b
X 2
2
X n
X Yobser n Yobser X
b
2
n X 2 X
- b X 2
(15)
(16)
(17)
(18)
(20)
(21)
(22)
(23)
n Yobser X X Yobser
(12)
(13)
(14)
(19)
X Y
(11)
(24)
n X 2
Cuando se activa (se hace clic) la grfica el Men de texto cambia y aparece una
nueva opcin que se llama Herramientas de grficos. Si se activan los puntos haciendo clic
sobre ellos entonces se puede solicitar que el programa aada una lnea de tendencia.
All nos fijamos en la etiqueta Presentacin y en particular el botn que dice Lnea
de tendencia.
La funcin Pendiente calcula el valor de b cuando se introducen los datos para las
variables dependientes e independientes.
10
11
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Promedio
Grados de
Suma de
de los
libertad
cuadrados
cuadrados
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667
Valor
F
crtico de F
96,82368 1,0357E-09
Inferior
Superior
Coeficientes Error tpico Estadstico t Probabilidad
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244
12
Residuos
0,08896785
0,05186364
0,06535711
0,02142216
-0,03451854
0,01840977
-0,02805018
-0,03338756
0,00385019
-0,06001777
-0,01148302
0,00269669
0,01440244
-0,02491137
-0,0038343
-0,03253726
0,01679348
3,998E-05
0,03952297
-0,01643998
-0,00735921
-0,02087076
-0,02256132
-0,01012864
-0,01722637
Esta tabla indica el valor del aumento del salario mnimo si se hubiera comportado
exactamente como indica el modelo. As mismo, muestra los residuos, o sea, como vimos
arriba, la diferencia entre el valor real que ocurri y el valor calculado por el modelo.
Tambin arroja la grfica que hemos mostrado arriba con la lnea de ajuste. No se
reproduce aqu por razones de espacio y ya hemos mostrado dicha grfica arriba. (Puede
producir otros informes y grficas a solicitud del usuario).
La desventaja de esta opcin radica en que los valores calculados en las tablas son
nmeros y no frmulas. Es decir que si se hace un cambio en los datos es necesario repetir
toda la operacin. Por otro lado, la ventaja radica en que ofrece los resultados en una forma
tabular bien organizada y usada comnmente.
Varios de los datos que produce esta opcin Anlisis de datos tambin los produce
la funcin
=ESTIMACION.LINEAL(Conocido Y;Conocido X;VERDADERO;VERDADERO). Esto
produce un resultado numrico en una celda, pero se busca una tabla como la que se
muestra abajo. Para lograrlo se debe marcar un rango de N5 donde N es el nmero de
variables independientes ms 1 (la constante) y 5 es el nmero de grupos de estadsticas
(ver tabla abajo). Para visualizar la tabla una vez marcado el rango y estando en la celda
donde aparece la funcin, se entra a editar dicha funcin y se oprime simultneamente Ctrl
+ Maysculas + Intro. La tabla que se produce con esta funcin arroja los siguientes
resultados (no se muestra el procedimiento de inclusin de los datos en la funcin):
Pendiente o coeficiente de la variable independiente (b) Intercepcin (a)
0,861887361
Error tpico de b
Error tpico de a
0,087591047
2
Coeficiente de determinacin, R
Error tpico
0,808051297
Valor de F
0,0176062
0,0348522
Grados de libertad
96,82368003
0,0410248
23
Al igual que con la opcin Regresin de Anlisis de datos, con esta funcin se
obtienen los mismos datos bsicos, como el lector habr observado. Para obtener toda la
informacin que aparece en las tablas de la opcin Regresin ya mencionada, es necesario
hacer algunas operaciones.
A continuacin se explica en detalle cada una de las cifras que se obtienen en la
tabla ANOVA con la opcin Anlisis de Datos.
Coeficiente de correlacin o de Pearson
Este indicador nos muestra qu tan relacionadas estn dos variables. Est
estrechamente ligado con la covarianza, ya estudiada. Este coeficiente de correlacin se
13
puede utilizar, por ejemplo, para determinar la relacin entre dos variables, en nuestro
ejemplo, entre la tasa de inflacin y el aumento del salario mnimo.
En la tabla de arriba lo encontramos en
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0,89891674
0,8080513
0,7997057
0,03485217
25
CovX, Y
xY
CovX, Yobser
x Yobser
CovX, Y
1
X XY Y
n
14
35%
30%
25%
Observado
20%
Pronstico
15%
Promedio
10%
5%
0%
0%
5%
10%
15%
20%
25%
30%
35%
Inflacion
Valores
24,0%
23,0%
Error
Observado
Total
Regresin
22,0%
Pronstico
Promedio
21,0%
20,0%
19,0%
20,5%
21,0%
21,5%
22,0%
Inflacion
Observado
20,95%
24,00%
21,64%
19,50%
Pronstico
22,16%
22,75%
Regresin
Error
Total (observacin
(pronstico (observacin - promedio)
promedio)
pronstico )
20,01%
3,99%
2,15%
1,84%
Promedio
20,01%
-0,51%
2,74%
-3,25%
Promedio de
los cuadrados
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667
Coeficientes
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
Error tpico
(26)
Valor crtico
de F
96,82368 1,0357E-09
Estadstico t Probabilidad
Inferior 95%
Superior
95%
0,11760917
0,02793749
0,14554667
0,11760917
0,02793749
0,14554667
Fraccin
Valor porcentual
0,80805126
0,19194867
1
80,81%
19,19%
100,00%
17
0,89891674
0,8080513
0,7997057
0,03485217
25
Esto quiere decir que el R2 es exactamente SEC/STC. Este valor estar siempre
entre 0 y 1 simplemente porque SEC nunca podr ser mayor que STC (SEC es un
componente de STC).
Entonces se dice que R2 es el porcentaje de variacin de la variable dependiente que
estara explicado por la variable independiente en el modelo de regresin lineal. Si todos
los puntos observados estuvieran en la lnea de regresin, R 2 sera igual a 1. Esto quiere
decir que hay un ajuste perfecto. Por lo tanto, un R 2 cercano a 1 indica buen ajuste y un R 2
cercano a cero indica un mal ajuste. Entonces R2 mide la bondad del ajuste.
En nuestro ejemplo, R2 es 0,8080513 lo cual significa que el 80,81% de la variacin
del aumento del salario mnimo se explica por la inflacin. Observe tambin que el
Coeficiente de determinacin R2 es el cuadrado del Coeficiente de correlacin mltiple.
Coeficiente de determinacin, R2 ajustado
Cuando definimos R2 hicimos lo siguiente: partimos de la ecuacin (26) y
encontramos la proporcin de SEC sobre el total. Es decir, dividimos (26) por STC
STC = SEC + SCR
(26)
SEC SCR
(27)
1
STC STC
Al despejar SEC/STC encontramos
SEC
SCR
(28)
R2
1STC
STC
Esta ecuacin (28) se puede escribir como
SCR n
SEC
(29)
R2
1STC
STC n
En (28) estamos definiendo R2 como el complemento del error y en (29) hemos
dividido ambos elementos del quebrado por n. Pero sabemos que por definicin la varianza
es la suma de los cuadrados de las diferencias con la media dividida por n, es decir que
SCR/n y STC/n son la varianza de los residuos y la varianza total. Sin embargo, por razones
que no estn al alcance de estos apuntes, esas varianzas no son las verdaderas porque son
lo que se llaman en estadstica, estimadores sesgados. Para obtener la varianza no sesgada o
insesgada, hay que dividir no por n, sino por el nmero de grados de libertad de cada
elemento. Los grados de libertad se calculan para los residuos como (n k 1) donde n es
el nmero de observaciones en la muestra y k es el nmero de variables independientes que
para las cuales se desea estimar el coeficiente; en el caso de la STC los grados de libertad
son (n 1). Estos grados de libertad estn en la tabla y son respectivamente 20 y 21.
Entonces al usar los grados de libertad en (29) obtenemos el verdadero valor de R2 es decir,
el R2 ajustado.
SCR grados de libertad de SCR
R 22ajust 1 (30)
STC grados de libertad de STC
En nuestro ejemplo tenemos
18
Grados de
libertad
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667
Regresin
Residuos
Total
Coeficientes
Intercepcin
Tasa de
inflacin
Promedio de
los cuadrados
Suma de
cuadrados
Error tpico
Valor crtico
de F
96,82368 1,0357E-09
Estadstico t Probabilidad
Inferior 95%
Superior
95%
0,02793749 23
0,7997057
0,14554667 24
Este es el valor que aparece en la tabla de Anlisis de Varianza.
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0,89891674
Coeficiente de determinacin R^2
0,8080513
R^2 ajustado
0,7997057
Error tpico
0,03485217
Observaciones
25
R 22ajust 1 -
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
Promedio de
los cuadrados
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Coeficientes Error tpico Estadstico t Probabilidad
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244
19
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0,89891674
0,8080513
0,7997057
0,03485217
25
n 2n
(31)
Var (a)
2
x
x
i
Var (b)
SCR
n 2
(32)
x x
es igual a 0,1583216
SCR
es lo que en nuestra tabla se llama
n 2
0,02793749
0,00121467 .
Promedio de los cuadrados y en nmeros es
23
y
2
i
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
20
0,89891674
0,8080513
0,7997057
0,03485217
25
Grados de
libertad
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667
Regresin
Residuos
Total
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Coeficientes Error tpico Estadstico t Probabilidad
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Intercepcin
Tasa de
inflacin
Con
Promedio de
los
cuadrados
Suma de
cuadrados
estos
resultados
valoramos
Var (a)
(31)
SCR
xi2
n 2n
(32)
SCR
Var (b)
n 22
0,00121467
1,01006601
25
Var (a)
0,00030998
0,1583216
La desviacin estndar sx o error tpico en nuestra tabla, es la raz de la varianza,
entonces
a = 0,01760616
Esta es la cifra que aparece enfrente del estimado de la intercepcin en la tabla
Anlisis de varianza. Lo llamamos el error tpico o estndar de la intercepcin.
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Promedio de
los
cuadrados
Suma de
cuadrados
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Error
Coeficientes
Estadstico t Probabilidad
95%
95%
tpico
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244
SCR
n 22
tenemos
21
0,001297316
20
Var (b)
0,00767219
0,104651175
La desviacin estndar del coeficiente de la variable independiente es la raz
cuadrada de la varianza, entonces
b = 0,08759105
Esta es la cifra que aparece enfrente del estimado del coeficiente de la variable
independiente en la tabla Anlisis de varianza. Lo llamamos el error tpico o estndar del
coeficiente de la variable independiente.
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
Promedio de
los
cuadrados
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Error
Coeficientes
Estadstico t Probabilidad
95%
95%
tpico
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244
22
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
1 0,11760917
23 0,02793749
24 0,14554667
Promedio de
los cuadrados
0,11760917
0,00121467
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Error
Probabilidad
95%
95%
Coeficientes
tpico
Estadstico t
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105
9,83990244
Mientras ese valor sea ms grande ser mejor, pero hay que hacer un clculo con la
funcin =DISTR.T(t;grados de libertad;colas) de Excel. Como el coeficiente puede ser
negativo o positivo, le indicamos a la funcin que haga el clculo con dos colas. Los grados
de libertad son n 2 (es decir 20) y el valor de t es el que acabamos de calcular. De modo
que la funcin de Excel se valora como =DISTR.T(9,83990244;23;2). El resultado que
arroja esta funcin es 1,0357E-09 (es decir 1,0357 dividido por 9 millones). Este resultado
mide la probabilidad de que el valor obtenido para t ocurra por azar, dentro de una situacin
en que el verdadero valor de b sea cero y se le conoce como valor p o p-value en ingls.
En nuestro ejemplo esta probabilidad es muy baja y muchsimo menor que los valores
tradicionales para medir la significancia estadstica de una variable. La conclusin de este
anlisis es que no podemos rechazar la hiptesis de que b 0.
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
1 0,11760917
23 0,02793749
24 0,14554667
Promedio de
los cuadrados
0,11760917
0,00121467
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Error
95%
95%
Coeficientes
tpico
Estadstico t Probabilidad
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105
9,83990244
23
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
1 0,11760917
23 0,02793749
24 0,14554667
Promedio de
los cuadrados
0,11760917
0,00121467
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Error
95%
95%
Coeficientes
tpico
Estadstico t Probabilidad
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105
9,83990244
SCR
Promedio de la suma no explicada
k2
donde k1 y k2 son los grados de libertad de cada uno, tendramos para nuestro
ejemplo
0,11760917
1 0,11760917 96,82368
F
0,02793749
0,00121467
23
Este es el valor que aparece en la tabla de Anlisis de varianza como F. Si usamos la
funcin de Excel =DISTR.F(96,82368;1;23) encontramos el valor 1,0357E-09 que mide la
probabilidad de que ese valor ocurra por azar. Si nuestro nivel de significancia estadstica
es de, por ejemplo, 5%, esta prueba es aceptable ya que es mucho menor que 5%.
24
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
1 0,11760917
23 0,02793749
24 0,14554667
Promedio de
los cuadrados
0,11760917
0,00121467
Valor crtico
de F
96,82368 1,0357E-09
Inferior
Superior
Error
Probabilidad
95%
95%
Coeficientes
tpico
Estadstico t
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105
En el caso de una sola variable independiente, este valor es el mismo que se obtiene
para la significancia estadstica de b, el coeficiente de la variable independiente. En nuestro
ejemplo diremos que el modelo es adecuado desde el punto de vista estadstico. Esta prueba
F adquiere mayor sentido cuando trabajamos con regresin lineal mltiple.
Intervalos de confianza
Hemos establecido un valor puntual estimado de a y de b. Nos interesa establecer
un rango de valores posibles entre los cuales se puede encontrar los valores verdaderos de
esos estimados a y b.
Para establecer un intervalo de confianza definimos un nivel de confianza. El valor
tpico o usual es el de 95%. Como hemos establecido un estadstico t de dos colas, entonces
nuestros intervalos de confianza sern
a c(error tpico de a)
y
b c(error tpico de b)
donde c es el percentil correspondiente a 97,5% de la distribucin t con (n nmero
de variables independientes 1) grados de libertad.
En nuestro ejemplo usamos la funcin =DISTR.T.INV(Probabilidad;grados de
libertad) de Excel para hallar c.
c =DISTR.T.INV(0,05;23) = 2,068657599
De manera que nuestro intervalo de confianza al 95% ser
a c(error tpico de a)
0,04102483 2,0686575990,01760616= (0,004603694, 0,077445968)
y
b c(error tpico de b)
0,86188736 2,0686575990,08759105= (0,68069148, 1,04308325)
Estos son los valores que encontramos en nuestra tabla de ANOVA.
25
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Tasa de
inflacin
Suma de
cuadrados
1 0,11760917
23 0,02793749
24 0,14554667
Promedio de
los cuadrados
0,11760917
0,00121467
Valor crtico
de F
96,82368 1,0357E-09
Error
Inferior
Superior
Probabilidad
Coeficientes
tpico
Estadstico t
95%
95%
2,33014103 0,02893318 0,00460372 0,07744594
0,04102483 0,01760616
0,86188736 0,08759105
9,83990244
2
22
24
Suma de
Promedio de
cuadrados los cuadrados
0,12966055 0,064830274
0,01588612 0,000722096
0,14554667
Valor crtico
F
de F
89,7806558 2,61921E-11
Superior
Inferior 95%
95%
4,711378136 14,3425504
-0,00713005 -0,00232847
0,316421642 0,75151859
27
Relaciones espurias
Al inicio de esta nota prevenamos al lector sobre el cuidado que se debe tener de
establecer relaciones lgicas entre variables. El mayor esfuerzo que se debe dedicar al
anlisis de datos es ste. Como ya se vio hay programas como Excel y muchos otros
especializados para hacer lo que algunos llaman el trabajo sucio de los clculos.
A manera de ilustracin vamos a hacer un anlisis de regresin entre dos variable
que no tienen ninguna relacin entre s. El lector creera la aseveracin que mientras ms
crece la poblacin de los Estados Unidos la inflacin en Colombia baja? Con toda
seguridad tildaran de loco a quien hiciera esta afirmacin.
Examinemos algunos datos al respecto en la siguiente tabla:
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
Inflacin
25%
20%
15%
10%
5%
0%
245
250
255
260
265
270
275
280
285
Poblacin USA
Tanto la tabla como la grfica nos indican una relacin estrecha entre las variables.
Ms aun, si hacemos un anlisis de varianza como el ilustrado en esta nota encontramos lo
siguiente:
28
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0,94986527
0,90224403
0,89138226
0,0231768
11
Anlisis de varianza
Grados de
libertad
Regresin
Residuos
Total
Intercepcin
Poblacin
USA en
millones
Suma de
Promedio de
cuadrados los cuadrados
1 0,04462007
0,04462007
9 0,00483448
0,00053716
10 0,04945455
Valor crtico
de F
83,0659923 7,7014E-06
Si nos atenemos a las cifras que resultan del anlisis de varianza deberamos
concluir que a medida que la poblacin en Estados Unidos aumenta, la inflacin en
Colombia disminuye. Podemos ver que los R2 son altos, que los coeficientes a y b son
estadsticamente significativos y que la prueba F nos da ms que satisfactoria. Significa
esto que s hay una relacin entre la variable independiente (poblacin de los Estados
Unidos) y la variable dependiente (inflacin en Colombia)? De ninguna manera. Antes de
hacer un anlisis de regresin es necesario encontrar relaciones causales o razonables o
lgicas entre las variables. No cabe la menor duda que en este ejemplo la variable
independiente no tiene nada que ver con la variable dependiente a pesar de que los
indicadores estadsticos son muy buenos. A esto se le llama relacin espuria.
A manera de conclusin
En esta nota pedaggica hemos explicado paso a paso los diversos procedimientos
para hacer un anlisis de regresin. As mismo, hemos explicado en detalle cmo leer una
tabla ANOVA. Se espera que el lector pueda, con esta gua elaborar modelos de regresin
simple y multivariada y comprender el significado de esos modelos desde el punto de vista
estadstico.
Hay que advertir que este campo de la estadstica pertenece a lo que se conoce como
econometra y el tema es muchsimo ms complejo de lo que se ha presentado en estos
apuntes. Hay pruebas (cuya informacin provee en gran medida Excel) que se deben
realizar para verificar que los supuestos bsicos (ver Apndice) del anlisis de regresin se
cumplen.
El mensaje que deja esta nota es el siguiente: los recursos de cmputo hacen ms
fcil la tarea sucia de calcular indicadores, tablas, etc.; esto deja tiempo para dedicar la
29
30
Apndice
Supuestos que se deben cumplir al hacer anlisis de regresin mltiple
1. Existe linealidad en los parmetros. El modelo se puede representar como un
modelo lineal, como por ejemplo,
Y = a + b1X1 + b2X2, ++ bnXn + e
2. Muestra aleatoria. Se supone que se cuenta con una muestra aleatoria de un universo
para este modelo lineal.
3. La media condicional es 0. Esto significa que el valor esperado (promedio) de los
errores es cero.
4. Colinearidad imperfecta. Ninguna de las variables independientes es constante y no
hay relaciones lineales entre ellas.
5. Homocedasticidad. La varianza del error es la misma para todas las combinaciones
de las variables independientes.
6. Normalidad. El error de la poblacin o universo, , es independiente de las variables
independientes y tiene una distribucin normal.
31
32