Sie sind auf Seite 1von 40

Regresin lineal simple

1.

Introduccin

2. Aspectos Tericos
3. Antecedentes del Problema
4. Desarrollo
5. Hiptesis
6. Interpretacin
7. Conclusin
1. INTRODUCCIN
Si sabemos que existe una relacin entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y
pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados,
etc.), puede darse el problema de que la dependiente asuma mltiples valores para
una combinacin de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemtica y no
necesariamente de causalidad. As, para un mismo nmero de unidades
producidas, pueden existir niveles de costo, que varan empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los
cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin,
en la cual la variable independiente se asocia con un indicador de tendencia central
de la variable dependiente. Cabe recordar que en trminos generales, una funcin
es un tipo de relacin en la cual para cada valor de la variable independiente le
corresponde uno y slo un valor de la variable dependiente.
2. ASPECTOS TERICOS
REGRESIN SIMPLE Y CORRELACIN
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar
para solucionar problemas comunes en los negocios.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar


alguna Relacin Funcional entre dos o ms variables, donde una variable depende
de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en
un modelo de Regresin Simple.
"Y es una funcin de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable
dependiente y cul es la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin de slo una
variable independiente, razn por la cual se le denomina tambin Regresin
Divariada porque slo hay dos variables, una dependiente y otra independiente y se
representa as:
Y = f (X)
"Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin se
le llama REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA
REGRESOR y se le utiliza para EXPLICAR Y.

ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE


En el estudio de la relacin funcional entre dos variables poblacionales, una
variable X, llamada independiente, explicativa o de prediccin y una variable Y,
llamada dependiente o variable respuesta, presenta la siguiente notacin:
Y=a+X+
Donde:

a es el valor de la ordenada donde la lnea de regresin se intercepta


con el eje Y.
es el coeficiente de regresin poblacional (pendiente de la lnea recta)
es el error

SUPOSICIONES DE LA REGRESIN LINEAL


1.

Los valores de la variable independiente X son fijos, medidos sin error.

2.

La variable Y es aleatoria

3.

Para cada valor de X, existe una distribucin normal de valores de Y


(subpoblaciones Y)

4.

Las variancias de las subpoblaciones Y son todas iguales.

5.

Todas las medias de las subpoblaciones de Y estn sobre la recta.

6.

Los valores de Y estn normalmente distribuidos y son estadsticamente


independientes.

ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL


Consiste en determinar los valores de "a" y " " a partir de la muestra, es decir,
encontrar los valores de a y b con los datos observados de la muestra. El mtodo de
estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es

Que se interpreta como:


a es el estimador de
Es el valor estimado de la variable Y cuando la variable X = 0

b es el estimador de , es el coeficiente de regresin


Est expresado en las mismas unidades de Y por cada unidad de X.
Indica el nmero de unidades en que vara Y cuando se produce un
cambio, en una unidad, en X (pendiente de la recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del
decremento en Y por cada unidad de aumento en X.

3. ANTECEDENTES DEL PROBLEMA


Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg)
de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se
observ el peso de una persona seleccionada de entre el grupo con dicha estatura,
resultando:
X

152

50

Con estos datos vamos a plantear una ecuacin de regresin simple que nos
permita pronosticar los pesos conociendo las tallas. Utilizaremos = 0.05, y
contrastaremos nuestra hiptesis con la prueba F.
4. DESARROLLO

Representacin matemtica y grfica de los datos:


Representacin Matemtica
estatura

datos
1
2

3
4
5
6
7
8
9
10
11
12
Representacin Grfica

5. HIPTESIS
HO: No hay relacin entre la variable peso y la variable estatura.
HA: Hay relacin entre la variable peso y la variable estatura.
Tabla de anlisis de varianza
Fuente de
Variacin
Debido a
la regresin
error
total
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y
aceptamos que la variable estatura est relacionada con la variable peso con un
95% de confianza.

De acuerdo al desarrollo matemtico hemos obtenido los siguientes clculos:

Lo que nos permite obtener los coeficientes a y b.


Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 (0.8676) (162.167) = -75.446
6. INTERPRETACIN

La ecuacin de regresin estimada es:

Coeficiente de correlacin: R= 0.9379


Coeficiente de determinacin: R=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio,
por cada centmetro de aumento en la estatura de los hombres adultos.
El valor de a, no tiene interpretacin prctica en el ejemplo, se interpretara como
el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.
Utilizando la ecuacin de regresin para estimar o predecir valores de la variable Y:
Para una talla de 180 se obtiene un peso de 80.7 kg.
Cunto se espera que pese (en promedio) una persona que mide 1.60 m?
Sustituyendo el valor de inters en la ecuacin:

Se obtiene:

7. CONCLUSIN

La ecuacin de Regresin Lineal estimada para las variables estatura y peso


muestran, de acuerdo a la prueba F, relacin.
Esta relacin se ha estimado en un R = 93.7, que indica una fuerte relacin
positiva.
Adems si consideramos el coeficiente de determinacin R = 87.9 podemos
indicar que el 87.9% de las variaciones que ocurren en el peso se explicaran por las
variaciones en la variable estatura.

Regresin y correlacin
1.

Introduccin

2. Marco Terico
3. Desarrollo de un Ejercicio
4. Bibliografa
1.

Introduccin
A continuacin, desarrollare el grado de relacin entre dos o mas variables en
lo que llamaremos anlisis de correlacin, Para representar esta relacin
utilizaremos una representacin grfica llamada diagrama de
dispersin, estudiaremos un modelo matemtico para estimar el valor de
una variable basndonos en el valor de otra, en lo que llamaremos anlisis
de regresin. y, finalmente Desarrollaremos un ejercicio aplicando lo
aprendido, donde utilizaremos datos verdaderos de una empresa de servicios
tursticos.

2.

Marco Terico
A fin de facilitar la comprensin del presente trabajo definiremos algunos
conceptos basicos.
Anlisis de Correlacin .- Es el conjunto de tcnicas estadsticas
empleado para medir la intensidad de la asociacin entre dos variables.
El principal objetivo del anlisis de correlacin consiste en determinar que
tan intensa es la relacin entre dos variables. Normalmente, el primer paso es
mostrar los datos en un diagrama de dispersin.
Diagrama de Dispersin.- es aquel grafico que representa la relacin
entre dos variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya
representacin es "Y"
Variable Independiente.- es la variable que proporciona las bases para el
calculo. Cuya representacin es: X1,X2,X3.......
Coeficiente de Correlacin.- Describe la intensidad de la relacin entre
dos conjuntos de variables de nivel de intervalo. Es la medida de la
intensidad de la relacin lineal entre dos variables.
El valor del coeficiente de correlacin puede tomar valores desde menos uno
hasta uno, indicando que mientras ms cercano a uno sea el valor del
coeficiente de correlacin, en cualquier direccin, ms fuerte ser la

asociacin lineal entre las dos variables. Mientras ms cercano a cero sea el
coeficiente de correlacin indicar que ms dbil es la asociacin entre
ambas variables. Si es igual a cero se concluir que no existe relacin lineal
alguna entre ambas variables.
Anlisis de regresin.- Es la tcnica empleada para desarrollar la
ecuacin y dar las estimaciones.
Ecuacin de Regresin.- es una ecuacin que define la relacin lineal
entre dos variables.
Ecuacin de regresin Lineal: Y = a + Bx
Ecuacin de regresin Lineal Mltiple: Y = a + b1X1 + b2X2 + b3X3...
Principio de Mnimos Cuadrados.- Es la tcnica empleada para obtener
la ecuacin de regresin, minimizando la suma de los cuadrados de las
distancias verticales entre los valores verdaderos de "Y" y los valores
pronosticados "Y".
Anlisis de regresin y Correlacin Mltiple.- consiste en estimar
una variable dependiente, utilizando dos o ms variables independientes.
Ecuacin de regresin Mltiple.- La forma general de la ecuacin de
regresin mltiple con dos variables independientes es:
Y' = a + b1X1 + b2X2
X1,X2 : Variables Independientes
a : es la ordenada del punto de interseccin con el eje Y.
b1 : Coeficiente de Regresin (es la variacin neta en Y por cada unidad de
variacin en X1.).
b2 : Coeficiente de Regresin (es el cambio neto en Y para cada cambio
unitario en X2).
Prueba Global.- esta prueba investiga bsicamente si es posible que todas
las variables independientes tengan coeficientes de regresin neta iguales a
0.

3. Desarrollo de un Caso.
Una agencia de Viajes desea saber la relacin que hay entre las ventas, el

presupuesto destinado a publicidad, y las comisiones de los vendedores para


esto presenta los siguientes datos. Realice los anlisis respectivos.
X1
GASTOS DE PUBLICIDAD

550
590
680
700
750
4.

5.
6.

ANLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad
2.- Comisin de vendedores
Variable dependiente:
- Ventas
:Utilizando el Excel obtenemos los siguientes datos.

7.

De aqu se puede decir:


- De acuerdo al valor del coeficiente de correlacin mltiple, podemos
afirmar que la variable X1 (Gastos de Publicidad) y X2 (Comisin de
vendedores) se encuentran asociadas en forma directa de una manera muy
fuerte con la variable dependiente Ventas, en un 92%.
- De acuerdo al Coeficiente de determinacin R2, podemos decir que el 85%
de las ventas pueden ser explicadas por los gastos de publicidad y las
comisiones de los vendedores.

adrados

9893

107

8000

8.
Coeficient
es

Error
tpico

Intercepci
242459.
n
-289315.16
39
GSTOS
DE
PUBLICID
.
COM. DE
VENDED.

Estadsti Proba
co t
b.

Inf. 95%

Sup.
95%

Inferior
95.0%

Sup.
95.0%

-1.193

0.3551 1332534.4 753904.1 1332534.4 753904.1


3
46
18
46
18

0.0790 323.12759
8
65
2570.108

1123.49

336.22

3.342

-2.27

6.55

-0.346

0.7624
5
30.454002

25.922

-323.128

2570.108

-30.454

25.922

57

9.
De aqu se desprende la ecuacin de regresin mltiple:
Y = - 289315 + 1123 X1 - 2.27 X2
10.
Prueba Global: Verificacin de la validez del modelo de regresin Mltiple.
Formulacin de Hiptesis:
Hp: B1 = B2 = 0
Ha: B1 B2 0
11. Si se acepta la hiptesis planteada, significa que ninguno de los factores
(X1,X2) son relevantes para explicar los cambios en Y.
De acuerdo a la tabla de anlisis de la varianza F calculado es 5.58 y el pvalor es 0.15, de lo cual podemos decir que La hiptesis planteada se
rechaza y se acepta la hiptesis alternativa, por que el F calculado es mayor
que el p-valor.
Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los
coeficientes de regresin, no son iguales a cero y, por o tanto son tiles para
las predicciones. El siguiente paso consiste en probar individualmente las
variables para determinar cuales coeficientes de regresin pueden ser cero y
cuales no.
Del anlisis mediante Excell tenemos el siguiente cuadro.
VENTAS VS GASTOS DE PUBLICIDAD

12.
ANLISISDEVARIANZA
GL

Suma de cuadrados

Prom. de los cuadr.

p-Valor

Regresin

33280114360

33280114360

15.6350

0.028865932

Residuos

6385693640

2128564547

Total

39665808000

13.
Coeficiente
s

Error
tpico

Estadst Probab
.t
.
Inf. 95% Sup. 95% Inf. 95% Sup. 95%

Intercepcin

324444.42 185054.6
913371.4 264482.5 913371.4 264482.5
8
4 -1.7532 0.1778
3
8
3
8

GASTOS
DE
PUBLICIDA
D

1111.8722

281.1938
9

3.9541 0.0289 216.9869

2006.757
2006.757
5 216.9869
5

14. VENTAS VS COMISIN DE VENDEDORES


Estadsticas de la regresin
Coeficiente de correlacin mltiple

0.003317293

Coeficiente de determinacin R^2

1.10044E-05

R^2 ajustado

-0.333318661

Error tpico

114986.0448

Observaciones

15.

Prom. de los cuadrados

436499.6307

13221790500

16.

.t

Probabilidad

1.539191605

0.22138434

-0.00574575

0.9957763

17.
De acuerdo a los cuadros podemos decir:
- La variable que mas relacin tiene con las Variable Dependiente es decir las ventas
18. es la variable Gastos de Publicidad ya que su R2 "Coeficiente de determinacin" es
19. 79%.
- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene
20. relacin relevante con las Ventas ya que su Coeficiente de determinacin es casi
21. nulo 0.001% .

22.
23.

Bibliografa.

a) LIND, Douglas y MARCHAL, William y MASON, Robert. Estadstica para


administracin y economia. Alfaomega. Colombia 11ava edicin. 2004 Cap.13 y 14
b) CORDOVA, Jorge Herramientas Estadsticas para la Gestin en Salud. JC
ediciones. Versin electrnica (formato CD) Mayo 2003.
c) HILDEBRAND, David y OTT, Lyman. Estadstica Aplicada a la administracin y
a la economia. Adidison wesley Iberoamericana sa. 1997. Cap. 13,14 y 15.

Regresin lineal

Ejemplo de una regresin lineal con una variable dependiente y una variable
independiente.

En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la


relacin entre una variable dependiente Y, las variables independientes Xi y un trmino
aleatorio . Este modelo puede ser expresado como:

donde 0 es la interseccin o trmino "constante", las i son los parmetros respectivos a


cada variable independiente, y p es el nmero de parmetros independientes a tener en
cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal.

Contenido

1 Historia
o

1.1 Etimologa

2 El modelo de regresin lineal

3 Supuestos del modelo de regresin lineal

4 Tipos de modelos de regresin lineal


o

4.1 Regresin lineal simple

4.1.1 Anlisis

4.2 Regresin lineal mltiple

5 Rectas de regresin

6 Aplicaciones de la regresin lineal


o

6.1 Lneas de tendencia

6.2 Medicina

7 Vase tambin

8 Referencias
o

8.1 Fuentes adicionales

9 Enlaces externos

Historia
La primer forma de regresiones lineales documentada fue el mtodo de los mnimos
cuadrados, el cual fue publicado por Legendre en 1805,[1] y por Gauss en 1809.[2] El trmino
"mnimos cuadrados" proviene de la descripcin dada por Legendre "moindres carrs". Sin
embargo Gauss asegur que conoca dicho mtodo desde 1795.
Tanto Legendre como Gauss aplicaron el mtodo para determinar, a partir de observaciones
astronmicas, las rbitas de cuerpos alrededor del sol. En 1821, Gauss public un trabajo
en dnde desarrollaba de manera ms profunda el mtodo de los mnimos cuadrados,[3] y en
dnde se inclua una versin del teorema de Gauss-Mrkov.

Etimologa [editar]

El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas:


al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una
estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos
padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir,
"regresaban" al promedio.[4] La constatacin emprica de esta propiedad se vio reforzada
ms tarde con la justificacin terica de ese fenmeno.
El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que
emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales
son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico
por parte de la matemtica y la estadstica mucho ms extenso.

El modelo de regresin lineal


El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k =
1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros k
desconocidos:
(2)
donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no
controlables u observables y que por tanto se asocian con el azar, y es la que confiere al
modelo su carcter estocstico. En el caso ms sencillo de dos variables explicativas, el
hiperplano es una recta:
(3)
El problema de la regresin consiste en elegir unos valores determinados para los
parmetros desconocidos k, de modo que la ecuacin quede completamente especificada.
Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima
(i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las
variables explicativas (las perturbaciones aleatorias se suponen no observables).
(4)
Los valores escogidos como estimadores de los parmetros, , son los coeficientes de
regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso
generador. Por tanto, en

(5)
Los valores

son por su parte estimaciones de la perturbacin aleatoria o errores.

Supuestos del modelo de regresin lineal


Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los
siguientes supuestos:[5]
1. La relacin entre las variables es lineal.
2. Los errores son independientes.
3. Los errores tienen varianza constante.
4. Los errores tienen una esperanza matemtica igual a cero.
5. El error total es la suma de todos los errores.

Tipos de modelos de regresin lineal


Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros:
Regresin lineal simple

Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son
de la forma:[6]
(6)
donde

es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que
(media cero, varianza constante e igual a un y

con

).

Anlisis

Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y,
se obtiene:[7]
(7)
(8)
Calculando

. Para esto se buscan dichos parmetros que minimicen

Derivando respecto a

e igualando a cero, se obtiene:[7]

(9)

(10)
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente
solucin para ambos parmetros:[6]

(11)

(12)
Regresin lineal mltiple [editar]

Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la


forma:[8]
(13)
donde
que

es el error asociado a la medicin i del valor Xip y siguen los supuestos de modo
(media cero, varianza constante e igual a un y

con

Rectas de regresin [editar]


Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin
llamado diagrama de dispersin) generada por una distribucin binomial.
Matemticamente, son posibles dos rectas de mximo ajuste:[9]

La recta de regresin de Y sobre X:

(14)

La recta de regresin de X sobre Y:

).

(15)
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a
1, el ajuste ser bueno; si r es cercano o igual a 0, se tratar de un ajuste malo. Ambas
rectas de regresin se intersectan en un punto llamado centro de gravedad de la
distribucin.

3.12.4 Regresin lineal


La forma de la funcin f en principio podra ser arbitraria, y tal vez se tenga que la relacin
ms exacta entre las variables peso y altura definidas anteriormente sea algo de la forma3.1

Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues
nos vamos a limitar al caso de la regresin lineal. Con este tipo de regresiones nos
conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos
cantidades a y b tales que se pueda escribir

con el menor error posible entre

de forma que

e Y, o bien

sea una variable que toma valores prximos a cero.

3.12.4.1 Observacin
Obsrvese que la relacin 3.12 explica cosas como que si X vara en 1 unidad,
vara la cantidad b. Por tanto:

Si b>0, las dos variables aumentan o disminuyen a la vez;

Si b<0, cuando una variable aumenta, la otra disminuye.

Por tanto, en el caso de las variables peso y altura lo lgico ser encontrar que b>0.

El problema que se plantea es entonces el de cmo calcular las cantidades a y b a partir de


un conjunto de n observaciones

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a
desarrollar son de forma esquemtica, las que siguen:
1.
Dadas dos variables X, Y, sobre las que definimos

medimos el error que se comete al aproximar Y mediante calculando la suma de


las diferencias entre los valores reales y los aproximados al cuadrado (para que sean
positivas y no se compensen los errores):

2.

Una aproximacin
de Y, se define a partir de dos cantidades
a y b. Vamos a calcular aquellas que minimizan la funcin

3.
Posteriormente encontraremos frmulas para el clculo directo de a y b
que sirvan para cualquier problema.
3.12.4.2 Regresin de Y sobre X

Para calcular la recta de regresin de Y sobre X nos basamos en la figura 3.9.

Figura: Los errores a minimizar son las


cantidades

Una vez que tenemos definido el error de aproximacin mediante la relacin (3.13) las
cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero
(procedimiento de los mnimos cuadrados):

La relacin (3.15), no es ms que otra manera de escribir la relacin (3.14), que se


denomina ecuaciones normales. La primera de (3.14) se escribe como

Sustituyendo se tiene que

Lo que nos da las relaciones buscadas:

La cantidad b se denomina coeficiente de regresin de Ysobre X.


3.12.4.3 Regresin de X sobre Y

Las mismas conclusiones se sacan cuando intentamos hacer la regresin de X sobre Y, pero
atencin!: Para calcular la recta de regresin de X sobre Y es totalmente incorrecto despejar
de

Pues esto nos da la regresin de X sobre


sobre Y se hace aproximando X por

donde

, que no es lo que buscamos. La regresin de X

, del modo

pues de este modo se minimiza, en el sentido de los mnimos cuadrados, los


errores entre las cantidades xi y las

(figura 3.10.)

Figura: Los errores a minimizar son las


cantidades

3.12.4.4 Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas
antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes
estadsticos:

Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando


este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solucin:

Lo que se busca es la recta,


, que mejor aproxima los valores de Y (segn el
criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un
plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:

As, el modelo lineal consiste en:

Por tanto, si x=15, el modelo lineal predice un valor de Y de:

En este punto hay que preguntarse si realmente esta prediccin puede considerarse fiable.
Para dar una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a
continuacin.
3.12.4.5 Propiedades de la regresin lineal
Una vez que ya tenemos perfectamente definida , (o bien
) nos
preguntamos las relaciones que hay entre la media y la varianza de esta y la
de Y (o la de X). La respuesta nos la ofrece la siguiente proposicin:
3.12.4.6 Proposicin
En los ajustes lineales se conservan las medias, es decir

En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de
las variables X e Y y sus aproximaciones
es decir,

, pues slo se mantienen en un factor de r2,

Demostracin
Basta probar nuestra afirmacin para la variable Y, ya que para X es
totalmente anlogo:

donde se ha utilizado la magnitud que denominamos coeficiente de correlacin, r, y que ya


definimos anteriormente como

3.12.4.7 Observacin
Como consecuencia de este resultado, podemos decir que la proporcin de
varianza explicada por la regresin lineal es del

Nos gustara tener que r=1, pues en ese caso ambas variables tendran la misma varianza,
pero esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que

y por tanto

La cantidad que le falta a la varianza de regresin,


de Y,

, para llegar hasta la varianza total

, es lo que se denomina varianza residual, que no es ms que la varianza de


, ya que

El tercer sumando se anula segn las ecuaciones normales expresadas en la relacin (3.15):

Por ello

Obsrvese que entonces la bondad del ajuste es

Para el ajuste contrario se define el error como


tambin proporcional a 1-r2:

, y su varianza residual es

y el coeficiente de determinacin (que sirve para determinar la bondad del ajuste de X en


funcin de Y) vale:

lo que resumimos en la siguiente proposicin:


3.12.4.8 Proposicin
Para los ajustes de tipo lineal se tiene que los dos coeficientes de
determinacin son iguales a r2, y por tanto representan adems la proporcin
de varianza explicada por la regresin lineal:

Por ello:

Si
el ajuste es bueno (Y se puede calcular de modo bastante
aproximado a partir de X y viceversa).

Si
las variables X e Y no estn relacionadas (linealmente al
menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo
no es seguro que las dos variables no posean ninguna relacin en el caso
r=0, ya que si bien el ajuste lineal puede no ser procentente, tal vez otro
tipo de ajuste s lo sea.

3.12.4.9 Ejemplo
De una muestra de ocho observaciones conjuntas de valores de dos variables
X e Y, se obtiene la siguiente informacin:

Calcule:
1.
La recta de regresin de Y sobre X. Explique el significado de los
parmetros.

2.
El coeficiente de determinacin. Comente el resultado e indique el tanto
por ciento de la variacin de Y que no est explicada por el modelo lineal
de regresin.
3.
Si el modelo es adecuado, cul es la prediccin

para x=4.

Solucin:
1.
En primer lugar calculamos las medias y las covarianza entre ambas
variables:

Con estas cantidades podemos determinar los parmetros a y b de la recta. La


pendiente de la misma es b, y mide la variacin de Ycuando X aumenta en una
unidad:

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es


decir, a medida que X aumenta, la tendencia es a la disminucin de Y. En cuanto al
valor de la ordenada en el origen, a, tenemos:

As, la recta de regresin de Y como funcin de X es:

2.
El grado de bondad del ajuste lo obtenemos a partir del coeficiente de
determinacin:

Es decir, el modelo de regresin lineal explica el


funcin de la de X. Por tanto queda un

de la variabilidad de Y en

de variabilidad no explicada.

3.
La prediccin que realiza el modelo lineal de regresin para x=4 es:

la cual hay que considerar con ciertas reservas, pues como hemos visto en el
apartado anterior,hay una razonable cantidad de variabilidad que no es explicada
por el modelo.

3.12.4.10 Ejemplo
En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y
edad, obtenindose los siguientes resultados:
Resultado de las mediciones
edad

12

10

11

10

14

peso

58

42

51

54

40

39

49

56

Existe una relacin lineal importante entre ambas variables? Calcular la recta de regresin
de la edad en funcin del peso y la del peso en funcin de la edad. Calcular la bondad del
ajuste En qu medida, por trmino medio, vara el peso cada ao? En cunto aumenta la
edad por cada kilo de peso?
Solucin:
Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de
correlacin lineal, que vale:

ya que

Por tanto el ajuste lineal es muy bueno. Se puede decir que el ngulo entre el vector
formado por las desviaciones del peso con respecto a su valor medio y el de la edad con
respecto a su valor medio, , es:

es decir, entre esos vectores hay un buen grado de paralelismo (slo unos 19 grados de
desviacin).
La recta de regresin del peso en funcin de la edad es

La recta de regresin de la edad como funcin del peso es

que como se puede comprobar, no resulta de despejar en la recta de regresin de Y sobre X.


La bondad del ajuste es

por tanto podemos decir que el


de la variabilidad del peso en funcin de la edad es
explicada mediante la recta de regresin correspondiente. Lo mismo podemos decir en
cuanto a la variabilidad de la edad en funcin del peso. Del mismo modo puede decirse que
hay un
de varianza que no es explicada por las rectas de
regresin. Por tanto la varianza residual de la regresin del peso en funcin de la edad es

y la de la edad en funcin del peso:

Por ltimo la cantidad en que vara el peso de un paciente cada ao es, segn la recta de
regresin del peso en funcin de la edad, la pendiente de esta recta, es decir, b1=2,8367
Kg/ao. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre
ambas se rige por la cantidad b2=0,3136 aos/Kg de diferencia.

Das könnte Ihnen auch gefallen