Sie sind auf Seite 1von 36

REGRESIÓN LINEAL SIMPLE

• Regresión: conjunto de técnicas que son usadas para


establecer una relación entre una variable cuantitativa
llamada variable dependiente y una o más variables
independientes, llamadas predictoras. Estas tambien
deberian ser cuantitativas, sin embargo algunas de
ellas podrian ser cualitativas.

• Modelo de regresión. Ecuación que representa la


relación entre las variables. Para estimar la ecuación del
modelo se debe tener una muestra de entrenamiento.
Usos del modelo de regresión

a) Predicción
b) Descripción
c) Control
d) Selección de variables
El modelo de Regresión Lineal simple
Y = α + βX + ε
Considerando la muestra (xi, yi) para i=1,…n

Yi = α + βX i+ei
• Suposiciones del modelo:
La variable X es no aleatoria.
Los errores ei son variables aleatorias con media 0 y varianza
constante σ2.
Los errores ei y e j (i≠j=1…,n) son independientes entre si.
β: expresa la magnitud
del cambio de y por
cada unidad de x
E(y|x)
E(y|x)=α+βx

∆E(y|x)
∆x
α{
Constante X
Parámetro de
intercepción ∆E(y|x)
β= Es la pendiente
∆x Parámetro de pendiente
Estimación de la línea de regresión usando
Mínimos Cuadrados

Se debe Minimizar

Q(α, β ) = ∑
n n

∑(y − α − β
2 2
e i = i xi )
i =1
i =1

Derivando se obtiene las ecuaciones normales,


cuya solucion produce
n n n S
n∑xi yi − ∑xi ∑ yi βˆ =
xy

equivalentemente S
β̂ = i =1
n
i =1
n
i =1 xx

n∑xi2 − (∑xi )2
i =1 i=1 αˆ = y − βˆx
(RRP)
y E(y) = α + βx
y4 .
e4 {
(RRM)
y3 .}e3 y = b0 + b1x
y2 e2 {.

y1 }
. e1
x
x1 x2 x3 x4
Interpretación de los coeficientes de regresión
estimados
)
La pendiente β indica el cambio promedio en la variable de
respuesta cuando la variable predictora aumenta en una unidad
adicional.
)
El intercepto α indica el valor promedio de la variable de
respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretación práctica si es irrazonable pensar que el
rango de valores de x incluye a cero.
Propiedades de los estimadores mínimos cuadráticos
de regresión
) )
a) β es un estimador insegado de β. Es decir, E( β )=β

b) α) es un estimador insegado de α. Es decir, E( α) )=α

) σ2 ) 1 x2
c) La varianza de β es y la de α es σ ( +
2
)
Sxx n Sxx
Propiedades de los residuales

Los residuales son las desviaciones de los valores


observados de la variables de respuesta con respecto
a la línea de regresión.
n
a) La suma de los residuales es 0. Es decir, ∑ ei = 0
i =1
n
b) ∑e x
i =1
i i =0

n
)
c) ∑ ei yi = 0
i =1
Estimación de la varianza del error

• Un estimador insesgado de σ 2 es:


n n
) 2
∑ i i)
( y − y ∑e 2
i
s2 = i =1
= i =1
n−2 n−2

s 2 es tambien llamado el cuadrado medio del error


(CME)
Descomposición de la suma de cuadrados total

La desviacion de un valor observado con respecto a


la media se puede escribir como:
) )
( yi − y ) = ( yi − yi ) + ( yi − y )

∑ ( yi − y ) 2 =
n n
) )
i =1
∑ ( yi − yi ) 2 +
i =1
∑(y
i =1
i − y)2

SCT = SCE + SCR

Se puede deducir que


n
SCR = β̂ 2
∑ i
( x
i =1
− x ) 2
El Coeficiente de Determinación

Es una medida de la bondad de ajuste del modelo


SCR
R2 =
SCT

2
Un modelo de regresión con R mayor o igual a 75% se puede
considerar bastante aceptable.

2
Nota: El valor de R es afectado por la presencia de valores
anormales.
Distribución de los estimadores mínimos
cuadráticos
Para efecto de hacer inferencia en regresión, se requiere asumir
que los errores ei , se distribuyen en forma normal e
independientemente con media 0 y varianza constante σ . En
2

consecuencia, también las yi ' s se distribuyen normalmente con


media α + βxi y varianza σ .
2

Se puede establecer que:

σ2 1 x2 2
β ~ N(β , )
ˆ αˆ ~ N (α , ( + )σ )
Sxx n S xx
Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:

SCT
i) ~ χ '(2n −1) (Chi-Cuadrado no central con n-1 g.l)
σ 2

SCE (n − 2) s 2
ii) ~χ 2
( n−2) Equivalentemente ~ χ (2n − 2 )
σ 2
σ2

SCR
iii) ~ χ '(21) (Chi-Cuadrado no central con 1 g.l)
σ 2

Podemos mostrar que:

E ( SCR ) = E ( βˆ 2 S xx ) = σ 2 + β 2 S xx
Inferencia en Regresion Lineal Simple

• Pruebas de hipótesis e intervalos de confianza acerca de los


coeficientes de regresión del modelo de regresión
poblacional.

• Intervalos de confianza para un valor predicho y para el valor


medio de la variable de respuesta
Inferencia acerca de la pendiente y el
intercepto usando la prueba t.
La pendiente de regresión se distribuye como una normal con
media β y varianza σ 2

Sxx

Un intervalo de confianza del 100(1-α)% para la pendiente


poblacional β es de la forma:
) s ) s
( β − t( n − 2,1−α / 2 ) , β + t( n − 2,1−α / 2 ) )
Sxx Sxx

El nivel de significación α, varía entre 0 y 1.


Intervalo de confianza para el intercepto α

Un intervalo de confianza del 100(1-α)% para el intercepto α de


la linea de regresión poblacional es de la forma:

) 1 x2 ) 1 x2
(α − t( n − 2,1−α / 2 ) s + , α + t( n − 2,1−α / 2) s + )
n Sxx n Sxx
Tres Posibles Poblaciones

Y Y Y

X X X
β=0 β>0 β 1< 0
A B C
Pruebas de hipótesis para la pendiente β
(asuminendo que su valor es β* )
Caso I Caso II Caso III
Ho: β=β* Ho: β=β* Ho: β=β*
Ha: β<β* Ha: β≠β* Ha: β>β*

Prueba Estadística )
β −β*
t= ~ t( n − 2)
s
Sxx
Regla de Decisión
Rechazar Ho, Rechazar Ho Rechazar Ho
si tcal<-t(1-α,n-2) si |tcal |>t(1-α/2,n-2) si tcal>t(1-α,n-2)
*Un “P-value” cercano a cero, sugiriría rechazar la hipótesis nula.
El análisis de varianza para regresión lineal
simple
El análisis de varianza para regresión consiste en descomponer
la variación total de la variable de respuesta en varias partes
llamadas fuentes de variación.

La división de la suma de cuadrados por sus grados de libertad


es llamada cuadrado medio.
Así se tienen tres cuadrados medios.
Cuadrado Medio de Regresión=CMR=SCR/1
Cuadrado Medio del Error= CME=SCE/(n-2)
Tabla de Análisis de Varianza
________________________________________________________________
Fuente de Variación g.l. Sumas de Cuadrados Cuadrados Medios F
________________________________________________________________
Debido a
la Regresion 1 SCR CMR=SCR/1 CMR
Error n-2 SCE CME=SCE/(n-2) CME
Total n-1 SCT
________________________________________________________________

Se rechazaría la hipótesis nula Ho:β=0 si el “P-value” de la


prueba de F es menor de 0.05
Intervalo de confianza para el valor medio de la
variable de respuesta e Intervalo de Predicción

Queremos predecir el valor medio de las Y para un valor x0 de


la variable predictora x.
E (Y / x = x0 ) = α + β x0

Como y se distribuyen normalmente, entonces también se


distribuye normalmente con media y varianza igual a:

1 ( x − x ) 2
Var (Yˆ0 ) = σ 2 ( + 0 )
n Sxx
Intervalo de confianza para el valor medio
Un intervalo de confianza del 100(1-α )% para el valor medio
de las y’s dado que x=x0 es de la forma:

1 ( x − x ) 2
αˆ + βˆx0 ± t(1−α / 2,n − 2 ) s + 0
n Sxx

intervalo de predicción para un valor individual de Y dado x=x0


es de la forma
1 ( x0 − x ) 2
αˆ + β x0 ± t(1−α / 2,n − 2 ) s 1 + +
ˆ
n Sxx
El Coeficiente de Correlación
Mide el grado de asociación lineal entre las variables X y Y y se
define como:
Cov( X , Y )
ρ=
σ xσ y
a) − 1 ≤ ρ ≤ 1
b) La media condicional de Y dado X es E(Y / X ) = α + β x ,
σy
donde: β = ρ y α = µ y − βµ x
σx
c) La varianza condicional de las Y dado X, está dado por
σ y2 / x = σ y2 (1 − ρ 2 )
Si ρ = ±1 entonces σ y2 / x = 0 (perfecta relación lineal).
Coeficiente de correlación muestral
Considerando una muestra de n pares (xi,yi)
Sxy
r =
SxxSyy
Notar que:
)2
) Sxx β Sxx SCR
r=β r2 = =
Syy Syy SCT
El cuadrado del coeficiente de correlación es igual al coeficiente
de determinación.
Modelos No Lineales y Transformaciones
En el análisis de regresión generalmente el punto de partida es
considerar que la relación entre la variable respuesta X y la variable
Y es lineal. Algunas veces esta relación lineal es inadecuada. Esta
no linealidad se puede detectar por medio de:
•La Prueba de Falta de Ajuste
•El Diagrama de Dispersión
•Los Gráficos de Residuales
También se puede presentar que si la varianza no es constante, los
residuos no son normales, etc. A continuación se presenta una
situación en la cual no se presenta la homogeneidad de varianzas. En
otros casos como el de la situación se conoce que la relación funcional
entre la variable respuesta Y y la variable regresora X es
fácil conocer la transformación, pero cuando no se conoce esta relación
se pueden utilizar métodos más avanzados para determinar el tipo de
transformación a ejecutar. En otros casos existen muchos modelos o
funciones que no pueden ser llevadas a formas lineales como por
ejemplo
Ejemplo de un modelo No lineal
Los siguientes datos presentan el número promedio
de bacterias sobrevivientes dentro de un alimento
a
enlatado y los minutos de exposición al calor

bacterias tiempo
1 175 1
2 108 2
3 95 3
4 82 4
5 71 5
6 50 6
7 49 7
8 31 8
9 28 9
10 17 10
11 16 11 Resumen del modelo
12 11 12 R cuadrado Error típ. de la
Total N 12 12 Modelo R R cuadrado corregida estimación
a. Limitado a los primeros 100 casos. 1 ,932a ,869 ,856 18,298
a. Variables predictoras: (Constante), tiempo

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 22268,813 1 22268,813 66,512 ,000a
Residual 3348,104 10 334,810
Total 25616,917 11
a. Variables predictoras: (Constante), tiempo
Coeficientesa
b. Variable dependiente: bacterias
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 142,197 11,262 12,627 ,000
tiempo -12,479 1,530 -,932 -8,155 ,000
a. Variable dependiente: bacterias
Análisis de los residuos

Prueba de la Normalidad Prueba de Homogenidad de Varianzas

Al tratar de chequear la normalidad Ahora al chequear la homogeneidad de


de los errores por medio del gráfico varianza gráficamente por medio de la
de probabilidad normal de la figura figura (errores y tiempo), se observa que
.Según este gráfico se observa que este supuesto no se cumple debido al
este supuesto parece no cumplirse patrón curvilíneo que presenta el gráfico.
como lo

Lo anterior nos permite concluir que el modelo lineal


no es adecuado para ajustar los datos. En este caso
se debe transformar la variable respuesta.
¿Cómo transformarla?

En esta situación es fácil conocer la


transformación ya que los datos representan el
crecimiento de las bacterias en el tiempo, para
el cual se conoce que el número de bacterias en
el tiempo t , , se modela como

• donde n0es el número inicial de bacterias y .


• Tomando logaritmo natural a ambos lados se
tiene
¿Cómo se distribuye el error?

Es de observar que el modelo original (1)no tiene errores aditivos ya


queε se encuentra multiplicando. Así un ajuste de (2), es apropiado
solamente si creemos que el modelo (1) es el adecuado. La
transformación de nt(Y) en lnnt(Y) ha alterado la estructura del error de
multiplicativo a aditivo. Si nosotros realmente creemos que los errores
son aditivos y que
nosotros no podríamos tomar logaritmos y utilizar el método de mínimos
cuadrado. Se tendría que usar métodos de estimación no lineal. El
modelo (4) se dice que es intrínsicamente no lineal, mientras que el
modelo (1)es intrínsicamente lineal.
De lo anterior se concluye que para analizar los datos del ejemplo, se
debe transformar la variable como se muestra en la tabla:
Diagrama de dispersión del Resumen del modelob

logaritmo del número de bacterias R cuadrado Error típ. de la


sobrevientes a través del tiempo Modelo R R cuadrado corregida estimación
1 ,991a ,982 ,980 ,12039
a. Variables predictoras: (Constante), tiempo
b. Variable dependiente: LnY

a
Coeficientes

Coeficientes
Coeficientes no standarizad
estandarizados os
Model B Error típ. Beta t Sig.
1 (Constan 5,339 ,074 72,054 ,000
tiempo -,236 ,010 -,991 -23,459 ,000
a.Variable dependiente: LnY
¿Cómo interpretar el parámetro estimado ?
En general, un parámetro en un modelo sometido a tranformación
logaritmica representa el porcentaje esperado de incremento (o
decremento) de la variable dependiente para un incremento unitario
de la variable independiente. El porcentaje de cambio se calcula
obteniendo el antilogaritmo de y restandole 1.
Explicación (esconder)
De la expresión se tiene que el valor estimado de la respuesta
para un valor dado de es . Ahora el cambio porcentual es
dado por

donde es el valor estimado de la respuesta para un tiempo


dado por decir ,y es el valor de la respuesta cuando
. Así el porcentaje de cambio es:
Regresión Cuadrática
Un modelo cuadrático es de la forma:

Y = a + bX + cX 2 + ε

donde a, b y c son constantes a estimar. Usando la técnica de


mínimos cuadrados se pueden obtener fórmulas explícitas para
calcular a, b y c.

En SPSS para obtener la ecuación del modelo cuadrático,


hay que elegir la opción Regresion/ curva en la ventana de
diálogo de
Ejemplo
Case Summariesa

Valor Tamaño de la
Agregado por tienda ( miles
hora-hombre de pies
Tienda ($) cuadrados)
1 1 4,0 21,0
2 2 3,4 12,0
3 3 3,5 25,2
4 4 3,1 10,4
5 5 2,9 30,9
6 6 1,9 6,8
7 7 4,1 19,6
8 8 3,2 14,5
9 9 3,8 25,0
10 10 3,6 19,1
Total N 10 10 10
a. Limitado a los primeros 100 casos.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Valor Agregado por hora-hombre ($)


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Cuadrático ,883 26,438 2 7 ,001 -,120 ,387 -,009
La variable independiente esTamaño de la tienda ( miles de pies cuadrados).
Modelos No lineales que pueden ser
transformados en lineales
La segunda alternativa para aumentar el R2 consiste en usar modelos no
lineales que pueden ser convertidos en lineales, a través de transformaciones
tanto de la variable independiente como dependiente.

Nombre del modelo Ecuación del Modelo Transformación Modelo Linealizado

Exponencial Y=αeβX Z=Ln Y X=X Z=Ln α +βX


Logarítmico Y= α +βLog X Y=Y W=Log X Y= α +βW
Doblemente Logarítmico Y=αXβ Z=Log Y W=Log X Z= Log α +βW

Hiperbólico Y= α +β/X Y=Y W=1/X Y= α +βW


Inverso Y=1/(α +βX) Z=1/Y X=X Z=α +βX

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la


inversa de la transformación correspondiente al mismo.

Das könnte Ihnen auch gefallen