Regresón Lineal Simple

REGRESIÓN LINEAL SIMPLE
• Regresión: conjunto de técnicas que son usadas para

establecer una relación entre una variable cuantitativa
llamada variable dependiente y una o más variables
independientes, llamadas predictoras. Estas tambien
deberian ser cuantitativas, sin embargo algunas de
ellas podrian ser cualitativas.
• Modelo de regresión. Ecuación que representa la

relación entre las variables. Para estimar la ecuación del
modelo se debe tener una muestra de entrenamiento.
Usos del modelo de regresión
a) Predicción
b) Descripción
c) Control
d) Selección de variables
El modelo de Regresión Lineal simple
Y = α + βX + ε
Considerando la muestra (xi, yi) para i=1,…n
Yi = α + βX i+ei
• Suposiciones del modelo:
La variable X es no aleatoria.
Los errores ei son variables aleatorias con media 0 y varianza
constante σ2.
Los errores ei y e j (i≠j=1…,n) son independientes entre si.
β: expresa la magnitud
del cambio de y por
cada unidad de x
E(y|x)
E(y|x)=α+βx
∆E(y|x)
∆x
α{
Constante X
Parámetro de
intercepción ∆E(y|x)
β= Es la pendiente
∆x Parámetro de pendiente
Estimación de la línea de regresión usando
Mínimos Cuadrados
Se debe Minimizar
Q(α, β ) = ∑
n n
∑(y − α − β
2 2
e i = i xi )
i =1
i =1
Derivando se obtiene las ecuaciones normales,

cuya solucion produce
n n n S
n∑xi yi − ∑xi ∑ yi βˆ =
xy
equivalentemente S
β̂ = i =1
n
i =1
n
i =1 xx
n∑xi2 − (∑xi )2
i =1 i=1 αˆ = y − βˆx
(RRP)
y E(y) = α + βx
y4 .
e4 {
(RRM)
y3 .}e3 y = b0 + b1x
y2 e2 {.
y1 }
. e1
x
x1 x2 x3 x4
Interpretación de los coeficientes de regresión
estimados
)
La pendiente β indica el cambio promedio en la variable de
respuesta cuando la variable predictora aumenta en una unidad
adicional.
)
El intercepto α indica el valor promedio de la variable de
respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretación práctica si es irrazonable pensar que el
rango de valores de x incluye a cero.
Propiedades de los estimadores mínimos cuadráticos
de regresión
) )
a) β es un estimador insegado de β. Es decir, E( β )=β
b) α) es un estimador insegado de α. Es decir, E( α) )=α
) σ2 ) 1 x2
c) La varianza de β es y la de α es σ ( +
2
)
Sxx n Sxx
Propiedades de los residuales
Los residuales son las desviaciones de los valores

observados de la variables de respuesta con respecto
a la línea de regresión.
n
a) La suma de los residuales es 0. Es decir, ∑ ei = 0
i =1
n
b) ∑e x
i =1
i i =0
n
)
c) ∑ ei yi = 0
i =1
Estimación de la varianza del error
• Un estimador insesgado de σ 2 es:

n n
) 2
∑ i i)
( y − y ∑e 2
i
s2 = i =1
= i =1
n−2 n−2
s 2 es tambien llamado el cuadrado medio del error

(CME)
Descomposición de la suma de cuadrados total
La desviacion de un valor observado con respecto a

la media se puede escribir como:
) )
( yi − y ) = ( yi − yi ) + ( yi − y )
∑ ( yi − y ) 2 =
n n
) )
i =1
∑ ( yi − yi ) 2 +
i =1
∑(y
i =1
i − y)2
SCT = SCE + SCR
Se puede deducir que

n
SCR = β̂ 2
∑ i
( x
i =1
− x ) 2
El Coeficiente de Determinación
Es una medida de la bondad de ajuste del modelo

SCR
R2 =
SCT
2
Un modelo de regresión con R mayor o igual a 75% se puede
considerar bastante aceptable.
2
Nota: El valor de R es afectado por la presencia de valores
anormales.
Distribución de los estimadores mínimos
cuadráticos
Para efecto de hacer inferencia en regresión, se requiere asumir
que los errores ei , se distribuyen en forma normal e
independientemente con media 0 y varianza constante σ . En
2
consecuencia, también las yi ' s se distribuyen normalmente con

media α + βxi y varianza σ .
2
Se puede establecer que:
σ2 1 x2 2
β ~ N(β , )
ˆ αˆ ~ N (α , ( + )σ )
Sxx n S xx
Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:
SCT
i) ~ χ '(2n −1) (Chi-Cuadrado no central con n-1 g.l)
σ 2
SCE (n − 2) s 2
ii) ~χ 2
( n−2) Equivalentemente ~ χ (2n − 2 )
σ 2
σ2
SCR
iii) ~ χ '(21) (Chi-Cuadrado no central con 1 g.l)
σ 2
Podemos mostrar que:
E ( SCR ) = E ( βˆ 2 S xx ) = σ 2 + β 2 S xx
Inferencia en Regresion Lineal Simple
• Pruebas de hipótesis e intervalos de confianza acerca de los

coeficientes de regresión del modelo de regresión
poblacional.
• Intervalos de confianza para un valor predicho y para el valor

medio de la variable de respuesta
Inferencia acerca de la pendiente y el
intercepto usando la prueba t.
La pendiente de regresión se distribuye como una normal con
media β y varianza σ 2
Sxx
Un intervalo de confianza del 100(1-α)% para la pendiente

poblacional β es de la forma:
) s ) s
( β − t( n − 2,1−α / 2 ) , β + t( n − 2,1−α / 2 ) )
Sxx Sxx
El nivel de significación α, varía entre 0 y 1.

Intervalo de confianza para el intercepto α
Un intervalo de confianza del 100(1-α)% para el intercepto α de

la linea de regresión poblacional es de la forma:
) 1 x2 ) 1 x2
(α − t( n − 2,1−α / 2 ) s + , α + t( n − 2,1−α / 2) s + )
n Sxx n Sxx
Tres Posibles Poblaciones
Y Y Y
X X X
β=0 β>0 β 1< 0
A B C
Pruebas de hipótesis para la pendiente β
(asuminendo que su valor es β* )
Caso I Caso II Caso III
Ho: β=β* Ho: β=β* Ho: β=β*
Ha: β<β* Ha: β≠β* Ha: β>β*
Prueba Estadística )
β −β*
t= ~ t( n − 2)
s
Sxx
Regla de Decisión
Rechazar Ho, Rechazar Ho Rechazar Ho
si tcal<-t(1-α,n-2) si |tcal |>t(1-α/2,n-2) si tcal>t(1-α,n-2)
*Un “P-value” cercano a cero, sugiriría rechazar la hipótesis nula.
El análisis de varianza para regresión lineal
simple
El análisis de varianza para regresión consiste en descomponer
la variación total de la variable de respuesta en varias partes
llamadas fuentes de variación.
La división de la suma de cuadrados por sus grados de libertad

es llamada cuadrado medio.
Así se tienen tres cuadrados medios.
Cuadrado Medio de Regresión=CMR=SCR/1
Cuadrado Medio del Error= CME=SCE/(n-2)
Tabla de Análisis de Varianza
________________________________________________________________
Fuente de Variación g.l. Sumas de Cuadrados Cuadrados Medios F
________________________________________________________________
Debido a
la Regresion 1 SCR CMR=SCR/1 CMR
Error n-2 SCE CME=SCE/(n-2) CME
Total n-1 SCT
________________________________________________________________
Se rechazaría la hipótesis nula Ho:β=0 si el “P-value” de la

prueba de F es menor de 0.05
Intervalo de confianza para el valor medio de la
variable de respuesta e Intervalo de Predicción
Queremos predecir el valor medio de las Y para un valor x0 de

la variable predictora x.
E (Y / x = x0 ) = α + β x0
Como y se distribuyen normalmente, entonces también se

distribuye normalmente con media y varianza igual a:
1 ( x − x ) 2
Var (Yˆ0 ) = σ 2 ( + 0 )
n Sxx
Intervalo de confianza para el valor medio
Un intervalo de confianza del 100(1-α )% para el valor medio
de las y’s dado que x=x0 es de la forma:
1 ( x − x ) 2
αˆ + βˆx0 ± t(1−α / 2,n − 2 ) s + 0
n Sxx
intervalo de predicción para un valor individual de Y dado x=x0

es de la forma
1 ( x0 − x ) 2
αˆ + β x0 ± t(1−α / 2,n − 2 ) s 1 + +
ˆ
n Sxx
El Coeficiente de Correlación
Mide el grado de asociación lineal entre las variables X y Y y se
define como:
Cov( X , Y )
ρ=
σ xσ y
a) − 1 ≤ ρ ≤ 1
b) La media condicional de Y dado X es E(Y / X ) = α + β x ,
σy
donde: β = ρ y α = µ y − βµ x
σx
c) La varianza condicional de las Y dado X, está dado por
σ y2 / x = σ y2 (1 − ρ 2 )
Si ρ = ±1 entonces σ y2 / x = 0 (perfecta relación lineal).
Coeficiente de correlación muestral
Considerando una muestra de n pares (xi,yi)
Sxy
r =
SxxSyy
Notar que:
)2
) Sxx β Sxx SCR
r=β r2 = =
Syy Syy SCT
El cuadrado del coeficiente de correlación es igual al coeficiente
de determinación.
Modelos No Lineales y Transformaciones
En el análisis de regresión generalmente el punto de partida es
considerar que la relación entre la variable respuesta X y la variable
Y es lineal. Algunas veces esta relación lineal es inadecuada. Esta
no linealidad se puede detectar por medio de:
•La Prueba de Falta de Ajuste
•El Diagrama de Dispersión
•Los Gráficos de Residuales
También se puede presentar que si la varianza no es constante, los
residuos no son normales, etc. A continuación se presenta una
situación en la cual no se presenta la homogeneidad de varianzas. En
otros casos como el de la situación se conoce que la relación funcional
entre la variable respuesta Y y la variable regresora X es
fácil conocer la transformación, pero cuando no se conoce esta relación
se pueden utilizar métodos más avanzados para determinar el tipo de
transformación a ejecutar. En otros casos existen muchos modelos o
funciones que no pueden ser llevadas a formas lineales como por
ejemplo
Ejemplo de un modelo No lineal
Los siguientes datos presentan el número promedio
de bacterias sobrevivientes dentro de un alimento
a
enlatado y los minutos de exposición al calor
bacterias tiempo
1 175 1
2 108 2
3 95 3
4 82 4
5 71 5
6 50 6
7 49 7
8 31 8
9 28 9
10 17 10
11 16 11 Resumen del modelo
12 11 12 R cuadrado Error típ. de la
Total N 12 12 Modelo R R cuadrado corregida estimación
a. Limitado a los primeros 100 casos. 1 ,932a ,869 ,856 18,298
a. Variables predictoras: (Constante), tiempo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 22268,813 1 22268,813 66,512 ,000a
Residual 3348,104 10 334,810
Total 25616,917 11
Coeficientesa
b. Variable dependiente: bacterias
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 142,197 11,262 12,627 ,000
tiempo -12,479 1,530 -,932 -8,155 ,000
a. Variable dependiente: bacterias
Análisis de los residuos
Prueba de la Normalidad Prueba de Homogenidad de Varianzas
Al tratar de chequear la normalidad Ahora al chequear la homogeneidad de

de los errores por medio del gráfico varianza gráficamente por medio de la
de probabilidad normal de la figura figura (errores y tiempo), se observa que
.Según este gráfico se observa que este supuesto no se cumple debido al
este supuesto parece no cumplirse patrón curvilíneo que presenta el gráfico.
como lo
Lo anterior nos permite concluir que el modelo lineal

no es adecuado para ajustar los datos. En este caso
se debe transformar la variable respuesta.
¿Cómo transformarla?
En esta situación es fácil conocer la

transformación ya que los datos representan el
crecimiento de las bacterias en el tiempo, para
el cual se conoce que el número de bacterias en
el tiempo t , , se modela como
• donde n0es el número inicial de bacterias y .

• Tomando logaritmo natural a ambos lados se
tiene
¿Cómo se distribuye el error?
Es de observar que el modelo original (1)no tiene errores aditivos ya

queε se encuentra multiplicando. Así un ajuste de (2), es apropiado
solamente si creemos que el modelo (1) es el adecuado. La
transformación de nt(Y) en lnnt(Y) ha alterado la estructura del error de
multiplicativo a aditivo. Si nosotros realmente creemos que los errores
son aditivos y que
nosotros no podríamos tomar logaritmos y utilizar el método de mínimos
cuadrado. Se tendría que usar métodos de estimación no lineal. El
modelo (4) se dice que es intrínsicamente no lineal, mientras que el
modelo (1)es intrínsicamente lineal.
De lo anterior se concluye que para analizar los datos del ejemplo, se
debe transformar la variable como se muestra en la tabla:
Diagrama de dispersión del Resumen del modelob
logaritmo del número de bacterias R cuadrado Error típ. de la

sobrevientes a través del tiempo Modelo R R cuadrado corregida estimación
1 ,991a ,982 ,980 ,12039
b. Variable dependiente: LnY
a
Coeficientes
Coeficientes
Coeficientes no standarizad
estandarizados os
Model B Error típ. Beta t Sig.
1 (Constan 5,339 ,074 72,054 ,000
tiempo -,236 ,010 -,991 -23,459 ,000
a.Variable dependiente: LnY
¿Cómo interpretar el parámetro estimado ?
En general, un parámetro en un modelo sometido a tranformación
logaritmica representa el porcentaje esperado de incremento (o
decremento) de la variable dependiente para un incremento unitario
de la variable independiente. El porcentaje de cambio se calcula
obteniendo el antilogaritmo de y restandole 1.
Explicación (esconder)
De la expresión se tiene que el valor estimado de la respuesta
para un valor dado de es . Ahora el cambio porcentual es
dado por
donde es el valor estimado de la respuesta para un tiempo

dado por decir ,y es el valor de la respuesta cuando
. Así el porcentaje de cambio es:
Regresión Cuadrática
Un modelo cuadrático es de la forma:
Y = a + bX + cX 2 + ε
donde a, b y c son constantes a estimar. Usando la técnica de

mínimos cuadrados se pueden obtener fórmulas explícitas para
calcular a, b y c.
En SPSS para obtener la ecuación del modelo cuadrático,

hay que elegir la opción Regresion/ curva en la ventana de
diálogo de
Ejemplo
Case Summariesa
Valor Tamaño de la
Agregado por tienda ( miles
hora-hombre de pies
Tienda ($) cuadrados)
1 1 4,0 21,0
2 2 3,4 12,0
3 3 3,5 25,2
4 4 3,1 10,4
5 5 2,9 30,9
6 6 1,9 6,8
7 7 4,1 19,6
8 8 3,2 14,5
9 9 3,8 25,0
10 10 3,6 19,1
Total N 10 10 10
a. Limitado a los primeros 100 casos.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: Valor Agregado por hora-hombre ($)

Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Cuadrático ,883 26,438 2 7 ,001 -,120 ,387 -,009
La variable independiente esTamaño de la tienda ( miles de pies cuadrados).
Modelos No lineales que pueden ser
transformados en lineales
La segunda alternativa para aumentar el R2 consiste en usar modelos no
lineales que pueden ser convertidos en lineales, a través de transformaciones
tanto de la variable independiente como dependiente.
Nombre del modelo Ecuación del Modelo Transformación Modelo Linealizado
Exponencial Y=αeβX Z=Ln Y X=X Z=Ln α +βX

Logarítmico Y= α +βLog X Y=Y W=Log X Y= α +βW
Doblemente Logarítmico Y=αXβ Z=Log Y W=Log X Z= Log α +βW
Hiperbólico Y= α +β/X Y=Y W=1/X Y= α +βW

Inverso Y=1/(α +βX) Z=1/Y X=X Z=α +βX
Para predecir el valor de Y usando el modelo linealizado hay que aplicar la

inversa de la transformación correspondiente al mismo.

Regresón Lineal Simple

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresón Lineal Simple

Hochgeladen von

Copyright:

Verfügbare Formate

REGRESIÓN LINEAL SIMPLE

• Regresión: conjunto de técnicas que son usadas para

• Modelo de regresión. Ecuación que representa la

Derivando se obtiene las ecuaciones normales,

b) α) es un estimador insegado de α. Es decir, E( α) )=α

Los residuales son las desviaciones de los valores

• Un estimador insesgado de σ 2 es:

s 2 es tambien llamado el cuadrado medio del error

La desviacion de un valor observado con respecto a

SCT = SCE + SCR

Se puede deducir que

Es una medida de la bondad de ajuste del modelo

consecuencia, también las yi ' s se distribuyen normalmente con

Se puede establecer que:

Podemos mostrar que:

• Pruebas de hipótesis e intervalos de confianza acerca de los

• Intervalos de confianza para un valor predicho y para el valor

Un intervalo de confianza del 100(1-α)% para la pendiente

El nivel de significación α, varía entre 0 y 1.

Un intervalo de confianza del 100(1-α)% para el intercepto α de

La división de la suma de cuadrados por sus grados de libertad

Se rechazaría la hipótesis nula Ho:β=0 si el “P-value” de la

Queremos predecir el valor medio de las Y para un valor x0 de

Como y se distribuyen normalmente, entonces también se

intervalo de predicción para un valor individual de Y dado x=x0

Prueba de la Normalidad Prueba de Homogenidad de Varianzas

Al tratar de chequear la normalidad Ahora al chequear la homogeneidad de

Lo anterior nos permite concluir que el modelo lineal

En esta situación es fácil conocer la

• donde n0es el número inicial de bacterias y .

Es de observar que el modelo original (1)no tiene errores aditivos ya

logaritmo del número de bacterias R cuadrado Error típ. de la

donde es el valor estimado de la respuesta para un tiempo

donde a, b y c son constantes a estimar. Usando la técnica de

En SPSS para obtener la ecuación del modelo cuadrático,

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Valor Agregado por hora-hombre ($)

Nombre del modelo Ecuación del Modelo Transformación Modelo Linealizado

Exponencial Y=αeβX Z=Ln Y X=X Z=Ln α +βX

Hiperbólico Y= α +β/X Y=Y W=1/X Y= α +βW

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la

Das könnte Ihnen auch gefallen