Sie sind auf Seite 1von 45

Anlisis de Datos I

REGRESIN LINEAL
SIMPLE

2014 10

Texto sugerido

Estadstica Matemtica
con aplicaciones.
WACKERLY, MENDENHALL y
SCHEAFFER.

Editorial THOMSON.

Contenido

Regresin Lineal Simple

Regresin lineal simple (modelos).


Estimacin de parmetros por mnimos cuadrados.
Anlisis de varianza.
Coeficientes de determinacin y correlacin.
Validacin de supuestos (Homocedasticidad, independencia y
normalidad).
Inferencias acerca de los coeficientes de regresin (Prueba de
hiptesis e intervalos de confianza).
Prediccin de nuevas observaciones.
Intervalos de confianza y de prediccin.

INTRODUCCIN

Resolver problemas que implican conjuntos de variables de las


cuales se sabe que tienen alguna relacin inherente entre s.
Ejemplos:
Contenido de alquitrn en la corriente de salida Temperatura
de entrada.
Rendimiento del combustible Volumen del motor.
Precio de inmuebles Metros cuadrados de superficie
construida.
Peso de una persona - Estatura
Variables dependientes Variables independientes
Sentido de regresin: prediccin de una medida basndonos en el
conocimiento de otra.

Diagrama de Dispersin

Las observaciones pueden ser representadas en un diagrama de


dispersin. En ellos, cada dato es un punto cuyas coordenadas son
los valores de las variables.

Nuestro objetivo ser intentar reconocer a partir del diagrama de


dispersin, si hay relacin entre las variables, de qu tipo, y si es
posible predecir el valor de una de ellas en funcin de la otra.

Diagrama de Dispersin
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

100
90
Pesa 76 kg.

80

Mide 187 cm.

70
60
Pesa 50 kg.

50
Mide 161 cm.

40
30
140

150

160

170

180

190

200

Diagrama de Dispersin Relacin entre variables


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

100
90
80
70
60
50
40
30
140

150

160

170

180

190

200

Diagrama de Dispersin Reconocimiento de relaciones entre variables


330
280

100

Incorrelacin

90
80

230

Fuerte relacin
directa.

70

180

60

130

50

80

40

30
140

30

150

160

170

180

190

200

140

150

160

170

180

190

200

Para los valores de X mayores que la media le


corresponden valores de Y mayores tambin.

Para valores de X por encima de la media


tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.

Para los valores de X menores que la media le


corresponden valores de Y menores tambin.
Esto se llama relacin directa o creciente entre X
e Y.

80

Cierta relacin
inversa

70
60
50
40
30
20
10
0
140

150

160

170

180

190

200

Para los valores de X mayores que la


media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.

Diagrama de Dispersin Reconocimiento de relaciones entre variables


100

330

Poca relacin

280

90
80

230

Fuerte relacin
directa.

70
180

60

130

50

80

40
30

30
140

150

160

170

180

190

200

140

150

160

170

180

190

200

Conocido X sabemos que Y se mueve


cercanamente. Buena relacin.

Dado un valor de X no podemos decir


gran cosa sobre Y. Mala relacin.
Independencia.

Se mueve cercanamente con respecto a


la dispersin que tiene la variable Y por si
sola, cuando no se considera X.
80

Cierta relacin
inversa

70
60
50
40
30
20
10
0
140

150

160

170

180

190

200

Modelos de anlisis de regresin

Modelos de regresin

1 variable explicativa

2+ variables explicativas

Simple

Lineal

Mltiple

No lineal

Lineal

No lineal

En la figura se ilustra el ajuste de la recta:


y la recta que refleja el modelo Y|x=+x.
La recta ajustada es un estimado de la recta que genera el modelo
estadstico.
Hay que tener presente que la recta Y|x=+x es desconocida.
(x,y)

ei

Los residuales deben responder a una distribucin normal.


Los residuales no deben autocorrelacionados
Igualdad de varianzas de los residuales y los pronsticos.

SST: Suma total de los cuadrados corregida

Anlisis de varianza para la regresin


H0 : = 0
H1 : 0
Error cuadrtico medio:

Este estimador sigue una distribucin chi-cuadrado con n-2


grados de libertad.

Calcular 0 =

Si0 > ,1,2 Se rechaza Ho

SSR tambin sigue una distribucin chicuadrado con 1 grado de libertad


f sigue una distribucin F con 1 grado de
libertad en el numerador y n-2 grados de
libertad en el denominador

Covarianza de dos variables X e Y


La covarianza entre dos variables, Sxy, nos indica si
la posible relacin entre dos variables es directa o
inversa.
Directa: Sxy >0
Inversa: Sxy <0
Incorreladas: Sxy =0

1 n
S xy xi x yi y
n i 1

El signo de la covarianza nos dice si el aspecto de


la nube de puntos es creciente o no, pero no nos
dice nada sobre el grado de relacin entre las
variables.

Coeficiente de correlacin lineal de Pearson


El coeficiente de correlacin lineal de Pearson de dos
variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente (excluyendo
rectas horizontales y verticales).
tiene el mismo signo que Sxy por tanto de su signo
obtenemos el que la posible relacin sea directa o
inversa.
r es til para determinar si hay relacin lineal entre
dos variables, pero no servir para otro tipo de
relaciones (cuadrtica, logartmica,...)
n

S xx X i X

i 1
n

S yy Yi Y

i 1
n

S xy X i X Yi Y
i 1

S xy
S xx S yy

Prueba de hiptesis para

Prueba de hiptesis para

Anlisis residual: verificacin de supuestos

Los residuales deben responder a una distribucin normal.


Los residuales no deben autocorrelacionados
Igualdad de varianzas de los residuales y los pronsticos.

Anlisis residual: verificacin de supuestos

Anlisis residual: verificacin de supuestos

Anlisis residual: verificacin de supuestos

Anlisis residual: verificacin de supuestos

Anlisis residual: verificacin de supuestos

Anlisis residual: verificacin de supuestos

Anlisis residual: verificacin de supuestos

Das könnte Ihnen auch gefallen