Sie sind auf Seite 1von 45

Lic. Segundo A.

Garca Flores
ESTADSTICA PARA NEGOCIOS II
Mdulo: II Unidad: IV Semana: 07
TTULO DEL TEMA
REGRESIN Y CORRELACIN
ORIENTACIONES
Lea las previamente las orientaciones generales
del curso.
Revise los temas afines a este en la Biblioteca
Virtual de la UAP
Participe de los foros
Anlisis de regresin y correlacin
Relacin entre variables
Ajuste de curvas
El mtodo de los mnimos cuadrados:
Relaciones lineales y no lineales
Error tpico de estimacin
Coeficiente de Correlacin
CONTENIDOS TEMTICOS
DESARROLLO DE CONTENIDOS - SUBTTULOS
DEL TEMA
Es un modelo matemtico para predecir el
efecto de una variable sobre otra, ambas
cuantitativas.
Una variable es la dependiente y otra la
independiente.
Se grafica con el diagrama de dispersin.
El anlisis consiste en encontrar la mejor lnea
recta de esos puntos.

Regresin lineal simple
La variable X o independiente o predictora (est
bajo el control del investigador), la variable Y es la
variable dependiente o predicha.
Los valores de X son fijos (seleccionados
previamente por el investigador).
Para cada X, existe un conjunto de valores de Y,
que deben seguir una distribucin normal (es decir,
los valores de Y deben ser normales), para aplicar
con validez los procedimientos de inferencia y/o
estimacin.
Todas las varianzas de las subpoblaciones de Y son
iguales.
Supuestos
La relacin se puede representar grficamente
mediante una lnea recta.
Se supone que el error sigue una distribucin
normal con media cero y varianza sigma
2
.
El modelo de regresin completo es

e x y + + = | o
Y es el valor de la variable dependiente.
a o alfa es el intercepto, donde cruza el eje Y.
b o beta es la pendiente o inclinacin.
El modelo de regresin lineal
Diagrama de dispersin
Diagrama de dispersin y recta
ESTATURA
P
E
S
O
150 160 170 180 190 200
45
55
65
75
85
95
V. A. BIDIMENSIONAL: Cuando sobre cada individuo
se observan dos caractersticas aleatorias expresables
numricamente.

Ejemplos:
Poblacin estudiantes universitarios se observa la
ESTATURA (cms) y el PESO (kgs) de cada estudiante.
Para el control del consumo de energa en una factora se
anota cada da el CONSUMO (termias) y la
TEMPERATURA DIARIA (C).
Variables bidimensionales
DIAGRAMA DE DISPERSIN
CURVA DE APROXIMACIN
RELACIN LINEAL
RELACIN NO LINEAL
Algunas ecuaciones de curvas de
aproximacin
y a bx = +
y a bx = +
2
y a bx = +
3
.
y a bx = +
05
x
y a be = +
x
y a be

= +
( )
y a bln x = +
y a b / x = +
El mtodo de los mnimos cuadrados:
Y = m X + b
El Anlisis de Varianza para Regresin Lineal Simple

El anlisis de varianza, que fue introducida por Fisher, consiste en descomponer
la variacin total de una variable en varias partes, cada una de las cuales es
llamada una fuente de variacin.
En el caso de regresin, la descomposicin de la variacin de la variable de
respuesta Y es como sigue:

VAR. TOTAL DE Y = VAR. DEBIDA A LA REGRESIN + VAR. DEBIDA AL
ERROR

Cada variacin es representada por una suma de cuadrados, definidas de la siguiente
manera:

Suma de Cuadrados Total :
n
i
i
SST ( y y )
=
=

2
1
Suma de Cuadrados de Regresin:
n
i
i

SSR ( y y )
=
=

2
1
Suma de Cuadrados del Error:
n
i i
i

SSE ( y y )
=
=

2
1
Coeficiente de Correlacin
Medidas de Correlacin
Cualitativa ( observacin directa sobre el diagrama
de dispersin)
Cuantitativa ( dispersin de los datos alrededor de
las curvas o rectas)

Coeficiente de correlacin
y x
xy
n
i
i
n
i
i
i
n
i
i
s s
s
y y x x
y y x x
r =


=

= =
=
1
2
1
2
1
) ( ) (
) ( ) (
0 ) ( ) (
1
>

=
y y x x
i
n
i
i
Si la pendiente de la recta
es positiva esperamos que :
0
) (
) ( ) (
1
2
1
>

=
=
n
i
i
i
n
i
i
x x
y y x x
m
ya que
Coeficiente de
correlacin
Significado de la correlacin

=
=
= =
=

=


=
n
i
i
n
i
i
n
i
i
n
i
i
i
n
i
i
y y
x x
m
y y x x
y y x x
r
1
2
1
2
1
2
1
2
1
) (
) (
) ( ) (
) ( ) (
El coeficiente de correlacin y la pendiente tienen el mismo
signo.
r es una medida de la dependencia estadstica (numrica) lineal
de la variables x, y.
Ejemplos de correlacin
r cerca de 0
r > 0
r < 0
No hay relacin lineal
Propiedades de r
r > 0 si y solo si m > 0
-1 =< r <= 1
r cerca de 1 indica dependencia lineal creciente fuerte
r cerca de 0 indica no hay dependencia estadstica
lineal
r cerca de -1 indica dependencia lineal decreciente
fuerte
Propiedades de r
x, y pueden estar correlacionadas, pero no
quiere decir que x causa y o que y causa a x.
x, y pueden ser dependientes, pero su
coeficiente de correlacin puede ser 0:
Ejemplo:
x = -1, 0, 1 y = x
2
r = 0
(la dependencia entre x , y NO es lineal)
Dependientes pero no correlacionadas
-1
1
0
1
X
Y
numerador de r = (-1).33 + (0)0 + (1).33 = 0
Coeficiente de correlacin
Es la raz cuadrada del coeficiente de determinacin:
SST
SSE SST
SST
SSR
R r

= = =
2
Residuos
de la
regresin
x
y
x
i
y
i
y
i
e
i
Anlisis de los Residuos de la
Regresin
Suposiciones sobre e
i
= y
i
y
i
1, 2, ..., n
Para cada valor de x
i

e
i
es un error aleatorio con media cero
e
i
son independientes
e
i
tiene distribucin normal
e
i
y e
j
son independientes ij
e
i
tiene desviacin estndar comn s
e
Distribucin de e
i

x
y
Lnea de regresin
poblacional
Desviacin estndar o
e
de e
i
Para cada valor de x
i
, i = 1, 2, ..., n
s
e
mide la dispersin de los errores alrededor de la lnea de
regresin poblacional.
y
i
es el valor observado
y
i
= mx
i
+ b es el correspondiente en la lnea
e
i
= y
i
- y
i
Estimacin de o
e
La suma de los e
i
es cero: su media es cero.
Estimamos s
e
:
( )
n
i i
i
e

y y
s
n
=

=

2
1
2
( )
n
i i
i
y mx b
SSE
n n
=
+ (

= =

2
1
2 2
39
En un estudio sobre el comportamiento del consumidor, se
recolecto los datos que aparecen en miles de soles para determinar
si existe una relacin entre el ingreso del consumidor y los niveles
de consumo. Determine cual es la variable dependiente.
Ejemplo
Consumidor 1 2 3 4 5 6 7 8 9 10
Ingreso (X) 24.3 12.5 31.2 28 35.1 10.5 23.2 10 8.5 15.9
Consumo (Y) 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5
a) Elaborar el diagrama de dispersin e indicar tendencia.
b) Calcular la recta de regresin.
c) Estimar el consumo para alguien que gana 27500 soles.
40
y = 0.5571x + 1.8233
R = 0.8414
0
5
10
15
20
25
30
0 5 10 15 20 25 30 35 40
Solucin:
a) Diagrama de dispersin, lnea de tendencia y coeficiente de
determinacin.
41
X Y XY X

Y

24.3 16.2 393.66 590.49 262.44
12.5 8.5 106.25 156.25 72.25
31.2 15 468 973.44 225
28 17 476 784 289
35.1 24.2 849.42 1232.01 585.64
10.5 11.2 117.6 110.25 125.44
23.2 15 348 538.24 225
10 7.1 71 100 50.41
8.5 3.5 29.75 72.25 12.25
15.9 11.5 182.85 252.81 132.25
SUMATORIAS
199.2 129.2 3042.53 4809.74 1979.68
n = 10
MEDIA (X) = 19.92
MEDIA (Y)= 12.92
Completamos la tabla de los valores de X e Y aadiendo tres columnas
mas con los valores de XY, X y Y.
42
Haciendo los clculos se tiene: a = 1,823318; b = 0,557062
Y = 0,557062 X + 1,823318
b) Con los resultados de la tabla anterior y el uso de las frmulas para
hallar a y b se tiene la ecuacin de regresin lineal Y = ax +b
n n n
i i i i
i i i
n n
i i
i i
n x y - x y
a=
n x - x
= = =
= =
| | | || |
| | |
\ \ \
| | | |
| |
\ \


1 1 1
2
2
1 1
b y ax =
c) Para X = 27.5, la estimacin es de:
Y = 0,557062(27,5) + 1,823318 = 17,14253
Interpretacin del Coeficiente
Como a = 0,557062 > 0, entonces, la tendencia lineal es creciente (a
mayores valores de X corresponden mayores valores de Y).

43
Ejercicio
Resultado de las mediciones
edad 12 8 10 11 7 7 10 14
peso 58 42 51 54 40 39 49 56
En un grupo de 8 pacientes se miden las cantidades
antropomtricas peso y edad, obtenindose los siguientes
resultados:

44
Existe una relacin lineal importante entre ambas variables?
Calcular la recta de regresin de la edad en funcin del peso y la
del peso en funcin de la edad. Calcular la bondad del ajuste En
qu medida, por trmino medio, vara el peso cada ao? En cunto
aumenta la edad por cada kilo de peso?
GRACIAS