Sie sind auf Seite 1von 55

1.

Identificacin
1.1 Carrera: Ciencias de la Educacin.
1.2 Asignatura: Estadstica Aplicada.
1.3. Postulante: Gustavo Fernndez
1.4 Unidad: 5
1.5. Tema: Regresin y Prediccin.

Introduccin.
El objetivo es analizar el grado de la
relacin existente entre variables utilizando
modelos matemticos y representaciones
grficas. As pues, para representar la
relacin entre dos o ms variables
desarrollaremos una ecuacin que permitir
estimar una variable en funcin de la otra.

Por ejemplo, en qu medida, un


aumento de los gastos en publicidad hace
aumentar las ventas de un determinado
producto?, cmo representamos que la
bajada de temperaturas implica un
aumento
del
consumo
de
la
calefaccin?,...

A continuacin, estudiaremos dicho grado


de relacin entre dos variables en lo que
llamaremos anlisis de correlacin. Para
representar esta relacin utilizaremos una
representacin grfica llamada diagrama
de dispersin y, finalmente, estudiaremos
un modelo matemtico para estimar el
valor de una variable basndonos en el
valor de otra, en lo que llamaremos
anlisis de regresin.
4

Objetivo General:

Analizar la relacin existente entre las


variables en un modelo de regresin
simple y mltiple

Objetivos Especficos:

Trazar un diagrama de dispersin.


Entender e interpretar los trminos variable
dependiente y variables independiente.
Calcular y explicar el coeficiente de
correlacin, y el coeficiente de determinacin.
Determinar la lnea (o recta) de regresin de
mnimos cuadrados.
Establecer e interpretar una tabla de ANOVA.

Anlisis de correlacin

El anlisis de correlacin es un grupo de tcnicas


estadsticas usadas para medir la fuerza de la
asociacin entre dos variables.
Un diagrama de dispersin es una grfica que
representa la relacin entre dos variables.
La variable dependiente es la variable que se predice o
calcula.
La variable independiente proporciona las bases para el
clculo. Es la variable de prediccin.

El coeficiente de correlacin, r

El coeficiente de correlacin (r) es una medida de la


intensidad de la relacin lineal entre dos variables.
Requiere datos de nivel de razn.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlacin
perfecta y fuerte.
Los valores cerca de 0.0 indican la correlacin dbil.
Los valores negativos indican una relacin inversa y los
valores positivos indican una relacin directa.

Correlacin negativa perfecta

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
9

Correlacin positiva perfecta

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
10

Correlacin cero

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
11

Correlacin positiva fuerte

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
12

Frmula para r

Calculamos el coeficiente de correlacin de las


frmulas siguientes.

( X X )(Y Y )
r
(n 1) s x s y

n(X

n(XY ) (X )(Y )
2

) (X ) n Y Y
2

13

Coeficiente de determinacin

El coeficiente de determinacin (r2) es la proporcin de


la variacin total en la variable dependiente (y) que se
explica por la variacin en la variable independiente (x).
Es el cuadrado del coeficiente de correlacin.
Su rango es de 0 a 1.
No da ninguna informacin sobre la direccin de la
relacin entre las variables.

14

Ejemplo 1

Juan Escobedo, presidente de la sociedad de alumnos


de la Universidad de Toledo, se ocupa de estudiar el
costo de los libros de texto. l cree que hay una relacin
entre el nmero de pginas en el texto y el precio de
venta del libro. Para proporcionar una prueba,
selecciona una muestra de ocho libros de texto
actualmente en venta en la librera. Dibuje un diagrama
de dispersin. Compruebe el coeficiente de correlacin.

15

Ejemplo 1 (Continuacin)

Libro
Intr. a la Historia
lgebra
Intr.a la Psicologa
Intr. a la Sociologa
Mercadotecnia
Intr. a la Biologa
Fund. de Jazz
Intr.a la Enfermera

Pginas
500
700
800
600
400
500
600
800

Precio ($)
84
75
99
72
69
81
63
93

16

Ejemplo 1 (Continuacin)
Scatter Diagram of Number of Pages and Selling Price of Text
100

90
Price ($)
80

70

60
400

500

600

700

800

Page

17

Ejemplo 1 (Continuacin)
Libro

Pginas
X

Precio ($)
Y

XY

X2

Y2

Intr. a la Historia

500

84

42,000

250,000

7,056

lgebra

700

75

52,500

490,000

5,625

Intr. a la Psicologa

800

99

79,200

640,000

9,801

Intr. a la Sociologa

600

72

43,200

360,000

5,184

Mercadotecnia

400

69

27,600

160,000

4,761

Intr. a la Biologa

500

81

40,500

250,000

6,561

Fund. de Jazz

600

63

37,800

360,000

3,969

800
4,900

93
636

74,400
640,000
397,200 3,150,000

8,649
51,606

Intr. a la Enfermera
Total

18

Ejemplo 1 (Continuacin)
r

n(X

n(XY ) (X )(Y )
2

) (X ) n Y Y
2

8(397,200) (4,900)(636)

8(3,150,000 (4,900) 8(51,606) (636)


2

0.614

19

Ejemplo 1 (Continuacin)
La correlacin entre el nmero de pginas y el precio
de venta del libro es 0.614. Esto indica una asociacin
moderada entre las variables. Pruebe la hiptesis de
que no hay correlacin en la poblacin. Utilice un nivel
de la significancia del .02.
Paso 1: H0: La correlacin en la poblacin es cero.

H1: La correlacin en la poblacin no es cero.


Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n2=82
= 6.
20

Ejemplo 1 (Continuacin)
Paso 3: Para encontrar el valor del estadstico de
prueba, utilizamos:
t

r n2
1 r

.614 8 2
1 (.614)

1.905

Paso 4: H0 no se rechaza. No podemos rechazar


la hiptesis de que no hay correlacin en la
poblacin. La cantidad de asociacin puede
ser debido al azar.

21

Anlisis de regresin

En anlisis de regresin utilizamos la variable


independiente (X) para estimar la variable dependiente
(Y).
La relacin entre las variables es lineal.
Ambas variables deben ser por lo menos escala del
intervalo.
El criterio de mnimos cuadrados se utiliza para
determinar la ecuacin. Este es el trmino (Y Y')2

22

Anlisis de regresin
La ecuacin de regresin es: Y' = a + bX, donde:
Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X.
a es la ordenada de la interseccin con el eje Y cuando
X = 0. Es el valor estimado de Y cuando X=0
b es la pendiente de la recta, o el cambio promedio en Y'
para cada cambio de una unidad en X.
el principio de mnimos cuadrados se utiliza para
obtener a y b.

23

Anlisis de regresin

El principio de mnimos cuadrados se utiliza para


obtener a y b. Las ecuaciones para determinar a y b
son:

n( XY ) ( X )( Y )
b
n( X 2 ) ( X ) 2
Y
X
a
b
n
n

24

Ejemplo 2 (Continuacin)

Desarrolle una ecuacin de regresin para la


informacin dada en el Ejemplo 1 que se puede utilizar
para estimar el precio de venta basado en el nmero de
pginas.
b

8(397,200) (4,900)(636)
8(3,150,000) (4,900)

.05143

636
4,900
a
0.05143
48.0
8
8
25

Ejemplo 2 (Continuacin)
La ecuacin de regresin es:
Y' = 48.0 + .05143X
La ecuacin cruza al eje Y en $48. Un libro sin las
pginas costara $48.
La pendiente de la lnea es .05143. El costo de cada
pgina adicional es de cinco cntimos.
El signo del valor de b y el signo del valor de r sern
siempre iguales.

26

Ejemplo 2 (Continuacin)
Podemos utilizar la ecuacin de regresin para
estimar valores de Y.
El precio de venta estimado de un libro de 800 pginas
es $89.14, encontrado por

Y 48.0 0.05143 X
48.0 0.05143(800) 89.14

27

El error estndar de estimacin

El error estndar de estimacin mide la dispersin de


los valores observados alrededor de la lnea de
regresin.
Las frmulas que se utilizan para comprobar el error
estndar son:
(Y Y ) 2
s y. x
n2

Y 2 aY bXY
n2
28

Ejemplo 3
Encuentre el error estndar de estimacin para el
problema que implica el nmero de pginas en un libro
y el precio de venta.

s y. x

Y 2 aY bXY
n2

51,606 48(636) 0.05143(397,200)

82
10.408
29

Suposiciones subyacentes en el
anlisis de regresin lineal

Para cada valor de X, hay un grupo de valores de Y, y


estos valores de Y se distribuyen normalmente.
Las medias de estas distribuciones normales de valores
Y, caen todas en la recta de regresin.
Las desviaciones estndar de estas distribuciones
normales son iguales.
Los valores de Y son estadsticamente
independendientes. Esto significa que en la seleccin de
una muestra, los valores de Y elegidos para un valor
particular de X no dependen de los valores de Y de
ningn otro valor de X.

30

Intervalo de confianza

El intervalo de confianza para el valor medio de Y para


un valor dado de X est dado por:
Y ts y. x

( X X )2
2
(

X
)
X 2
n

1
89.14 2.447(10.408)

(800 612.5) 2
( 4900) 2
3,150,000
8

89.14 15.31
31

Intervalo de prediccin

El intervalo de prediccin para un valor individual de Y


para un valor dado de X se da por:

Y ts y. x

1
1
n

( X X )2
( X ) 2
X
n
2

1
89.14 2.447(10.408) 1
8

(800 612.5) 2
(4900) 2
3,150,000
8

89.14 29.72
32

Ejemplo 3 (Continuacin)
Resumir los resultados:
El precio de venta estimado para un libro con 800
pginas es $89.14.
El error estndar de estimacin es $10.41.
El intervalo de confianza de 95% para todos los libros con
800 pginas es $89.14+-$15.31. Esto significa que los
lmites estn entre $73.83 y $104.45.
El intervalo de prediccin de 95% para un libro particular
con 800 pginas es $89.14+-$29.72. Esto significa que
los lmites estn entre $59.42 y $118.86.
Estos resultados aparecen en la siguiente salida de
MINITAB.
33

Ejemplo 3 (Continuacin)
Regression Analysis: Price versus Pages
The regression equation is
Price = 48.0 + 0.0514 Pages
Predictor
Constant
Pages

Coef SE Coef
48.00
16.94
0.05143 0.02700

S = 10.41

R-Sq = 37.7%

T
P
2.83 0.030
1.90 0.105

R-Sq(adj) = 27.3%

Analysis of Variance
Source
DF
SS
Regression
1
393.4
Residual Error 6
650.6
Total
7
1044.0

MS
393.4
108.4

F
P
3.63 0.105

Predicted Values for New Observations


New Obs Fit SE Fit
95.0% CI
95.0% PI
1
89.14
6.26 ( 73.82, 104.46) ( 59.41, 118.88)

34

Anlisis de regresin mltiple

Para dos variables independientes, la forma general de


la ecuacin de la regresin mltiple es:

Y ' a b1 X 1 b2 X 2

X1 y X2 son las variables independientes.


a es la interseccin en Y.
b1 es la variacin neta en Y por cada unidad de variacin
en X1, manteniendo X2 constante. Se denomina
coeficiente de regresin parcial, coeficiente de regresin
neta, o simplemente coeficiente de regresin.
35

Error estndar mltiple de


estimacin
El error estndar mltiple de estimacin es
una medida de la eficacia de la ecuacin de
regresin.
Se mide en las mismas unidades que la
variable dependiente.
Es difcil determinar cul es un valor grande y
cul es un valor pequeo del error estndar

36

Error estndar mltiple de


estimacin

La frmula es:
s y.12...k

(Y Y ' ) 2
n (k 1)

37

Hiptesis para la regresin mltiple y


la correlacin mltiple

Las variables independientes y las variables dependientes tienen una


relacin lineal.
La variable dependiente es continua y por lo menos de nivel de
intervalo.
La variacin en la diferencia entre los valores real y pronosticado es
la misma para todos los valores ajustados de Y. Esto es (Y Y') debe
ser aproximadamente igual para todos los valores de Y. Cuando tal
sea el caso, las diferencias presentan homoscedasticidad.
Las residuales, calculadas mediante Y Y', estn distribuidas en
forma normal con media igual a 0.
Los valores sucesivos de la variable dependiente deben ser sin
correlacin.

38

La tabla ANOVA
La tabla ANOVA reporta la variacin en la
variable dependiente. La variacin se divide
en dos componentes.
La variacin explicada es considerada por el
sistema de la variable independiente.
La variacin inexplicada o al azar no es
considerada por las variables independientes

39

Matriz de correlacin
Una matriz de correlacin se utiliza para mostrar todos
los coeficientes de correlacin simples posibles entre las
variables.

La matriz es til para localizar variables independientes


correlacionadas.

Muestra qu tan fuerte es la correlacin de cada


variable independiente con la variable dependiente.
40

Prueba global

La prueba global se utiliza para investigar


si cualquiera de las variables
independientes tienen coeficientes
significativos. Las hiptesis son:
H0 : 1 = 2 = = k = 0
H1 : no todas las s iguales a cero

41

El estadstico de prueba es la distribucin


F con k (nmero de variables
independientes) y n-(k+1) grados de
libertad, donde n es el tamao de
muestra.

42

Prueba para variables individuales


Esta prueba se utiliza para determinar qu
variables independientes tienen
coeficientes distintos a cero en la
regresin.
Las variables que tienen coeficientes cero
en la regresin se eliminan del anlisis.
El estadstico de prueba es la distribucin
t con n-(k+1) grados de libertad.

43

Ejemplo 1
Un investigador de mercado que trabaja para el
Sper Siete est estudiando el gasto anual que
las familias de cuatro o ms destinan a
alimentos. Tres variables independientes se
consideran para ser relacionadas con los gastos
anuales del alimento (alimento). Esas variables
son: renta total de la familia (renta) en $00,
tamao de la familia (tamao), y si la familia
tiene nios en la universidad (universidad).
44

Observe lo siguiente con respecto a la ecuacin


de regresin.
La variable universidad se llama una variable
ficticia o de indicador. Puede tomar solamente
uno de dos resultados posibles. Eso es un nio
es un estudiante de universidad o no.
Otros ejemplos de variables simuladas (ficticia)
incluyen gnero, la pieza es aceptable o
inaceptable, el votante votar o no votar por el
gobernador.
Codificamos generalmente un valor de la
variable simulada como 1 y el otro 0.

45

Familia

Alimento

Ingreso

Tamao

Estudiante

3900

376

5300

515

4300

516

4900

468

6400

538

7300

626

4900

543

5300

437

6100

608

10

6400

513

11

7400

493

12

5800

563

0
46

Utilice un paquete de software, tal como MINITAB o


Excel, para desarrollar una matriz de correlacin.
Del anlisis proporcionado por MINITAB, tenemos la
ecuacin de regresin:
Y = 954 +1.09X1 + 748X2 + 565X3

Qu gasto en alimento usted estimara para una familia


de 4, sin estudiantes de universidad, y una renta de
$50.000 (que se introduce como 500)?

47

The regression equation is


Food = 954 + 1.09 Income + 748 Size + 565 Student

Predictor
Constant
Income
Size
Student

S = 572.7

Analysis of Variance

Source
Regression
Residual Error
Total

Coef
954
1.092
748.4
564.5

SE Coef
1581
3.153
303.0
495.1

R-Sq = 80.4%

DF
3
8
11

T
0.60
0.35
2.47
1.14

P
0.563
0.738
0.039
0.287

R-Sq(adj) = 73.1%

SS
10762903
2623764
13386667

MS
3587634
327970

F
10.94

P
0.003

48

De la regresin de salida observamos:


El coeficiente de determinacin es 80.4%. Esto significa
que ms de 80% de la variacin en la cantidad gastada
en alimento est considerado por las variables renta,
tamao de familia y estudiante.
Cada $100 dlares adicionales de renta por ao
aumentarn la cantidad gastada en alimento en $109
por ao.
Un miembro adicional de la familia aumentar la
cantidad gastada por ao en alimento en $748.
Una familia con un estudiante de universidad gastar
$565 ms por ao en alimento que las familias sin un
estudiante de universidad.

49

La matriz de correlacin es como sigue:

Ingreso
Tamao
Estudiante

Alimento
0.587
0.876
0.773

Ingreso
0.609
0.491

0.743

La correlacin ms fuerte entre la variable dependiente y


una variable independiente est entre el tamao de la
familia y la cantidad gastada en alimento.
Ningunas de las correlaciones entre las variables
independientes deben causar problemas. Todas estn
entre -.70 y 70.
50

El gasto estimado en alimento para una


familia de 4 con una renta $500 (que es
$50.000) y ningn estudiante de
universidad es $4.491.
Y = 954 + 1.09(500) + 748(4) + 565 (0)
= 4491

51

Realice una prueba global de hiptesis


para determinar si cualquiera de los
coeficientes de regresin no son cero.
H0 : 1 = 2 = = 3 = 0
H1 : no todas las s iguales a cero

H0 es rechazada si F >4.07.
De la salida de MINITAB, el valor calculado de F es
10.94.
Decisin: H0 es rechazada. No todos los coeficientes de regresin
son cero
52

Realice una prueba individual para determinar qu


coeficientes no son cero. Esta es la hiptesis para la
variable independiente tamao de familia.

H0 : 2 0

H1: 2 0

De la salida de MINITAB, la nica variable significativa


es FAMILIA (tamao de la familia) que usa los valores-p.
Las otras variables se pueden omitir del modelo.
As, usando el nivel del 5% de significacin, rechazo H0
si el valor p< .05.

53

Volvemos a efectuar el anlisis usando solamente el


tamao de familia como variable independiente .
La nueva ecuacin de la regresin es:
Y = 340 + 1031X2

El coeficiente de determinacin es 76.8%. Eliminamos


dos variables independientes, y el trmino de Rcuadrado fue reducido por solamente 3.6%.

54

Anlisis de regresin: alimento contra tamao


La ecuacin de la regresin es
Food = 340 + 1031 Size
Predictor
Constant
Size
S = 557.7

Coef
339.7
1031.0
R-Sq = 76.8%

SE Coef
940.7
179.4

T
0.36
5.75

P
0.726
0.000

R-Sq(adj) = 74.4%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
10
11

SS
10275977
3110690
13386667

MS
10275977
311069

F
33.03

P
0.000

55