Cieficiente Correlacion

VI.A.
1 Coeficiente de
correlacin
Correlacin
Definiciones
Establece si existe una relacin entre las variables y

responde a la pregunta, Qu tan evidente es esta
relacin?"
Regresin
Describe con ms detalle la relacin entre las variables.

Construye modelos de prediccin a partir de informacin
experimental u otra fuente disponible.
Regresin lineal simple
Regresin lineal mltiple
Regresin no lineal cuadrtica o cbica
2
Correlacin
Accidentes laborales
Propsito:
Propsito: Estudiar
Estudiar la
la posible
posiblerelacin
relacin
entre
entredos
dosvariables.
variables.
Correlacin
positiva,
posible
Numero de rdenes urgentes

El 1er. paso es realizar una grfica de la informacin.
Coeficiente de correlacin (r )
Mide la fuerza de la relacin lineal entre las

variables X y Y en una muestra.
El coeficiente de correlacin muestral de

Pearson rx,y con valores entre -1 y +1 es:
Correlacin de la informacin (R ) de las X y las Y

Correlacin Negativa
Evidente
25
20
20
15
15
10
Correlacin Positiva
Evidente
25
10
5
0
10
15
20
Sin Correlacin
0
25
0
0
10
25
R=1
15
20
25
R=-1
20
15
25
Correlacin
Positiva
Correlacin
Negativa
5
0
0
20
10
15
X
15
10
20
25
25
R=
0
20
15
Y
10
10
5
0
0
10
15
X
20
25
R=>1
0
0
10
15
X
20
25
R=>-1
Coeficiente de correlacin
El coeficiente de correlacin r asume el mismo

signo de la pendiente de la recta 1 siendo cero
cuando
1 =0
Un valor positivo de r implica que la pendiente de

la lnea es ascendente hacia la derecha
Un valor negativo de r implica que la pendiente de
la lnea es descendente hacia la derecha
Si r=0 no hay correlacin lineal, aunque puede
haber correlacin curvilnea
Reglas empricas
0.8 < r < 1.0
0.3 < r < 0.8
-0.3 < r < 0.3
-0.8 < r < -0.3
-1.0 < r < -0.8
Relacin
Fuerte, positiva
Dbil, positiva
No existe
Dbil, negativa
Fuerte, negativa
Correlaciones (Pearson)
Tabla de Correlacin mnima
n
3
4
5
6
7
8
9
10
11
12
13
14
95%
99%
de confianza
de confianza
1.00
1.00
0.95
0.99
0.88
0.96
0.81
0.92
0.75
0.87
0.71
0.83
0.67
0.80
0.63
0.76
0.60
0.73
0.58
0.71
0.53
0.68
0.53
0.66
n
15
16
17
18
19
20
22
24
26
28
30
95%
de confianza
0.51
0.50
0.48
0.47
0.46
0.44
0.42
0.40
0.39
0.37
0.36
99%
de confianza
0.64
0.61
0.61
0.59
0.58
0.56
0.54
0.52
0.50
0.48
0.46
Para un 95% de confianza, con una muestra de 10,

el coeficiente (r) debe ser al menos .63
8
Correlacin
La correlacin puede usarse para informacin de atributos, variables
normales y variables no normales.
La correlacin puede usarse con un predictor o ms para una
respuesta dada.
La correlacin es una prueba fcil y rpida para eliminar factores que
no influyen en la prediccin, para una respuesta dada.
Coeficiente de Correlacin
Para determinar que tanto se acercan los datos predichos por el
modelo a los datos observados aplicando el coeficiente de
correlacin de Pearson (ver tabla anterior para identificar la
significancia)
S(yeyo)
r=
S(yeye) S(yoyo)
S(yeye) = yei 2
S(yoyo) = y 2
oi
S(yeyo) = yei yoi -
yei)2
n
yoi)2
n
yei)yoi)
n
r = Coeficiente de correlacin
yo = Respuesta observada
ye = Respuesta esperada
10
Coeficiente de Correlacin ajustad

Otra forma para no consultar la tabla de coeficiente de
correlacin de Pearson es la r ajustada
R2(Adj) = 1 (1 r2)
(n-1)
(n-p)
Criterios
Donde :
R2(Adj) = Coeficiente de correlacin ajustado
r = Coeficiente de correlacin de Pearson
n = Nmero de datos
p = Nm. trminos en el modelo
(Incluyendo la constante)
en funcin a la R2(Adj)
> 90% = Correlacin Fuerte

80% - 90% = Buena correlacin
60% - 80% = Correlacin media
40% - 60% = Correlacin dbil
< 40% = No existe correlacin
11
Coeficiente de Determinacin
(R2)
El coeficiente de determinacin es la
proporcin de la variacin total explicada por
la regresin, R2 se encuentra en el rango de
valores de 0 a 1.
12
Correlacin vs causacin
Tener cuidado de no tener variables colineales,

por ejemplo peso de un coche y peso de las
personas que transporta, o que no la relacin
no tenga sentido, como si lavo mi coche,
llueve.
13
VI.A.2 Regresin
14
Anlisis de Regresin
El
Elanlisis
anlisisde
deregresin
regresines
esun
unmtodo
mtodoestandarizado
estandarizadopara
paralocalizar
localizar
lalacorrelacin
correlacinentre
entredos
dosgrupos
gruposde
dedatos,
datos,y,y,quiz
quizms
msimportante,
importante,
crear
crearun
unmodelo
modelode
deprediccin.
prediccin.
Puede
Puedeser
serusado
usadopara
paraanalizar
analizarlas
lasrelaciones
relacionesentre:
entre:
Una
Unasola
solaX
Xpredictora
predictorayyuna
unasola
solaY
Y
Mltiples
Mltiplespredictores
predictoresX
Xyyuna
unasola
solaY
Y
Varios
Variospredictores
predictoresX
Xentre
entress
15
Supuestos de la regresin
lineal
Los principales supuestos que se hacen en el anlisis de
regresin lineal son los siguientes:
La relacin entre las variables Y y X es lineal, o al
menos bien aproximada por una lnea recta.
y 0 1 X
El trmino de error tiene media cero.
El trmino de error tiene varianza constante 2.
Los errores no estn correlacionados.
Los errores estn normalmente distribuidos.

16
Modelo de regresin lineal
Se aume que para cualquier valor de X el valor

observado de Y varia en forma aleatoria y tiene una
distribucin de probabilidad normal
El modelo general es:

Y = Valor medio de Yi para Xi + error aleatorio
y 0 1 X
17
Regresin Lineal Simple
La lnea de regresin se calcula por el mtodo de mnimos

cuadrados.
Un residuo es la diferencia entre un punto de referencia en
particular (xi, yi) y el modelo de prediccin ( y = a + bx ). El
modelo se define de tal manera que la suma de los cuadrados
de los residuales es un mnimo. La suma residual de los
cuadrados es llamada con frecuencia la suma de los cuadrados
y = b0 + b1x
de los errores (SSE) acerca de la lnea
de
regresin
i
ei
xi
SSE =
ei
yi - yi
a y b son
Estimados de
0 y 1
Grfica de la Lnea de Ajuste
Recta de regresin
Y=-.600.858+5738.89X
R2 = .895
Retencin
600
Regresin
500
95% Intervalo
de confianza
95% Intervalo
de prediccin
400
0.18
0.19
Altura del muelle
0.20
Interpretacin de los Resultados
La ecuacin de regresin (Y = -600.858 + 5738.89X) describe

la relacin entre la variable predictora X y la respuesta de
prediccin Y.
RR22(coef.
(coef.de
dedeterminacin)
determinacin)es
eselelporcentaje
porcentajede
devariacin
variacin
explicado
explicadopor
porlalaecuacin
ecuacinde
deregresin
regresinrespecto
respectoaalalavariacin
variacintotal
total
en
enelelmodelo
modelo
El intervalo de confianza es una banda con un 95% de
confianza de encontrar la Y media estimada para cada valor de
X [Lneas rojas]
El intervalo de prediccin es el grado de certidumbre de la
difusin de la Y estimada para puntos individuales X. En general,
95% de los puntos individuales (provenientes de la poblacin
sobre la que se basa la lnea de regresin), se encontrarn dentro
de la banda [Lneas azules]
20
Interpretacin de los Resultados
Los valores p de la constante (interseccin en Y) y las variables

de prediccin, se leen igual que en la prueba de hiptesis.
Ho: El factor no es significativo en la prediccin de la respuesta.
Ha: El factor es significativo en la prediccin de la respuesta.
s es el error estndar de la prediccin = desviacin estndar del
error con respecto a la lnea de regresin.
R2 (ajustada) es el porcentaje de variacin explicado por la
regresin, ajustado por el nmero de trminos en el modelo y por
el nmero de puntos de informacin.
El valor p para la regresin se usa para ver si el modelo completo
de regresin es significativo.
Ho: El modelo no es significativo en la prediccin de la respuesta.
Ha: El modelo es significativo en la prediccin de la respuesta.
Errores residuales
Los errores se denominan frecuentemente residuales.

Podemos observar en la grfica de regresin los errores
indicados por segmentos verticales.
22
Errores residuales
^
Los residuosei Yi Y i , i 1,2,3..., n
pueden ser graficados para:
Checar normalidad.
Checar el efecto del tiempo si su orden es conocido en
los datos.
Checar la constancia de la varianza y la posible
necesidad de transformar los datos en Y.
Checar la curvatura de ms alto orden que ajusta en las
Xs.
A veces es preferible trabajar con residuos estandarizados

ei
ri
,
o estudentizados:
e
2
di
MS E
,....1 1,2,....., n
1 (X X )
MSE 1 i
S XX
n
23
Errores residuales
Anlisis de los errores o residuales
24
Ejemplo
Considere el problema de predecir las ventas
mensuales en funcin del costo de publicidad.
Calcular el coeficiente de correlacin, el de
determinacin y la recta.
MES
Publicidad
1
2
3
4
5
6
7
8
9
1.2
0.8
1.0
1.3
0.7
0.8
1.0
0.6
0.9
101
92
110
120
90
82
93
75
91
Ventas
25
Clculo manual
Calcular columnas para Suma X, Suma Y, Xi2, XiYi y Yi2
Xi
Yi
MES Publicidad Ventas
Xi2 XiYi
Yi2
1
2
3
4
5
6
7
8
9
10
1.2
0.8
1.0
1.3
0.7
0.8
1.0
0.6
0.9
1.1
101
92
110
120
90
82
93
75
91
105
1.44
0.64
1.00
1.69
0.49
0.64
1.00
0.36
0.81
1.21
121.2 10201
73.6
8464
110.0 12100
156 14400
63.0
8100
65.6
6724
93.0
8649
45.0
5625
81.9
8281
115.5 11025
SUMA 9.4
959
9.28
924.8
93,569
26
Mtodo de mnimos
cuadrados
Donde:
Yest = Valor predicho de para un valor particular de x.
b0 = Estimador puntual de .(ordenada al origen)
b1= Estimador puntual de (pendiente)
Para el clculo de b0 y b1 se utilizamos las siguientes
frmulas:
27
Anlisis de varianza en la
regresin
La desviacin estndar S corresponde a la raz cuadrada del

valor de MSE o cuadrado medio residual.
SS E
S b1 S XY
S2
YY
n2
n2
SYY Yi 2
i 1
Los residuos son:

^
ei Yi Y i
__
Y
n
__
__
Yi Y i Yi Y (Y i Y ) (Y
X Y
i 1
S XY X iYi
i 1
__
i 1
Y ) 2 (Y i Y ) 2 (Yi Y i ) 2
28
i 1
1
t ( n 2,1 ). S
2
b1
__
(
X
X
i )2
regresin
Las conclusiones son como sigue:
Intervalos de confianza para Beta 0 y Beta 1
se(b1 )
__ 2
1 X
se(b0 ) MSE
n S XX
X i2
1/ 2
__
n ( X i X )
MSE
S XX
S
S XX
1
b0 t (n 2,1 )
2
1/ 2
2
i
__
n ( X i X )
b1
t ( n 2,1
( X
1
). S
2
__
X )2
29
1
t ( n 2,1 ). S
2
b1
__
(
X
X
i )2
regresin
El intervalo de confianza para la desviacin estndar es:
( n 2) MSE
( n 2) MSE
2
2 / 2 ,n 2
12 / 2,n 2
Intervalos de confianza para la Y estimada promedio
^
Y0 t a / 2 , n 2
__
2
1 (X0 X )
MSE
S XX
n
Intervalo de prediccin para un valor particular de Y

estimado
Y0 t / 2 ,n 2
__
(
X
X
)2
1
0
MSE 1
Y0 Y0 t / 2 ,n 2
n
S XX
__
1 ( X 0 X )2
MSE 1
n
S XX
30
1
t ( n 2,1 ). S
2
b1
__
(
X
X
i )2
regresin
Prueba de Hiptesis para Beta 1:

Ho: 1 = 0 contra H1:1 0
t0
b1
MSE
S XX
Si t 0 t / 2,n 2 el coeficiente Beta 1 es significativo
31
1
t ( n 2,1 ). S
2
b1
__
(
X
X
i )2
regresin
Coeficiente de correlacin r:
S XY
S XX SYY
Coeficiente de determinacin: r2
R2 mide la proporcin de la variacin total respecto a la
media que es explicada por la regresin. Se expresa en
porcentaje.
^
( SS .de.la.regresin . por.b0 )
R2
( SSTotal .corregido . para.la.media )
__
(Y Y )
(Y Y )
__
1
2
32
SSE
SYY
1
t ( n 2,1 ). S
2
b1
__
(
X
X
i )2
regresin
Prueba de hiptesis para el Coeficiente de correlacin r:
H0: = 0 contra H1: 0

t0
r n2
1 r2
Si t 0 t / 2,n 2 se rechaza la hiptesis Ho, indicando que

existe una correlacin significativa
33
Riesgos de la regresin
Los modelos de regresin son vlidos como ecuaciones

de interpolacin sobre el rango de las variables
utilizadas en el modelo. No pueden ser vlidas para
extrapolacin fuera de este rango.
Mientras que todos los puntos tienen igual peso en la

determinacin de la recta, su pendiente est ms
influenciada por los valores extremos de X.
34
Riesgos de la regresin
Los outliers u observaciones aberrantes pueden

distorsionar seriamente el ajuste de mnimos
cuadrados.
Si se encuentra que dos variables estn relacionadas

fuertemente, no implica que la relacin sea casual, se
debe investigar la relacin causa efecto entre ellas.
Por ejemplo el nmero de enfermos mentales vs.
nmero de licencias recibidas.
35
Clculo manual (cont..)

Clculo de la recta de regresin lineal:
Sxx = 9.28 - (9.4)^2/10 = 0.444
Sxy = 924.8 - (9.4)(959) / 10 = 23.34
Ymedia = 959 / 10 = 95.9 Xmedia = 9.4 / 10 = 0.94
b1 = Sxy / Sxx = 23.34 / 0.444 = 52.57
b0 = Ymedia - b1*Xmedia = 95.9 - (52.5676)(0.94) = 46.49
Yest. = 46.49 + 52.57* X
36
Ejemplo (cont..)
Clculo de S2 estimador de
S2 = SSE / (n - 2) = Syy - (Sxy)^2/Sxx
Syy = 93,569 - (959)^2 / 10 = 1600.9
SSE = Syy - b1*Sxy = 1600.9 - (52.567)(23.34) = 373.97
S2 = SSE / (n - 2) = 373.97 / 8 = 46.75
S = 6.84
El intervalo de confianza donde caern el 95% de los puntos
es el rango de 1.96S = 13.41 o sea a 13.41 de la lnea.
37
Ejemplo (cont..)
Inferencias respecto a la pendiente de la lnea b1:
Se usa el estadstico t = b1 / (S / Sxx)
El trmino del denominador es el error estndar de la
pendiente.
Para probar la hiptesis nula Ho: 1 = 0
En este caso tc = 52.57 / (6.84 / 0.444) = 5.12
El valor crtico tcrit. para alfa/2 = 0.025 con (n-2) = 8 grados
de libertad es 2.306.
Como tc > tcrtico se rechaza la hiptesis de que b1 = 0
existiendo la regresin.
38
Ejemplo (cont..)
Estableciendo un 95% de confianza para la pendiente de
la recta b1.
Usando la frmula b1 t0.025 (S / Sxx) se tiene:
52.57 2.306 * 6.84 / 0.444 = 52.57 23.67.
Por tanto una unidad de incremento en publicidad, har que
el volumen de ventas se encuentre entre $28.9 a $76.2.
39
Ejemplo (cont..)
Clculo del coeficiente de Correlacin:
________
r = Sxy / (SxxSyy)
____________
r = 23.34 / 0.444*1600.9 = 0.88
Como r es positivo, la pendiente de la recta apunta hacia
arriba y a la derecha.
El coeficiente de determinacin r^2 = 1 - SSE/Syy
r^2 = ( Syy - SSE ) / Syy = 0.774
40
Anlisis de Regresin
1. Teclear los datos para Xi y Yi
2. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o
ANALISIS DE DATOS, CORRELATION o CORRELACIN
3. Dar INPUT RANGE (rango de datos), OUTPUT RANGE
(para los resultados) y obtener los resultados
Column 1 Column 2
Column 1 1
0.875442
Column 2 0.875442 1
El coeficiente de correlacin r = 0.875442

41
Clculo con Excel)

4. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o
ANALISIS DE DATOS, REGRESION o REGRESIN
3. Dar INPUT RANGE Y (rango de datos Yi), INPUT RANGE X
(rango de datos Xi), CONFIDENCE INTERVAL 95%, OUTPUT
RANGE (para los resultados), RESIDUAL PLOTS o GRAFICAS DE
RESIDUALES y obtener una tabla de resultados como los que se
muestran en las pginas siguientes.
NOTAS:
a) La grfica de probabilidad normal debe mostrar puntos
fcilmente aproximables por una lnea recta, indicando normalidad.
B) La grfica de residuos estandarizados se deben distribuir en
42
forma aleatoria alrededor de la lnea media igual a cero.
Resultados de Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.875442
R Square 0.766398
Adjusted R Square0.737198
Standard Error 6.83715
Observations 10
ANOVA
df SS MS F Significance F
Regression 1
1226.927 1226.927 26.24633 0.000904
Residual
8
373.973 46.74662
Total
9
1600.9
Confidence 95%
Standard Error t Stat
P-value Lower
Upper
Intercept 46.48649
9.884566
4.702936
Coefficients
0.001536 23.69262 69.28035
X Variable1 52.56757 10.26086 5.123117 0.000904
28.90597 76.22916
La ecuacin de la recta es Yest = 46.48649 + 52.56757 X

Como los valores p para los coeficientes son menores a 0.05,
ambos son significativos
Grfica normal de Excel

Normal Probability Plot
140
120
100
80
60
40
20
0
0
20
40
60
80
Sample Percentile
44
100
Grfica de Residuos vs. X de Excel

X Variable 1 Residual Plot
Residuals
20
10
0
-10 0
0.5
1.5
X Variable 1
45
Ejercicio
Calcular la recta de prediccin con sus bandas de
confianza, la correlacin y la determinacin para la
respuesta de un Taxi, los datos se muestran a
continuacin:
Distancia Tiempo
0.8
200
2.2
1.0
0.6
1.0
1.4
2.2
0.6
400
160
120
360
280
560
320
46
Relaciones no Lineales
Qu pasa si existe una relacin causal, no lineal?
El siguiente es un conjunto de datos
experimentales codificados, sobre
resistencia a la compresin de una
aleacin especial:
Cmo describira
esta relacin?
Resistencia a
Concentracin la Compresin
x
y
10.0
25.2 27.3 28.7
15.0
29.8 31.1 27.8
20.0
31.2 32.6 29.7
25.0
31.7 30.1 32.3
30.0
29.4 30.8 32.8
(ref. Walpole & Myers, 1985)
47
Resultados del Anlisis de Regresin - Modelo Cuadrtico
Y = 19.0333 + 1.00857X - 2.04E-02X**2

R2 = 0.614
Anlisis de Variancia
FUENTE
Regresin
Error
Total
DF
SS
MS
F
p
2 38.9371 19.4686 9.54490 3.31E-03
12 24.4762 2.0397
14 63.4133
FUENTE DF
Lineal
1
Cuadrtica 1
Seq SS F
p
28.0333 10.3005 6.84E-03
10.9038 5.34584 3.93E-02
48
Regresin cuadrtica
49
Regresin cuadrtica
50
Regresin cuadrtica
Los residuos
No son normales
Se deben transformar
Las variables
51
Otros Patrones No Lineales
A veces es posible transformar una o ambas variables, para mostrar

mejor la relacin entre ambas. La meta es identificar la relacin
matemtica entre las variables, para que con la variable transformada
se obtenga una lnea ms recta. Algunas transformaciones comunes
incluyen:
x = 1/x
x = Raz cuadrada de (x)
Funciones trigonomtricas: x = Seno

de x
x = log x
Trasformacin de funciones
Ejemplo: seaY e 1 X
0
se transforma como
ln Y ln 0 1 X ln
Y ' 0 ' 1 X '

53
Transformacin de variables del

ejemplo de regresin cuadrtica
Transformando la variable X = 1/X se tiene, utilizando

Minitab
54

Transformando la variable X = 1/X se tiene, utilizando

Minitab
55

Los residuos ahora ya se muestran normales
56
Transformacin para
homoestacidad de la varianza
Algunas transformaciones para estabilizar la varianza
57
Transformacin para
Ejemplo: Se hizo un estudio entre la demanda (Y) y la

energa elctrica utilizada (X) durante un cierto periodo
de tiempo
58
Transformacin para
Ejemplo: Se hizo un estudio entre la demanda (Y) y la

energa elctrica utilizada (X) durante un cierto periodo
de tiempo
59
Transformacin para
Se observa que la varianza se incrementa conforme

aumenta X
60
Transformacin para
Se observa que la varianza se incrementa conforme

aumenta X
61
Transformacin para
Transformando a X por su raz cuadrada se tiene:
62
Transformacin para
63
Transformacin para
64
Regresin lineal mltiple
65
Regresin mltiple
Cuando se usa ms de una variable independiente para

predecir los valores de una variable dependiente, el
proceso se llama anlisis de regresin mltiple, incluye
el uso de ecuaciones lineales.
Yu 0 1 X u1 2 X u 2 ....... k X uk u
Se asume que los errores u tienen las caractersticas
siguientes:
Tienen media cero y varianza comn 2.
Son estadsticamente independientes.
Estn distribuidos en forma normal.
66
Regresin mltiple
Estimacin de los parmetros del modelo
Se trata de minimizar los errores cuadrticos en:

N
R( 0 , 1 ,..., k ) (Yu 0 1 X u1 2 X u 2 ..... uk ) 2

u 1
El modelo de regresin mltiple en forma matricial es:

Y = X + = [1 : D] +
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la 1. columna
es 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1,672, ......, k
Regresin mltiple
Estimacin de los parmetros del modelo:
b = (XX)-1 XY
El vector de valores ajustados
Y Xb
como:
se puede expresar
Y Xb X ( X ' X ) 1 X ' Y Hy
La varianza del modelo se estima como:

SSE (Y Y ) e e' e
2
i 1
2
i
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb
SSE Y ' Y b' X ' Y
SSE
s MSE
N p68
2
Tamao de muestra
Tomar 5 observaciones para cada una de las

variables independientes, si esta razn es
menor de5 a 1, se tiene el riesgo de
sobreajustar el modelo
Un mejor nivel deseable es tomar 15 a 20

observaciones por cada variable
independiente
69
Ejemplo de regresin
mltiple
Un embotellador est analizando las rutas de servicio de

mquinas dispensadoras, est interesado en predecir la
cantidad de tiempo requerida por el chofer para surtir
las mquinas en el local (Y).
La actividad de servicio incluye llenar la mquina con

refrescos y un mantenimiento menor.
Se tienen como variables el nmero de envases con que

llena la mquina (X1) y la distancia que tiene que
caminar (X2).
70
Ejemplo de regresin
mltiple
71
Ejemplo de regresin mltiple

Solucin matricial
72

Solucin matricial
73

Solucin matricial
74

Solucin matricial
Intervalo de confianza para Beta 1
b1 t.025, 22 se(b1 ) 1 b1 t.025, 22 se(b1 )

1.61591 ( 2.074) (10.6239)( 0.00274378) 1 1.6191 ( 2.074)( 0.17073)
Por tanto el intervalo de confianza para el 95% es:
1.26181 1 1.97001
75

Solucin matricial
El embotellador desea construir un intervalo de

confianza sobre el tiempo medio de entrega para un
local requiriendo:
X1 = 8 envases y cuya distancia es X2 = 275 pies.
2.34123
1
Y0 X ' 0 b 1,8,275 1.61591 19.22minutos
X0 8
0.01438
275
La varianza de la Y0 estimada es (tomando M8=inv(XX) :

1
Var (Y0 ) S 2 X ' 0 ( X ' X ) 1 X 0 10.62391,8,275 M 8 8 10.6239(0.05346) 0.56794
275
76

Solucin matricial
El intervalo de confianza sobre el tiempo medio de

entrega para un local requiriendo es para 95% de nivel
de confianza:
19.22 2.074 0.56794 Y0 19.22 2.074 0.56794
Que se reduce a: 17.66 Y0 20.78
77

Solucin matricial
El anlisis de varianza es:
78

Solucin matricial
El comportamiento de los residuos es como sigue:
79
Multicolinealidad
La multicolinealidad implica una dependencia cercana

entre regresores (columnas de la matriz X ), de tal
forma que si hay una dependencia lineal exacta har
que la matriz XX sea singular.
La presencia de dependencias cercanamente lineales

impactan dramticamente en la habilidad para estimar
los coeficientes de regresin.
La varianza de los coeficientes de la regresin son

inflados debido a la multicolinealidad. Es evidente por
los valores diferentes de cero que no estn en la
diagonal principal de XX. Que son correlaciones
simples entre los regresores.
80
Multicolinealidad
Una prueba fcil de probar si hay multicolinealidad

entre dos variables es que su coeficiente de correlacin
sea mayor a 0.7
Los elementos de la diagonal principal de la matriz XX

se denominan Factores de inflacin de varianza (VIFs) y
se usan como un diagnstico importante de
multicolinealidad. Para el componente j simo se
1
tiene:
VIF j
1 R 2j
Si es mayor a 10 implica que se tienen serios problemas

de multicolinealidad.
81
Anlisis de los residuos
Los residuos graficados vs la Y estimada, pueden

mostrar diferentes patrones indicando adecuacin o no
adecuacin del modelo:
Grfica de residuos aleatorios cuya suma es cero (null

plot) indica modelo adecuado
Grfica de residuos mostrando una no linealidad

curvilnea indica necesidad de transformar las variables
Si los residuos se van abriendo indica que la varianza

muestra heteroestacidad y se requiere transformar las
variables. Se puede probar con la prueba de Levene de
homogeneidad de varianzas
82
Escalamiento de residuos
En algunos casos es difcil hacer comparaciones directas

entre los coeficientes de la regresin debido a que la
magnitud de bj refleja las unidades de medicin del
regresor Xj. Por ejemplo:
Y 5 X 1 1000 X 2
Para facilitarla visualizacin de residuos ante grandes

diferencias en los coeficientes, se sugiere estandarizar o
estudentizar los residuos
83
Residuos estandarizados
Se obtienen dividiendo cada residuo entre la

desviacin estndar de los residuos
di
ei
,
MSE
Despus de la estandarizacin, los residuos

tienen una media de 0 y desviacin estndar de
1
Con ms de 50 datos siguen a la distribucin t,

de manera que si exceden a 1.96 (lmite
para
84
Residuos estudentizados
Son similares a los residuos donde se elimina una

observacin y se predice su valor, pero adems se
elimina la i-sima observacin en el clculo de la
desviacin estndar usada para estandarizar la sima observacin
Puede identificar observaciones que tienen una gran

influencia pero que no son detectadas por los
residuos estandarizados
H = X (XX)-1X es
ei la matriz sombrero o hat matriz.
ri
MSE (1 hii )
85
El estadstico PRESS (Prediction Error Sum of Squares)

es una medida similar a la R2 en la regresin. Difiere en
que se estiman n-1 modelos de regresin.
En cada modelo se omite una observacin en la

estimacin del modelo de regresin y entonces se
predice el valor de la observacin omitida con el modelo
estimado. El residuo isimo ser:
e( i ) Yi Y( i )
El residuo PRESS es la suma al cuadrado de los residuos

individuales e indica una medida de la capacidad de
N
prediccin
PRESS
2
2
PRESS e(2i ) Yi Y( i )
RPr
ediccin
i 1
SYY 86
Grficas parciales de
regresin
Para mostrar el impacto de casos individuales es ms

efectiva la grfica de regresin parcial. Un caso outlier
impacta en la pendiente de la ecuacin de regresin (y
su coeficiente).
Una comparacin visual de la grfica de regresin

parcial con y sin la observacin muestra la influencia de
la observacin
El coeficiente de correlacin parcial es la correlacin de

la variable independiente Xi la variable dependiente Y
cuando se han eliminado de ambos Xi y Y
La correlacin semiparcial refleja la correlacin

entre las
87
Matriz sombrero
Los puntos de influencia son observaciones

substancialmente diferentes de las observaciones
remanentes en una o ms variables independientes
Contiene valores (sombrero en su diagonal) para cada

observacin que representa influencia. Representa los
efectos combinados de todos las variables
independientes para cada caso
88
Matriz sombrero
Los valores en la diagonal de la matriz sombrero miden

dos aspectos:
Para cada observacin miden la distancia de la
observacin al centro de la media de todas las
observaciones de las variables independientes
Valores altos en la diagonal indica que la observacin

tiene mucho peso para la prediccin del valor de la
variable dependiente, minimizando su residuo
El rango de valores es de 0 a 1, con media p/n, p es
el nmero de predictores y n es el tamao de
muestra. Valores lmite se encuentran en 2p/n y 3p/n
89
Distancia de Mahalanobis
D2 es una medida comparable a los valores sombrero

(hat values) que considera slo la distancia de una
observacin del valor medio de las variables
independientes.
Es otra forma de identificar outliers
La significancia estadstica de la distancia de

Malahanobis se puede hacer a partir de tablas del texto:
Barnett, V., Outliers in Statistical Data, 2nd. Edition,
Nueva York, Wiley, 2984
90
Influencia en coeficientes
individuales
El impacto de eliminar una observacin simple en

cada uno de los coeficientes de la regresin
mltiple se muestra con la DFBETA y su versin
estandarizada SDFBETA.
Se sugiere aplicar como lmites 1.0 o 2 para

tamaos de muestra pequeos y n para muestras
medias y grandes
La distancia de Cook (Di) captura el impacto de una

observacin:
La dimensin del cambio en los valores pronosticados
cuando se omite la observacin y la distancia de las
otras observaciones, el lmite es 1 o 4/(n-k-1)
91
Influencia en coeficientes
individuales
La medida COVRATIO estima el efecto de la

observacin en la eficiencia del proceso, en sus
errores estndar de los coeficientes de la
regresin. Considera a todos los coeficientes
colectivamente.
El lmite puede ser establecido en 1 3p/n, los

valores mayores al lmite hacen el proceso ms eficiente y
los menores ms ineficiente
La medida SDFFIT es el grado en que cambian los

valores ajustados o pronosticados cuando el caso se
elimina. El valor lmite es 2*raz((k+1)/(n-k-1))
Ejemplo de regresin
mltiple
Solucin con Excel y Minitab
93
Ejemplo de Regresin Mltiple

Cat. (US News) GMAT
Stanford
1
711 82000
Harvard
2
670 80000
Penn (Wharton) 3
662 79000
MIT (Sloan)
4
650 78000
Chicago
5
680 65000
Northwestern
6
660 70000
Columbia
7
660 83000
Dartmouth
8
670 70000
Duke
9
646 67500
Berkeley
10 653 70000
Virginia
11
660 66000
Michigan
12 645 65000
NYU
13 646 70583
Carnegie Mellon 14 640 67200
Yale
15 675 65000
U.N.C.
16 630 60000
UCLA
17 651 65000
Texas-Austin
18 630 60000
Indiana
19 630 61500
Cornell
20 637 64000
Rochester
21 630 58500
Ohio State
22 611 61000
Emory
23 626 60000
Purdue
24 603 63700
Maryland
25 640 53000
Salario Inicial ($)

7.4
12.8
14.7
15.1
25.0
16.0
14.8
12.6
20.5
13.3
18.9
28.0
20.9
30.8
23.5
19.8
17.5
27.3
44.7
25.4
36.0
23.2
33.0
20.7
18.9
% Aceptacin
94
Interpretacin de Resultados de Excel- Regresin Multiple

SUMMARY OUTPUT
Multiple R
0.8749313 R Square 0.76550478
Adjusted R Square
0.732005463 Standard Error 4050.855918 Observations
25
ANOVA
df SS
MS
F
Significance F
Regression 3
1.12E+09
374977790.1
22.851355 8.17E-07
Residual
21 3.45E+08
16409433.67
Total
24 1.47E+09
Coefficients Standard
t Stat
P-value Lower 95% U pper 95%
Error
Intercept
122481.40 41473.13 2.953271081 0.007589
36233.29
208729.5
X Variable1 -926.873
513.424
65.76118
69.49917
198.8104 -4.662094325 0.0001336

60.44875 -0.991730876 0.3326192
125.6138 -1.526337637 0.1418472
-1340.32 -185.659
-452.957
Resultados de Excel- Regresin slo con slo X1

SUMMARY OUTPUT
Multiple R
0.855974
R Square 0.732691
Adjusted R Square
0.721069
Standard Error
4132.688
Observations 25
ANOVA
df
Regression
Residual
Total
SS
MS
F
1
1.08E+09
23 3.93E+08
24 1.47E+09
Significance F
1.08E+09
63.04264
17079107
4.88E-08
Coefficients Standard Error

t Stat
P-value Lower 95% Upper 95%
Intercept
79230.32
1703.951
46.49801
2.98E-2475705.43405
82755.20595
114.6201 -7.93994
4.88E-08-1147.186411
-672.9674353
Con
Conslo
sloX1,
X1,elelModelo
Modelose
sesimplifica
simplificaenormemente
enormemente
2
poca
pocaimportancia
importanciaprctica
prcticase
sepierde
pierdeen
enRR2(ajustada)
(ajustada)
Reduccin
del Modelo
Vuelva
a correr la regresin usando la categora
US News, como el nico agente de prediccin (predictor)
La ecuacin de regresin es:

y = 79230 - 910 x
Predictor
Constante
x
Coef
Desv. Estndar T
79230 1704
46.50
-910.1 114.6
-7.94
S = 4133
R2 = 73.3%
p
0.000
0.000
R2 (ajustada) = 72.1%
Anlisis de Variancia
Fuente
Regresin
Error
Total
DF
1
23
24
SS
MS
F
1076712008
1076712008
392819470
17079107
1469531477
p
63.04
0.000
El
El Modelo
Modelo se
se simplifica
simplifica enormemente..poca
enormemente..poca
22
importancia
prctica
se
pierde
en
R
importancia prctica se pierde en R (ajustada)
(ajustada)
Corrida en Minitab
Se introducen los datos en varias columnas C1

a C5 incluyendo la respuesta Y (heatflux) y las
variables predictoras Xs (North, South, East)
HeatFlux
Insolation
East
South
North
271.8
783.35 33.53
40.55
16.66
264.0
748.45 36.50
36.19
16.46
238.8
684.45 34.66
37.31
17.66
230.7
827.80 33.13
32.52
17.50
251.6
860.45 35.75
33.71
16.40
257.9
875.15 34.46
34.14
16.28
98
Corrida en Minitab
Utilzar el archivo de ejemplo Exh_regr.mtw

Opcin: Stat > Regression > Regression
Para regresin lineal indicar la columna de
respuesta Y (Score2) y X (Score1)
En Regresin lienal en opciones se puede

poner un valor Xo para predecir la respuesta e
intervalos. Las grficas se obtienen Stat >
Regression > Regression > Fitted line Plots
Para regresin mltiple Y (heatflux) y las

columnas de los predictores (north, south,
east)
99
Resultados de la regresin
lineal
The regression equation is
Score2 = 1.12 + 0.218 Score1
Predictor
Constant
Score1
Coef
SE Coef
1.1177
0.1093
10.23
0.000
0.21767
0.01740
12.51
0.000
S = 0.1274
R-Sq = 95.7%
R-Sq(adj) = 95.1%
Analysis of Variance
Source
Regression
DF
SS
MS
2.5419
2.5419
156.56
0.000
Residual Error
Total
0.1136
8
0.0162
2.6556
Predicted Values for New Observations

New Obs
1
2.6414
Fit
SE Fit
0.0474
95.0% CI
(
2.5292,
New Obs
1
2.7536)
95.0% PI
(
2.3197,
2.9631)
Score1
7.00
100
lineal
Regression Plot
Score2 = 1.11771 + 0.217670 Score1
S = 0.127419
R-Sq = 95.7 %
R-Sq(adj) = 95.1 %
Score2
3.5
2.5
Regression
1.5
95% CI
95% PI
2
Score1
101
Mltiple
The regression equation is
HeatFlux = 389 - 24.1 North + 5.32 South + 2.12 East
Predictor
Coef
SE Coef
389.17
66.09
5.89
0.000
North
-24.132
1.869
-12.92
0.000
South
5.3185
0.9629
5.52
0.000
2.125
1.214
1.75
0.092
Constant
East
S = 8.598
R-Sq = 87.4%
R-Sq(adj) = 85.9%
Analysis of Variance
Source
Regression
DF
SS
MS
12833.9
4278.0
57.87
0.000
Residual Error
25
1848.1
Total
28
73.9
14681.9
Source
DF
Seq SS
North
10578.7
South
2028.9
East
226.3
102
Resumen de la Regresin
La regresin slo puede utilizarse con informacin de variables
continuas.
Los residuos deben distribuirse normalmente con media cero.
Importancia prctica: (R2). Importancia estadstica: (valores p)
La regresin puede usarse con un predictor X o ms,
para una respuesta dada
Reduzca el modelo de regresin cuando sea posible,
sin perder mucha importancia prctica
103
VI.A.4 Herramientas
multivariadas
104
Herramientas multivariadas
1. Introduccin
2. Anlisis de componentes principales
3. Anlisis factorial
4. Anlisis discriminante
5. MANOVA
105
Introduccin
En el anlisis multivariado se incluyen dos o

ms variables dependientes Y1, Y2, etc.
Consideradas simultneamente para las
variables independientes X1, X2, ., Xn
Normalmente se resuelven con herramientas

computacionales tales como Minitab y SPSS.
Entre las herramientas principales se

encuentran:
Componentes principales, anlisis factorial,

anlisis discriminante, anlisis de
conglomerados, anlisis cannico, MANOVA
106
Anlisis de componentes
principales
El anlisis (PCA) y el anlisis factorial (FA) se

usan para encontrar patrones de correlacin
entre muchas variables posibles y
subconjuntos de datos
Busca reducirlas a un menor nmero de

componentes o factores que representen la
mayor parte de la varianza.
Normalmente se requieren al menos cinco

observaciones por variable
107
Anlisis de componentes
principales
Pasos de anlisis en Minitab
Se usa una matriz de correlacin para

determinar la relacin entre componentes
Las matrices definen cantidades como
eigenvalores y eigenvectores
Se suman los eigenvalores y se calculan las
proporciones de cada componente
Se identifican los PC1, PC2, que explican la
mayor parte de la varianza
Se puede hacer un diagrama de Pareto como
apoyo
108
Ejemplo: Alimentos en
Europa
109
Corrida en Minitab
2Stat > Multivariate > Principal components
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4En Number of factors to extract, 3. Seleccionar
Correlation Matrix
5Click Graphs y seleccionar Scree Plot, Score plot
for first 2 components Loading plot for first 2
components
8 Click Storage e indicar las columnas donde se
guarden los coeficientes y los valores Z (scores) Coef1
Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de dilogo
110
Europa
Dos componentes exceden

El eigenvalor de ref. de 1
111
Europa
112
Anlisis factorial
Es una tcnica de reduccin de variables para

identificar factores que expliquen la variacin,
aunque se reiere un juicio subjetivo.
Las variables de salida estn relacionadas

linealmente con las variables de entrada.
Las variables deben ser medibles y simtricas.

Debe haber cuatro o ms factores de entrada
para cada variable independiente
113
Anlisis factorial
Se especifican un cierto nmero de factores

comunes
El anlisis factorial se hace en dos etapas:
Extraccin de factores, para identificar los

factores principales para un estudio posterior
Rotacin de factores, para hacerlos ms
significativos
114
Corrida con Minitab

2Stat > Multivariate > Factor Analysis.
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4En Number of factors to extract, 4.
En Method of Extraction, seleccionar Principal
components
6En Type of Rotation, seleccionar Varimax.
7Click Graphs y seleccionar Loading plot for first 2
factors y Scree Plot.
Click Results y seleccionar Sort loadings.
Seleccionar Storage e indicar columnas para
ponderaciones, coeficientes, Zs, eigenvalores, etc.
Click OK en cada uno de los cuadros de d
115
Ejemplo
116
Ejemplo:
117
Anlisis discriminante
Si se tiene una muestra con grupos conocidos,

el anlisis discriminante clasifica las
observaciones o atributos en dos o ms grupos
Puede utilizarse como herramienta predictiva o

descriptiva
Las variables deben ser multivariadamente

normales, con la misma varianza y covarianza
poblacional entre variables dependientes, y las
muestras exhiben independencia
118
pases
119
Corrida con Minitab

2Stat > Multivariate > Discriminant
Analysis.
3En Groups, poner SalmonOrigin.
4 En Predictors, poner Freshwater Marine.
Click OK.
120
Corrida con Minitab
121
Anlisis de conglomerados
122
Anlisis de conglomerados
Se usa para determinar agrupaciones o

clasificaciones de un conjunto de datos
Las personas se pueden agrupar por IQ,

padres, hbitos de estudio, etc.
Se trata de dar sentido a grandes cantidades

de datos de cuestionarios, ecnuestas, etc.
123
Ejemplo
Suponer que un estudio

de mercado trata de
determinar segmentos
de mercado en base a los
patrones de lealtad de
marcas (V1) y tiendas
(V2), medidas del 0 al 10
en 7 personas (A-G).
Variables V1
V2
124
Corrida en Minitab
Stat > Multivariate Anlisis > Cluster

Observations
Distance Measured Euclidean Seleccionar
Show Dendogram OK
125
Anlisis de correlacin
cannico
Prueba la hiptesis de que los efectos pueden

tener causas mltiples y de que las causas
pueden tener efectos mltiples (Hotelling
1935)
Es como una regresin mltiple para

determinar la correlacin entre dos conjuntos
de combinaciones lieneales, cada conjunto
puede tener varias variables relacionadas.
La relacin de un conjunto de variables
dependientes a un conjunto de variables
independientes forma combinaciones lineales
126
Anlisis de correlacin
cannico
Se usan los ms altos valores de correlacin

para los conjuntos. Los pares de
combinaciones lineales se denominan variates
cannicas con correlaciones cannicas (Rc con
valor mayor a 0.3)
Por ejemplo se quiere determinar si hay una

correlacin entre las caractersticas de un
ingeniero industrial y las habilidades
requeridas en la descripcin de puesto del
mismo ingeniero.
127
MANOVA
(Anlisis de varianza mltiple)
Es un modelo para analizar la relacin entre

una o ms variables independientes y dos o
ms variables dependientes
Prueba si hay diferencias significativas en las

medias de grupos de una combinancin de
respuestas Y.
Los datos deben ser normales, con covarianza

homogenea y observaciones independientes
128
MANOVA
(Anlisis de varianza mltiple)
129
Diferencias de ANOVA y MANOVA
130
Ejemplo:
Extrusin de pelcula plstica
Se realiza un estudio para determinar las

condiciones ptimas para extruir pelcula
plstica.
Se miden tres respuestas Tear, gloss y

opacity cinco veces en cada combinacin de
dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos
y altos.
Se utiliza el MANOVA balanceado para probar

la igualdad de las medias.
131
Ejemplo:
132
Ejemplo:
1Abrir el archivo EXH_MVAR.MTW.
2Seleccionar Stat > ANOVA > Balanced
MANOVA.
3En Responses, poner Tear Gloss Opacity.
4En Model, poner Extrusion | Additive.
5Click Results. En Display of Results,
seleccionar Matrices (hypothesis, error,
partial correlations) y Eigen analysis.
6 Click OK en cada cuadro de dilogo.
133
Ejemplo
134
Ejemplo:
Las matrices SSCP evalan la contribucin a la
variabilidad de manera similar a la suma de
cuadrados en la ANOVA univariada.
Las correlaciones parciales entre Tear y Gloss son
pequeas. Como la estructura de las
correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una
de las respuestas.
135
VI.A.4 Estudios Multivari
136
Estudios Multivari
La carta multivari permite analizar la variacin

dentro de la pieza, de pieza a pieza o de
tiempo en tiempo
Permite investigar la estabilidad de un proceso

consiste de lneas verticales u otro esquema
en funcin del tiempo. La longitud de la lnea o
del esquema representa el rango de valores
encontrados en cada conjunto de muestras
137
Estudios Multivari
La variacin dentro de las muestras (cinco

puntos en cada lnea). La variacin de muestra
a muestra como posicin vertical de las lneas.
E
S
P
E
S
O
R
Nmero de subgrupo 138
Estudios Multivari
Ejemplo de parte metlica

Centro ms grueso
139
Estudios Multivari
Procedimiento de muestreo:
Seleccionar el proceso y la caracterstica a

investigar
Seleccionar tamao de muestra y

frecuencia de muestreo
Registrar en una hoja la hora y valores para

conjunto de partes
140
Estudios Multivari
Procedimiento de muestreo:
Realizar la carta Multivari

Unir los valores observados con una lnea
Analizar la carta para variacin dentro de la

parte, de parte a parte y sobre el tiempo
Puede ser necesario realizar estudios

adicionales alrededor del rea de mxima
variacin aparente
Despus de la accin de mejora comprobar
con otro estudio Multivari
141
Cartas Multivari
Su propsito fundamental es reducir el gran

nmero de causas posibles de variacin, a un
conjunto pequeo de causas que realmente
influyen en la variabilidad.
Sirven para identificar el patrn principal de

variacin de entre tres patrones principales:
Temporal: Variacin de hora a hora; turno

a turno; da a da; semana a semana; etc.
Cclico: Variacin entre unidades de un

mismo proceso; variacin entre grupos de
unidades; variacin de lote a lote.142
Cartas Multivari
Posicional:
Variaciones dentro de una misma unidad

(ejemplo: porosidad en un molde de metal) o a
travs de una sola unidad con mltiples partes
(circuito impreso).
Variaciones por la localizacin dentro de un
proceso que produce mltiples unidades al
mismo tiempo. Por ejemplo las diferentes
cavidades de un molde
Variaciones de mquina a mquina; operador a
operador; planta a planta
143
Cartas Multivari
Ejemplo: Se toman 3 a 5 unidades consecutivas,

repitiendo el proceso tres o ms veces a cierto intervalo
de tiempo, hasta que al menos el 80% de la variacin en
el proceso se ha capturado.
1 2 3 4 5
27 28 29 30 31
55 56 57 58 59
VARIACIN POSICIONAL DENTRO DE LA UNIDAD

144
Cartas Multivari
Ejemplo: (cont...)
1 2 3 4 5
27 28 29 30 31
55 56 57 58 59
VARIACIN CCLICA DE UNIDAD A UNIDAD
145
Cartas Multivari
Ejemplo: (cont...)
1 2 3 4 5
27 28 29 30 31
55 56 57 58 59
VARIACIN TEMPORAL DE TIEMPO A TIEMPO
146
Cartas Multivari
Ejemplo: Un proceso produce flecha

cilndricas, con un dimetro especificado de
0.0250 0.001.
Sin embargo un estudio de capacidad muestra

un Cp = 0.8 y una dispersin natural de
0.0025 (6 ) contra la permitida de 0.0002.
Se tiene pensado comprar un torno nuevo de

US$70,000 para tolerancia de 0.0008, i.e.
Cpk = 1.25. Se sugiri un estudio Multi Vari
147
previo.
Cartas Multivari
Se tomaron cuatro lecturas en cada flecha,

dos a cada lado. Estas muestran una
disminucin gradual desde el lado izquierdo al
lado derecho de las flechas, adems de
excentricidad en cada lado de la flecha.
La variacin cclica, de una flecha a la

siguiente, se muestra mediante las lneas que
concentran las cuatro lecturas de cada flecha.
Tambin se muestra la variacin temporal.

148
Cartas Multivari
8 AM
9 AM
10 AM
11 AM
12 AM
0.25
10
0.2500
0.2490
Izquierda
Mximo
Derecha
Mnimo
149
Cartas Multivari
Un anlisis rpido revela que la mayor variacin es

temporal con un cambio mayor entre las 10 AM y las 11
AM.
A las 10 AM se para el equipo para el almuerzo y se

arranca a las 11 AM, con lecturas similares a las de las
8 AM. Conforme pasa el tiempo las lecturas tienden a
decrecer ms y ms, hasta que se invierten a las 10
A.M. en forma drstica.
Se investig y se encontr que la temperatura tena

influencia en la variacin.
La variacin en temperatura era causada por que la

cantidad de refrigerante no era la adecuada, lo cual se
notaba ms cuando se paraba el equipo y se150
volva a
Cartas Multivari
Tambin se encontr que el acabado cnico era

causado por que la herramienta de corte estaba mal
alineada. Se ajust, contribuyendo a otra reduccin del
10% de la variabilidad.
La excentricidad de las flechas se corrigi al cambiar un

rodamiento excntrico por desgaste en el torno. Se
instal un nuevo rodamiento eliminndose otro 30% de
la variabilidad.
La tabla siguiente muestra un resumen de los

resultados.
151
Cartas Multivari
Tipo de
% var.
Causas de
Accin
% de variacin
Variacin
Total
Variacin
Correctiva
Reducida
Temporal
50
Bajo nivel de
Tiempo a tiempo
Dentro de
10
la flecha
Adicionar
Refrigerante
Casi 50
refrigerante
Ajuste no
Ajuste de la
no paralelo
herramienta de
Casi 10
corte
Dentro de
30
la flecha
Flecha a
Rodamiento
Nuevo
gastado
rodamiento
-???
Casi 30
flecha
152
Cartas Multivari
Resultados:
La variacin total en la siguiente corrida de

produccin se redujo de 0.0025 a 0.0004
El nuevo Cp fue de 0.002 / 0.0004 = 5.0
Como beneficios se redujo a cero el desperdicio y no

hubo necesidad de adquirir una nueva mquina.
Se observa que antes de cambiar equipo o

mquinas, es conveniente realizar un estudio de
variabilidad para identificar las fuentes de variacin
y tratar de eliminarlas.
153
Cartas Multivari
Ejemplo: Bsqueda de fuentes de variacin con el diagrama sistemtico.
Dimetro de Flecha
(0.150" +/- .002)
Variacin
de
proceso
Pieza a
pieza
Lote a lote
Programa
Dentro de
la pieza
Mquina
Variacin de
sist. medicin
Mquina a
mquina
Accesorios
Turno a
turno
Tiempo a
tiempo
Operador a
operador
154
Cartas Multivari
Ejemplo (cont..):
Al realizar la prueba de homogeneidad de varianza F, se
encontr que haba una diferencia significante entre los
operadores.
Se Rechaza Ho: Oper1 = Oper2 = Oper3

Para probar si existe diferencia significativa entre
medias de operadores se hacen las siguientes
comparaciones
Ho: Oper1 = Oper2 Ho: Oper1 = Oper3

Ho: Oper2 = Oper3 Ha: Oper1 Oper2 Oper3
155
Corrida en Minitab
Se introducen los datos en varias columnas C1

a C3 incluyendo la respuesta (strenght) y los
factores (time y Metal)
SinterTime MetalType Strength
0.5 15 23
0.5 15 20
0.5 15 21
0.5 18 22
0.5 18 19
0.5 18 20
0.5 21 19
0.5 21 18
156
Corrida en Minitab
Utilizar el achivo de ejemplo Sinter.mtw
Opcin: Stat > Quality Tools > Multivari charts
Indicar la columna de respuesta y las

columnas de los factores
En opciones se puede poner un ttulo y

conectar las lneas
157
Resultados
Multi-Vari Chart for Strength by SinterTime - MetalType
SinterTime
0.5
23.5
1.0
2.0
22.5
Strength
21.5
20.5
19.5
18.5
17.5
15
18
21
MetalType
158
VI.B.7 Pruebas de bondad

de ajuste
159
(O
i
E
)
Bondad de ajuste
PRUEBAS DE BONDAD DE AJUSTE
Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma
de distribucin particular planteada como hiptesis
Si el ajuste es razonablemente cercano, puede concluirse que s exite la forma de distribucin
planteada como hiptesis
2
2iK
Por ejemplo:
Ho: La distribucin poblacional es uniforme

Ha: La distribucin poblacional no es uniforme
Se usa el estadstico Chi-Cuadrado
Oi = Frecuencia de los eventos observados en los datos muestrales
Ei = Frecuencia de los eventos esperados si la hiptesis nula es correcta

Para que la prueba sea confiable Ei >= 5. De otra forma se combinan las categorias para
cumplir con este requisito.
K = Nmero de categoras o clases
160
Bondad de ajuste
Ejemplo:
Se venden n = 48 botes en 4 meses. Si la demanda es uniforme se esperara que se vendieran
12 botes / mes. La cantidad real que se vendi fue:
Ventas (Oi) Ventas (Ei)
Tipo de bote observadas esperadas
A
15
12
B
11
12
C
10
12
D
12
12
DISTR.CHI
Entonces el estadstico Chi Cuadrado de la muestra es = 1.17 el valor P corresp.=
0.76020818
El Chi Cuadrado de excel se determina con alfa = 0.05 y K - 1 grados de libetad = 3

Chi cuadrado de excel = 7.815
El estadstico Chi cuadrado calculado de 1.17 es menor al de excel de 7.815 por tanto se acepta
la hiptesis nula
PRUEBA.CHI.INV
161
Prueba de Bondad de ajuste

para la distribucin de Poisson
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. De
Poisson
Ha: Caso contrario
2. Tomar una muestra aleatoria, anotar la frecuencia
observada fi y calcular la media de ocurrencias
3. Calcular la frecuencia esperada de ocurrencias ei.
Multiplicar el tamao de muestra con la prob. de Poisson
para cada valor de la variable aleatoria.
menos
2
n
( f i Si
ei )hay
2
de 5 combinar las categoras
ei
i 1
4. Calcular el estadstico
de prueba
2 2
5. Rechazar Ho si
o si p < alfa. Con gl=k-p-1

y alfa
162
Ejemplo:
Distribucin de Poisson =5
Ho: No. de clientes que llega en intervalos de 5 min. tiene una

distribucin de Poisson
Ha: No se sigue una distribucin de
Poisson
Clientes
Frec. observada f(x) de Poisson
128*f(x)
cantidad
esperada
0
0.0067
0.8576
0.0337
4.3136
10
0.0842
10.7776
12
0.1404
17.9712
18
0.1755
22.4640
22
0.1755
22.4640
22
0.1462
18.7136
16
0.1044
13.3662
12
0.0653
8.3584
0.0363
4.6464
0.0318
163 4.0704
10 o ms
Ejemplo:
Distribucin de Poisson =5
Combinando X=0,1 y X=9, 10 o ms para que la frecuencia

observada sea mayor a 5 y se pueda aplicar la distribucin Chi
Cuadrada se tiene
Clientes
Frec. Observada f(x) de Poisson
128*f(x)
frecuencia
(fi)
esperada (ei)
0o1
10
0.0067+0.0337
5.1712
10
0.0842
10.7776
12
0.1404
17.9712
18
0.1755
22.4640
22
0.1755
22.4640
22
0.1462
18.7136
16
0.1044
13.3662
12
0.0653
8.3584
9 o ms
0.0363+0.0318
8.7168
164
Estadstico y conclusin
Con los datos anteriores se calcula el estadstico Chi
cuadrada que se compara con Chi Cuadrada de alfa
para k-p-1 grados de libertad (K categoras: 9, p
parmetros a estimar: 1 media).
2
(
f
e
)
2 i i
ei
i 1
n
2 2
Ho se rechaza si
o si p es mayor que alfa.
El valor de Chi Cuadrada calculado es de 10.9766 y el

valor Chi Cuadrada de alfa 0.05 con 2 gl. Es de 14.07 no
se rechaza Ho
En este caso p = 0.14 > 0.05 por tanto no se
rechaza Ho y
165

para la distribucin Normal
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. Normal
Ha: Caso contrario
2. Tomar una muestra aleatoria, calcular la media y la
desviacin estndar
3. Definir K intervalos de valores de forma que la
frecuencia esperada sea 5 cuando menos para cada uno
(intervalos de igual probabilidad). Anotar la frecuencia
observada de los valores de datos fi, en cada intervalo
166

4. Calcular el nmero de ocurrencias esperado ei, para
cada intervalo de valores. Multiplicar el tamao de
muestra por la probabilidad de que una variable
aleatoria est en el intervalo.
5. Calcular el estadstico de prueba

2 2
6. Rechazar Ho si
nivel de significancia
( f i ei ) 2
ei
i 1
n
o si p < alfa. Con gl=k-p-1 y alfa
167

Ejemplo: datos de calificaciones: Media = 68.42; S =

10.41
Calificaciones
71
66
61
65
54
93
60
86
70
70
73
73
55
63
56
62
76
54
82
79
76
68
53
58
85
80
56
61
61
64
65
62
90
69
76
79
77
54
64
74
65
65
61
56
63
80
56
71
79
84
168

Ho: la poblacin tiene una distribucin normal con media
68.42 y S=10.41 Ha: Caso contrario
Para una muestra de 50 con una frecuencia mnima
esperada de 5 se tiene el 10% al menos por cada celda
La primera celda correspondiente al 10% est en Z =
-1.28 con
X = (Media - Z*S) = 55.10
Para el rea del 20%, Z = -0.84 y X = 59.68
y as sucesivamente
169

Intervalo
Frecuencia
observada
(fi)
Frecuencia
esperada
(ei)
Menos de
55.10
55.10 a
59.68
59.68 a
63.01
63.01 a
65.82
65.82 a
68.42
68.42 a
71.02
71.02 a
Se registran las
frecuencias de
los datos
tomados de las
calificaciones
170

Se determina el estadstico Chi Cuadrado = 7.2
( f i ei ) 2

ei
i 1
2
El Valor de Chi Cuadrado de alfa = 0.10 para k p 1

grados de libertad. K = 10 categoras, p = 2
parmetros. Gl = 7. Chi Cuadrado es 12.017
Como 2 2 no se puede rechazar la hiptesis nula de

normalidad de las calificaciones
171

para la distribucin Multinomial
1. Enunciar la hiptesis nula y alternativa
Ho: La poblacin sigue una distribucin de probabilidad
multinomial con probabilidades especificadas para cada
una de las K categoras
Ha: Caso contrario
2. Tomar una muestra aleatoria y anotar las frecuencias
observadas fi para cada categora
3. Suponiendo que Ho es cierta, determinar la frecuencia
esperada ei, en cada categora multiplicando la
probabilidad de la categora por el tamao de muestra
172

4. Se determina el estadstico Chi Cuadrado de prueba
( f i ei ) 2

ei
i 1
2
5. Regla de rechazo:
2
2
Si
no se puede rechazar la hiptesis nula
Rechazar si el valor p es menor a alfa

Con alfa nivel de significancia y los grados de libertad son
k-1
173

Ejemplo: El ao pasado la participacin de mercado para
la empresa A fue del 30%, 50% para la empresa B y
20% para la empresa C. La empresa C hace una prueba
con un nuevo producto para estimar su impacto en las
preferencias del mercado.
Se tom una muestra de 200 clientes resultando
preferencias de compra de: 48 para A, 98 para B y 54
para C.
De acuerdo a las probabilidades esperadas, en los 200
clientes las preferencias esperadas son:
A=200*0.3=60, B=200*0.5=100, C=200*0.2=40
174

Datos para calcular el estadstico de prueba Chi Cuadrado
Categora
Proporcin
hipottica
Frecuencia
observada
Frecuencia
esperada
Empresa A
0.3
48
60
Empresa B
0.5
98
100
Empresa C
0.2
54
40
175

Chi Cuadrado calculado = 7.34
Chi cuadrado de alfa = 0.05 con k 1 = 2 grados de
libertad = 2 es de 5.99. El valor p correspondiente es
de 0.025.
Como 7.34 es mayor a 5.99 o el valor p de 0.025 es menor
a alfa de 0.05 se rechaza la hiptesis nula Ho y se
concluye que el nuevo producto modificar las
preferencias del mercado actuales
La participacin de la empresa C aumenta con el nuevo
producto
176
Prueba de Bondad
de ajuste en Minitab
La columna C1 Observadas contiene las frecuencias
observadas y la C2 esperadas las frecuencias
esperadas
Calc > Calculator > Store result in variable ChiCuadrada
Teclear en el cuadro de expresin sum((ObservadasEsperadas)**2/Esperadas)
Calc > Probability distributions > Chi Square
Seleccionar Cummulative probability
Degrees of freedom 2
Input column ChiCuadrada; Optional Storage CumProb
OK
Calc > Calculator > Store results in variable p
177
Prueba de Bondad
de ajuste en Minitab
Ejemplo: investigacin de mercado
Observadas Esperadas ChiCuadrada

48
60
7.34
98
100
54
40
CumProb
0.974524
178
p
0.0254765
Prueba de Bondad
de ajuste en Excel
Ejemplo: investigacin de mercado
1. Calcular el estadstico Chi Cuadrada con =(A2-B2)^2/B2

y Suma
Chi cuadrada = 7.34
2. El valor P es =distr.chi(7.34, 2)
3. El estadstico Chi Cuadrada de alfa es:
=prueba.chi.inv(0.05,2) = 5.99
4. Como p es menor a alfa de 0.05 se rechaza la Ho
179
VI.B.6 ANOVA para un factor

principal y una o ms
variables de bloqueo
180
Introduccin
Cuando es necesario comparar 2 o ms medias

poblacionales al mismo tiempo, para lo cual se usa
ANOVA.
El mtodo ANOVA tiene los siguientes supuestos:

La varianza es la misma para todos los tratamientos
del factor en todos sus niveles
Las mediciones indiviudales dentro de cada
tratamiento se distribuyen normalmente
El trmino de error tiene un efecto distribuido
normalmente e independiente
181
Contenido
ANOVA de un factor o direccin
ANOVA de un factor y una variable de bloqueo
ANOVA de un factor y dos variables de bloqueo

CUADRADO LATINO
ANOVA de un factor y tres variables de

bloqueo CUADRADO GRECOLATINO
182
ANOVA de un factor
o direccin
183
Introduccin
Con el ANOVA las variaciones en la respuesta se

dividen en componentes que reflejan los efectos de
una o ms variables independientes
La variabilidad se representa como la suma de

cuadrados total que es la suma de cuadrados de
las desviaciones de mediciones individuales
respecto a la gran media, se divide en:
Suma de cuadrados de las medias de los
tratamientos
Suma de cuadrados del residuo o error
experimental
184
para probar la igualdad de

medias de varias poblaciones
para un factor
Se trata de probar si el efecto de un factor o
Tratamiento en la respuesta de un proceso o sistema es
Significativo, al realizar experimentos variando
Los niveles de ese factor (Temp. 1, Temp. 2, Temp.3, etc.)
Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
185
ANOVA - Condiciones
Todas las poblaciones son normales
Todas las poblaciones tiene la misma

varianza
Los errores son independientes con

distribucin normal de media cero
La varianza se mantiene constante para

todos los niveles del factor
186
ANOVA Ejemplo de datos

Niveles del Factor Peso % de algodn y Resistencia de tela
Peso porc.
de algodn
15
20
25
30
35
Respuesta
Resistencia de la tela
7
7
15
12
17
12
14
18
18
19
25
22
7
10
11
11
18
19
19
15
187
9
18
19
23
11
ANOVA Suma de
cuadrados total
Xij
Gran media
Xij
SCT
i 1
j 1
( Xij X )
188
ANOVA Suma de cuadrados

de renglones (a)tratamientos
Media Trat. a
Media Trat. 1
a renglones
Gran media
Media trat. 2
SCTr b( X i X )
i 1
189

del error
X2j
X3j
X1j
Media X1.
Media X3.
Media X2.
Muestra 1
SCE
i 1
Muestra 2
(X
j 1
ij
Muestra 3
X i)
190

del error
X2j
X3j
X1j
Media X1.
Media X3.
Media X2.
Muestra 1
Muestra 2
Muestra 3
SCE SCT SCTr

191
ANOVA Grados de libertad:

Totales, Tratamientos, Error
gl.SCT n 1
gl.SCTr a 1
gl.SCE (n 1) (a 1) n a
192
ANOVA Cuadrados medios:

Total, Tratamiento y Error
MCT SCT /( n 1)
MCTr SCTr /( a 1)
MCE SCE /( n a )
193
ANOVA Clculo del

estadstico Fc y Fexcel
MCTr
Fc
MCE
Fexcel FINVALFA, gl. SCTr , gl.SCE
194
Tabla final de ANOVA

TABLA DE ANOVA
FUENTE DE VARIACIN
SUMA DE GRADOS DE CUADRADO

CUADRADOS LIBERTAD MEDIO
Entre muestras (tratam.)
SCTR
a-1
CMTR
Dentro de muestras (error)
SCE
n-a
CME
Variacin total
SCT
n-1
CMT
VALOR F
CMTR/CME
Regla: Rechazar Ho si la Fc de la muestra es mayor que la F de Excel para una cierta alfa
o si el valor p correspondiente a la Fc es menor al valor de alfa especificado
195
ANOVA Toma de decisin

Distribucin F
Fexcel
Alfa
Zona de rechazo
De Ho o aceptar Ha
Zona de no rechazo de Ho
O de no aceptar Ha
Fc
196
ANOVA Toma de decisin

Si Fc es mayor que Fexcel se rechaza Ho
Aceptando Ha donde las medias son
diferentes
O si el valor de p correspondiente a Fc es
menor de Alfa se rechaza Ho
197
ANOVA Identificar las

medias diferentes por Prueba
de Tukey T
T q , a , n a
CME
b
Para diseos balanceado

(mismo nmero de
columnas en los
tratamientos) el valor
de q se determina por
medio de la tabla en el
198
ANOVA Identificar las

medias diferentes por Prueba
de Tukey T
Se calcula la diferencia Di entre cada par de Medias Xis:
D1 = X1 X2
D2 = X1 X3
D3 = X2 X3
etc.
Cada una de las diferencias Di se comparan con el

valor de T, si lo exceden entonces la diferencia es
Significativa de otra forma se considera que las medias
Son iguales
199
diferentes por Prueba de

Diferencia Mnima Significativa
DMS
2(CME ) F ,1,n a
DMS
b
Para diseos balanceados (los
tratamientos tienen igual no. De
columnas), se calcula un factor DMS
contra el que se comparan las
diferencias Xi Xi. Significativas
200si lo
Prueba DMS para Diseos no

balanceados
DMS j ,k
1 1
(CME ) F ,a 1,n a
b j bk
Para diseos no balanceados (los

tratamientos tienen diferente no. De
columnas), se calcula un factor DMS
Para cada una de las diferencias Xi
Xi
201
Ejemplo:
Considerar un experimento de un factor

(mquina) con tres niveles (mquinas A, B, C).
Los datos se muestran a continuacin y debe
verificarse si existe diferencia significativa a
un alfa = 0.05
Mquin
as
Datos
Su
m
a
Prom
.
202
Ejemplo:
La tabla completa de ANOVA es la siguientes:

Fuentes
De variacin
Cuadrado
medio
Mquin
as
Como el valor calculado de F(33.2) excede el valor crtico de F,

se rechaza la Hiptesis nula Ho
203
Ejemplo:
Con Minitab: Stat>ANOVA>One way unstacked

Responses (in separate columns) A B C
Interpretar los resultados
-2
-2
-3
0
204
Ejemplo:
One-way ANOVA: A, B, C
Source
DF
SS
MS
Factor
137.20
68.60
33.19
Error
12
24.80
2.07
Total
14
162.00
S = 1.438
R-Sq = 84.69%
0.000 Rechazo Ho
R-Sq(adj) = 82.14%
Individual 95% CIs For Mean Based on

Pooled StDev
Level
Mean
StDev
---------+---------+---------+---------+
6.200
0.837
(-----*----)
0.600
1.673
-0.800
1.643
(----*-----)
(-----*----)
---------+---------+---------+---------+
0.0
2.5
5.0
7.5
Pooled StDev = 1.438
205
Corrida en Minitab
Se introducen las respuestas en una columna

C1
Se introducen los
subndices
Durability
Carpetde los renglones
en una columna C218.95 1
12.62
11.94
14.42
10.06
7.19
7.03
14.66
2
206
Corrida en Minitab
Opcin: stat>ANOVA One Way (usar archivo

Exh_aov)
En Response indicar la col. De Respuesta
(Durability)
En factors indicar la columna de subndices
(carpet)
En comparisons (Tukey)
Pedir grfica de Box Plot of data y residuales
Normal Plot y vs fits y orden
207 ANOVA
Si los datos estan en columnas pedir
Results for: Exh_aov.MTW

One-way ANOVA: Durability versus Carpet
Analysis of Variance for Durabili
Source
DF
Carpet
Resultados
SS
MS
111.6
37.2
2.60
0.101
Error
12
172.0
Total
15
14.3
283.6
Individual 95% CIs For Mean

Based on Pooled StDev
Level
Mean
14.483
3
4
StDev
4
4
---------+---------+---------+-------
3.157
9.735
12.808
17.005
3.566
(-------*-------)
(-------*--------)
1.506
(--------*-------)
5.691
(-------*-------)
---------+---------+---------+-------
Pooled StDev =
3.786
10.0
15.0
Tukey's pairwise comparisons

Family error rate = 0.0500
Individual error rate = 0.0117
Critical value = 4.20
208
20.0
ANOVA de dos vas un

factor principal y una
variable de bloqueo
209
ANOVA de 2 vas
Este es un procedimiento extensin de los

patrones del ANOVA de una va con tres
fuentes de variacin: Tratamiento del factor A
(columnas), Tratamiento del factor B
(renglones) y Error experimental.
X ijk Ef . Ai Ef .B j Ef . AxBij kij
210
para probar la igualdad de

medias de varias poblaciones
con dos vas
Se trata de probar si el efecto de un factor o
Tratamiento en la respuesta de un proceso o sistema es
Significativo, al realizar experimentos variando
Los niveles de ese factor (Temp.1, Temp.2, etc.)
POR RENGLON
Y
Considerando los niveles de otro factor que se piensa
Que tiene influencia en la prueba FACTOR DE BLOQUEO
POR COLUMNA
211
ANOVA 2 vas
Para el tratamiento en renglones
Ho : 1 2 3 ......... a
Para el factor de bloqueo en columnas
Ho : '1 '2 '3 ......... 'a

212
ANOVA 2 vas - Ejemplo
Maquinas
Maq 1
Maq 2
Maq 3
Experiencia en aos de los operadores

1
2
3
4
5
27
31
42
38
45
21
33
39
41
46
25
35
39
37
45
213
ANOVA Dos vas o

direcciones
La SCT y SCTr (renlgones) se determina de la

misma forma que para la ANOVA de una
direccin o factor
En forma adicional se determina la suma de

cuadrados del factor de bloqueo (columnas) de
forma similar a la de los renglones
La SCE = SCT SCTr - SCBl
214
ANOVA de 2 vas
b
SCBl a ( X j X )
j 1
gl.SCBl b 1
CMBl SCBl /(b 1)
215
ANOVA de 2 vas
SCE SCT SCTr SCBl

gl.SCE (n a )( n b)
CME SCBl /( n a )( n b)
216
ANOVA Estadstico Fc y
Fexcel
MCTr
Fc
MCE
Fexcel FINVALFA, gl.SCTr , gl.SCE
217
ANOVA Estadstico Fb
MCBl
Fc
MCE
Fexcel FINVALFA, gl.SCBl , gl.SCE
218
Tabla final ANOVA 2 vas

FUENTE DE VARIACIN

VALOR F
Entre muestras (tratam.)
SCTR
a-1
CMTR
CMTR/CME
Entre Bloques (Factor Bl)
SCBl
b-1
CMBL
CMBL/CME
SCE
(a-1)(b-1)
CME
Variacin total
SCT
n-1
CMT
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
219
ANOVA 2 vas: Toma de

decisin
Distribucin F
Fexcel
Alfa
Zona de rechazo
De Ho o aceptar Ha
Zona de no rechazo de Ho
O de no aceptar Ha
Fc
Tr o Bl
220
ANOVA 2 vas: Toma de

decisin
Si Fc (Tr o Bl) es mayor que Fexcel se
rechaza Ho Aceptando Ha donde las
medias son diferentes
O si el valor de p correspondiente a Fc (Tr
o Bl) es menor de Alfa se rechaza Ho
221
Clculo de los residuales

y
ij yi . y. j y..
eij yij y
ij
s yi .
MSE
b
Rk r0.05, k , gl . MSE * s yi .
Y estimada
Error o residuo
Error estndar
Factor de comparacin
Si la diferencia de medias excede a Rk es significativa

222
Adecuacin del modelo
Los residuales deben seguir una recta en la

grfica normal
Deben mostrar patrones aleatorios en las

grficas de los residuos contra el orden de las
Yij, contra los valores estimados y contra los
valores reales Yij
223
Corrida en Minitab
Se introducen las respuestas en una columna C3 y los

subndices de renglones en columna C4 y de columnas
en C5
Plantas
Suplemento
Lago
34
Rose
43
Rose
57
Dennison
40
Dennison
85
Rose
68
Rose
67
Dennison
53
Dennison
41
Rose
24
Rose
42
Dennison
52
Dennison
224
Corrida en Minitab
Opcin: stat>ANOVA Two Way (usar archivo

Exh_aov)
En Response indicar la col. De Respuesta

(Plantas)
En Row factor y Column Factor indicar las

columnas de subndices de renglones y
columnas (suplemento y lago) y Display Means
para ambos casos
225
Pedir grfica residuales Normal Plot
y vs fits y
Two-way ANOVA: Zooplankton versus Supplement, Lake

Analysis of Variance for Zooplank
Source
DF
SS
MS
1919
959
9.25
0.015
21
21
0.21
0.666
561
281
2.71
0.145
Suppleme
Resultados
Lake
Interaction
Error
6
Total
622
11
104
3123
Individual 95% CI
Suppleme
Mean
1
--+---------+---------+---------+--------43.5
(-------*-------)
68.3
3
39.8
(--------*-------)
(--------*-------)
--+---------+---------+---------+--------30.0
45.0
60.0
75.0
Individual 95% CI
Lake
Dennison
Rose
Mean
51.8
49.2
------+---------+---------+---------+----(----------------*----------------)
(----------------*----------------)
------+---------+---------+---------+----42.0
48.0
54.0
226
60.0
ANOVA de un factor y dos

o tres variables de
bloqueo
CUADRADO LATINO Y
GRECOLATINO
227
ANOVA 3 y 4 factores
El diseo de Cuadrado latino utiliza dos

factores de bloqueo adicionales al de
Tratamiento
EL diseo de Cuadrado Grecolatino utiliza tres

factores adicionales al del Tratamiento
El clculo de suma de cuadrados para

renglones y para columnas es similar al de
ANOVA de un factor principal y otro de
bloqueo
228
Cuadrado Latino
Aos exp.
Empleado
1
Maana
B=15
Turno
Tarde
A=18
Noche
C=11
C=12
B=20
A=9
3
A=17
A, B, C = Mquinas 1, 2 y 3
C=19
B=10
229
ANOVA Cuadrado Latino:

Factor principal (A,B,C,D)
b
SCTr a ( X Tr X )
j 1
gl.SCTr a 1 b 1
CMTr SCTr /(b 1)
230
ANOVA Cuadrado Latino:

Clculo del error
SCE SCT SCTcol SC Re ng SCTr
gl.SCE (a 2)( a 1)
CME SCE /( a 2)( a 1)
231
ANOVA Clculo del

MCTr
Fc
MCE
Fexcel FINVALFA, gl. SCTr , gl.SCE
232
ANOVA Cuadrado Latino Reng /

Col
MC Re ng
Fcreng
MCE
MCCols
Fcols
MCE
233
Tabla final ANOVA 2 Factores

FUENTE DE VARIACIN

VALOR F
Renglores
SCRen
a-1
CMRen
CMRen/CME
Columnas
SCCol
b-1
CMCol
CMCol/CME
Tratamiento
SCTr
a-1
CMTr
CMTr/CME
SCE
(a-2)(a-1)
CME
Variacin total
SCT
n-1
CMT
234
Cuadrado latino en Minitab
Se introducen las respuestas en una columna

C1
Se introducen los subndices de los renglones

en una columna C2
Se introducen los subndices de las columnas

en una columna C3
Se introducen las letras maysculas que

indican el nivel del factor (A, B, C, D, etc.)
correspondientes a cada respuesta235
en la
Cuadrado latino en Minitab
Opcin: stat> ANOVA General linear model
En Response indicar la col. De Respuesta,
En Model indicar las columnas de los factores

y
En Random factors indicar los factores

adicionales al del efecto principal a probar (A,
B, C, D). Se pueden pedir interacciones entre
factores x y con Cx*Cy
Pedir grfica de residuales Normal236

y vs fits y
Cuadrado Greco Latino

Experiencia de los operadores
Lotes MP
Aa=-1
Bc=-5
Ce=-6
Db=-1
Ed=-1
Bb=-8
Cd=-1
Da=5
Ec=2
Ae=11
Cc=-7
De=13
Eb=1
Ad=2
Ba=-4
Dd=1
Ea=6
Ac=1
Be=-2
Cb=-3
Ee=-3
Ab=5
Bd=-5
Ca=4
Dc=6
a, b, c y d son 5 diferentes tipos de montaje
A, B, C, D y E son las 5 formulaciones a probar
237
Cuadrado Greco latino en

Minitab
Se introducen las respuestas en una columna C1

Se introducen los subndices de los renglones en
una columna C2
Se introducen los subndices de las columnas en
una columna C3
Introducir los subndices del factor adicional de
letras griegas con letras latinas minsculas
(a,b,c,d,e) en C4
Se introducen las letras maysculas que indican
el nivel del factor (A, B, C, D, etc.)
correspondientes a cada respuesta en
238la
Cuadrado Greco latino en

Minitab
Opcin: ANOVA General linear model
En Response indicar la col. De Respuesta,
En Model indicar las columnas de los factores y
En Random factors indicar los factores adicionales al del

efecto principal a probar (A, B, C, D). Tambin se pueden
indicar interacciones entre factores x-y con Cx * Cy
Pedir grfica de residuales Normal y vs fits y orden
239
ANOVA Cuadrado
Grecolatino
b
SCG a ( X m X )
m 1
gl.SCG b 1
CMG SCG /( b 1)
240
ANOVA de 2 factores Suma

de cuadrados, gl. y Cuadrado
medio para el error
SCE SCT SCTr SCG SC Re n SCCol
gl.SCE (a 3)( a 1)
CME SCE /( a 3)( a 1)
241
ANOVA Clculo del

MCG
Fc
MCE
Fexcel FINVALFA, gl.SCTr , gl.SCE
242
ANOVA Cuadrado Grecolatino
MCTr
Fc
MCE
243
Tabla final ANOVA 2 Factores

FUENTE DE VARIACIN

VALOR F
Renglores
SCRen
a-1
CMRen
CMRen/CME
Columnas
Letras griegas
Tratamiento
SCCol
SCG
SCTr
b-1
a-1
a-1
CMCol
CMG
CMTr
CMCol/CME
CMG/CME
CMTr/CME
SCE
(a-3)(a-1)
CME
Variacin total
SCT
n-1
CMT
244
ANOVA para diseo factorial

AxB
En un experimento factorial involucrando el factor A con

(a) niveles y un factor B con (b) niveles, la suma de
cuadrados se puede dividir en:
SST = SS(A) + SS(B) + SS(AB) + SSE
245
VI.B.8 Tablas de contingencia

Prueba Chi2 (2)
246
Para qu se utiliza?
1. Para probar si una serie de datos observada, concuerda
con el modelo (serie esperada) de la informacin.
2. Para probar las diferencias entre las proporciones de
varios grupos (tabla de contingencia).
Para todos los casos,
Ho: No hay diferencia

Ha: Hay diferencia
2
247
Ejemplo 1: Chi Cuadrada(

2
)
Se lanza una moneda al aire 100 veces y
que obtenemos 63 guilas y 37 soles.
La proporcin de guilas y soles sucede
por casualidad? O, se concluye que la
moneda est cargada?
Ho: La moneda es buena

Ha: La moneda est cargada
248
Ejemplo 1: Chi Cuadrada(

Observada
Esperada
)
(fo - fe)2
fe
( fo )
( fe )
Aguilas
63
50
3.38
Soles
37
50
3.38
2 = 3.38 + 3.38
2 = 6.76
Estadstico Chi Cuadrada
c=
2
j=1
(fo - fe)2
fe
249
Ejemplo 1: Chi cuadrada

Funcin de Distribucin Acumulada Chi2 con 1 grado de
libertad (d.f)
2c
P(2c > x)
6.7600
p = 1 - 0.9907 = 0.0093
De tablas X2Crtica, (0.05, 1) = 3.8414
Ho: La moneda es buena.
Ha: La moneda est cargada.
Para un 95% de confianza antes de concluir que la moneda est
cargada, se requiere que X2c > X2Crtica o que el valor de p sea
0.05.
Como p 0.05, se puede concluir -con un 95% de confianza que la moneda est cargada.
250
Clculo en Excel del estadstico Chi cuadrada

1. Posicionarse en una celda vaca
2. Accesar el men de funciones con Fx
3. Seleccionar STATISTICAL o ESTADSTICAS, CHIINV.
4. Dar valores de probabilidad (0.05) y grados de libertad,
normalmente (n - 1) para un parmetro o (# de renglones -1)
* (# de columnas - 1) para el caso de tablas de proporciones.
251
Tabla de Valores Crticos Seleccionados de Chi2

df
.250
.100
.050
.025
.010
.005
.001
1
2
3
4
5
1.323
2.773
4.108
5.385
6.626
2.706
4.605
6.251
7.779
9.236
3.841
5.991
7.815
9.488
11.070
5.024
7.378
9.348
11.143
12.832
6.635
9.210
11.345
13.277
15.086
7.879
10.597
12.838
14.860
16.750
10.828
13.816
16.266
18.467
20.515
6
7
8
9
10
7.841
9.037
10.219
11.389
12.549
10.645
12.017
13.362
14.684
15.987
12.592
14.067
15.507
16.919
18.307
14.449
16.013
17.535
19.023
20.483
16.812
18.475
20.090
21.666
23.209
18.548
20.278
21.955
23.589
25.188
22.458
24.322
26.125
27.877
29.588
11
12
13
14
15
13.701
14.845
15.984
17.117
18.245
17.275
18.549
19.812
21.064
22.307
19.675
21.026
22.362
23.685
24.996
21.920
23.337
24.736
26.119
27.488
24.725
26.217
27.688
29.141
30.578
26.757
28.300
29.819
31.319
32.801
31.264
32.909
34.528
36.123
37.697
16
17
18
19
20
19.369
20.489
21.605
22.718
23.828
23.542
24.769
25.989
27.204
28.412
26.296
27.587
28.869
30.144
31.410
28.845
30.191
31.526
32.852
34.170
32.000
33.409
34.805
36.191
37.566
34.267
35.718
37.156
38.582
39.997
39.252
40.790
43.312
43.820
45.315
21
22
23
24
25
24.935
26.039
27.141
28.241
29.339
29.615
30.813
32.007
33.196
34.382
32.671
33.924
35.172
36.415
37.652
35.479
36.781
38.076
39.364
40.646
38.932
40.289
41.638
42.980
44.314
41.401
42.796
44.181
45.558
46.928
46.797
48.268
49.728
51.179
52.620
26
27
28
29
30
30.434
31.528
32.620
33.711
34.800
35.563
36.741
37.916
39.087
40.256
38.885
40.113
41.337
42.557
43.773
41.923
43.194
44.461
45.722
46.979
45.642
46.963
48.278
49.588
50.892
48.290
49.645
50.993
52.336
53.672
54.052
55.476
56.892
58.302
59.703
40
50
60
45.616
56.334
66.981
51.805
63.167
74.397
55.758
67.505
79.082
59.342
71.420
83.298
63.691
76.154
88.379
66.766
79.490
91.952
73.402
86.661
99.607
70
80
90
100
77.577
88.130
98.650
109.141
85.527
96.578
107.565
118.498
90.531
101.879
113.145
124.342
95.023
106.629
118.136
129.561
100.425
112.329
124.116
135.807
104.215
116.321
128.299
140.169
112.317
124.839
137.208
149.449
252
Tabla de contingencia
Una tabla de clasificacin de dos vas (filas y columnas)

que contiene frecuencias originales, se puede analizar
para determinar si las dos variables (clasificaciones) son
independientes o tienen una asociacin significativa.
La prueba Chi Cuadrada probar si hay dependencia

entre las dos clasificaciones.
Adems se puede calcular el coeficiente de

contingencia (correlacin) que en todo caso muestra la
fuerza de la dependencia
253
Para esta prueba se usa la prueba Chi Cuadrada donde:
Entre mayor sea su valor, mayor ser la diferencia de la

discrepancia entre frecuencias observadas y tericas.
Esta prueba es similar a la de bondad de ajuste.
254
Ejemplo: Cada una de las 15 celdas hace una

contribucin al estadstico Chi Cuadrado (una celda)
Asumiendo Alfa = 0.1 y Gl= (reng 1)*(Col 1) = 4*2 =

8 Chi-Cuadrado de alfa = 20.09
Como Chi Cuadrada calculada >> Chi C. Alfa, se
rechaza Ho de igualdad de resultados entre negocios
255
Ejemplo 2: Chi2 Para comparacin de

dos grupos; son las mismas
proporciones?)
Ho: No existen diferencias en los ndices de defectos de las dos mquinas.
Ha: Existen diferencias en los ndices de defectos de las dos mquinas.
Los valores observados (fo) son los siguientes:
Partes buenas
Partes defectuosas
mquina 1
fo = 517
fo = 17
Total = 534
mquina 2
fo = 234
fo = 11
Total = 245
Total
751
28
779
El ndice de defectos totales es 28 / 779 = 3.6%

256
Ejemplo 2: Chi2 Para comparacin de

dos grupos; son las mismas
proporciones?)
Clculo de los valores esperados
Partes buenas
Partes defectuosas
mquina 1
fo = 751*534/779
fo = 28*534/779
Total = 534
mquina 2
fo = 751*245/779
fo = 28*245/779
Total = 245
779
Basados en este ndice, los valores esperados (fe) seran:
mquina 1
Partes
buenas
530.53
mquina 2
233.47
Partes defectuosas
3.47
1.53
257
Prueba de chi cuadrada:

Los conteos esperados estn debajo de los conteos observados
Partes buenas
Partes Defectuosas
Total
1
532
2
534
530.53
3.47
2
Total
232
233.47
764
3
1.53
5
235
769
Chi2 = 0.004 + 0.624 + 0.009 + 1.418 = 2.056

DF= 1; valor de p = 0.152
2 celdas con conteos esperados menores a 5.0
Nota: Chi cuadrada no podr aplicarse en los casos donde los conteos seas menores a 5 en 20%
de celdas.
Si cualquiera de los conteos esperados en las celdas es menor a uno, no deber usarse Chi 2.
Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo
renglones y/o columnas, las categoras pueden ser de utilidad.
258
Tabla de Chi2
Tabla de valores crticos seleccionados para Chi2
DF
.250
.100
.050
1
2
3
4
5
1.323
2.773
4.108
5.385
6.626
2.706
4.605
6.251
7.779
9.236
3.841
5.991
7.815
9.488
11.070
6
7
8
9
10
7.841
9.037
10.219
11.389
12.549
10.645
12.017
13.362
14.684
15.987
11
12
13
14
15
13.701
14.845
15.984
17.117
18.245
16
17
18
19
20
19.369
20.489
21.605
22.718
23.828
.025
.010
.005
5.024
7.378
9.348
11.143
12.832
6.635
9.210
11.345
13.277
15.086
7.879
10.597
12.838
14.860
16.750
10.828
13.816
16.266
18.467
20.515
12.592
14.067
15.507
16.919
18.307
14.449
16.013
17.535
19.023
20.483
16.812
18.475
20.090
21.666
23.209
18.548
20.278
21.955
23.589
25.188
22.458
24.322
26.125
27.877
29.588
17.275
18.549
19.812
21.064
22.307
19.675
21.026
22.362
23.685
24.996
21.920
23.337
24.736
26.119
27.488
24.725
26.217
27.688
29.141
30.578
26.757
28.300
29.819
31.319
32.801
31.264
32.909
34.528
36.123
37.697
23.542
24.769
25.989
27.204
28.412
26.296
27.587
28.869
30.144
31.410
28.845
30.191
31.526
32.852
34.170
32.000
33.409
34.805
36.191
37.566
34.267
35.718
37.156
38.582
39.997
39.252
40.790
43.312
43.820
45.315
259
.001
Problema: Fugas
Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la
reduccin de tiempo de ciclo.
Variacin en familias a probar

Operador a operador
Ho: No existe diferencia en los ndices de defecto de los diferentes
operadores
Ha: Existe diferencia en los ndices de defecto de los diferentes
operadores
Mquina a mquina
Ho: No existe diferencia en los ndices de defecto de las diferentes
mquinas
Ha: Existe diferencia en los ndices de defecto de las diferentes
mquinas
Tamao de la muestra:
5000 + total de oportunidades (172 piezas)
260
Prueba de chi2 (mquina a mquina)
Los conteos esperados estn colocados debajo de los conteos observados

Con fugas Sin fugas Total
1
30
610
640
32.11
607.89
2
235
223.38
3
3
12.84
4
Total
18
17.66
286
4217
4228.62
253
243.16
4452
256
334
334.34
352
5414
5700
Chi2 = 0.139 + 0.007 + 0.604 + 0.032 + 7.546 + 0.399 + 0.006 +

0.000 = 8.734
DF= (4-1)(2-1) = 3; valor P = 0.033
261
Prueba de chi2 (operador a operador)

Los conteos esperados estn colocados debajo de los conteos observados.
Con gotera Sin gotera
Total
1
6
122
128
6.61 121.39
2
1
6.61
127
121.39
128
200
3836
4036
208.55
3827.45
54
202
256
13.23
242.77
5
699
704
36.38
667.62
128
12
116
6.61 121.39
Total
278
5102
5380
Chi2 = 0.057 + 0.003 + 4.765 + 0.260 + 0.351 + 0.019 +125.666 + 6.847 + 27.065 + 1.475
+ 4.386 + 0.239 = 171.132
DF= 5; valor P = 0.000
262
Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?

(en este caso, operador a operador y mquina a mquina)
Se utiliza un procedimiento denominado Coeficiente de Contingencia como clave

para determinar qu grupo de variacin debe investigarse primero.
Chi Cuadrada
Coeficiente de
Contingencia
Chi2
x 100
N
N
CC
Mquina
8.734
5700
0.15
Operador
171.132
5380
3.18
Controlador Mayor
SI el tamao de la muestra (N), es similar para los grupos. Al dividir entre N,
probablemente, llevar a la misma ruta que hubiera alcanzado con slo ver la
estadstica Chi2.
Sin embargo, si N tiene una variacin considerable, dependiendo del grupo de
variacin que se investiga, el coeficiente de contingencia puede ser una herramienta
valiosa para determinar la prioridad sobre qu grupo debe investigarse primero.
263
Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?

(en este caso, operador a operador y mquina a mquina)
Ahora que la informacin nos
ha llevado a investigar a los
Con gotera Sin gotera Total
grupos de operador a
1
6
122
128
operador. Qu debemos
6.61 121.39
hacer ahora?
Encontremos cul de los
2
1
127
128
operadores estaban fuera del
6.61
121.39
estndar.
Era alguno de ellos
3
200
3836
4036
notablemente peor (o mejor)
208.55
3827.45
que el resto?
Mucho peor que

lo esperado
54
202
256
13.23
242.77
Mucho mejor que

lo esperado
5
699
704
36.38
667.62
12
116
6.61 121.39
128
(Estos mismos operadores fueron quienes

tuvieron los nmeros ms grandes de chi2)
264
Operador a operador: = 0.000

Rechace
Ho y acepte Ha
(Existe una diferencia significativa entre los operadores)
Los operadores 4 y 5 estn fuera del estndar:
El operador 4 es notablemente peor que el resto,
El operador 5 es notablemente mejor que los dems
Cul es el prximo paso? Hable con todos los operadores para averiguar qu diferencias
pueden existen en sus tcnicas.
El operador 4 no tena experiencia en este tipo de trabajo y apenas se estaba acostumbrado a
soldar este producto en particular.
El operador 5 encontr un modo de mejor de hacer el ensamble, con lo cual consigui mejorar
el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonmica. Se aadi
un colocador para ensamblar la parte en forma segura. (Esto tambin redujo el tiempo que
requeran los operadores para acostumbrarse a trabajar en esta forma)
265
Ejercicios
1. Se quiere evaluar la habilidad de tres inspectores de rayos
X en un aeropuerto para detectar artculos clave. Como
prueba se pusieron radios de transistores en 90 maletas,
cada inspector fue expuesto a 30 maletas conteniendo radios
mezcladas entre otras que nos los contenan. Los resultados
se resumen a continuacin:
Inspectores
1 2 3
Radios detectados
Radios no detectados
27 25 22
3 5 8
Con un 95% de confianza, existe una diferencia entre los

inspectores?
Ho: p1 = p2 = p3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)
266
Ejercicios
1. Se quiere evaluar si hay preferencia por manejar en un
carril de una autopista dependiendo de la hora del da. Los
datos se resumen a continuacin:
Hora del da
Carril
1:00
3:00
Izquierdo 44 37 18
Central
28 50 72
Derecho
8 13 30
5:00
Con un 95% de confianza, existe una diferencia entre las

preferencias de los automovilistas dependiendo de la hora?
Ho: P1 = P2 = P3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)
267
Coeficiente de Contingencia
Coeficiente de contingencia es el grado de relacin o

dependencia de las clasificaciones en la tabla de
contingencias es:
C2
X2
X2 N
Donde N es la frecuencia total y X es el estadstico Chi

Cuadrado calculado
268
Coeficiente de Contingencia
Para los datos del ejemplo anterior se tiene:
C2
2
X2
66
.
22
2
0.38
2
2
X N
66.22 393
El valor mximo de C se obtiene de:
Max C
k 2
82
0.866
k
8
269
Correlacin de atributos
Para tablas de orden k * k, el coeficiente de correlacin,

r, es :
X
N (k 1)
Donde 0<= r <= 1
270

Cieficiente Correlacion

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Cieficiente Correlacion

Hochgeladen von

Copyright:

Verfügbare Formate

VI.A.

Establece si existe una relacin entre las variables y

Describe con ms detalle la relacin entre las variables.

Numero de rdenes urgentes

Mide la fuerza de la relacin lineal entre las

El coeficiente de correlacin muestral de

Correlacin de la informacin (R ) de las X y las Y

El coeficiente de correlacin r asume el mismo

Un valor positivo de r implica que la pendiente de

Para un 95% de confianza, con una muestra de 10,

S(yeyo) = yei yoi -

Coeficiente de Correlacin ajustad

> 90% = Correlacin Fuerte

Tener cuidado de no tener variables colineales,

El trmino de error tiene media cero.

El trmino de error tiene varianza constante 2.

Los errores no estn correlacionados.

Los errores estn normalmente distribuidos.

Modelo de regresin lineal

Se aume que para cualquier valor de X el valor

El modelo general es:

Regresin Lineal Simple

La lnea de regresin se calcula por el mtodo de mnimos

Grfica de la Lnea de Ajuste

Interpretacin de los Resultados

La ecuacin de regresin (Y = -600.858 + 5738.89X) describe

Interpretacin de los Resultados

Los valores p de la constante (interseccin en Y) y las variables

Los errores se denominan frecuentemente residuales.

Los residuosei Yi Y i , i 1,2,3..., n

pueden ser graficados para:

A veces es preferible trabajar con residuos estandarizados

Anlisis de los errores o residuales

La desviacin estndar S corresponde a la raz cuadrada del

Los residuos son:

Las conclusiones son como sigue:

Intervalos de confianza para Beta 0 y Beta 1

El intervalo de confianza para la desviacin estndar es:

Intervalo de prediccin para un valor particular de Y

Prueba de Hiptesis para Beta 1:

Si t 0 t / 2,n 2 el coeficiente Beta 1 es significativo

( SSTotal .corregido . para.la.media )

Prueba de hiptesis para el Coeficiente de correlacin r:

H0: = 0 contra H1: 0

Si t 0 t / 2,n 2 se rechaza la hiptesis Ho, indicando que

Los modelos de regresin son vlidos como ecuaciones

Mientras que todos los puntos tienen igual peso en la

Los outliers u observaciones aberrantes pueden

Si se encuentra que dos variables estn relacionadas

Clculo manual (cont..)

El coeficiente de correlacin r = 0.875442

Clculo con Excel)

0.001536 23.69262 69.28035

X Variable1 52.56757 10.26086 5.123117 0.000904

La ecuacin de la recta es Yest = 46.48649 + 52.56757 X

Grfica normal de Excel

Grfica de Residuos vs. X de Excel

Resultados del Anlisis de Regresin - Modelo Cuadrtico

Y = 19.0333 + 1.00857X - 2.04E-02X**2

Otros Patrones No Lineales

A veces es posible transformar una o ambas variables, para mostrar

x = Raz cuadrada de (x)

Funciones trigonomtricas: x = Seno