Sie sind auf Seite 1von 270

VI.A.

1 Coeficiente de
correlacin

Correlacin

Definiciones

Establece si existe una relacin entre las variables y


responde a la pregunta, Qu tan evidente es esta
relacin?"

Regresin

Describe con ms detalle la relacin entre las variables.


Construye modelos de prediccin a partir de informacin
experimental u otra fuente disponible.
Regresin lineal simple
Regresin lineal mltiple
Regresin no lineal cuadrtica o cbica
2

Correlacin

Accidentes laborales

Propsito:
Propsito: Estudiar
Estudiar la
la posible
posiblerelacin
relacin
entre
entredos
dosvariables.
variables.

Correlacin
positiva,
posible

Numero de rdenes urgentes


El 1er. paso es realizar una grfica de la informacin.

Coeficiente de correlacin (r )

Mide la fuerza de la relacin lineal entre las


variables X y Y en una muestra.

El coeficiente de correlacin muestral de


Pearson rx,y con valores entre -1 y +1 es:

Correlacin de la informacin (R ) de las X y las Y


Correlacin Negativa
Evidente
25

20

20

15

15

10

Correlacin Positiva
Evidente
25

10

5
0

10

15

20

Sin Correlacin

0
25

0
0

10

25

R=1

15

20

25

R=-1

20
15

25

Correlacin
Positiva

Correlacin
Negativa

5
0
0

20

10

15
X

15
10

20

25

25

R=
0

20
15
Y

10

10
5

0
0

10

15
X

20

25

R=>1

0
0

10

15
X

20

25

R=>-1

Coeficiente de correlacin

El coeficiente de correlacin r asume el mismo


signo de la pendiente de la recta 1 siendo cero
cuando
1 =0

Un valor positivo de r implica que la pendiente de


la lnea es ascendente hacia la derecha
Un valor negativo de r implica que la pendiente de
la lnea es descendente hacia la derecha
Si r=0 no hay correlacin lineal, aunque puede
haber correlacin curvilnea

Coeficiente de correlacin
Reglas empricas
Coeficiente de correlacin
0.8 < r < 1.0
0.3 < r < 0.8
-0.3 < r < 0.3
-0.8 < r < -0.3
-1.0 < r < -0.8

Relacin
Fuerte, positiva
Dbil, positiva
No existe
Dbil, negativa
Fuerte, negativa

Correlaciones (Pearson)
Tabla de Correlacin mnima
n
3
4
5
6
7
8
9
10
11
12
13
14

95%
99%
de confianza
de confianza
1.00
1.00
0.95
0.99
0.88
0.96
0.81
0.92
0.75
0.87
0.71
0.83
0.67
0.80
0.63
0.76
0.60
0.73
0.58
0.71
0.53
0.68
0.53
0.66

n
15
16
17
18
19
20
22
24
26
28
30

95%
de confianza
0.51
0.50
0.48
0.47
0.46
0.44
0.42
0.40
0.39
0.37
0.36

99%
de confianza
0.64
0.61
0.61
0.59
0.58
0.56
0.54
0.52
0.50
0.48
0.46

Para un 95% de confianza, con una muestra de 10,


el coeficiente (r) debe ser al menos .63
8

Correlacin
La correlacin puede usarse para informacin de atributos, variables
normales y variables no normales.
La correlacin puede usarse con un predictor o ms para una
respuesta dada.
La correlacin es una prueba fcil y rpida para eliminar factores que
no influyen en la prediccin, para una respuesta dada.

Coeficiente de Correlacin
Para determinar que tanto se acercan los datos predichos por el
modelo a los datos observados aplicando el coeficiente de
correlacin de Pearson (ver tabla anterior para identificar la
significancia)
S(yeyo)

r=

S(yeye) S(yoyo)

S(yeye) = yei 2

S(yoyo) = y 2
oi

S(yeyo) = yei yoi -

yei)2
n
yoi)2
n
yei)yoi)
n

r = Coeficiente de correlacin
yo = Respuesta observada
ye = Respuesta esperada
10

Coeficiente de Correlacin ajustad


Otra forma para no consultar la tabla de coeficiente de
correlacin de Pearson es la r ajustada

R2(Adj) = 1 (1 r2)

(n-1)
(n-p)

Criterios
Donde :
R2(Adj) = Coeficiente de correlacin ajustado
r = Coeficiente de correlacin de Pearson
n = Nmero de datos
p = Nm. trminos en el modelo
(Incluyendo la constante)

en funcin a la R2(Adj)

> 90% = Correlacin Fuerte


80% - 90% = Buena correlacin
60% - 80% = Correlacin media
40% - 60% = Correlacin dbil
< 40% = No existe correlacin
11

Coeficiente de Determinacin
(R2)

El coeficiente de determinacin es la
proporcin de la variacin total explicada por
la regresin, R2 se encuentra en el rango de
valores de 0 a 1.

12

Correlacin vs causacin

Tener cuidado de no tener variables colineales,


por ejemplo peso de un coche y peso de las
personas que transporta, o que no la relacin
no tenga sentido, como si lavo mi coche,
llueve.

13

VI.A.2 Regresin

14

Anlisis de Regresin
El
Elanlisis
anlisisde
deregresin
regresines
esun
unmtodo
mtodoestandarizado
estandarizadopara
paralocalizar
localizar
lalacorrelacin
correlacinentre
entredos
dosgrupos
gruposde
dedatos,
datos,y,y,quiz
quizms
msimportante,
importante,
crear
crearun
unmodelo
modelode
deprediccin.
prediccin.
Puede
Puedeser
serusado
usadopara
paraanalizar
analizarlas
lasrelaciones
relacionesentre:
entre:
Una
Unasola
solaX
Xpredictora
predictorayyuna
unasola
solaY
Y
Mltiples
Mltiplespredictores
predictoresX
Xyyuna
unasola
solaY
Y
Varios
Variospredictores
predictoresX
Xentre
entress

15

Supuestos de la regresin
lineal
Los principales supuestos que se hacen en el anlisis de
regresin lineal son los siguientes:
La relacin entre las variables Y y X es lineal, o al
menos bien aproximada por una lnea recta.

y 0 1 X

El trmino de error tiene media cero.

El trmino de error tiene varianza constante 2.

Los errores no estn correlacionados.

Los errores estn normalmente distribuidos.


16

Modelo de regresin lineal

Se aume que para cualquier valor de X el valor


observado de Y varia en forma aleatoria y tiene una
distribucin de probabilidad normal

El modelo general es:


Y = Valor medio de Yi para Xi + error aleatorio

y 0 1 X

17

Regresin Lineal Simple

La lnea de regresin se calcula por el mtodo de mnimos


cuadrados.
Un residuo es la diferencia entre un punto de referencia en
particular (xi, yi) y el modelo de prediccin ( y = a + bx ). El
modelo se define de tal manera que la suma de los cuadrados
de los residuales es un mnimo. La suma residual de los
cuadrados es llamada con frecuencia la suma de los cuadrados
y = b0 + b1x
de los errores (SSE) acerca de la lnea
de
regresin
i

ei

xi
SSE =

ei

yi - yi

a y b son
Estimados de
0 y 1

Grfica de la Lnea de Ajuste

Recta de regresin
Y=-.600.858+5738.89X
R2 = .895

Retencin

600

Regresin

500

95% Intervalo
de confianza
95% Intervalo
de prediccin

400
0.18

0.19
Altura del muelle

0.20

Interpretacin de los Resultados

La ecuacin de regresin (Y = -600.858 + 5738.89X) describe


la relacin entre la variable predictora X y la respuesta de
prediccin Y.
RR22(coef.
(coef.de
dedeterminacin)
determinacin)es
eselelporcentaje
porcentajede
devariacin
variacin
explicado
explicadopor
porlalaecuacin
ecuacinde
deregresin
regresinrespecto
respectoaalalavariacin
variacintotal
total
en
enelelmodelo
modelo
El intervalo de confianza es una banda con un 95% de
confianza de encontrar la Y media estimada para cada valor de
X [Lneas rojas]
El intervalo de prediccin es el grado de certidumbre de la
difusin de la Y estimada para puntos individuales X. En general,
95% de los puntos individuales (provenientes de la poblacin
sobre la que se basa la lnea de regresin), se encontrarn dentro
de la banda [Lneas azules]
20

Interpretacin de los Resultados

Los valores p de la constante (interseccin en Y) y las variables


de prediccin, se leen igual que en la prueba de hiptesis.
Ho: El factor no es significativo en la prediccin de la respuesta.
Ha: El factor es significativo en la prediccin de la respuesta.
s es el error estndar de la prediccin = desviacin estndar del
error con respecto a la lnea de regresin.
R2 (ajustada) es el porcentaje de variacin explicado por la
regresin, ajustado por el nmero de trminos en el modelo y por
el nmero de puntos de informacin.
El valor p para la regresin se usa para ver si el modelo completo
de regresin es significativo.
Ho: El modelo no es significativo en la prediccin de la respuesta.
Ha: El modelo es significativo en la prediccin de la respuesta.

Errores residuales

Los errores se denominan frecuentemente residuales.


Podemos observar en la grfica de regresin los errores
indicados por segmentos verticales.

22

Errores residuales
^

Los residuosei Yi Y i , i 1,2,3..., n

pueden ser graficados para:

Checar normalidad.
Checar el efecto del tiempo si su orden es conocido en
los datos.
Checar la constancia de la varianza y la posible
necesidad de transformar los datos en Y.
Checar la curvatura de ms alto orden que ajusta en las
Xs.

A veces es preferible trabajar con residuos estandarizados


ei
ri
,
o estudentizados:
e
2

di

MS E

,....1 1,2,....., n

1 (X X )
MSE 1 i
S XX
n

23

Errores residuales

Anlisis de los errores o residuales

24

Ejemplo
Considere el problema de predecir las ventas
mensuales en funcin del costo de publicidad.
Calcular el coeficiente de correlacin, el de
determinacin y la recta.
MES

Publicidad

1
2
3
4
5
6
7
8
9

1.2
0.8
1.0
1.3
0.7
0.8
1.0
0.6
0.9

101
92
110
120
90
82
93
75
91

Ventas

25

Clculo manual
Calcular columnas para Suma X, Suma Y, Xi2, XiYi y Yi2
Xi
Yi
MES Publicidad Ventas
Xi2 XiYi
Yi2
1
2
3
4
5
6
7
8
9
10

1.2
0.8
1.0
1.3
0.7
0.8
1.0
0.6
0.9
1.1

101
92
110
120
90
82
93
75
91
105

1.44
0.64
1.00
1.69
0.49
0.64
1.00
0.36
0.81
1.21

121.2 10201
73.6
8464
110.0 12100
156 14400
63.0
8100
65.6
6724
93.0
8649
45.0
5625
81.9
8281
115.5 11025

SUMA 9.4

959

9.28

924.8

93,569

26

Mtodo de mnimos
cuadrados
Donde:
Yest = Valor predicho de para un valor particular de x.
b0 = Estimador puntual de .(ordenada al origen)
b1= Estimador puntual de (pendiente)
Para el clculo de b0 y b1 se utilizamos las siguientes
frmulas:

27

Anlisis de varianza en la
regresin

La desviacin estndar S corresponde a la raz cuadrada del


valor de MSE o cuadrado medio residual.

SS E
S b1 S XY
S2
YY
n2
n2

SYY Yi 2
i 1

Los residuos son:


^

ei Yi Y i

__

Y
n

__

__

Yi Y i Yi Y (Y i Y ) (Y

X Y

i 1

S XY X iYi

i 1

__

i 1

Y ) 2 (Y i Y ) 2 (Yi Y i ) 2

28

i 1

1
t ( n 2,1 ). S
2
b1
__
(
X

X
i )2

Anlisis de varianza en la
regresin

Las conclusiones son como sigue:

Intervalos de confianza para Beta 0 y Beta 1

se(b1 )

__ 2

1 X
se(b0 ) MSE
n S XX

X i2

1/ 2

__

n ( X i X )

MSE

S XX

S
S XX

1
b0 t (n 2,1 )
2

1/ 2

2
i
__

n ( X i X )

b1

t ( n 2,1

( X

1
). S
2
__

X )2

29

1
t ( n 2,1 ). S
2
b1
__
(
X

X
i )2

Anlisis de varianza en la
regresin

El intervalo de confianza para la desviacin estndar es:

( n 2) MSE
( n 2) MSE
2

2 / 2 ,n 2
12 / 2,n 2
Intervalos de confianza para la Y estimada promedio
^

Y0 t a / 2 , n 2

__

2
1 (X0 X )
MSE

S XX
n

Intervalo de prediccin para un valor particular de Y


estimado
Y0 t / 2 ,n 2

__

(
X

X
)2
1
0
MSE 1
Y0 Y0 t / 2 ,n 2

n
S XX

__

1 ( X 0 X )2
MSE 1

n
S XX

30

1
t ( n 2,1 ). S
2
b1
__
(
X

X
i )2

Anlisis de varianza en la
regresin

Prueba de Hiptesis para Beta 1:


Ho: 1 = 0 contra H1:1 0
t0

b1
MSE

S XX

Si t 0 t / 2,n 2 el coeficiente Beta 1 es significativo

31

1
t ( n 2,1 ). S
2
b1
__
(
X

X
i )2

Anlisis de varianza en la
regresin

Coeficiente de correlacin r:

S XY
S XX SYY

Coeficiente de determinacin: r2
R2 mide la proporcin de la variacin total respecto a la
media que es explicada por la regresin. Se expresa en
porcentaje.
^

( SS .de.la.regresin . por.b0 )
R2

( SSTotal .corregido . para.la.media )

__

(Y Y )
(Y Y )
__

1
2

32

SSE
SYY

1
t ( n 2,1 ). S
2
b1
__
(
X

X
i )2

Anlisis de varianza en la
regresin

Prueba de hiptesis para el Coeficiente de correlacin r:

H0: = 0 contra H1: 0


t0

r n2
1 r2

Si t 0 t / 2,n 2 se rechaza la hiptesis Ho, indicando que


existe una correlacin significativa

33

Riesgos de la regresin

Los modelos de regresin son vlidos como ecuaciones


de interpolacin sobre el rango de las variables
utilizadas en el modelo. No pueden ser vlidas para
extrapolacin fuera de este rango.

Mientras que todos los puntos tienen igual peso en la


determinacin de la recta, su pendiente est ms
influenciada por los valores extremos de X.

34

Riesgos de la regresin

Los outliers u observaciones aberrantes pueden


distorsionar seriamente el ajuste de mnimos
cuadrados.

Si se encuentra que dos variables estn relacionadas


fuertemente, no implica que la relacin sea casual, se
debe investigar la relacin causa efecto entre ellas.
Por ejemplo el nmero de enfermos mentales vs.
nmero de licencias recibidas.
35

Clculo manual (cont..)


Clculo de la recta de regresin lineal:
Sxx = 9.28 - (9.4)^2/10 = 0.444
Sxy = 924.8 - (9.4)(959) / 10 = 23.34
Ymedia = 959 / 10 = 95.9 Xmedia = 9.4 / 10 = 0.94
b1 = Sxy / Sxx = 23.34 / 0.444 = 52.57
b0 = Ymedia - b1*Xmedia = 95.9 - (52.5676)(0.94) = 46.49
Yest. = 46.49 + 52.57* X
36

Ejemplo (cont..)
Clculo de S2 estimador de
S2 = SSE / (n - 2) = Syy - (Sxy)^2/Sxx
Syy = 93,569 - (959)^2 / 10 = 1600.9
SSE = Syy - b1*Sxy = 1600.9 - (52.567)(23.34) = 373.97
S2 = SSE / (n - 2) = 373.97 / 8 = 46.75
S = 6.84
El intervalo de confianza donde caern el 95% de los puntos
es el rango de 1.96S = 13.41 o sea a 13.41 de la lnea.
37

Ejemplo (cont..)
Inferencias respecto a la pendiente de la lnea b1:
Se usa el estadstico t = b1 / (S / Sxx)
El trmino del denominador es el error estndar de la
pendiente.
Para probar la hiptesis nula Ho: 1 = 0
En este caso tc = 52.57 / (6.84 / 0.444) = 5.12
El valor crtico tcrit. para alfa/2 = 0.025 con (n-2) = 8 grados
de libertad es 2.306.
Como tc > tcrtico se rechaza la hiptesis de que b1 = 0
existiendo la regresin.
38

Ejemplo (cont..)
Estableciendo un 95% de confianza para la pendiente de
la recta b1.
Usando la frmula b1 t0.025 (S / Sxx) se tiene:
52.57 2.306 * 6.84 / 0.444 = 52.57 23.67.
Por tanto una unidad de incremento en publicidad, har que
el volumen de ventas se encuentre entre $28.9 a $76.2.

39

Ejemplo (cont..)
Clculo del coeficiente de Correlacin:
________
r = Sxy / (SxxSyy)
____________
r = 23.34 / 0.444*1600.9 = 0.88
Como r es positivo, la pendiente de la recta apunta hacia
arriba y a la derecha.
El coeficiente de determinacin r^2 = 1 - SSE/Syy
r^2 = ( Syy - SSE ) / Syy = 0.774
40

Anlisis de Regresin
1. Teclear los datos para Xi y Yi
2. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o
ANALISIS DE DATOS, CORRELATION o CORRELACIN
3. Dar INPUT RANGE (rango de datos), OUTPUT RANGE
(para los resultados) y obtener los resultados
Column 1 Column 2
Column 1 1
0.875442
Column 2 0.875442 1

El coeficiente de correlacin r = 0.875442


41

Clculo con Excel)


4. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o
ANALISIS DE DATOS, REGRESION o REGRESIN
3. Dar INPUT RANGE Y (rango de datos Yi), INPUT RANGE X
(rango de datos Xi), CONFIDENCE INTERVAL 95%, OUTPUT
RANGE (para los resultados), RESIDUAL PLOTS o GRAFICAS DE
RESIDUALES y obtener una tabla de resultados como los que se
muestran en las pginas siguientes.
NOTAS:
a) La grfica de probabilidad normal debe mostrar puntos
fcilmente aproximables por una lnea recta, indicando normalidad.
B) La grfica de residuos estandarizados se deben distribuir en
42
forma aleatoria alrededor de la lnea media igual a cero.

Resultados de Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.875442
R Square 0.766398
Adjusted R Square0.737198
Standard Error 6.83715
Observations 10
ANOVA
df SS MS F Significance F
Regression 1
1226.927 1226.927 26.24633 0.000904
Residual
8
373.973 46.74662
Total
9
1600.9
Confidence 95%
Standard Error t Stat
P-value Lower
Upper
Intercept 46.48649

9.884566

4.702936

Coefficients

0.001536 23.69262 69.28035

X Variable1 52.56757 10.26086 5.123117 0.000904

28.90597 76.22916

La ecuacin de la recta es Yest = 46.48649 + 52.56757 X


Como los valores p para los coeficientes son menores a 0.05,
ambos son significativos

Grfica normal de Excel


Normal Probability Plot
140
120

100
80
60
40
20
0
0

20

40

60

80

Sample Percentile

44

100

Grfica de Residuos vs. X de Excel


X Variable 1 Residual Plot

Residuals

20
10
0
-10 0

0.5

1.5

X Variable 1
45

Ejercicio
Calcular la recta de prediccin con sus bandas de
confianza, la correlacin y la determinacin para la
respuesta de un Taxi, los datos se muestran a
continuacin:
Distancia Tiempo
0.8

200

2.2
1.0
0.6
1.0
1.4
2.2
0.6

400
160
120
360
280
560
320

46

Relaciones no Lineales
Qu pasa si existe una relacin causal, no lineal?
El siguiente es un conjunto de datos
experimentales codificados, sobre
resistencia a la compresin de una
aleacin especial:

Cmo describira
esta relacin?

Resistencia a
Concentracin la Compresin
x
y
10.0
25.2 27.3 28.7
15.0
29.8 31.1 27.8
20.0
31.2 32.6 29.7
25.0
31.7 30.1 32.3
30.0
29.4 30.8 32.8
(ref. Walpole & Myers, 1985)
47

Resultados del Anlisis de Regresin - Modelo Cuadrtico

Y = 19.0333 + 1.00857X - 2.04E-02X**2


R2 = 0.614
Anlisis de Variancia
FUENTE
Regresin
Error
Total

DF
SS
MS
F
p
2 38.9371 19.4686 9.54490 3.31E-03
12 24.4762 2.0397
14 63.4133

FUENTE DF
Lineal
1
Cuadrtica 1

Seq SS F
p
28.0333 10.3005 6.84E-03
10.9038 5.34584 3.93E-02
48

Regresin cuadrtica

49

Regresin cuadrtica

50

Regresin cuadrtica
Los residuos
No son normales
Se deben transformar
Las variables

51

Otros Patrones No Lineales

A veces es posible transformar una o ambas variables, para mostrar


mejor la relacin entre ambas. La meta es identificar la relacin
matemtica entre las variables, para que con la variable transformada
se obtenga una lnea ms recta. Algunas transformaciones comunes
incluyen:
x = 1/x

x = Raz cuadrada de (x)

Funciones trigonomtricas: x = Seno


de x

x = log x

Trasformacin de funciones

Ejemplo: seaY e 1 X
0

se transforma como
ln Y ln 0 1 X ln

Y ' 0 ' 1 X '


53

Transformacin de variables del


ejemplo de regresin cuadrtica

Transformando la variable X = 1/X se tiene, utilizando


Minitab

54

Transformacin de variables del


ejemplo de regresin cuadrtica

Transformando la variable X = 1/X se tiene, utilizando


Minitab

55

Transformacin de variables del


ejemplo de regresin cuadrtica

Los residuos ahora ya se muestran normales

56

Transformacin para
homoestacidad de la varianza

Algunas transformaciones para estabilizar la varianza

57

Transformacin para
homoestacidad de la varianza

Ejemplo: Se hizo un estudio entre la demanda (Y) y la


energa elctrica utilizada (X) durante un cierto periodo
de tiempo

58

Transformacin para
homoestacidad de la varianza

Ejemplo: Se hizo un estudio entre la demanda (Y) y la


energa elctrica utilizada (X) durante un cierto periodo
de tiempo

59

Transformacin para
homoestacidad de la varianza

Se observa que la varianza se incrementa conforme


aumenta X

60

Transformacin para
homoestacidad de la varianza

Se observa que la varianza se incrementa conforme


aumenta X

61

Transformacin para
homoestacidad de la varianza

Transformando a X por su raz cuadrada se tiene:

62

Transformacin para
homoestacidad de la varianza

Transformando a X por su raz cuadrada se tiene:

63

Transformacin para
homoestacidad de la varianza

Transformando a X por su raz cuadrada se tiene:

64

Regresin lineal mltiple

65

Regresin mltiple

Cuando se usa ms de una variable independiente para


predecir los valores de una variable dependiente, el
proceso se llama anlisis de regresin mltiple, incluye
el uso de ecuaciones lineales.

Yu 0 1 X u1 2 X u 2 ....... k X uk u
Se asume que los errores u tienen las caractersticas
siguientes:
Tienen media cero y varianza comn 2.
Son estadsticamente independientes.
Estn distribuidos en forma normal.
66

Regresin mltiple
Estimacin de los parmetros del modelo

Se trata de minimizar los errores cuadrticos en:


N

R( 0 , 1 ,..., k ) (Yu 0 1 X u1 2 X u 2 ..... uk ) 2


u 1

El modelo de regresin mltiple en forma matricial es:


Y = X + = [1 : D] +
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la 1. columna
es 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1,672, ......, k

Regresin mltiple
Estimacin de los parmetros del modelo:
b = (XX)-1 XY
El vector de valores ajustados
Y Xb
como:

se puede expresar

Y Xb X ( X ' X ) 1 X ' Y Hy

La varianza del modelo se estima como:


SSE (Y Y ) e e' e
2

i 1

2
i

SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb

SSE Y ' Y b' X ' Y

SSE
s MSE
N p68
2

Tamao de muestra

Tomar 5 observaciones para cada una de las


variables independientes, si esta razn es
menor de5 a 1, se tiene el riesgo de
sobreajustar el modelo

Un mejor nivel deseable es tomar 15 a 20


observaciones por cada variable
independiente

69

Ejemplo de regresin
mltiple

Un embotellador est analizando las rutas de servicio de


mquinas dispensadoras, est interesado en predecir la
cantidad de tiempo requerida por el chofer para surtir
las mquinas en el local (Y).

La actividad de servicio incluye llenar la mquina con


refrescos y un mantenimiento menor.

Se tienen como variables el nmero de envases con que


llena la mquina (X1) y la distancia que tiene que
caminar (X2).

70

Ejemplo de regresin
mltiple

71

Ejemplo de regresin mltiple


Solucin matricial

72

Ejemplo de regresin mltiple


Solucin matricial

73

Ejemplo de regresin mltiple


Solucin matricial

74

Ejemplo de regresin mltiple


Solucin matricial

Intervalo de confianza para Beta 1

b1 t.025, 22 se(b1 ) 1 b1 t.025, 22 se(b1 )


1.61591 ( 2.074) (10.6239)( 0.00274378) 1 1.6191 ( 2.074)( 0.17073)
Por tanto el intervalo de confianza para el 95% es:
1.26181 1 1.97001

75

Ejemplo de regresin mltiple


Solucin matricial

El embotellador desea construir un intervalo de


confianza sobre el tiempo medio de entrega para un
local requiriendo:
X1 = 8 envases y cuya distancia es X2 = 275 pies.
2.34123
1
Y0 X ' 0 b 1,8,275 1.61591 19.22minutos
X0 8

0.01438
275

La varianza de la Y0 estimada es (tomando M8=inv(XX) :


1
Var (Y0 ) S 2 X ' 0 ( X ' X ) 1 X 0 10.62391,8,275 M 8 8 10.6239(0.05346) 0.56794

275

76

Ejemplo de regresin mltiple


Solucin matricial

El intervalo de confianza sobre el tiempo medio de


entrega para un local requiriendo es para 95% de nivel
de confianza:

19.22 2.074 0.56794 Y0 19.22 2.074 0.56794

Que se reduce a: 17.66 Y0 20.78

77

Ejemplo de regresin mltiple


Solucin matricial

El anlisis de varianza es:

78

Ejemplo de regresin mltiple


Solucin matricial

El comportamiento de los residuos es como sigue:

79

Multicolinealidad

La multicolinealidad implica una dependencia cercana


entre regresores (columnas de la matriz X ), de tal
forma que si hay una dependencia lineal exacta har
que la matriz XX sea singular.

La presencia de dependencias cercanamente lineales


impactan dramticamente en la habilidad para estimar
los coeficientes de regresin.

La varianza de los coeficientes de la regresin son


inflados debido a la multicolinealidad. Es evidente por
los valores diferentes de cero que no estn en la
diagonal principal de XX. Que son correlaciones
simples entre los regresores.
80

Multicolinealidad

Una prueba fcil de probar si hay multicolinealidad


entre dos variables es que su coeficiente de correlacin
sea mayor a 0.7

Los elementos de la diagonal principal de la matriz XX


se denominan Factores de inflacin de varianza (VIFs) y
se usan como un diagnstico importante de
multicolinealidad. Para el componente j simo se
1
tiene:
VIF j
1 R 2j

Si es mayor a 10 implica que se tienen serios problemas


de multicolinealidad.
81

Anlisis de los residuos

Los residuos graficados vs la Y estimada, pueden


mostrar diferentes patrones indicando adecuacin o no
adecuacin del modelo:

Grfica de residuos aleatorios cuya suma es cero (null


plot) indica modelo adecuado

Grfica de residuos mostrando una no linealidad


curvilnea indica necesidad de transformar las variables

Si los residuos se van abriendo indica que la varianza


muestra heteroestacidad y se requiere transformar las
variables. Se puede probar con la prueba de Levene de
homogeneidad de varianzas
82

Escalamiento de residuos

En algunos casos es difcil hacer comparaciones directas


entre los coeficientes de la regresin debido a que la
magnitud de bj refleja las unidades de medicin del
regresor Xj. Por ejemplo:

Y 5 X 1 1000 X 2

Para facilitarla visualizacin de residuos ante grandes


diferencias en los coeficientes, se sugiere estandarizar o
estudentizar los residuos

83

Escalamiento de residuos

Residuos estandarizados

Se obtienen dividiendo cada residuo entre la


desviacin estndar de los residuos

di

ei
,
MSE

Despus de la estandarizacin, los residuos


tienen una media de 0 y desviacin estndar de
1

Con ms de 50 datos siguen a la distribucin t,


de manera que si exceden a 1.96 (lmite
para
84

Escalamiento de residuos

Residuos estudentizados

Son similares a los residuos donde se elimina una


observacin y se predice su valor, pero adems se
elimina la i-sima observacin en el clculo de la
desviacin estndar usada para estandarizar la sima observacin

Puede identificar observaciones que tienen una gran


influencia pero que no son detectadas por los
residuos estandarizados

H = X (XX)-1X es
ei la matriz sombrero o hat matriz.

ri

MSE (1 hii )

85

Escalamiento de residuos

El estadstico PRESS (Prediction Error Sum of Squares)


es una medida similar a la R2 en la regresin. Difiere en
que se estiman n-1 modelos de regresin.

En cada modelo se omite una observacin en la


estimacin del modelo de regresin y entonces se
predice el valor de la observacin omitida con el modelo
estimado. El residuo isimo ser:

e( i ) Yi Y( i )

El residuo PRESS es la suma al cuadrado de los residuos


individuales e indica una medida de la capacidad de
N
prediccin
PRESS
2
2
PRESS e(2i ) Yi Y( i )
RPr

ediccin
i 1
SYY 86

Grficas parciales de
regresin

Para mostrar el impacto de casos individuales es ms


efectiva la grfica de regresin parcial. Un caso outlier
impacta en la pendiente de la ecuacin de regresin (y
su coeficiente).

Una comparacin visual de la grfica de regresin


parcial con y sin la observacin muestra la influencia de
la observacin

El coeficiente de correlacin parcial es la correlacin de


la variable independiente Xi la variable dependiente Y
cuando se han eliminado de ambos Xi y Y

La correlacin semiparcial refleja la correlacin


entre las
87

Matriz sombrero

Los puntos de influencia son observaciones


substancialmente diferentes de las observaciones
remanentes en una o ms variables independientes

Contiene valores (sombrero en su diagonal) para cada


observacin que representa influencia. Representa los
efectos combinados de todos las variables
independientes para cada caso

88

Matriz sombrero

Los valores en la diagonal de la matriz sombrero miden


dos aspectos:
Para cada observacin miden la distancia de la
observacin al centro de la media de todas las
observaciones de las variables independientes

Valores altos en la diagonal indica que la observacin


tiene mucho peso para la prediccin del valor de la
variable dependiente, minimizando su residuo
El rango de valores es de 0 a 1, con media p/n, p es
el nmero de predictores y n es el tamao de
muestra. Valores lmite se encuentran en 2p/n y 3p/n
89

Distancia de Mahalanobis

D2 es una medida comparable a los valores sombrero


(hat values) que considera slo la distancia de una
observacin del valor medio de las variables
independientes.

Es otra forma de identificar outliers

La significancia estadstica de la distancia de


Malahanobis se puede hacer a partir de tablas del texto:
Barnett, V., Outliers in Statistical Data, 2nd. Edition,
Nueva York, Wiley, 2984

90

Influencia en coeficientes
individuales

El impacto de eliminar una observacin simple en


cada uno de los coeficientes de la regresin
mltiple se muestra con la DFBETA y su versin
estandarizada SDFBETA.

Se sugiere aplicar como lmites 1.0 o 2 para


tamaos de muestra pequeos y n para muestras
medias y grandes

La distancia de Cook (Di) captura el impacto de una


observacin:
La dimensin del cambio en los valores pronosticados
cuando se omite la observacin y la distancia de las
otras observaciones, el lmite es 1 o 4/(n-k-1)
91

Influencia en coeficientes
individuales

La medida COVRATIO estima el efecto de la


observacin en la eficiencia del proceso, en sus
errores estndar de los coeficientes de la
regresin. Considera a todos los coeficientes
colectivamente.

El lmite puede ser establecido en 1 3p/n, los


valores mayores al lmite hacen el proceso ms eficiente y
los menores ms ineficiente

La medida SDFFIT es el grado en que cambian los


valores ajustados o pronosticados cuando el caso se
elimina. El valor lmite es 2*raz((k+1)/(n-k-1))

Ejemplo de regresin
mltiple
Solucin con Excel y Minitab

93

Ejemplo de Regresin Mltiple


Cat. (US News) GMAT
Stanford
1
711 82000
Harvard
2
670 80000
Penn (Wharton) 3
662 79000
MIT (Sloan)
4
650 78000
Chicago
5
680 65000
Northwestern
6
660 70000
Columbia
7
660 83000
Dartmouth
8
670 70000
Duke
9
646 67500
Berkeley
10 653 70000
Virginia
11
660 66000
Michigan
12 645 65000
NYU
13 646 70583
Carnegie Mellon 14 640 67200
Yale
15 675 65000
U.N.C.
16 630 60000
UCLA
17 651 65000
Texas-Austin
18 630 60000
Indiana
19 630 61500
Cornell
20 637 64000
Rochester
21 630 58500
Ohio State
22 611 61000
Emory
23 626 60000
Purdue
24 603 63700
Maryland
25 640 53000

Salario Inicial ($)


7.4
12.8
14.7
15.1
25.0
16.0
14.8
12.6
20.5
13.3
18.9
28.0
20.9
30.8
23.5
19.8
17.5
27.3
44.7
25.4
36.0
23.2
33.0
20.7
18.9

% Aceptacin

94

Interpretacin de Resultados de Excel- Regresin Multiple


SUMMARY OUTPUT
Regression Statistics
Multiple R
0.8749313 R Square 0.76550478
Adjusted R Square
0.732005463 Standard Error 4050.855918 Observations
25
ANOVA
df SS
MS
F
Significance F
Regression 3
1.12E+09
374977790.1
22.851355 8.17E-07
Residual
21 3.45E+08
16409433.67
Total
24 1.47E+09
Coefficients Standard
t Stat
P-value Lower 95% U pper 95%
Error
Intercept
122481.40 41473.13 2.953271081 0.007589
36233.29
208729.5
X Variable1 -926.873
513.424
X Variable2 -59.9488
65.76118
X Variable3 -191.7291
69.49917

198.8104 -4.662094325 0.0001336


60.44875 -0.991730876 0.3326192
125.6138 -1.526337637 0.1418472

-1340.32 -185.659
-452.957

Resultados de Excel- Regresin slo con slo X1


SUMMARY OUTPUT
Regression Statistics
Multiple R
0.855974

R Square 0.732691
Adjusted R Square
0.721069
Standard Error
4132.688
Observations 25
ANOVA
df
Regression
Residual
Total

SS
MS
F
1
1.08E+09
23 3.93E+08
24 1.47E+09

Significance F
1.08E+09
63.04264
17079107

4.88E-08

Coefficients Standard Error


t Stat
P-value Lower 95% Upper 95%
Intercept
79230.32
1703.951
46.49801
2.98E-2475705.43405
82755.20595
X Variable1 -910.077
114.6201 -7.93994
4.88E-08-1147.186411
-672.9674353

Con
Conslo
sloX1,
X1,elelModelo
Modelose
sesimplifica
simplificaenormemente
enormemente
2
poca
pocaimportancia
importanciaprctica
prcticase
sepierde
pierdeen
enRR2(ajustada)
(ajustada)

Reduccin
del Modelo
Vuelva
a correr la regresin usando la categora
US News, como el nico agente de prediccin (predictor)

La ecuacin de regresin es:


y = 79230 - 910 x
Predictor
Constante
x

Coef
Desv. Estndar T
79230 1704
46.50
-910.1 114.6
-7.94

S = 4133

R2 = 73.3%

p
0.000
0.000

R2 (ajustada) = 72.1%

Anlisis de Variancia
Fuente
Regresin
Error
Total

DF
1
23
24

SS
MS
F
1076712008
1076712008
392819470
17079107
1469531477

p
63.04

0.000

El
El Modelo
Modelo se
se simplifica
simplifica enormemente..poca
enormemente..poca
22
importancia
prctica
se
pierde
en
R
importancia prctica se pierde en R (ajustada)
(ajustada)

Corrida en Minitab

Se introducen los datos en varias columnas C1


a C5 incluyendo la respuesta Y (heatflux) y las
variables predictoras Xs (North, South, East)
HeatFlux

Insolation

East

South

North

271.8

783.35 33.53

40.55

16.66

264.0

748.45 36.50

36.19

16.46

238.8

684.45 34.66

37.31

17.66

230.7

827.80 33.13

32.52

17.50

251.6

860.45 35.75

33.71

16.40

257.9

875.15 34.46

34.14

16.28

98

Corrida en Minitab

Utilzar el archivo de ejemplo Exh_regr.mtw


Opcin: Stat > Regression > Regression
Para regresin lineal indicar la columna de
respuesta Y (Score2) y X (Score1)

En Regresin lienal en opciones se puede


poner un valor Xo para predecir la respuesta e
intervalos. Las grficas se obtienen Stat >
Regression > Regression > Fitted line Plots

Para regresin mltiple Y (heatflux) y las


columnas de los predictores (north, south,
east)
99

Resultados de la regresin
lineal
The regression equation is
Score2 = 1.12 + 0.218 Score1
Predictor
Constant
Score1

Coef

SE Coef

1.1177

0.1093

10.23

0.000

0.21767

0.01740

12.51

0.000

S = 0.1274

R-Sq = 95.7%

R-Sq(adj) = 95.1%

Analysis of Variance
Source
Regression

DF

SS

MS

2.5419

2.5419

156.56

0.000

Residual Error

Total

0.1136
8

0.0162

2.6556

Predicted Values for New Observations


New Obs
1

2.6414

Fit

SE Fit
0.0474

95.0% CI
(

2.5292,

New Obs
1

2.7536)

95.0% PI
(

2.3197,

2.9631)

Score1
7.00

100

Resultados de la regresin
lineal
Regression Plot
Score2 = 1.11771 + 0.217670 Score1
S = 0.127419

R-Sq = 95.7 %

R-Sq(adj) = 95.1 %

Score2

3.5

2.5

Regression
1.5

95% CI
95% PI
2

Score1

101

Resultados de la regresin
Mltiple
The regression equation is
HeatFlux = 389 - 24.1 North + 5.32 South + 2.12 East
Predictor

Coef

SE Coef

389.17

66.09

5.89

0.000

North

-24.132

1.869

-12.92

0.000

South

5.3185

0.9629

5.52

0.000

2.125

1.214

1.75

0.092

Constant

East
S = 8.598

R-Sq = 87.4%

R-Sq(adj) = 85.9%

Analysis of Variance
Source
Regression

DF

SS

MS

12833.9

4278.0

57.87

0.000

Residual Error

25

1848.1

Total

28

73.9

14681.9

Source

DF

Seq SS

North

10578.7

South

2028.9

East

226.3

102

Resumen de la Regresin
La regresin slo puede utilizarse con informacin de variables
continuas.
Los residuos deben distribuirse normalmente con media cero.
Importancia prctica: (R2). Importancia estadstica: (valores p)
La regresin puede usarse con un predictor X o ms,
para una respuesta dada
Reduzca el modelo de regresin cuando sea posible,
sin perder mucha importancia prctica
103

VI.A.4 Herramientas
multivariadas

104

Herramientas multivariadas
1. Introduccin
2. Anlisis de componentes principales
3. Anlisis factorial
4. Anlisis discriminante
5. MANOVA
105

Introduccin

En el anlisis multivariado se incluyen dos o


ms variables dependientes Y1, Y2, etc.
Consideradas simultneamente para las
variables independientes X1, X2, ., Xn

Normalmente se resuelven con herramientas


computacionales tales como Minitab y SPSS.

Entre las herramientas principales se


encuentran:

Componentes principales, anlisis factorial,


anlisis discriminante, anlisis de
conglomerados, anlisis cannico, MANOVA
106

Anlisis de componentes
principales

El anlisis (PCA) y el anlisis factorial (FA) se


usan para encontrar patrones de correlacin
entre muchas variables posibles y
subconjuntos de datos

Busca reducirlas a un menor nmero de


componentes o factores que representen la
mayor parte de la varianza.

Normalmente se requieren al menos cinco


observaciones por variable
107

Anlisis de componentes
principales

Pasos de anlisis en Minitab

Se usa una matriz de correlacin para


determinar la relacin entre componentes
Las matrices definen cantidades como
eigenvalores y eigenvectores
Se suman los eigenvalores y se calculan las
proporciones de cada componente
Se identifican los PC1, PC2, que explican la
mayor parte de la varianza
Se puede hacer un diagrama de Pareto como
apoyo
108

Ejemplo: Alimentos en
Europa

109

Corrida en Minitab
2Stat > Multivariate > Principal components
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4En Number of factors to extract, 3. Seleccionar
Correlation Matrix
5Click Graphs y seleccionar Scree Plot, Score plot
for first 2 components Loading plot for first 2
components
8 Click Storage e indicar las columnas donde se
guarden los coeficientes y los valores Z (scores) Coef1
Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de dilogo
110

Ejemplo: Alimentos en
Europa

Dos componentes exceden


El eigenvalor de ref. de 1

111

Ejemplo: Alimentos en
Europa

112

Anlisis factorial

Es una tcnica de reduccin de variables para


identificar factores que expliquen la variacin,
aunque se reiere un juicio subjetivo.

Las variables de salida estn relacionadas


linealmente con las variables de entrada.

Las variables deben ser medibles y simtricas.


Debe haber cuatro o ms factores de entrada
para cada variable independiente
113

Anlisis factorial

Se especifican un cierto nmero de factores


comunes

El anlisis factorial se hace en dos etapas:

Extraccin de factores, para identificar los


factores principales para un estudio posterior
Rotacin de factores, para hacerlos ms
significativos

114

Corrida con Minitab


2Stat > Multivariate > Factor Analysis.
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4En Number of factors to extract, 4.
En Method of Extraction, seleccionar Principal
components
6En Type of Rotation, seleccionar Varimax.
7Click Graphs y seleccionar Loading plot for first 2
factors y Scree Plot.
Click Results y seleccionar Sort loadings.
Seleccionar Storage e indicar columnas para
ponderaciones, coeficientes, Zs, eigenvalores, etc.
Click OK en cada uno de los cuadros de d
115

Ejemplo

116

Ejemplo:

117

Anlisis discriminante

Si se tiene una muestra con grupos conocidos,


el anlisis discriminante clasifica las
observaciones o atributos en dos o ms grupos

Puede utilizarse como herramienta predictiva o


descriptiva

Las variables deben ser multivariadamente


normales, con la misma varianza y covarianza
poblacional entre variables dependientes, y las
muestras exhiben independencia
118

pases

119

Corrida con Minitab


2Stat > Multivariate > Discriminant
Analysis.
3En Groups, poner SalmonOrigin.
4 En Predictors, poner Freshwater Marine.
Click OK.

120

Corrida con Minitab

121

Anlisis de conglomerados

122

Anlisis de conglomerados

Se usa para determinar agrupaciones o


clasificaciones de un conjunto de datos

Las personas se pueden agrupar por IQ,


padres, hbitos de estudio, etc.

Se trata de dar sentido a grandes cantidades


de datos de cuestionarios, ecnuestas, etc.

123

Ejemplo

Suponer que un estudio


de mercado trata de
determinar segmentos
de mercado en base a los
patrones de lealtad de
marcas (V1) y tiendas
(V2), medidas del 0 al 10
en 7 personas (A-G).

Variables V1

V2

124

Corrida en Minitab

Stat > Multivariate Anlisis > Cluster


Observations
Distance Measured Euclidean Seleccionar
Show Dendogram OK

125

Anlisis de correlacin
cannico

Prueba la hiptesis de que los efectos pueden


tener causas mltiples y de que las causas
pueden tener efectos mltiples (Hotelling
1935)

Es como una regresin mltiple para


determinar la correlacin entre dos conjuntos
de combinaciones lieneales, cada conjunto
puede tener varias variables relacionadas.
La relacin de un conjunto de variables
dependientes a un conjunto de variables
independientes forma combinaciones lineales

126

Anlisis de correlacin
cannico

Se usan los ms altos valores de correlacin


para los conjuntos. Los pares de
combinaciones lineales se denominan variates
cannicas con correlaciones cannicas (Rc con
valor mayor a 0.3)

Por ejemplo se quiere determinar si hay una


correlacin entre las caractersticas de un
ingeniero industrial y las habilidades
requeridas en la descripcin de puesto del
mismo ingeniero.
127

MANOVA
(Anlisis de varianza mltiple)

Es un modelo para analizar la relacin entre


una o ms variables independientes y dos o
ms variables dependientes

Prueba si hay diferencias significativas en las


medias de grupos de una combinancin de
respuestas Y.

Los datos deben ser normales, con covarianza


homogenea y observaciones independientes
128

MANOVA
(Anlisis de varianza mltiple)

129

Diferencias de ANOVA y MANOVA

130

Ejemplo:
Extrusin de pelcula plstica

Se realiza un estudio para determinar las


condiciones ptimas para extruir pelcula
plstica.

Se miden tres respuestas Tear, gloss y


opacity cinco veces en cada combinacin de
dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos
y altos.

Se utiliza el MANOVA balanceado para probar


la igualdad de las medias.
131

Ejemplo:
Extrusin de pelcula plstica

132

Ejemplo:
Extrusin de pelcula plstica
1Abrir el archivo EXH_MVAR.MTW.
2Seleccionar Stat > ANOVA > Balanced
MANOVA.
3En Responses, poner Tear Gloss Opacity.
4En Model, poner Extrusion | Additive.
5Click Results. En Display of Results,
seleccionar Matrices (hypothesis, error,
partial correlations) y Eigen analysis.
6 Click OK en cada cuadro de dilogo.

133

Ejemplo

134

Ejemplo:
Extrusin de pelcula plstica
Las matrices SSCP evalan la contribucin a la
variabilidad de manera similar a la suma de
cuadrados en la ANOVA univariada.
Las correlaciones parciales entre Tear y Gloss son
pequeas. Como la estructura de las
correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una
de las respuestas.

135

VI.A.4 Estudios Multivari

136

Estudios Multivari

La carta multivari permite analizar la variacin


dentro de la pieza, de pieza a pieza o de
tiempo en tiempo

Permite investigar la estabilidad de un proceso


consiste de lneas verticales u otro esquema
en funcin del tiempo. La longitud de la lnea o
del esquema representa el rango de valores
encontrados en cada conjunto de muestras

137

Estudios Multivari

La variacin dentro de las muestras (cinco


puntos en cada lnea). La variacin de muestra
a muestra como posicin vertical de las lneas.
E
S
P
E
S
O
R

Nmero de subgrupo 138

Estudios Multivari

Ejemplo de parte metlica


Centro ms grueso

139

Estudios Multivari

Procedimiento de muestreo:

Seleccionar el proceso y la caracterstica a


investigar

Seleccionar tamao de muestra y


frecuencia de muestreo

Registrar en una hoja la hora y valores para


conjunto de partes
140

Estudios Multivari

Procedimiento de muestreo:

Realizar la carta Multivari


Unir los valores observados con una lnea

Analizar la carta para variacin dentro de la


parte, de parte a parte y sobre el tiempo

Puede ser necesario realizar estudios


adicionales alrededor del rea de mxima
variacin aparente
Despus de la accin de mejora comprobar
con otro estudio Multivari
141

Cartas Multivari

Su propsito fundamental es reducir el gran


nmero de causas posibles de variacin, a un
conjunto pequeo de causas que realmente
influyen en la variabilidad.

Sirven para identificar el patrn principal de


variacin de entre tres patrones principales:

Temporal: Variacin de hora a hora; turno


a turno; da a da; semana a semana; etc.

Cclico: Variacin entre unidades de un


mismo proceso; variacin entre grupos de
unidades; variacin de lote a lote.142

Cartas Multivari

Posicional:

Variaciones dentro de una misma unidad


(ejemplo: porosidad en un molde de metal) o a
travs de una sola unidad con mltiples partes
(circuito impreso).
Variaciones por la localizacin dentro de un
proceso que produce mltiples unidades al
mismo tiempo. Por ejemplo las diferentes
cavidades de un molde
Variaciones de mquina a mquina; operador a
operador; planta a planta
143

Cartas Multivari

Ejemplo: Se toman 3 a 5 unidades consecutivas,


repitiendo el proceso tres o ms veces a cierto intervalo
de tiempo, hasta que al menos el 80% de la variacin en
el proceso se ha capturado.

1 2 3 4 5

27 28 29 30 31

55 56 57 58 59

VARIACIN POSICIONAL DENTRO DE LA UNIDAD


144

Cartas Multivari

Ejemplo: (cont...)

1 2 3 4 5

27 28 29 30 31

55 56 57 58 59

VARIACIN CCLICA DE UNIDAD A UNIDAD

145

Cartas Multivari

Ejemplo: (cont...)

1 2 3 4 5

27 28 29 30 31

55 56 57 58 59

VARIACIN TEMPORAL DE TIEMPO A TIEMPO

146

Cartas Multivari

Ejemplo: Un proceso produce flecha


cilndricas, con un dimetro especificado de
0.0250 0.001.

Sin embargo un estudio de capacidad muestra


un Cp = 0.8 y una dispersin natural de
0.0025 (6 ) contra la permitida de 0.0002.

Se tiene pensado comprar un torno nuevo de


US$70,000 para tolerancia de 0.0008, i.e.
Cpk = 1.25. Se sugiri un estudio Multi Vari
147
previo.

Cartas Multivari

Se tomaron cuatro lecturas en cada flecha,


dos a cada lado. Estas muestran una
disminucin gradual desde el lado izquierdo al
lado derecho de las flechas, adems de
excentricidad en cada lado de la flecha.

La variacin cclica, de una flecha a la


siguiente, se muestra mediante las lneas que
concentran las cuatro lecturas de cada flecha.

Tambin se muestra la variacin temporal.


148

Cartas Multivari
8 AM

9 AM

10 AM

11 AM

12 AM

0.25
10

0.2500

0.2490
Izquierda
Mximo
Derecha
Mnimo

149

Cartas Multivari

Un anlisis rpido revela que la mayor variacin es


temporal con un cambio mayor entre las 10 AM y las 11
AM.

A las 10 AM se para el equipo para el almuerzo y se


arranca a las 11 AM, con lecturas similares a las de las
8 AM. Conforme pasa el tiempo las lecturas tienden a
decrecer ms y ms, hasta que se invierten a las 10
A.M. en forma drstica.

Se investig y se encontr que la temperatura tena


influencia en la variacin.

La variacin en temperatura era causada por que la


cantidad de refrigerante no era la adecuada, lo cual se
notaba ms cuando se paraba el equipo y se150
volva a

Cartas Multivari

Tambin se encontr que el acabado cnico era


causado por que la herramienta de corte estaba mal
alineada. Se ajust, contribuyendo a otra reduccin del
10% de la variabilidad.

La excentricidad de las flechas se corrigi al cambiar un


rodamiento excntrico por desgaste en el torno. Se
instal un nuevo rodamiento eliminndose otro 30% de
la variabilidad.

La tabla siguiente muestra un resumen de los


resultados.
151

Cartas Multivari
Tipo de

% var.

Causas de

Accin

% de variacin

Variacin

Total

Variacin

Correctiva

Reducida

Temporal

50

Bajo nivel de

Tiempo a tiempo
Dentro de

10

la flecha

Adicionar

Refrigerante

Casi 50

refrigerante

Ajuste no

Ajuste de la

no paralelo

herramienta de

Casi 10

corte
Dentro de

30

la flecha
Flecha a

Rodamiento

Nuevo

gastado

rodamiento

-???

Casi 30

flecha

152

Cartas Multivari

Resultados:

La variacin total en la siguiente corrida de


produccin se redujo de 0.0025 a 0.0004

El nuevo Cp fue de 0.002 / 0.0004 = 5.0

Como beneficios se redujo a cero el desperdicio y no


hubo necesidad de adquirir una nueva mquina.

Se observa que antes de cambiar equipo o


mquinas, es conveniente realizar un estudio de
variabilidad para identificar las fuentes de variacin
y tratar de eliminarlas.
153

Cartas Multivari
Ejemplo: Bsqueda de fuentes de variacin con el diagrama sistemtico.
Dimetro de Flecha
(0.150" +/- .002)

Variacin
de
proceso
Pieza a
pieza

Lote a lote

Programa

Dentro de
la pieza

Mquina

Variacin de
sist. medicin
Mquina a
mquina

Accesorios

Turno a
turno

Tiempo a
tiempo

Operador a
operador

154

Cartas Multivari
Ejemplo (cont..):
Al realizar la prueba de homogeneidad de varianza F, se
encontr que haba una diferencia significante entre los
operadores.

Se Rechaza Ho: Oper1 = Oper2 = Oper3


Para probar si existe diferencia significativa entre
medias de operadores se hacen las siguientes
comparaciones

Ho: Oper1 = Oper2 Ho: Oper1 = Oper3


Ho: Oper2 = Oper3 Ha: Oper1 Oper2 Oper3
155

Corrida en Minitab

Se introducen los datos en varias columnas C1


a C3 incluyendo la respuesta (strenght) y los
factores (time y Metal)
SinterTime MetalType Strength
0.5 15 23
0.5 15 20
0.5 15 21
0.5 18 22
0.5 18 19
0.5 18 20
0.5 21 19
0.5 21 18
156

Corrida en Minitab

Utilizar el achivo de ejemplo Sinter.mtw

Opcin: Stat > Quality Tools > Multivari charts

Indicar la columna de respuesta y las


columnas de los factores

En opciones se puede poner un ttulo y


conectar las lneas
157

Resultados
Multi-Vari Chart for Strength by SinterTime - MetalType
SinterTime
0.5
23.5

1.0
2.0

22.5

Strength

21.5

20.5

19.5

18.5

17.5
15

18

21

MetalType

158

VI.B.7 Pruebas de bondad


de ajuste

159

(O
i
E
)

Bondad de ajuste

PRUEBAS DE BONDAD DE AJUSTE

Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma
de distribucin particular planteada como hiptesis
Si el ajuste es razonablemente cercano, puede concluirse que s exite la forma de distribucin
planteada como hiptesis

2
2iK

Por ejemplo:

Ho: La distribucin poblacional es uniforme


Ha: La distribucin poblacional no es uniforme
Se usa el estadstico Chi-Cuadrado

Oi = Frecuencia de los eventos observados en los datos muestrales

Ei = Frecuencia de los eventos esperados si la hiptesis nula es correcta


Para que la prueba sea confiable Ei >= 5. De otra forma se combinan las categorias para
cumplir con este requisito.
K = Nmero de categoras o clases

160

Bondad de ajuste
Ejemplo:
Se venden n = 48 botes en 4 meses. Si la demanda es uniforme se esperara que se vendieran
12 botes / mes. La cantidad real que se vendi fue:
Ventas (Oi) Ventas (Ei)
Tipo de bote observadas esperadas
A
15
12
B
11
12
C
10
12
D
12
12
DISTR.CHI

Entonces el estadstico Chi Cuadrado de la muestra es = 1.17 el valor P corresp.=

0.76020818

El Chi Cuadrado de excel se determina con alfa = 0.05 y K - 1 grados de libetad = 3


Chi cuadrado de excel = 7.815
El estadstico Chi cuadrado calculado de 1.17 es menor al de excel de 7.815 por tanto se acepta
la hiptesis nula
PRUEBA.CHI.INV

161

Prueba de Bondad de ajuste


para la distribucin de Poisson
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. De
Poisson
Ha: Caso contrario
2. Tomar una muestra aleatoria, anotar la frecuencia
observada fi y calcular la media de ocurrencias
3. Calcular la frecuencia esperada de ocurrencias ei.
Multiplicar el tamao de muestra con la prob. de Poisson
para cada valor de la variable aleatoria.
menos
2
n
( f i Si
ei )hay
2
de 5 combinar las categoras
ei
i 1
4. Calcular el estadstico
de prueba
2 2
5. Rechazar Ho si

o si p < alfa. Con gl=k-p-1


y alfa
162

Ejemplo:
Distribucin de Poisson =5

Ho: No. de clientes que llega en intervalos de 5 min. tiene una


distribucin de Poisson
Ha: No se sigue una distribucin de
Poisson
Clientes
Frec. observada f(x) de Poisson
128*f(x)
cantidad
esperada
0

0.0067

0.8576

0.0337

4.3136

10

0.0842

10.7776

12

0.1404

17.9712

18

0.1755

22.4640

22

0.1755

22.4640

22

0.1462

18.7136

16

0.1044

13.3662

12

0.0653

8.3584

0.0363

4.6464

0.0318

163 4.0704

10 o ms

Ejemplo:
Distribucin de Poisson =5

Combinando X=0,1 y X=9, 10 o ms para que la frecuencia


observada sea mayor a 5 y se pueda aplicar la distribucin Chi
Cuadrada se tiene
Clientes
Frec. Observada f(x) de Poisson
128*f(x)
frecuencia
(fi)
esperada (ei)
0o1

10

0.0067+0.0337

5.1712

10

0.0842

10.7776

12

0.1404

17.9712

18

0.1755

22.4640

22

0.1755

22.4640

22

0.1462

18.7136

16

0.1044

13.3662

12

0.0653

8.3584

9 o ms

0.0363+0.0318

8.7168
164

Estadstico y conclusin
Con los datos anteriores se calcula el estadstico Chi
cuadrada que se compara con Chi Cuadrada de alfa
para k-p-1 grados de libertad (K categoras: 9, p
parmetros a estimar: 1 media).
2
(
f

e
)
2 i i
ei
i 1
n

2 2

Ho se rechaza si

o si p es mayor que alfa.

El valor de Chi Cuadrada calculado es de 10.9766 y el


valor Chi Cuadrada de alfa 0.05 con 2 gl. Es de 14.07 no
se rechaza Ho
En este caso p = 0.14 > 0.05 por tanto no se
rechaza Ho y
165

Prueba de Bondad de ajuste


para la distribucin Normal
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. Normal
Ha: Caso contrario
2. Tomar una muestra aleatoria, calcular la media y la
desviacin estndar
3. Definir K intervalos de valores de forma que la
frecuencia esperada sea 5 cuando menos para cada uno
(intervalos de igual probabilidad). Anotar la frecuencia
observada de los valores de datos fi, en cada intervalo

166

Prueba de Bondad de ajuste


para la distribucin Normal
4. Calcular el nmero de ocurrencias esperado ei, para
cada intervalo de valores. Multiplicar el tamao de
muestra por la probabilidad de que una variable
aleatoria est en el intervalo.

5. Calcular el estadstico de prueba


2 2
6. Rechazar Ho si
nivel de significancia

( f i ei ) 2

ei
i 1
n

o si p < alfa. Con gl=k-p-1 y alfa

167

Prueba de Bondad de ajuste


para la distribucin Normal

Ejemplo: datos de calificaciones: Media = 68.42; S =


10.41
Calificaciones
71

66

61

65

54

93

60

86

70

70

73

73

55

63

56

62

76

54

82

79

76

68

53

58

85

80

56

61

61

64

65

62

90

69

76

79

77

54

64

74

65

65

61

56

63

80

56

71

79

84

168

Prueba de Bondad de ajuste


para la distribucin Normal
Ho: la poblacin tiene una distribucin normal con media
68.42 y S=10.41 Ha: Caso contrario
Para una muestra de 50 con una frecuencia mnima
esperada de 5 se tiene el 10% al menos por cada celda
La primera celda correspondiente al 10% est en Z =
-1.28 con
X = (Media - Z*S) = 55.10
Para el rea del 20%, Z = -0.84 y X = 59.68
y as sucesivamente
169

Prueba de Bondad de ajuste


para la distribucin Normal
Intervalo

Frecuencia
observada
(fi)

Frecuencia
esperada
(ei)

Menos de
55.10

55.10 a
59.68

59.68 a
63.01

63.01 a
65.82

65.82 a
68.42

68.42 a
71.02

71.02 a

Se registran las
frecuencias de
los datos
tomados de las
calificaciones

170

Prueba de Bondad de ajuste


para la distribucin Normal

Se determina el estadstico Chi Cuadrado = 7.2

( f i ei ) 2

ei
i 1
2

El Valor de Chi Cuadrado de alfa = 0.10 para k p 1


grados de libertad. K = 10 categoras, p = 2
parmetros. Gl = 7. Chi Cuadrado es 12.017

Como 2 2 no se puede rechazar la hiptesis nula de


normalidad de las calificaciones

171

Prueba de Bondad de ajuste


para la distribucin Multinomial
1. Enunciar la hiptesis nula y alternativa
Ho: La poblacin sigue una distribucin de probabilidad
multinomial con probabilidades especificadas para cada
una de las K categoras
Ha: Caso contrario
2. Tomar una muestra aleatoria y anotar las frecuencias
observadas fi para cada categora
3. Suponiendo que Ho es cierta, determinar la frecuencia
esperada ei, en cada categora multiplicando la
probabilidad de la categora por el tamao de muestra

172

Prueba de Bondad de ajuste


para la distribucin Multinomial
4. Se determina el estadstico Chi Cuadrado de prueba

( f i ei ) 2

ei
i 1
2

5. Regla de rechazo:
2
2

Si
no se puede rechazar la hiptesis nula

Rechazar si el valor p es menor a alfa


Con alfa nivel de significancia y los grados de libertad son
k-1
173

Prueba de Bondad de ajuste


para la distribucin Multinomial
Ejemplo: El ao pasado la participacin de mercado para
la empresa A fue del 30%, 50% para la empresa B y
20% para la empresa C. La empresa C hace una prueba
con un nuevo producto para estimar su impacto en las
preferencias del mercado.
Se tom una muestra de 200 clientes resultando
preferencias de compra de: 48 para A, 98 para B y 54
para C.
De acuerdo a las probabilidades esperadas, en los 200
clientes las preferencias esperadas son:
A=200*0.3=60, B=200*0.5=100, C=200*0.2=40
174

Prueba de Bondad de ajuste


para la distribucin Multinomial
Datos para calcular el estadstico de prueba Chi Cuadrado
Categora

Proporcin
hipottica

Frecuencia
observada

Frecuencia
esperada

Empresa A

0.3

48

60

Empresa B

0.5

98

100

Empresa C

0.2

54

40

175

Prueba de Bondad de ajuste


para la distribucin Multinomial
Chi Cuadrado calculado = 7.34
Chi cuadrado de alfa = 0.05 con k 1 = 2 grados de
libertad = 2 es de 5.99. El valor p correspondiente es
de 0.025.
Como 7.34 es mayor a 5.99 o el valor p de 0.025 es menor
a alfa de 0.05 se rechaza la hiptesis nula Ho y se
concluye que el nuevo producto modificar las
preferencias del mercado actuales
La participacin de la empresa C aumenta con el nuevo
producto
176

Prueba de Bondad
de ajuste en Minitab
La columna C1 Observadas contiene las frecuencias
observadas y la C2 esperadas las frecuencias
esperadas
Calc > Calculator > Store result in variable ChiCuadrada
Teclear en el cuadro de expresin sum((ObservadasEsperadas)**2/Esperadas)
Calc > Probability distributions > Chi Square
Seleccionar Cummulative probability
Degrees of freedom 2
Input column ChiCuadrada; Optional Storage CumProb
OK
Calc > Calculator > Store results in variable p
177

Prueba de Bondad
de ajuste en Minitab

Ejemplo: investigacin de mercado

Observadas Esperadas ChiCuadrada


48
60
7.34
98

100

54

40

CumProb
0.974524

178

p
0.0254765

Prueba de Bondad
de ajuste en Excel

Ejemplo: investigacin de mercado

1. Calcular el estadstico Chi Cuadrada con =(A2-B2)^2/B2


y Suma
Chi cuadrada = 7.34
2. El valor P es =distr.chi(7.34, 2)
3. El estadstico Chi Cuadrada de alfa es:
=prueba.chi.inv(0.05,2) = 5.99
4. Como p es menor a alfa de 0.05 se rechaza la Ho
179

VI.B.6 ANOVA para un factor


principal y una o ms
variables de bloqueo

180

Introduccin

Cuando es necesario comparar 2 o ms medias


poblacionales al mismo tiempo, para lo cual se usa
ANOVA.

El mtodo ANOVA tiene los siguientes supuestos:


La varianza es la misma para todos los tratamientos
del factor en todos sus niveles
Las mediciones indiviudales dentro de cada
tratamiento se distribuyen normalmente
El trmino de error tiene un efecto distribuido
normalmente e independiente

181

Contenido

ANOVA de un factor o direccin

ANOVA de un factor y una variable de bloqueo

ANOVA de un factor y dos variables de bloqueo


CUADRADO LATINO

ANOVA de un factor y tres variables de


bloqueo CUADRADO GRECOLATINO
182

ANOVA de un factor
o direccin

183

Introduccin

Con el ANOVA las variaciones en la respuesta se


dividen en componentes que reflejan los efectos de
una o ms variables independientes

La variabilidad se representa como la suma de


cuadrados total que es la suma de cuadrados de
las desviaciones de mediciones individuales
respecto a la gran media, se divide en:
Suma de cuadrados de las medias de los
tratamientos
Suma de cuadrados del residuo o error
experimental
184

para probar la igualdad de


medias de varias poblaciones
para un factor
Se trata de probar si el efecto de un factor o
Tratamiento en la respuesta de un proceso o sistema es
Significativo, al realizar experimentos variando
Los niveles de ese factor (Temp. 1, Temp. 2, Temp.3, etc.)

Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
185

ANOVA - Condiciones

Todas las poblaciones son normales

Todas las poblaciones tiene la misma


varianza

Los errores son independientes con


distribucin normal de media cero

La varianza se mantiene constante para


todos los niveles del factor
186

ANOVA Ejemplo de datos


Niveles del Factor Peso % de algodn y Resistencia de tela

Peso porc.
de algodn
15
20
25
30
35

Respuesta
Resistencia de la tela
7
7
15
12
17
12
14
18
18
19
25
22
7
10
11

11
18
19
19
15
187

9
18
19
23
11

ANOVA Suma de
cuadrados total
Xij

Gran media

Xij

SCT

i 1

j 1

( Xij X )
188

ANOVA Suma de cuadrados


de renglones (a)tratamientos
Media Trat. a

Media Trat. 1

a renglones
Gran media

Media trat. 2

SCTr b( X i X )
i 1

189

ANOVA Suma de cuadrados


del error
X2j

X3j

X1j

Media X1.
Media X3.

Media X2.

Muestra 1

SCE
i 1

Muestra 2

(X
j 1

ij

Muestra 3

X i)

190

ANOVA Suma de cuadrados


del error
X2j

X3j

X1j

Media X1.
Media X3.

Media X2.

Muestra 1

Muestra 2

Muestra 3

SCE SCT SCTr


191

ANOVA Grados de libertad:


Totales, Tratamientos, Error

gl.SCT n 1
gl.SCTr a 1
gl.SCE (n 1) (a 1) n a
192

ANOVA Cuadrados medios:


Total, Tratamiento y Error

MCT SCT /( n 1)
MCTr SCTr /( a 1)
MCE SCE /( n a )
193

ANOVA Clculo del


estadstico Fc y Fexcel

MCTr
Fc
MCE
Fexcel FINVALFA, gl. SCTr , gl.SCE

194

Tabla final de ANOVA


TABLA DE ANOVA
FUENTE DE VARIACIN

SUMA DE GRADOS DE CUADRADO


CUADRADOS LIBERTAD MEDIO

Entre muestras (tratam.)

SCTR

a-1

CMTR

Dentro de muestras (error)

SCE

n-a

CME

Variacin total

SCT

n-1

CMT

VALOR F

CMTR/CME

Regla: Rechazar Ho si la Fc de la muestra es mayor que la F de Excel para una cierta alfa
o si el valor p correspondiente a la Fc es menor al valor de alfa especificado
195

ANOVA Toma de decisin


Distribucin F

Fexcel

Alfa

Zona de rechazo
De Ho o aceptar Ha

Zona de no rechazo de Ho
O de no aceptar Ha
Fc

196

ANOVA Toma de decisin


Si Fc es mayor que Fexcel se rechaza Ho
Aceptando Ha donde las medias son
diferentes
O si el valor de p correspondiente a Fc es
menor de Alfa se rechaza Ho

197

ANOVA Identificar las


medias diferentes por Prueba
de Tukey T

T q , a , n a

CME
b

Para diseos balanceado


(mismo nmero de
columnas en los
tratamientos) el valor
de q se determina por
medio de la tabla en el

198

ANOVA Identificar las


medias diferentes por Prueba
de Tukey T
Se calcula la diferencia Di entre cada par de Medias Xis:
D1 = X1 X2

D2 = X1 X3

D3 = X2 X3

etc.

Cada una de las diferencias Di se comparan con el


valor de T, si lo exceden entonces la diferencia es
Significativa de otra forma se considera que las medias
Son iguales

199

diferentes por Prueba de


Diferencia Mnima Significativa
DMS

2(CME ) F ,1,n a
DMS
b
Para diseos balanceados (los
tratamientos tienen igual no. De
columnas), se calcula un factor DMS
contra el que se comparan las
diferencias Xi Xi. Significativas
200si lo

Prueba DMS para Diseos no


balanceados

DMS j ,k

1 1
(CME ) F ,a 1,n a
b j bk

Para diseos no balanceados (los


tratamientos tienen diferente no. De
columnas), se calcula un factor DMS
Para cada una de las diferencias Xi
Xi
201

Ejemplo:

Considerar un experimento de un factor


(mquina) con tres niveles (mquinas A, B, C).
Los datos se muestran a continuacin y debe
verificarse si existe diferencia significativa a
un alfa = 0.05

Mquin
as

Datos

Su
m
a

Prom
.

202

Ejemplo:

La tabla completa de ANOVA es la siguientes:


Fuentes
De variacin

Cuadrado
medio

Mquin
as

Como el valor calculado de F(33.2) excede el valor crtico de F,


se rechaza la Hiptesis nula Ho
203

Ejemplo:

Con Minitab: Stat>ANOVA>One way unstacked


Responses (in separate columns) A B C
Interpretar los resultados

-2

-2

-3

0
204

Ejemplo:
One-way ANOVA: A, B, C
Source

DF

SS

MS

Factor

137.20

68.60

33.19

Error

12

24.80

2.07

Total

14

162.00

S = 1.438

R-Sq = 84.69%

0.000 Rechazo Ho

R-Sq(adj) = 82.14%

Individual 95% CIs For Mean Based on


Pooled StDev
Level

Mean

StDev

---------+---------+---------+---------+

6.200

0.837

(-----*----)

0.600

1.673

-0.800

1.643

(----*-----)
(-----*----)
---------+---------+---------+---------+
0.0

2.5

5.0

7.5

Pooled StDev = 1.438

205

Corrida en Minitab

Se introducen las respuestas en una columna


C1
Se introducen los
subndices
Durability
Carpetde los renglones
en una columna C218.95 1
12.62

11.94

14.42

10.06

7.19

7.03

14.66

2
206

Corrida en Minitab

Opcin: stat>ANOVA One Way (usar archivo


Exh_aov)
En Response indicar la col. De Respuesta
(Durability)
En factors indicar la columna de subndices
(carpet)
En comparisons (Tukey)
Pedir grfica de Box Plot of data y residuales
Normal Plot y vs fits y orden
207 ANOVA
Si los datos estan en columnas pedir

Results for: Exh_aov.MTW


One-way ANOVA: Durability versus Carpet
Analysis of Variance for Durabili
Source

DF

Carpet

Resultados
SS

MS

111.6

37.2

2.60

0.101

Error

12

172.0

Total

15

14.3
283.6

Individual 95% CIs For Mean


Based on Pooled StDev
Level

Mean

14.483

3
4

StDev

4
4

---------+---------+---------+-------

3.157

9.735
12.808

17.005

3.566

(-------*-------)
(-------*--------)

1.506

(--------*-------)

5.691

(-------*-------)
---------+---------+---------+-------

Pooled StDev =

3.786

10.0

15.0

Tukey's pairwise comparisons


Family error rate = 0.0500
Individual error rate = 0.0117
Critical value = 4.20

208

20.0

ANOVA de dos vas un


factor principal y una
variable de bloqueo

209

ANOVA de 2 vas

Este es un procedimiento extensin de los


patrones del ANOVA de una va con tres
fuentes de variacin: Tratamiento del factor A
(columnas), Tratamiento del factor B
(renglones) y Error experimental.

X ijk Ef . Ai Ef .B j Ef . AxBij kij

210

para probar la igualdad de


medias de varias poblaciones
con dos vas
Se trata de probar si el efecto de un factor o
Tratamiento en la respuesta de un proceso o sistema es
Significativo, al realizar experimentos variando
Los niveles de ese factor (Temp.1, Temp.2, etc.)
POR RENGLON
Y
Considerando los niveles de otro factor que se piensa
Que tiene influencia en la prueba FACTOR DE BLOQUEO
POR COLUMNA

211

ANOVA 2 vas
Para el tratamiento en renglones

Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
Para el factor de bloqueo en columnas

Ho : '1 '2 '3 ......... 'a


Ha : A lg unas. ' s.son.diferentes
212

ANOVA 2 vas - Ejemplo

Maquinas
Maq 1
Maq 2
Maq 3

Experiencia en aos de los operadores


1
2
3
4
5
27
31
42
38
45
21
33
39
41
46
25
35
39
37
45
213

ANOVA Dos vas o


direcciones

La SCT y SCTr (renlgones) se determina de la


misma forma que para la ANOVA de una
direccin o factor

En forma adicional se determina la suma de


cuadrados del factor de bloqueo (columnas) de
forma similar a la de los renglones

La SCE = SCT SCTr - SCBl

214

ANOVA de 2 vas
b

SCBl a ( X j X )

j 1

gl.SCBl b 1
CMBl SCBl /(b 1)
215

ANOVA de 2 vas

SCE SCT SCTr SCBl


gl.SCE (n a )( n b)
CME SCBl /( n a )( n b)
216

ANOVA Estadstico Fc y
Fexcel

MCTr
Fc
MCE
Fexcel FINVALFA, gl.SCTr , gl.SCE

217

ANOVA Estadstico Fb

MCBl
Fc
MCE
Fexcel FINVALFA, gl.SCBl , gl.SCE

218

Tabla final ANOVA 2 vas


FUENTE DE VARIACIN

SUMA DE GRADOS DE CUADRADO


CUADRADOS LIBERTAD MEDIO

VALOR F

Entre muestras (tratam.)

SCTR

a-1

CMTR

CMTR/CME

Entre Bloques (Factor Bl)

SCBl

b-1

CMBL

CMBL/CME

Dentro de muestras (error)

SCE

(a-1)(b-1)

CME

Variacin total

SCT

n-1

CMT

Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
219

ANOVA 2 vas: Toma de


decisin
Distribucin F

Fexcel

Alfa

Zona de rechazo
De Ho o aceptar Ha

Zona de no rechazo de Ho
O de no aceptar Ha
Fc
Tr o Bl

220

ANOVA 2 vas: Toma de


decisin
Si Fc (Tr o Bl) es mayor que Fexcel se
rechaza Ho Aceptando Ha donde las
medias son diferentes
O si el valor de p correspondiente a Fc (Tr
o Bl) es menor de Alfa se rechaza Ho

221

Clculo de los residuales


y
ij yi . y. j y..
eij yij y
ij
s yi .

MSE
b

Rk r0.05, k , gl . MSE * s yi .

Y estimada

Error o residuo

Error estndar

Factor de comparacin

Si la diferencia de medias excede a Rk es significativa


222

Adecuacin del modelo

Los residuales deben seguir una recta en la


grfica normal

Deben mostrar patrones aleatorios en las


grficas de los residuos contra el orden de las
Yij, contra los valores estimados y contra los
valores reales Yij

223

Corrida en Minitab

Se introducen las respuestas en una columna C3 y los


subndices de renglones en columna C4 y de columnas
en C5
Plantas

Suplemento

Lago

34

Rose

43

Rose

57

Dennison

40

Dennison

85

Rose

68

Rose

67

Dennison

53

Dennison

41

Rose

24

Rose

42

Dennison

52

Dennison

224

Corrida en Minitab

Opcin: stat>ANOVA Two Way (usar archivo


Exh_aov)

En Response indicar la col. De Respuesta


(Plantas)

En Row factor y Column Factor indicar las


columnas de subndices de renglones y
columnas (suplemento y lago) y Display Means
para ambos casos

225
Pedir grfica residuales Normal Plot
y vs fits y

Two-way ANOVA: Zooplankton versus Supplement, Lake


Analysis of Variance for Zooplank
Source

DF

SS

MS

1919

959

9.25

0.015

21

21

0.21

0.666

561

281

2.71

0.145

Suppleme

Resultados

Lake
Interaction
Error

6
Total

622
11

104
3123

Individual 95% CI
Suppleme

Mean
1

--+---------+---------+---------+--------43.5

(-------*-------)

68.3
3

39.8

(--------*-------)
(--------*-------)

--+---------+---------+---------+--------30.0

45.0

60.0

75.0

Individual 95% CI
Lake
Dennison
Rose

Mean
51.8
49.2

------+---------+---------+---------+----(----------------*----------------)
(----------------*----------------)
------+---------+---------+---------+----42.0

48.0

54.0

226

60.0

ANOVA de un factor y dos


o tres variables de
bloqueo
CUADRADO LATINO Y
GRECOLATINO
227

ANOVA 3 y 4 factores

El diseo de Cuadrado latino utiliza dos


factores de bloqueo adicionales al de
Tratamiento

EL diseo de Cuadrado Grecolatino utiliza tres


factores adicionales al del Tratamiento

El clculo de suma de cuadrados para


renglones y para columnas es similar al de
ANOVA de un factor principal y otro de
bloqueo
228

Cuadrado Latino
Aos exp.
Empleado
1

Maana
B=15

Turno
Tarde
A=18

Noche
C=11

C=12

B=20

A=9

3
A=17
A, B, C = Mquinas 1, 2 y 3

C=19

B=10
229

ANOVA Cuadrado Latino:


Factor principal (A,B,C,D)
b

SCTr a ( X Tr X )

j 1

gl.SCTr a 1 b 1
CMTr SCTr /(b 1)
230

ANOVA Cuadrado Latino:


Clculo del error
SCE SCT SCTcol SC Re ng SCTr
gl.SCE (a 2)( a 1)
CME SCE /( a 2)( a 1)

231

ANOVA Clculo del


estadstico Fc y Fexcel

MCTr
Fc
MCE
Fexcel FINVALFA, gl. SCTr , gl.SCE

232

ANOVA Cuadrado Latino Reng /


Col

MC Re ng
Fcreng
MCE
MCCols
Fcols
MCE
Fexcel FINVALFA, gl.SCBl , gl.SCE
233

Tabla final ANOVA 2 Factores


FUENTE DE VARIACIN

SUMA DE GRADOS DE CUADRADO


CUADRADOS LIBERTAD MEDIO

VALOR F

Renglores

SCRen

a-1

CMRen

CMRen/CME

Columnas

SCCol

b-1

CMCol

CMCol/CME

Tratamiento

SCTr

a-1

CMTr

CMTr/CME

Dentro de muestras (error)

SCE

(a-2)(a-1)

CME

Variacin total

SCT

n-1

CMT
234

Cuadrado latino en Minitab

Se introducen las respuestas en una columna


C1

Se introducen los subndices de los renglones


en una columna C2

Se introducen los subndices de las columnas


en una columna C3

Se introducen las letras maysculas que


indican el nivel del factor (A, B, C, D, etc.)
correspondientes a cada respuesta235
en la

Cuadrado latino en Minitab

Opcin: stat> ANOVA General linear model

En Response indicar la col. De Respuesta,

En Model indicar las columnas de los factores


y

En Random factors indicar los factores


adicionales al del efecto principal a probar (A,
B, C, D). Se pueden pedir interacciones entre
factores x y con Cx*Cy

Pedir grfica de residuales Normal236


y vs fits y

Cuadrado Greco Latino


Experiencia de los operadores
Lotes MP

Aa=-1

Bc=-5

Ce=-6

Db=-1

Ed=-1

Bb=-8

Cd=-1

Da=5

Ec=2

Ae=11

Cc=-7

De=13

Eb=1

Ad=2

Ba=-4

Dd=1

Ea=6

Ac=1

Be=-2

Cb=-3

Ee=-3

Ab=5

Bd=-5

Ca=4

Dc=6

a, b, c y d son 5 diferentes tipos de montaje

A, B, C, D y E son las 5 formulaciones a probar

237

Cuadrado Greco latino en


Minitab

Se introducen las respuestas en una columna C1


Se introducen los subndices de los renglones en
una columna C2
Se introducen los subndices de las columnas en
una columna C3
Introducir los subndices del factor adicional de
letras griegas con letras latinas minsculas
(a,b,c,d,e) en C4
Se introducen las letras maysculas que indican
el nivel del factor (A, B, C, D, etc.)
correspondientes a cada respuesta en
238la

Cuadrado Greco latino en


Minitab

Opcin: ANOVA General linear model

En Response indicar la col. De Respuesta,

En Model indicar las columnas de los factores y

En Random factors indicar los factores adicionales al del


efecto principal a probar (A, B, C, D). Tambin se pueden
indicar interacciones entre factores x-y con Cx * Cy

Pedir grfica de residuales Normal y vs fits y orden

239

ANOVA Cuadrado
Grecolatino
b

SCG a ( X m X )

m 1

gl.SCG b 1
CMG SCG /( b 1)
240

ANOVA de 2 factores Suma


de cuadrados, gl. y Cuadrado
medio para el error
SCE SCT SCTr SCG SC Re n SCCol
gl.SCE (a 3)( a 1)
CME SCE /( a 3)( a 1)

241

ANOVA Clculo del


estadstico Fc y Fexcel

MCG
Fc
MCE
Fexcel FINVALFA, gl.SCTr , gl.SCE

242

ANOVA Cuadrado Grecolatino

MCTr
Fc
MCE
Fexcel FINVALFA, gl.SCBl , gl.SCE

243

Tabla final ANOVA 2 Factores


FUENTE DE VARIACIN

SUMA DE GRADOS DE CUADRADO


CUADRADOS LIBERTAD MEDIO

VALOR F

Renglores

SCRen

a-1

CMRen

CMRen/CME

Columnas
Letras griegas
Tratamiento

SCCol
SCG
SCTr

b-1
a-1
a-1

CMCol
CMG
CMTr

CMCol/CME
CMG/CME
CMTr/CME

Dentro de muestras (error)

SCE

(a-3)(a-1)

CME

Variacin total

SCT

n-1

CMT
244

ANOVA para diseo factorial


AxB

En un experimento factorial involucrando el factor A con


(a) niveles y un factor B con (b) niveles, la suma de
cuadrados se puede dividir en:

SST = SS(A) + SS(B) + SS(AB) + SSE

245

VI.B.8 Tablas de contingencia


Prueba Chi2 (2)

246

Para qu se utiliza?
1. Para probar si una serie de datos observada, concuerda
con el modelo (serie esperada) de la informacin.
2. Para probar las diferencias entre las proporciones de
varios grupos (tabla de contingencia).

Para todos los casos,

Ho: No hay diferencia


Ha: Hay diferencia

2
247

Ejemplo 1: Chi Cuadrada(


2
)
Se lanza una moneda al aire 100 veces y
que obtenemos 63 guilas y 37 soles.
La proporcin de guilas y soles sucede
por casualidad? O, se concluye que la
moneda est cargada?

Ho: La moneda es buena


Ha: La moneda est cargada
248

Ejemplo 1: Chi Cuadrada(


Observada

Esperada

)
(fo - fe)2
fe

( fo )

( fe )

Aguilas

63

50

3.38

Soles

37

50

3.38

2 = 3.38 + 3.38
2 = 6.76
Estadstico Chi Cuadrada

c=
2

j=1

(fo - fe)2
fe

249

Ejemplo 1: Chi cuadrada


Funcin de Distribucin Acumulada Chi2 con 1 grado de
libertad (d.f)
2c
P(2c > x)
6.7600
p = 1 - 0.9907 = 0.0093
De tablas X2Crtica, (0.05, 1) = 3.8414
Ho: La moneda es buena.
Ha: La moneda est cargada.
Para un 95% de confianza antes de concluir que la moneda est
cargada, se requiere que X2c > X2Crtica o que el valor de p sea
0.05.
Como p 0.05, se puede concluir -con un 95% de confianza que la moneda est cargada.
250

Clculo en Excel del estadstico Chi cuadrada


1. Posicionarse en una celda vaca
2. Accesar el men de funciones con Fx
3. Seleccionar STATISTICAL o ESTADSTICAS, CHIINV.
4. Dar valores de probabilidad (0.05) y grados de libertad,
normalmente (n - 1) para un parmetro o (# de renglones -1)
* (# de columnas - 1) para el caso de tablas de proporciones.

251

Tabla de Valores Crticos Seleccionados de Chi2


df

.250

.100

.050

.025

.010

.005

.001

1
2
3
4
5

1.323
2.773
4.108
5.385
6.626

2.706
4.605
6.251
7.779
9.236

3.841
5.991
7.815
9.488
11.070

5.024
7.378
9.348
11.143
12.832

6.635
9.210
11.345
13.277
15.086

7.879
10.597
12.838
14.860
16.750

10.828
13.816
16.266
18.467
20.515

6
7
8
9
10

7.841
9.037
10.219
11.389
12.549

10.645
12.017
13.362
14.684
15.987

12.592
14.067
15.507
16.919
18.307

14.449
16.013
17.535
19.023
20.483

16.812
18.475
20.090
21.666
23.209

18.548
20.278
21.955
23.589
25.188

22.458
24.322
26.125
27.877
29.588

11
12
13
14
15

13.701
14.845
15.984
17.117
18.245

17.275
18.549
19.812
21.064
22.307

19.675
21.026
22.362
23.685
24.996

21.920
23.337
24.736
26.119
27.488

24.725
26.217
27.688
29.141
30.578

26.757
28.300
29.819
31.319
32.801

31.264
32.909
34.528
36.123
37.697

16
17
18
19
20

19.369
20.489
21.605
22.718
23.828

23.542
24.769
25.989
27.204
28.412

26.296
27.587
28.869
30.144
31.410

28.845
30.191
31.526
32.852
34.170

32.000
33.409
34.805
36.191
37.566

34.267
35.718
37.156
38.582
39.997

39.252
40.790
43.312
43.820
45.315

21
22
23
24
25

24.935
26.039
27.141
28.241
29.339

29.615
30.813
32.007
33.196
34.382

32.671
33.924
35.172
36.415
37.652

35.479
36.781
38.076
39.364
40.646

38.932
40.289
41.638
42.980
44.314

41.401
42.796
44.181
45.558
46.928

46.797
48.268
49.728
51.179
52.620

26
27
28
29
30

30.434
31.528
32.620
33.711
34.800

35.563
36.741
37.916
39.087
40.256

38.885
40.113
41.337
42.557
43.773

41.923
43.194
44.461
45.722
46.979

45.642
46.963
48.278
49.588
50.892

48.290
49.645
50.993
52.336
53.672

54.052
55.476
56.892
58.302
59.703

40
50
60

45.616
56.334
66.981

51.805
63.167
74.397

55.758
67.505
79.082

59.342
71.420
83.298

63.691
76.154
88.379

66.766
79.490
91.952

73.402
86.661
99.607

70
80
90
100

77.577
88.130
98.650
109.141

85.527
96.578
107.565
118.498

90.531
101.879
113.145
124.342

95.023
106.629
118.136
129.561

100.425
112.329
124.116
135.807

104.215
116.321
128.299
140.169

112.317
124.839
137.208
149.449

252

Tabla de contingencia

Una tabla de clasificacin de dos vas (filas y columnas)


que contiene frecuencias originales, se puede analizar
para determinar si las dos variables (clasificaciones) son
independientes o tienen una asociacin significativa.

La prueba Chi Cuadrada probar si hay dependencia


entre las dos clasificaciones.

Adems se puede calcular el coeficiente de


contingencia (correlacin) que en todo caso muestra la
fuerza de la dependencia

253

Tabla de contingencia

Para esta prueba se usa la prueba Chi Cuadrada donde:

Entre mayor sea su valor, mayor ser la diferencia de la


discrepancia entre frecuencias observadas y tericas.
Esta prueba es similar a la de bondad de ajuste.

254

Tabla de contingencia

Ejemplo: Cada una de las 15 celdas hace una


contribucin al estadstico Chi Cuadrado (una celda)

Asumiendo Alfa = 0.1 y Gl= (reng 1)*(Col 1) = 4*2 =


8 Chi-Cuadrado de alfa = 20.09
Como Chi Cuadrada calculada >> Chi C. Alfa, se
rechaza Ho de igualdad de resultados entre negocios

255

Ejemplo 2: Chi2 Para comparacin de


dos grupos; son las mismas
proporciones?)
Ho: No existen diferencias en los ndices de defectos de las dos mquinas.
Ha: Existen diferencias en los ndices de defectos de las dos mquinas.
Los valores observados (fo) son los siguientes:
Partes buenas

Partes defectuosas

mquina 1

fo = 517

fo = 17

Total = 534

mquina 2

fo = 234

fo = 11

Total = 245

Total

751

28

779

El ndice de defectos totales es 28 / 779 = 3.6%


256

Ejemplo 2: Chi2 Para comparacin de


dos grupos; son las mismas
proporciones?)
Clculo de los valores esperados
Partes buenas

Partes defectuosas

mquina 1

fo = 751*534/779

fo = 28*534/779

Total = 534

mquina 2

fo = 751*245/779

fo = 28*245/779

Total = 245

779
Basados en este ndice, los valores esperados (fe) seran:

mquina 1

Partes
buenas
530.53

mquina 2

233.47

Partes defectuosas
3.47
1.53
257

Prueba de chi cuadrada:


Los conteos esperados estn debajo de los conteos observados
Partes buenas
Partes Defectuosas
Total
1
532
2
534
530.53
3.47
2
Total

232
233.47
764

3
1.53
5

235
769

Chi2 = 0.004 + 0.624 + 0.009 + 1.418 = 2.056


DF= 1; valor de p = 0.152
2 celdas con conteos esperados menores a 5.0
Nota: Chi cuadrada no podr aplicarse en los casos donde los conteos seas menores a 5 en 20%
de celdas.
Si cualquiera de los conteos esperados en las celdas es menor a uno, no deber usarse Chi 2.
Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo
renglones y/o columnas, las categoras pueden ser de utilidad.

258

Tabla de Chi2
Tabla de valores crticos seleccionados para Chi2

DF

.250

.100

.050

1
2
3
4
5

1.323
2.773
4.108
5.385
6.626

2.706
4.605
6.251
7.779
9.236

3.841
5.991
7.815
9.488
11.070

6
7
8
9
10

7.841
9.037
10.219
11.389
12.549

10.645
12.017
13.362
14.684
15.987

11
12
13
14
15

13.701
14.845
15.984
17.117
18.245

16
17
18
19
20

19.369
20.489
21.605
22.718
23.828

.025

.010

.005

5.024
7.378
9.348
11.143
12.832

6.635
9.210
11.345
13.277
15.086

7.879
10.597
12.838
14.860
16.750

10.828
13.816
16.266
18.467
20.515

12.592
14.067
15.507
16.919
18.307

14.449
16.013
17.535
19.023
20.483

16.812
18.475
20.090
21.666
23.209

18.548
20.278
21.955
23.589
25.188

22.458
24.322
26.125
27.877
29.588

17.275
18.549
19.812
21.064
22.307

19.675
21.026
22.362
23.685
24.996

21.920
23.337
24.736
26.119
27.488

24.725
26.217
27.688
29.141
30.578

26.757
28.300
29.819
31.319
32.801

31.264
32.909
34.528
36.123
37.697

23.542
24.769
25.989
27.204
28.412

26.296
27.587
28.869
30.144
31.410

28.845
30.191
31.526
32.852
34.170

32.000
33.409
34.805
36.191
37.566

34.267
35.718
37.156
38.582
39.997

39.252
40.790
43.312
43.820
45.315

259

.001

Problema: Fugas
Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la
reduccin de tiempo de ciclo.

Variacin en familias a probar


Operador a operador
Ho: No existe diferencia en los ndices de defecto de los diferentes
operadores
Ha: Existe diferencia en los ndices de defecto de los diferentes
operadores
Mquina a mquina
Ho: No existe diferencia en los ndices de defecto de las diferentes
mquinas
Ha: Existe diferencia en los ndices de defecto de las diferentes
mquinas
Tamao de la muestra:
5000 + total de oportunidades (172 piezas)

260

Prueba de chi2 (mquina a mquina)

Los conteos esperados estn colocados debajo de los conteos observados


Con fugas Sin fugas Total
1
30
610
640
32.11
607.89
2

235
223.38

3
3
12.84
4
Total

18
17.66
286

4217
4228.62
253
243.16

4452
256

334
334.34

352

5414

5700

Chi2 = 0.139 + 0.007 + 0.604 + 0.032 + 7.546 + 0.399 + 0.006 +


0.000 = 8.734
DF= (4-1)(2-1) = 3; valor P = 0.033
261

Prueba de chi2 (operador a operador)


Los conteos esperados estn colocados debajo de los conteos observados.
Con gotera Sin gotera
Total
1
6
122
128
6.61 121.39
2

1
6.61

127
121.39

128

200
3836
4036
208.55
3827.45

54
202
256
13.23
242.77

5
699
704
36.38
667.62

128

12
116
6.61 121.39
Total
278
5102

5380

Chi2 = 0.057 + 0.003 + 4.765 + 0.260 + 0.351 + 0.019 +125.666 + 6.847 + 27.065 + 1.475
+ 4.386 + 0.239 = 171.132
DF= 5; valor P = 0.000
262

Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?


(en este caso, operador a operador y mquina a mquina)

Se utiliza un procedimiento denominado Coeficiente de Contingencia como clave


para determinar qu grupo de variacin debe investigarse primero.
Chi Cuadrada

Coeficiente de
Contingencia
Chi2

x 100

N
N

CC

Mquina

8.734

5700

0.15

Operador

171.132

5380

3.18

Controlador Mayor
SI el tamao de la muestra (N), es similar para los grupos. Al dividir entre N,
probablemente, llevar a la misma ruta que hubiera alcanzado con slo ver la
estadstica Chi2.
Sin embargo, si N tiene una variacin considerable, dependiendo del grupo de
variacin que se investiga, el coeficiente de contingencia puede ser una herramienta
valiosa para determinar la prioridad sobre qu grupo debe investigarse primero.
263

Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?


(en este caso, operador a operador y mquina a mquina)
Ahora que la informacin nos
ha llevado a investigar a los
Con gotera Sin gotera Total
grupos de operador a
1
6
122
128
operador. Qu debemos
6.61 121.39
hacer ahora?
Encontremos cul de los
2
1
127
128
operadores estaban fuera del
6.61
121.39
estndar.
Era alguno de ellos
3
200
3836
4036
notablemente peor (o mejor)
208.55
3827.45
que el resto?

Mucho peor que


lo esperado

54
202
256
13.23
242.77

Mucho mejor que


lo esperado

5
699
704
36.38
667.62

12
116
6.61 121.39

128

(Estos mismos operadores fueron quienes


tuvieron los nmeros ms grandes de chi2)
264

Operador a operador: = 0.000


Rechace
Ho y acepte Ha
(Existe una diferencia significativa entre los operadores)
Los operadores 4 y 5 estn fuera del estndar:
El operador 4 es notablemente peor que el resto,
El operador 5 es notablemente mejor que los dems
Cul es el prximo paso? Hable con todos los operadores para averiguar qu diferencias
pueden existen en sus tcnicas.
El operador 4 no tena experiencia en este tipo de trabajo y apenas se estaba acostumbrado a
soldar este producto en particular.
El operador 5 encontr un modo de mejor de hacer el ensamble, con lo cual consigui mejorar
el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonmica. Se aadi
un colocador para ensamblar la parte en forma segura. (Esto tambin redujo el tiempo que
requeran los operadores para acostumbrarse a trabajar en esta forma)

265

Ejercicios
1. Se quiere evaluar la habilidad de tres inspectores de rayos
X en un aeropuerto para detectar artculos clave. Como
prueba se pusieron radios de transistores en 90 maletas,
cada inspector fue expuesto a 30 maletas conteniendo radios
mezcladas entre otras que nos los contenan. Los resultados
se resumen a continuacin:
Inspectores
1 2 3
Radios detectados
Radios no detectados

27 25 22
3 5 8

Con un 95% de confianza, existe una diferencia entre los


inspectores?
Ho: p1 = p2 = p3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)
266

Ejercicios
1. Se quiere evaluar si hay preferencia por manejar en un
carril de una autopista dependiendo de la hora del da. Los
datos se resumen a continuacin:
Hora del da
Carril
1:00
3:00
Izquierdo 44 37 18
Central
28 50 72
Derecho
8 13 30

5:00

Con un 95% de confianza, existe una diferencia entre las


preferencias de los automovilistas dependiendo de la hora?
Ho: P1 = P2 = P3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)

267

Coeficiente de Contingencia

Coeficiente de contingencia es el grado de relacin o


dependencia de las clasificaciones en la tabla de
contingencias es:

C2

X2
X2 N

Donde N es la frecuencia total y X es el estadstico Chi


Cuadrado calculado

268

Coeficiente de Contingencia

Para los datos del ejemplo anterior se tiene:

C2

2
X2
66
.
22
2

0.38
2
2
X N
66.22 393

El valor mximo de C se obtiene de:

Max C

k 2
82

0.866
k
8
269

Correlacin de atributos

Para tablas de orden k * k, el coeficiente de correlacin,


r, es :

X
N (k 1)

Donde 0<= r <= 1

270

Das könnte Ihnen auch gefallen