Beruflich Dokumente
Kultur Dokumente
DISENO Y
~
ANALISIS DE EXPERIMENTOS
segunda edicin
Douglas
c. Montgomery
~LIMUSAWILEY@
.MP flA1c~5
VERSiN AUTORIZADA EN ESPAOL DE LA OBRA PUBLICADA EN INGLES CON EL TiTULO: DESIGN ANO ANALYSIS OF EXPERIMENTS
SONS, INC., NEW YORK, CHICHESTER, BRISBANE, SINGAPORE, TORONTO ANO WEINHEIM.
COLABORADOR EN LA TRADUCCiN: RODOLFO PIA GARCA REVISiN: ALMA ROSA GRISELDA ZETINA VLEZ INGENIERA OUiMICA POR LA FACULTAD DE QUiMICA DE LA UNIVERSIDAD NACIONAL AUTNOMA DE MEXICO. DOCENTE EN MATEMTICAS. JEFA DEL DEPARTAMENTO DE ESTADisTICA DE LA UNIDAD DE ADMINISTRACiN DEL POSGRADO DGAE-UNAM. PROFESORA EN LA ESCUELA DE CIENCIAS QUMICAS DE LA UNIVERSIDAD LA SALLE.
r::!,
j
:u:t" e
1'[ 114-11'
fU J5!~~j
ir iRl
", '/~--
2004,
EDITORIAL L1MUSA, SA DE C.V. GRUPO NORIEGA EDITORES BALDERAS 95, MEXICO, D.F. C.P. 06040
'iIff2 85038050
121
968-18-6156-6
Prefacio
El presente libro es un texto de introduccin que aborda el diseo y anlisis de experimentos. Tiene como base los cursos sobre diseo de experimentos que he impartido durante ms de 25 aos en la Universidad Estatal de ATizona, la Universidad de Washington y el Instituto de Tecnologa de Georgia. Refleja asimismo los mtodos que he encontrado tiles en mi propia prctica profesional como consultor en ingeniera y estadstica en las reas generales de diseno de productos y procesos, mejoramiento de procesos e ingeniera de control de calidad. El libro est destinado a estudiantes que han llevado un primer curso de mtodos estadsticos. Este curso previo debe incluir por lo menos algunas de las tcnicas de estadstica descriptiva, la distribucin normal y una introduccin a los conceptos bsicos de los intervalos de confianza y la prueba de hiptesis para medias y varianzas. Los captulos 10 y 11 requieren un manejo elemental de lgebra matricial. Como los requisitos para llevar este curso son relativamente modestos, este libro puede usarse tambin en un segundo curso de estadstica enfocado en el diseo estadstico de experimentos para estudiantes de licenciatura de ingeniera, fsica, ciencias fsicas y qumicas, matemticas y otros campos de las ciencias. Durante varios aos he impartido un curso basado en este libro en el primer ao de estudios de posgrado de ingeniera. Los estudiantes de este curso provienen de los campos tradicionales de ingeniera, fsica, qumica, matemticas, investigacin de operaciones y estadstica. Tambin he usado este libro como base de un curso breve para el sector industrial sobre diseo de experimentos para tcnicos en ejercicio con una amplia diversidad en su formacin profesional. Se incluyen numerosos ejemplos que ilustran todas las tcnicas de diseo y anlisis. Estos ejemplos se basan en aplicaciones del diseo experimental en el mundo real, y se han tomado de diferentes campos de la ingeniera y las ciencias. Esto lleva al terreno de las aplicaciones a un curso acadmico para ingenieros y cientficos y hace de este libro una til herramienta de referencia para experimentadores de una amplia gama de disciplinas.
vi
PREFACIO
tadora laptop y un monitor, y todos los diseos o tpicos del anlisis tratados en clase se ilustran con la computadora. En esta edicin destaco an ms la conexin entre el experimento y el modelo que puede desarrollar el experimentador a partir de los resultados del experimento. Los ingenieros (yen gran medida los cientficos dt:: la fsica y la qumica) aprenden los mecanismos fsicos y sus modelos mecanicistas fundamentales al principio de su formacin acadmica, pero en la mayor parte de sus carreras profesionales tendrn que trabajar con estos modelos. Los experimentos diseados estadsticamente ofrecen al ingeniero una base vlida para desarrollar un modelo emprico del sistema bajo estudio. Despus este modelo emprico puede manipularse (tal vez utilizando una superficie de respuesta o una grfica de contorno, o quiz matemticamente) como cualquier otro modelo de ingeniera. A lo largo de muchos aos de docencia he descubierto que este enfoque es muy eficaz para despertar el entusiasmo por los experimentos diseados estadsticamente en la comunidad de ingeniera. En consecuencia, al inicio del libro planteo la nocin de un modelo emprico fundamental para el experimento y las superficies de respuesta y destaco la importancia del mismo. Tambin me he esforzado por presentar mucho ms rpido los puntos crticos en los que intervienen los diseos factoriales. Para facilitar este objetivo, condens en un solo captulo (el 3) el material introductorio sobre los experimentos completamente aleatorizados con un solo factor y el anlisis de varianza. He ampliado el material sobre los diseos factoriales y factoriales fraccionados (captulos 5 a19) en un esfuerzo por hacer que el material fluya con mayor eficiencia en la perspectiva tanto del lector como del profesor y por hacer mayor hincapi en el modelo emprico. El captulo sobre las superficies de respuesta (el 11) sigue inmediatamente al material sobre diseos factoriales y factoriales fraccionados y modelado de regresiones. He ampliado este captulo, agregando nuevo material sobre diseos ptimos alfabticos, experimentos con mezclas y el problema de un diseo paramtrico robusto. En los captulos 12 y 13 se analizan experimentos que incluyen efectos aleatorios, as como algunas aplicaciones de estos conceptos en diseos anidados y parcelas subdivididas. El captulo 14 es una descripcin general de temas importantes de diseo y anlisis: la respuesta no normal, el mtodo de Box-Cox para seleccionar la forma de una transformacin, y otras alternativas; experimentos factoriales no balanceados; el anlisis de covarianza, incluyendo covariables en un diseo factorial y mediciones repetidas. A lo largo del libro he destacado la importancia del diseo experimental como una herramienta que el ingeniero en ejercicio puede usar en el diseo y desarrollo de productos, as como en el desarrollo y mejoramiento de procesos. Se ilustra el uso del diseo experimental en el desarrollo de productos que sean robustos a factores ambientales ya otras fuentes de variabilidad. Considero queel uso del diseo experimental en las fases iniciales del ciclo de un producto puede reducir sustancialmente el tiempo y el costo de conducirlo, redundando en procesos y productos con un mejor desempeo en campo y una mayor confiabilidad que los que se desarrollan utilizando otros enfoques~ El libro contiene ms material del que puede cubrirse sin prisas en un solo curso, por lo que espero que los profesores puedan variar el contenido de cada curso o bien estudiar ms a fondo algunos temas, dependiendo de los intereses dela clase. Al final de cada captulo hay un grupo de problemas (excepto en el 1). El alcance de estos problemas vara desde ejercicios de clculo, destinados a consolidar los fundamentos, hasta la ampliacin de principios bsicos. Mi curso en la universidad lo enfoco principalmente en los diseos factoriales y factoriales fraccionados. En consecuencia, por lo general cubro el captulo 1, el captulo 2 (muy rpido), la mayor parte del captulo 3, el captulo 4 (sin incluir el material sobre bloques incompletos y mencionando slo brevemente los cuadrados latinos), y trato en detalle los captulos 5 a18 sobre diseos factoriales con dos niveles y diseos factoriales fraccionados. Para concluir el curso, introduzco la metodologa de superficies de respuesta (captulo 11) Yhago un repaso general de los modelos con efectos aleatorios (captulo 12) y los diseos anidados y en parcelas subdivididas (captulo 13). Siempre pido a los estudiantes que realicen un
PREFACIO
proyecto semestral que consiste en disear, conducir y presentar los resultados de un experimento diseado estadsticamente. Les pido que trabajen en equipos, pues es la manera en que se realiza la mayor parte de la experimentacin industrial. Deben hacer la presentacin de los resultados de su proyecto de manera oral y por escrito.
SITIOWEB
En el sitio web http://www.wiley.com/legacy/college/engin/montgomery316490/student/student.html est disponible el material de apoyo para profesores y estudiantes. Este sitio se usar para comunicar informacin acerca de innovaciones y recomendaciones para el uso eficaz de este texto. El material suplementario del texto puede encontrarse en este sitio, junto con versiones electrnicas de las series de datos utilizadas en los ejemplos y los problemas de tarea, un plan de estudios del curso y proyectos semestrales del curso en la Universidad Estatal de Arizona.
RECONOCIMIENTOS
Expreso mi agradecimiento a los muchos estudiantes, profesores y colegas que han usado antes este libro y quienes me han hecho llegar tiles sugerencias para esta revisin. Las contribuciones de los doctores Rayrnond H. Myers, G. Geoffrey Vining, Dennis Un, John Ramberg, Joseph Pignatiello, Lloyd S. Nelson, Andre K.huri, Peter Nelson, John A. Comell, George C. Runger, Bert Keats, Dwayne Rollier, Norma Hubele, Cynthia Lowry, Russell G. Heikes, Harrison M. Wadsworth, William W Hines, Arvind Shah, Jane Arnmons, Diane Schaub, Pat Spagon y William DuMouche, y los seores Mark Anderson y Pat Whitcomb fueron particularmente invaluables. Mi Jefe de Departamento, el doctor Gary Hogg, ha proporcionado un ambiente intelectualmente estimulante en el cual trabajar. Las contribuciones de los profesionistas en activo con quienes he trabajado han sido invaluables. Es imposible mencionarlos a todos, pero algunos de los principales son Dan McCarville y Lisa Custer de Motorola; Richard Post de Intel; Tom Bingham, Dick Vaughn, Julian Anderson, Richard Alkire y Chase Neilson de Boeing Company; Mike Goza, Don Walton, Karen Madison, Jeff Stevens y Bob Kohm de Alcoa; Jay Gardiner, John Butora, Dana Lesher, Lolly Marwah, Paul Tobias y Lean Masan de IBM; Elizabeth A. Peck de The Coca-Cola Company; Sadri K.halessi y Franz Wagner de Signetics; Robert V. Baxley de Monsanto Chemicals; Harry Peterson-Nedry y Russell Boyles de Precision Castparts Corporation; Bill New y Randy Schmid de Allied-Signal Aerospace; John M. Fluke, hijo, de John Fluke Manufacturing
viii
PREFACIO
Company; Larry Newton y Kip Howlett de Georgia-Pacific, y Ernesto Ramos de BBN Software Products Corporation. Me encuentro en deuda con el profesor E.S. Pearson y con Biometlika, John Wiley & Sons, Prentice-Hall, The American Statistical Association, The Institute of Mathematical Statistics y los editores de Biometlics por el permiso para usar material protegido por derechos de autor. Lisa Custer realiz un excelente trabajo de presentacin de las soluciones que aparecen en el CD/ROM del profesor, y la doctora Cheryl Jennings realiz una correccin de estilo eficaz y de suma utilidad. Estoy agradecido con la Office of Naval Research, la National Science Foundation, las compaas integrantes de NSF/Industry/University Cooperative Research Center in Quality and Reliability Engineering de la Universidad Estatal de Arizona, e IBM Corporation por apoyar gran parte de mis investigaciones de estadstica y diseo experimental de ingeniera.
Contenido
Captulo 1.
1-1 1-2 1-3 1-4 1-5 1-6
Introduccin
Estrategia de experimentacin Algunas aplicaciones tpicas del diseo experimental Principios bsicos Pautas generales para disear experimentos Breve historia del diseo estadstico Resumen: uso de tcnicas estadsticas en la experimentacin
1
1 8 11 13 17 19
Captulo 2.
2-1 2-2 2-3 2-4
21
21 22 26 33 33 40 42 44 44 45 46 47 47 50 51 54
a; a;
a; a;
2-5
2-6 2-7
Captulo 3.
3-1 3-2 3-3
60
60 63 65 66 69 74 75
ix
CONTENIDO
3-4
3-5
3-6 3-7
3-8 3-9
3-10
3-11
Captulo 4.
Verificacin de la adecuacin del modelo 3-4.1 El supuesto de normalidad 3-4.2 Grfica de los residuales en secuencia en el tiempo 3-4.3 Grfica de los residuales contra los valores ajustados 3-4.4 Grficas de los residuales contra otras variables Interpretacin prctica de los resultados 3-5.1 Un modelo de regresin 3-5.2 Comparaciones entre las medias de los tratamientos 3-5.3 Comparaciones grficas de medias 3-5.4 Contrastes 3-5.5 Contrastes ortogonales 3-5.6 Mtodo de Scheff para comparar todos los contrastes 3-5.7 Comparacin de pares de medias de tratamientos 3-5.8 Comparacin de medias de tratamientos con un control Muestra de salida de computadora Determinacin del tamao de la muestra 3-7.1 Curvas de operacin caracterstica 3-7.2 Especificacin de un incremento de la desviacin estndar 3-7.3 Mtodo para estimar el intervalo de confianza Identificacin de efectos de dispersin El enfoque de regresin para el anlisis de varianza 3-9.1 Estimacin de mnimos cuadrados de los parmetros del modelo 3-9.2 Prueba general de significacin de la regresin Mtodos no paramtricos en el anlisis de varianza 3-10.1 La prueba de Kruskal-Wallis 3-10.2 Comentarios generales sobre la transformacin de rangos Problemas
76
77
79 80 86 86 87 88 89 90 93 95 96 103 104 107 107 109 110 110 112 112 114 116 116 118 119
126
126 127 135 136 141 144 151 154 155 159 161 164
4-1
4-5
CONTENIDO
xi
Captulo 5.
5-1 5-2 5-3
170
170 174 175 175 177 185 185 189 190 191 194 201 207 211
Captulo 6.
6-1 6-2 6-3 6-4 6-5 6-6 6-7
Diseo factorial 2k
Introduccin El diseo 22 El diseo 23 El diseo general 2k Una sola rplica del diseo 2k Adicin de puntos centrales en el diseo 2k Problemas
218
218 219 228 242 244 271 276
Captulo 7.
7-1 7-2 7-3 7-4 7-5 7-6 7-7 7-8
287
287 287 288 289 296 297 299 301
Captulo 8.
8-1 8-2 8-3 8-4 8-5 8-6 8-7 8-8
303
303 304 317 326 337 347 349 350
xii
CONTENIDO
Captulo 9.
Diseos factoriales y factoriales fraccionados con tres niveles y con niveles mixtos
363
363 363 365 367
372
9-1
9-2
9-3
9-4
9-5
Captulo 10.
Diseo factorial 3 9-1.1 Notacin y motivacin del diseo 3k 9-1.2 El diseo 32 9-1.3 El diseo 33 9-1.4 El diseo genera13 k Confusin en el diseo factorial 3k 9-2.1 El diseo factoria13 k en tres bloques 9-2.2 El diseo factoria13 k en nueve bloques 9-2.3 El diseo factoria13 k en 3P bloques Rplicas fraccionadas del diseo factorial 3k 9-3.1 La fraccin un tercio del diseo factoria13 k 9-3.2 Otros diseos factoriales fraccionados 3k - p Diseos factoriales con niveles mixtos 9-4.1 Factores con dos y tres niveles 9-4.2 Factores con dos y cuatro niveles Problemas
Ajuste de modelos de regresin
373
373 377
392
392 393 394 409 409 412 415 415 416 416 416 417 420 421 422
10-5
10-6 10-7
10-8 10-9
Captulo 11.
Introduccin Modelos de regresin lineal Estimacin de los parmetros en modelos de regresin lineal Prueba de hiptesis en la regresin mltiple 10-4.1 Prueba de significacin de la regresin 10-4.2 Pruebas de los coeficientes de regresin individuales y de grupos de coeficientes Intervalos de confianza en regresiones mltiples 10-5.1 Intervalos de confianza para los coeficientes de regresin individuales 10-5.2 Intervalo de confianza para la respuesta media Prediccin de nuevas observaciones de la respuesta Diagnsticos del modelo de regresin 10-7.1 Residuales escalados y PRESS 10-7.2 Diagnsticos de influencia Prueba de falta de ajuste Problemas
Mtodos de superficies de respuesta y otros enfoques para la optimizacin de procesos
427
427 430 436 436 440 447
Introduccin a la metodologa de superficies de respuesta Mtodo del ascenso ms pronunciado Anlisis de una superficie de respuesta de segundo orden 11-3.1 Localizacin del punto estacionario 11-3.2 Caracterizacin de la superficie de respuesta 11-3.3 Sistemas de cordilleras
CONTENIDO
xiii
448 455 455 456 462 466
472
11-4
11-8
11-3.4 Respuestas mltiples Diseos experimentales para ajustar superficies de respuesta 11-4.1 Diseos para ajustar el modelo de primer orden 11-4.2 Diseos para ajustar el modelo de segundo orden 11-4.3 Formacin de bloques en los diseos de superficie de respuesta 11-4.4 Diseos (ptimos) generados por computadora Experimentos con mezclas Operacin evolutiva Diseo robusto 11-7.1 Antecedentes 11-7.2 El enfoque de la superficie de respuesta para el diseo robusto Problemas
500
511
511 517 522 529 531 535 543 543 545 547 552
Captulo 12.
12-1 12-2 12-3 12-4 12-5 12-6 12-7
12-8
Captulo 13.
13-1
557
557 558 563 565 566 566 569 573 578 578
580
583 584
13-6
Captulo 14.
14-1
590
590
xiv
CONTENIDO
14-1.1 Seleccin de unatransformacin: el mtodo de Box-Cox 14-1.2 Modelo lineal generalizado 14-2 Datos no balanceados en un diseo factorial 14-2.1 Datos proporcionales: un caso sencillo 14-2.2 Mtodos aproximados 14-2.3 Mtodo exacto 14-3 Anlisis de covarianza 14-3.1 Descripcin del procedimiento 14-3.2 Solucin por computadora 14-3.3 Desarrollo mediante la prueba general de significacin de la regresin 14-3.4 Experimentos factoriales con covariables 14-4 Mediciones repetidas 14-5 Problemas
590 594 600 600 601 604 604 605 614 616 619 624 627
Bibliografa
Apndice
630 637
Distribucin normal estndar acumulada Puntos porcentuales de la distribucin t Puntos porcentuales de la distribucinx2 Puntos porcentuales de la distribucinF Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos fijos Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos aleatorios Rangos significativos para la prueba del rango mltiple de Duncan Puntos porcentuales del estadstico del rango studentizado Valores crticos para la prueba de Dunnett para comparar tratamientos con un control Coeficientes de polinomios ortogonales Nmeros aleatorios Relaciones de alias para diseos factoriales fraccionados 2 Glosario para el uso de Design Expelt
k -P
Tabla l. Tabla 11. Tabla I1I. Tabla Iv. Tabla V. Tabla VI. Tabla VII. Tabla VIII. Tabla IX. Tabla X. Tabla XI. Tabla XII.
638
640
641 642 647 651 655 656 658 661 662 con le :5 15 Yn :5 64 663
680
681
Introduccin
Estas dos soluciones son los nicos medios de templado de inters potencial? Hay en este experimento otros factores que podran afectar la dureza y que deberan investigarse o controlarse? 3. Cuntas muestras para ensayo de la aleacin debern probarse en cada solucin de templado? 4. Cmo debern asignarse las muestras para ensayo de prueba a las soluciones de templado y en qu orden debern colectarse los datos?
CAPTULO 1 INTRODUCCIN
5. Qu mtodo de anlisis de datos deber usarse? 6. Qu diferencia en la dureza promedio observada entre los dos medios de templado se considerar importante? Todas estas preguntas, y tal vez muchas ms, tendrn que responderse satisfactoriamente antes de llevar a cabo el experimento. En cualquier experimento, los resultados y las conclusiones que puedan sacarse dependen en gran medida de la manera en que se recabaron los datos. Para ilustrar este punto, suponga que el ingeniero metalrgico del experimento anterior utiliz ejemplares de una hornada para el templado en aceite y ejemplares de una segunda hornada para el templado en agua salada. Entonces, cuando compare la dureza promedio, el ingeniero no podr saber qu parte de la diferencia observada es resultado de la solucin de templado y qu parte es el resultado de diferencias inherentes entre las hornadas. 1 Por lo tanto, el mtodo utilizado para recabar los datos ha afectado de manera adversa las conclusiones que pueden sacarse del experimento. En general, los experimentos se usan para estudiar el desempeo de procesos y sistemas. El proceso o sistema puede representarse con el modelo ilustrado en la figura 1-1. El proceso puede por lo general visualizarse como una combinacin de mquinas, mtodos, personas u otros recursos que transforman cierta entrada (con frecuencia un material) en una salida que tiene una o ms respuestas observables. Algunas variables del procesoxl,x2 , ... ,xp son controlables, mientras que otrasz 1,z2, ... ,Zq son no controlables (aunque pueden serlo para los fines de una prueba). Los objetivos del experimento podran comprender los siguientes:
1. Determinar cules son las variables que tienen mayor influencia sobre la respuesta y. 2. Determinar cul es el ajuste de lasx que tiene mayor influencia para que y est casi siempre cerca del valor nominal deseado. 3. Determinar cul es el ajuste de las x que tiene mayor influencia para que la variabilidad de y sea reducida. 4. Determinar cul es el ajuste de lasx que tiene mayor influencia para que los efectos de las variables no controlables Zl' Z2, ... , Zq sean mnimos.
Como se puede ver por el anlisis anterior, los experimentos incluyen muchas veces varios factores. Habitualmente, uno de los objetivos de la persona que realiza un experimento, llamada el experimentador, es determinar la influencia que tienen estos factores sobre la respuesta de salida del sistema. Al enfo-
Factores controlables
x,
X2
Entradas
Proceso
Salida y
Z,
Z2
Zq
1 Un especialista en diseo experimental dira que los efectos de los medios de templado y las hornadas se confundieron; es decir, los efectos de estos dos factores no pueden separarse. .
que general para planear y llevar a cabo el experimento se le llama estrategia de experimentacin. Existen varias estrategias que podra usar un experimentador. Se ilustrarn algunas de ellas con un ejemplo muy sencillo. Al autor le gusta mucho jugar golf. Desafortunadamente, no le agrada practicar, por lo que siempre busca la manera ms sencilla para bajar su puntuacin. Algunos de los factores que l considera importantes, o que podran influir en su puntuacin, son los siguientes:
1. 2. 3. 4.
El tipo de palo usado (grande o normal). El tipo de pelota usada (de goma de balata o de tres piezas). Caminar cargando los palos de golf o hacer el recorrido en un carrito. Beber agua o cerveza durante el juego. s. Jugar en la maana o en la tarde. 6. Jugar cuando hace fro o cuando hace calor. 7. El tipo de spikes usados en los zapatos de golf (metlicos o de hule). 8. Jugar en un da con viento o en uno apacible.
Evidentemente, hay muchos otros factores que podran considerarse, pero supongamos que stos son los de inters primario. Adems, teniendo en cuenta su larga experiencia en el juego, el autor decide que los factores 5 a18 pueden ignorarse; es decir, estos factores no son importantes porque sus efectos son tan pequeos que carecen de valor prctico. Los ingenieros y los investigadores deben tomar a menudo este tipo de decisiones acerca de algunos de los factores que examinan en experimentos reales. Consideremos ahora cmo podran probarse experimentalmente los factores 1 al 4 para determinar su efecto sobre la puntuacin del autor. Suponga que en el curso del experimento pueden jugarse un mximo de ocho rondas de golf. Un enfoque consistira en seleccionar una combinacin arbitraria de estos factores, probarlos y ver qu ocurre. Por ejemplo, suponga que se selecciona la combinacin del palo grande, la pelota de goma de balata, el carrito y el agua, y que la puntuacin resultante es 87. Sin embargo, durante la ronda el autor not varios tiros descontrolados con el palo grande (en el golf, grande no siempre es sinnimo de bueno) y, en consecuencia, decide jugar otra ronda con el palo normal, manteniendo los dems factores en los mismos niveles usados anteriorm~nte. Este enfoque podra continuar de manera casi indefinida, cambiando los niveles de uno (o quiz dos) de los factores para la prueba siguiente, con base en el resultado de la prueba en curso. Esta estrategia de experimentacin, conocida como enfoque de la mejor conjetura, es comn entre ingenieros y cientficos. Funciona de manera adecuada si los experimentadores cuentan con una gran cantidad de conocimientos tcnicos o tericos del sistema que estn estudiando, as como amplia experiencia prctica. Sin embargo, el enfoque de la mejor conjetura presenta al menos dos desventajas. Primera, supngase que la mejor conjetura inicial no produce los resultados deseados. Entonces el experimentador tiene que hacer otra conjetura acerca de la combinacin correcta de los niveles de los factores. Esto podra continuar por mucho tiempo, sin garanta alguna de xito. Segunda, supngase que la mejor conjetura inicial produce un resultado satisfactorio. Entonces, el experimentador se ve tentado a suspender las pruebas, aun cuando no hay ninguna garanta de que se ha encontrado la mejor solucin. Otra estrategia de experimentacin muy comn en la prctica es el enfoque de un factor a la vez. Este mtodo consiste en seleccionar un punto de partida, o lnea base de los niveles, para cada factor, para despus variar sucesivamente cada factor en su rango, manteniendo constantes los factores restantes en el nivel base. Despus de haber realizado todas las pruebas, se construye por lo general una serie de grficas en las que se muestra la forma en que la variable de respuesta es afectada al variar cada factor manteniendo los dems factores constantes. En la figura 1-2 se presenta una serie de grficas para el experimento del golf, utilizando como lnea base los niveles de los cuatro factores: el palo grande, la pelota de goma de
CAPTULO 1 INTRODUCCIN
:
::l ::J
e
a..
e~ e~ e~
----:g ro
-----...
a..
~ ::J
:g ro
a..
~ ::J
:g ro
a..
el:
~ :J
A (agua) C (cerveza) Bebida
C (caminando)
balata, caminar y beber agua. La interpretacin de esta grfica es directa; por ejemplo, debido a que la pendiente de la curva de la manera de desplazarse es negativa, se concluira que hacer el recorrido en el carrito mejora la puntuacin. Con base en estas grficas de un factor a la vez, la combinacin ptima que se seleccionara sera el palo normal, desplazarse en el carrito y beber agua. El tipo de pelota de golf aparentemente carece de importancia. La desventaja principal de la estrategia de un factor a la vez es que no puede tomar en consideracin cualquier posible interaccin entre los factores. Hay una interaccin cuando uno de los factores no produce el mismo efecto en la respuesta con niveles diferentes de otro factor. En la figura 1-3 se muestra una interaccin entre los factores del tipo de palo y la bebida para el experimento del golf. Observe que si el autor utiliza el palo normal, el tipo de bebida consumida prcticamente no tiene efecto alguno sobre su puntuacin, pero si utiliza el palo grande, se obtienen resultados mucho mejores cuando bebe agua en lugar de cerveza. Las interacciones entre factores son muy comunes y, en caso de existir, la estrategia de un factor a la vez casi siempre producir resultados deficientes. Muchas personas no perciben esto y, en consecuencia, los experimentos de un factor a la vez son comunes en la prctica. (De hecho, algunas personas piensan que esta estrategia se relaciona con el mtodo cientfico o que es un principio "slido" de ingeniera.) Los experimentos de un factor a la vez siempre son menos eficientes que otros mtodos basados en un enfoque estadstico del diseo experimental. El tema se analizar con mayor detalle en el captulo 5. El enfoque correcto para trabajar con varios factores es conducir un experimento factorial. Se trata de una estrategia experimental en la que los factores se hacen variar en conjunto, en lugar de uno a la vez.
TP (tres piezas)
'0
'0
~
GB (goma de balata) L.-_..J-
: - - - ' -_ _
A (agua)
Tipo de bebida
C (cerveza)
G (grande)
Tipo de palo
N (normal)
Figura 1-3 Interaccin entre el tipo de palo y el tipo de bebida para el experimento del golf.
Figura 1-4 Experimento factorial de dos factores que incluye el tipo de palo y el tipo de pelota.
El concepto de diseo experimental factorial es de suma importancia, y varios captulos de este libro se dedican a presentar experimentos factoriales bsicos, as como algunas variantes y casos especiales tiles. Para ilustrar la forma en que se lleva a cabo un experimento factorial, considere el experimento de golf y suponga que slo dos de los factores son de inters, el tipo de palo y el tipo de pelota. En la figura 1-4 se muestra un experimento factorial para estudiar los efectos conjuntos de estos dos factores sobre la puntuacin de golf del autor. Observe que en este experimento factorial ambos factores tienen dos niveles y que en el diseo se usan todas las combinaciones posibles de los niveles de ambos factores. Geomtricamente, las cuatro corridas forman los vrtices de un cuadrado. A este tipo particular de experimento factorial se le llama diseo factorial 22 (dos factores, cada uno con dos niveles). Debido a que el autor considera razonable suponer que jugar ocho rondas de golf para investigar estos factores, un plan factible sera jugar dos rondas de golf con cada combinacin de los niveles de los factores, como se muestra en la figura 1-4. Un diseador de experimentos dira que se han hecho dos rplicas del diseo. Este diseo experimental permitira al experimentador investigar los efectos individuales (o los efectos principales) de cada factor y determinar si existe alguna interaccin entre los factores. En la figura 1-5a se presentan los resultados obtenidos al realizar el experimento factorial de la figura 1-4. En los vrtices del cuadrado se indican las puntuaciones de cada ronda de golf jugada con las cuatro combinaciones de prueba. Observe que hay cuatro rondas de golf que proporcionan informacin acerca del uso del palo normal y cuatro rondas que proporcionan informacin sobre el uso del palo grande. Al encontrar la diferencia promedio de las puntuaciones que estn en los lados derecho e izquierdo del cuadrado (como en la figura 1-5b), se tiene una medida del efecto de cambiar del palo grande al palo normal, o Efecto del palo
92+94+93+91 4
88+91+88+90
= 325
.
TP (tres piezas)
"! Ol
"O
i5
--~---
88,91
92,94
8.
88,90
1....-..1..-. -'-_
GB(goma de balata)
TP (tres piezas)
~~
0..2
e.Ol
Fe.
GB(goma de balata)
1....-..1...-_--'---
o
:(
TP (tres piezas)
"O~
Oleo
e.Ol Fe.
0..2
El
GB (goma de balata)
IDl
TP (tres piezas)
,!9
0..2
Fe.
GB (goma de balata) L...-.L-.
e.Ol
'---
G (grande) N (normal) Tipo de palo e) Comparacin de las puntuaciones que conducen al efecto de la pelota
Figura 15
Puntuaciones del experimento del golf de la figura 1-4 y clculo de los efectos de los factores.
CAPTULO 1 INTRODUCCIN
Es decir, en promedio, al cambiar del palo grande al normal la puntuacin se incrementa 3.25 golpes por ronda. De manera similar, la diferencia promedio de las cuatro puntuaciones de la parte superior del cuadrado y de las cuatro puntuaciones de la parte inferior miden el efecto del tipo de pelota usado (ver la figura 1-5e): Efecto de la pelota
= ---4---
88+ 91 + 92+ 94
88+90+93+91
= 075
.
Por ltimo, puede obtenerse una medida del efecto de la interaccin entre el tipo de pelota y el tipo de palo restando la puntuacin promedio en la diagonal de izquierda a derecha del cuadrado de la puntuacin promedio de la diagonal de derecha a izquierda (ver la figura 1-5d), cuyo resultado es ., 1 1 Efecto de l a mteraCClOn pe ota-pa o 92+94+88+90 =--4--88+ 91 : 93+ 91
= 0.25
Los resultados de este experimento factorial indican que el efecto del palo es mayor que el efecto de la pelota o que el de la interaccin. Podran usarse pruebas estadsticas para determinar si cualquiera de estos efectos difiere de cero. De hecho, el caso es que hay evidencia estadstica razonablemente slida de que el efecto del palo difiere de cero y de que no es el caso para los otros dos efectos. Por lo tanto, tal vez el autor debera jugar siempre con el palo grande. En este sencillo ejemplo se pone de manifiesto una caracterstica muy importante del experimento factorial: en los diseos factoriales se hace el uso ms eficiente de los datos experimentales. Note que este experimento incluy ocho observaciones, y que las ocho observaciones se usan para calcular los efectos del palo, de la pelota y de la interaccin. Ninguna otra estrategia de experimentacin hace un uso tan eficiente de los datos. sta es una caracterstica importante y til de los diseos factoriales. El concepto de experimento factorial puede extenderse a tres factores. Suponga que el autor desea estudiar los efectos del tipo de palo, el tipo de pelota y el tipo de bebida consumida sobre su puntuacin de golf. Suponiendo que los tres factores tienen dos niveles, puede establecerse un diseo factorial como el que se muestra en la figura 1-6. Observe que hay ocho combinaciones de prueba de estos tres factores con los dos niveles de cada uno de ellos y que estos ocho ensayos pueden representarse geomtricamente como los vrtices de un cubo. Se trata de un ejemplo de un diseo factorial 23 Como el autor slo desea jugar ocho rondas de golf, este experimento requerira que se juegue una ronda con cada una de las combinaciones de los factores representadas por los ocho vrtices del cubo de la figura 1-6. Sin embargo, al comparar esta situacin con el diseo factorial de dos factores de la figura 1-4, el diseo factorial 23 producira la misma informacin acerca de los efectos de los factores. Por ejemplo, en ambos diseos hay cuatro pruebas que proporcionan informacin acerca del palo normal y cuatro pruebas que proporcionan
I I I I
...-.J-...-...-"'Palo
Figura 1-6 Experimento factorial de tres factores que incluye el tipo de palo, el tipo de pelota y el tipo de bebida.
.\
;1'"-----"'-----'1\
Caminando En carrito
I I I
I
///
/-/~----
L----Palo
Figura 1-7 Experimento factorial de cuatro factores que incluye el tipo de palo, el tipo de pelota, el tipo de bebida y la manera de desplazarse.
informacin acerca del palo grande, suponiendo que se repite dos veces cada corrida del diseo de dos factores de la figura 1-4. En la figura 1-7 se ilustra la forma en que podran investigarse los cuatro factores -el palo, la pelota, la bebida y la manera de desplazarse (caminando o en carrito)- en un diseo factorial 24 Como en cualquier diseo factorial, se usan todas las combinaciones posibles de los niveles de los factores. Puesto que los cuatro factores tienen dos niveles, sigue siendo posible hacer la representacin geomtrica de este diseo experimental mediante un cubo (en realidad un hipercubo). En general, si hay k factores, cada uno con dos niveles, el diseo factorial requerira 2k corridas. Por ejemplo, el experimento de la figura 1-7 requiere 16 corridas. Evidentemente, cuando el nmero de factores de inters aumenta, el nmero de corridas requeridas se incrementa con rapidez; por ejemplo, un experimento con 10 factores en el que todos los factores tienen dos niveles requerira 1024 corridas. Esto pronto se vuelve impracticable en lo que se refiere al tiempo y los recursos. En el experimento del golf, el autor slo puede jugar ocho rondas, por lo que incluso el experimento de la figura 1-7 resulta demasiado largo. Por fortuna, cuando se trabaja con cuatro, cinco o ms factores, por lo general no es necesario probar todas las combinaciones posibles de los niveles de los factores. Un experimento factorial fraccionado es una variacin del diseo factorial bsico en la que slo se realiza un subconjunto de las corridas. En la figura 1-8 se ilustra un diseo factorial fraccionado para la versin de cuatro factores del experimento del golf. Este diseo requiere slo 8 corridas en lugar de las 16 originales y se llamara fraccin un medio. Si el autor slo puede jugar ocho rondas de golf, ste es un excelente diseo en el cual estudiar los cuatro factores. Proporcionar informacin adecuada acerca de los efectos principales de los cuatro factores, as como cierta informacin acerca de la forma en que interactan estos factores. Los diseos factoriales fraccionados son muy comunes en la investigacin y el desarrollo industrial, as como en el mejoramiento de procesos. Estos diseos se analizarn en el captulo 8.
;f""
Caminando
I I I
'
I I I
//
_,,,.-;L----
..@----Palo
Figura 1-8 Experimento factorial fraccionado de cuatro factores que incluye el tipo de palo, el tipo de pelota, el tipo de bebida y la manera de desplazarse.
8
1~2
CAPTULO 1 INTRODUCCIN
Los mtodos del diseo experimental han encontrado amplia aplicacin en diversas disciplinas. De hecho, la experimentacin puede considerarse parte del proceso cientfico y uno de los medios para conocer el funcionamiento de sistemas y procesos. En general, el aprendizaje ocurre a travs de una serie de actividades en las que se hacen conjeturas acerca de un proceso, se llevan a cabo experimentos para generar datos del proceso y despus se usa la informacin del experimento para establecer nuevas conjeturas, lo que lleva a nuevos experimentos, y as sucesivamente. El diseo experimental es una herramienta de importancia fundamental en el mbito de la ingeniera para mejorar el desempeo de un proceso de manufactura. Tambin tiene mltiples aplicaciones en el desarrollo de procesos nuevos. La aplicacin de las tcnicas del diseo experimental en las fases iniciales del desarrollo de un proceso puede redundar en
1. Mejoras en el rendimiento del proceso. 2. Variabilidad reducida y conformidad ms cercana con los requerimientos nominales o proyectados. 3. Reduccin del tiempo de desarrollo. 4. Reduccin de los costos globales.
Los mtodos del diseo experimental desempean tambin un papel importante en las actividades del diseo de ingeniera, donde se desarrollan productos nuevos y se hacen mejoramientos en los productos existentes. Entre las aplicaciones del diseo experimental en el diseo de ingeniera se encuentran:
1. La evaluacin y comparacin de configuraciones de diseos bsicos. 2. La evaluacin de materiales alternativos. 3. La seleccin de los parmetros del diseo para que el producto tenga un buen funcionamiento en una amplia variedad de condiciones de campo, es decir, para que el producto sea robusto. 4. La determinacin de los parmetros clave del diseo del producto que afectan el desempeo del mismo.
El uso del diseo experimental en estas reas puede redundar en productos cuya fabricacin sea ms sencilla, en productos que tengan un desempeo y confiabilidad de campo mejorados, en costos de produccin ms bajos y en tiempos ms cortos para el diseo y desarrollo del producto. A continuacin se presentan varios ejemplos que ilustran algunas de estas ideas.
EJEMPLO 1~ 1
Caracterizacin de un proceso
En el proceso de fabricacin de tarjetas de circuitos impresos se utiliza una mquina de soldadura lquida. La mquina limpia las tarjetas en un fundente, las somete a un proceso de precalentamiento y despus las hace pasar por una onda de soldadura lquida mediante una transportadora. En este proceso de soldadura se hacen las conexiones elctricas y mecnicas de los componentes recubiertos de plomo en la tarjeta. El proceso opera actualmente con un nivel de defectos aproximado de 1%. Es decir, cerca de 1% de las juntas de soldadura de una tarjeta son defectuosas y requieren correccin manual. Sin embargo, debido a que la tarjeta de circuitos impresos promedio contiene ms de 2000 juntas de soldadura, incluso un nivel de defectos de 1% representa un nmero demasiado alto de juntas de soldadura que requieren correccin. Al ingeniero responsable del proceso en esta rea le gustara usar un experimento diseado para determinar cules son los parmetros de la mquina que influyen en la ocurrencia de los defectos de soldadura y qu ajustes deberan hacerse en dichas variables para reducir los defectos de soldadura.
En la mquina de soldadura lquida hay diversas variables que pueden controlarse. stas incluyen:
2. 3. 4.
1. La temperatura de la soldadura. La temperatura del precalentamiento. La velocidad de la transportadora. El tipo de fundente. s. La gravedad especfica del fundente. 6. La profundidad de la onda de soldadura. 7. El ngulo de la transportadora.
Adems de estos factores controlables, hay otros que no es sencillo manejar durante el proceso de fabricacin, aunque podran controlarse para los fines de una prueba. stos son:
1. 2. 3. 4.
s.
El espesor de la tarjeta de circuitos impresos. El tipo de componentes usados en la tarjeta. La disposicin de los componentes en la tarjeta. El operador. La rapidez de produccin.
En esta situacin, el inters del ingeniero es caracterizar la mquina de soldadura lquida; es decir, quiere determinar los factores (tanto los controlables como los no controlables) que afectan la ocurrencia de defectos en las tarjetas de circuitos impresos. Para ello puede disear un experimento que le permitir estimar la magnitud y direccin de los efectos de los factores; es decir, cunto cambia la variable de respuesta (defectos por unidad) cuando se modifica cada factor, y si la modificacin de los factores en conjunto produce resultados diferentes que los obtenidos mediante el ajuste individual de los factores; es decir, existe interaccin entre los factores? En ocasiones a un experimento como ste se le llama experimento tamiz o de exploracin exhaustiva. De manera tpica, los experimentos tamiz incluyen el uso de diseos factoriales fraccionados, como en el ejemplo del golf de la figura 1-8. La informacin obtenida de este experimento tamiz se usar para identificar los factores crticos del proceso y determinar la direccin del ajuste de dichos factores a fin de conseguir una reduccin adicional del nmero de defectos por unidad. El experimento tambin puede proporcionar informacin acerca de los factores que deberan controlarse con mayor atencin durante el proceso de fabricacin a fin de evitar los niveles elevados de defectos y el desempeo errtico del proceso. Por lo tanto, una consecuencia del experimento podra ser la aplicacin de tcnicas como las cartas de control a una o ms de las variables del proceso (la temperatura de la soldadura, por ejemplo), aunadas a las cartas de control de la produccin del proceso. Con el tiempo, si se consigue una mejora sensible del proceso, quiz sea posible basar la mayor parte del programa de control del mismo en el control de las variables de entrada del proceso en lugar de aplicar cartas de control a la produccin.
EJEMPLO 1~ 2 ......................................................
Optimizacin de un proceso
En un experimento de caracterizacin, el inters suele centrarse en determinar las variables del proceso que afectan la respuesta. El siguiente paso lgico es la optimizacin, es decir, determinar la regin de los factores importantes que conduzca a la mejor respuesta posible. Por ejemplo, si la respuesta es el rendi-
10
CAPTULO 1 INTRODUCCIN
miento, se buscara la regin del rendimiento mximo, mientras que si la respuesta es la variabilidad de una dimensin crtica del producto, se buscara una regin de variabilidad mnima. Supongamos que el inters se centra en mejorar el rendimiento de un proceso qumico. Por los resultados de un experimento de caracterizacin se sabe que las dos variables ms importantes del proceso que influyen en el rendimiento son la temperatura de operacin y el tiempo de reaccin. El proceso opera actualmente a 145Fy con 2.1 horas de tiempo de reaccin, produciendo rendimientos de cerca de SO%. En la figura 1-9 se muestra una vista desde arriba de la regin tiempo-temperatura. En esta grfica las lneas de rendimiento constante se unen para formar los contornos de respuesta, y se muestran las lneas de contorno para rendimientos de 60, 70, SO, 90 Y95 por ciento. Estos contornos son las proyecciones en la regin tiempo-temperatura de las secciones transversales de la superficie del rendimiento correspondiente a los rendimientos porcentuales arriba mencionados. A esta superficie se le llama en ocasiones superficie de respnesta. El personal del proceso no conoce la verdadera superficie de respuesta de la figura 1-9, por lo que se necesitarn mtodos experimentales para optimizar el rendimiento con respecto al tiempo y la temperatura. Para localizar el rendimiento ptimo, es necesario llevar a cabo un experimento en el que se hagan variar conjuntamente el tiempo y la temperatura, es decir, un experimento factorial. En la figura 1-9 se muestran los resultados de un experimento factorial inicial realizado con dos niveles tanto del tiempo como de la temperatura. Las respuestas que se observan en los cuatro vrtices del cuadrado indican que, para incrementar el rendimiento, los cambios deberan hacerse en la direccin general del aumento de la
200
190
180
E
:J
" 170
o. E Q)
1Q)
160
150
140
0.5
1.0
1.5
2.0
2.5
Tiempo (horas)
Figura 1-9 Grfica de contorno del rendimiento como una funcin del tiempo de reaccin y la temperatura de reaccin, la cual ilustra la experimentacin para optimizar un proceso.
11
temperatura y la reduccin del tiempo de reaccin. Se realizaran algunas corridas adicionales en esta direccin, y esta experimentacin adicional llevara a la regin del rendimiento mximo. Una vez que se ha encontrado la regin del rendimiento ptimo, el siguiente paso tpico sera realizar un segundo experimento. El objetivo de este segundo experimento es desarrollar un modelo emprico del proceso y obtener una estimacin ms precisa de las condiciones de operacin ptimas para el tiempo y la temperatura. A este enfoque para la optimizacin de un proceso se le llama la metodologa de superficies de respuesta, la cual se examina en detalle en el captulo 11. El segundo diseo ilustrado en la figura 1-9 es un diseo central compuesto, uno de los diseos experimentales ms importantes que se usan en los estudios de optimizacin de procesos.
EJEMPLO 1,3
Ilustracin del diseo de un producto Con frecuencia los mtodos de diseo experimental pueden aplicarse en el proceso de diseo de un producto. Para ilustrar esto, suponga que un grupo de ingenieros est diseando el gozne de la puerta de un automvil. La caracterstica de calidad del producto que les interesa es el esfuerzo amortiguador, es decir, la capacidad de retencin del tope que impide que la puerta se cierre cuando el vehculo se estaciona en una pendiente. El mecanismo amortiguador consta de un resorte de hojas y un cilindro. Cuando la puerta se abre, el cilindro se desplaza por un arco que hace que el resorte de hojas se comprima. Para cerrar la puerta es necesario vencer la fuerza del resorte, la cual produce el esfuerzo amortiguador. El equipo de ingenieros considera que el esfuerzo amortiguador es una funcin de los siguientes factores:
1. 2. 3. 4. 5.
La La La La La
distancia que se desplaza el cilindro. altura del resorte del pivote a la base. distancia horizontal del pivote al resorte. altura libre del resorte auxiliar. altura libre del resorte principal.
Los ingenieros pueden construir un prototipo del mecanismo del gozne en el que es posible variar todos estos factores dentro de ciertos rangos. Una vez que se han identificado los niveles apropiados de estos cinco factores, puede disearse un experimento que conste de varias combinaciones de los niveles de los factores, y el prototipo del gozne puede probarse con estas combinaciones. Se obtendr as informacin respecto de los factores que tienen una mayor influencia sobre el esfuerzo amortiguador del tope y, mediante el anlisis de esta informacin, podr mejorarse el diseo del tope.
1,3
PRINCIPIOS BSICOS
,
Si quiere llevarse a cabo un experimento como los descritos en los ejemplos 1-1 al 1-3 con la mayor eficiencia posible, es necesario utilizar un enfoque cientfico para planearlo. El diseo estadstico de experimentos se refiere al proceso para planear el experimento de tal forma que se recaben datos adecuados que puedan analizarse con mtodos estadsticos que llevarn a conclusiones vlidas y objetivas. El enfoque estadstico del diseo experimental es necesario si se quieren sacar conclusiones significativas de los datos. Cuando el problema incluye datos que estn sujetos a errores experimentales, la metodologa estadstica es el nico enfoque objetivo de anlisis. Por lo tanto, cualquier problema experimental incluye dos
12
CAPTULO 1 INTRODUCCIN
aspectos: el diseo del experimento y el anlisis estadstico de los datos. Estos dos aspectos se encuentran ntimamente relacionados porque el mtodo de anlisis depende directamente del diseo empleado. Ambos temas se tratan en este libro. Los tres principios bsicos del diseo experimental son la realizacin de rplicas, la aleatorizacin y la formacin de bloques. Por realizacin de rplicas se entiende la repeticin del experimento bsico. En el experimento metalrgico analizado en la seccin 1-1, una rplica consistira en el tratamiento de una muestra con el templado en aceite y el tratamiento de una muestra con el templado en agua salada. Por lo tanto, si se tratan cinco ejemplares en cada medio de templado, se dice que se han obtenido cinco rplicas. La realizacin de rplicas posee dos propiedades importantes. Primera, permite al experimentador obtener una estimacin del error experimental. Esta estimacin del error se convierte en una unidad de medicin bsica para determinar si las diferencias observadas en los datos son en realidad estadsticamente diferentes. Segunda, si se usa la media muestral (por ejemplo, Y) para estimar el efecto de un factor en el experimento, la realizacin de rplicas permite al experimentador obtener una estimacin ms precisa de este efecto. Por ejemplo, si cr es la varianza de una observacin individual y hay n rplicas, la varianza de la media muestral es
La consecuencia prctica de lo anterior es que si se hicieron n = 1 rplicas y se observ Yl = 145 (templado en aceite) YY2 = 147 (templado en agua salada), probablemente no podrn hacerse inferencias satisfactorias acerca del efecto del medio de templado; es decir, la diferencia observada podra ser resultado del error experimental. Por otra parte, si n fue razonablemente grande y el error experimental fue lo suficientemente pequeo, y se observ Yl < Y2' podra concluirse con una certeza razonable que el templado en agua salada produce una dureza mayor en esta aleacin de aluminio particular que el templado en aceite. Hay una diferencia importante entre rplicas y mediciones repetidas. Por ejemplo, suponga que una oblea de silicio se graba con un proceso de grabado qumico con plasma para oblea nica, y que se hacen tres mediciones de una dimensin crtica de esta oblea. Estas mediciones no son rplicas; son una forma de mediciones repetidas y, en este caso, la variabilidad observada en las tres mediciones repetidas es reflejo directo de la variabilidad inherente del sistema o instrumento de medicin. Como otro ejemplo, suponga que, como parte de un experimento en la manufactura de semiconductores, se procesan simultneamente cuatro obleas en un horno de oxidacin con una velocidad del flujo de gas y un tiempo particulares y que se hace despus una medicin del espesor del xido en cada oblea. De nueva cuenta, la medicin de las cuatro obleas no son rplicas sino mediciones repetidas. En este caso reflejan las diferencias entre las obleas y otras fuentes de variabilidad dentro de esa operacin de horneado particular. En las rplicas se reflejan las fuentes de variabilidad tanto entre las corridas como (potencialmente) dentro de las mismas. La aleatorizacin es la piedra angular en la que se fundamenta el uso de los mtodos estadsticos en el diseo experimental. Por aleatorizacin se entiende que tanto la asignacin del material experimental como el orden en que se realizarn las corridas o ensayos individuales del experimento se determinan al azar. Uno de los requisitos de los mtodos estadsticos es que las observaciones (o los errores) sean variables aleatorias con distribuciones independientes. La aleatorizacin hace por lo general que este supuesto sea vlido. La aleatorizacin correcta del experimento ayuda tambin a "sacar del promedio" los efectos de factores extraos que pudieran estar presentes. Por ejemplo, suponga que los ejemplares del experimento descrito antes presentan slo ligeras diferencias en el espesor y que la efectividad del medio de templado puede ser afectado por el espesor del ejemplar. Si todos los ejemplares sometidos al templado en aceite son ms gruesos que los sometidos al templado en agua salada, quiz se est introduciendo un sesgo sistemtico en los resultados experimentales. Este sesgo estorba en uno de los medios de templa-
13
do y, en consecuencia, invalida los resultados obtenidos. Al hacer la asignacin aleatoria de los ejemplares al medio de templado este problema se aligera en parte. Es muy comn el uso de programas de computadora para auxiliar a los experimentadores a seleccionar y construir diseos experimentales. Estos programas presentan a menudo las corridas del diseo experimental de manera aleatoria. Por lo general este modo aleatorio se crea utilizando un generador de nmeros aleatorios. Incluso con estos programas de computadora, con frecuencia seguir siendo necesario que el experimentador haga la asignacin del material experimental (como las obleas en los ejemplos de semiconductores mencionados antes), de los operadores, de los instrumentos o herramientas de medicin, etc., que se utilizarn en el experimento. Puede recurrirse a tablas de nmeros aleatorios para asegurar que las asignaciones se hacen al azar. En ocasiones los experimentadores se encuentran con situaciones en las que la aleatorizacin de un aspecto del experimento es complicada. Por ejemplo, en un proceso qumico, la temperatura puede ser una variable muy difcil de modificar, haciendo casi imposible la aleatorizacin completa de este factor. Existen mtodos de diseo estadstico para resolver las restricciones sobre la aleatorizacin. Algunos de estos enfoques se revisarn en captulos subsecuentes (ver en particular el captulo 13). La formacin de bloques es una tcnica de diseo que se utiliza para mejorar la precisin de las comparaciones que se hacen entre los factores de inters. Muchas veces la formacin de bloques se emplea para reducir o eliminar la variabilidad transmitida por factores perturbadores; es decir, aquellos factores que pueden influir en la respuesta experimental pero en los que no hay un inters especfico. Por ejemplo, en un experimento de un proceso qumico pueden requerirse dos lotes de materia prima para realizar todas las corridas necesarias. Sin embargo, podra haber diferencias entre los lotes debido a la variabilidad de un proveedor a otro y, en caso de no haber un inters especfico en este efecto, los lotes de materia prima se consideraran un factor perturbador. En general, un bloque es un conjunto de condiciones experimentales relativamente homogneas. En el ejemplo del proceso qumico, cada lote de materia prima formara un bloque, ya que es de esperarse que la variabilidad dentro de un lote sea menor que la variabilidad entre lotes. De manera tpica, como en este ejemplo, cada nivel del factor perturbador pasa a ser un bloque. Entonces el experimentador divide las observaciones del diseo estadstico en grupos que se corren en cada bloque. En varias partes del texto se estudia en detalle la formacin de bloques, incluyendo los captulos 4, 5, 7, 8, 9, 11 Y13. En el captulo 2, seccin 2-5.1, se presenta un ejemplo sencillo para ilustrar la estructura bsica de la formacin de bloques. Los tres principios bsicos del diseo experimental, la aleatorizacin, la realizacin de rplicas y la formacin de bloques son parte de cada uno de los experimentos. Se ilustrarn y resaltarn repetidamente a lo largo de este libro.
1~4
Para aplicar el enfoque estadstico en el diseo y anlisis de un experimento, es necesario que todos los que participan en el mismo tengan desde el principio una idea clara de qu es exactamente lo que va a estudiarse, cmo van a colectarse los datos, y al menos una comprensin cualitativa de la forma en que van a analizarse estos datos. En la tabla 1-1 se muestra un esquema general del procedimiento recomendado. A continuacin se presenta una breve explicacin de este esquema y se elaboran algunos de los puntos clave. Para mayores detalles, ver Coleman y Montgomery [27], as como las referencias al final del libro. Tambin es til el material complementario para este captulo.
1. Identificacin y enunciacin del problema. Este punto podra parecer muy obvio, pero es comn que en la prctica no sea sencillo darse cuenta de que existe un problema que requiere experimentacin, y
14
CAPTULO
INTRODUCCIN
Tabla 1-1
1. Identificacin y exposicin del problema. Planeacin previa 2. Eleccin de los factores, los niveles y los rangos." ] al experimento 3. Seleccin de la variable de respuesta." 4. Eleccin del diseo experimental. 5. Realizacin del experimento. 6. Anlisis estadstico de los datos. 7. Conclusiones y recomendaciones.
"En la prctica, los pasos 2 y3 suelen hacerse simultneamente o en el orden inverso.
tampoco es fcil desarrollar una enunciacin clara, con la que todos estn de acuerdo, de este problema. Es necesario desarrollar todas las ideas acerca de los objetivos del experimento. Generalmente, es importante solicitar aportaciones de todas las reas involucradas: ingeniera, aseguramiento de calidad, manufactura, mercadotecnia, administracin, el cliente y el personal de operacin (el cual por lo general conoce a fondo el proceso y al que con demasiada frecuencia se ignora). Por esta razn, se recomienda un enfoque de equipo para disear experimentos. En la mayora de los casos es conveniente hacer una lista de los problemas o las preguntas especficas que van a abordarse en el experimento. Una enunciacin clara del problema contribuye sustancialmente a menudo para alcanzar una mejor comprensin de los fenmenos bajo estudio y la solucin final del problema. Tambin es importante tener presente el objetivo global; por ejemplo, se trata de un proceso o sistema nuevo (en cuyo caso el objetivo inicial posiblemente ser la caracterizacin o tamizado de los factares) o se trata de un sistema maduro que se conoce con profundidad razonable y que se ha caracterizado con anterioridad (en cuyo caso el objetivo puede ser la optimizacin)? En un experimento puede haber muchos objetivos posibles, incluyendo la confirmacin (el sistema se comporta de la misma manera ahora que en el pasado?), el descubrimiento (qu ocurre si se exploran nuevos materiales, variables, condiciones de operacin, etc.?) y la estabilidad (bajo qu condiciones las variables de respuesta de inters sufren una degradacin seria?). Obviamente, las cuestiones especficas que habrn de abordarse en el experimento se relacionan de manera directa con los objetivos globales. Con frecuencia en esta etapa de la formulacin del problema muchos ingenieros y cientficos se percatan de que no es posible que un experimento comprensivo extenso responda las cuestiones clave y de que un enfoque secuencial en el que se utilice una serie de experimentos ms pequeos es una estrategia ms adecuada.
2. Eleccin de los factores, los niveles y los rangos. (Como se indica en la tabla 1-1, los pasos 2 y 3 muchas veces se hacen simultneamente o en orden inverso.) Cuando se consideran los factores que pueden influir en el desempeo de un proceso o sistema, el expelimentador suele descubrir que estos factores pueden clasificarse como factores potenciales del diseo o bien como factores perturbadores. Los factores potenciales del diseo son aquellos que el experimentador posiblemente quiera hacer variar en el experimento. Es frecuente encontrar que hay muchos factores potenciales del diseo, por lo que es conveniente contar con alguna clasificacin adicional de los mismos. Algunas clasificaciones tiles son factores del diseo, factores que se mantienen constantes y factores a los que se permite variar. Los factores del diseo son los que se seleccionan realmente para estudiarlos en el experimento. Los factores que se mantienen constantes son variables que pueden tener cierto efecto sobre la respuesta, pero que para los fines del experimento en curso no son de inters, por lo que se mantendrn fijos en un nivel especfico. Por ejemplo, en un experimento de grabado qumico en la industria de los semiconductores puede haber un efecto, que es nico, de la herramienta especfica para el grabado qumico con plasma que se utiliza en el experimento. Sin embargo, sera muy difcil variar este factor en un experimento, por lo que el experimentador puede decidir llevar a cabo todas las corridas experimentales en un grabador qumico particular (idealmente "tpico"). De este modo, este factor se mantiene constante. Como un ejemplo de factores
15
a los que se permite variar, las unidades experimentales o los "materiales" a los que se aplican los factores del diseo no son homogneos por lo general, no obstante lo cual con frecuencia se ignora esta variabilidad de una unidad a otra y se confa en la aleatorizacin para compensar cualquier efecto del material o la unidad experimental. Muchas veces se trabajar con el supuesto de que los efectos de los factores que se mantienen constantes y de los factores a los que se permite variar son relativamente pequeos. Por otra parte, los factores perturbadores pueden tener efectos considerables que deben tomarse en consideracin, a pesar de que no haya inters en ellos en el contexto del experimento en curso. Los factores perturbadores suelen clasificarse como factores controlables, no controlables o de ruido. Un factor perturbador controlable es aquel cuyos niveles pueden ser ajustados por el experimentador. Por ejemplo, el experimentador puede seleccionar lotes diferentes de materia prima o diversos das de la semana para condUcir el experimento. La estructura bsica de la formacin de bloques, comentada en la seccin anterior, suele ser til para trabajar con factores perturbadores controlables. Si un factor perturbador no es controlable en el experimento, pero puede medirse, muchas veces puede usarse el procedimiento de anlisis denominado anlisis de covarianza para compensar este efecto. Por ejemplo, la humedad relativa en el medio ambiente del proceso puede afectar el desempeo del proceso, y si la humedad no puede controlarse, probablemente podr medirse y tratarse como una covariable. Cuando un factor que vara de manera natural y no controlable en el proceso puede controlarse para los fines de un experimento, con frecuencia se le llama factor de ruido. En tales situaciones, es comn que el objetivo sea encontrar los ajustes de los factores controlables del diseo que minimicen la variabilidad transmitida por los factores de ruido. En ocasiones a esto se le llama el estudio de robustez del proceso o el problema de robustez del diseo. La formacin de bloques, el anlisis de covarianza y los estudios de robustez del proceso se comentan ms adelante. Una vez que el experimentador ha seleccionado los factores del diseo, debe elegir los rangos en los que har variar estos factores, as como los niveles especficos con los que se realizarn las corridas. Tambin deber pensarse cmo van a controlarse estos factores en los valores deseados y cmo van a medirse. Por ejemplo, en el experimento de la soldadura lquida, el ingeniero ha definido 12 variables que pueden afectar la ocurrencia de defectos de soldadura. El ingeniero tambin tendr que tomar una decisin en cuanto a la regin de inters para cada variable (es decir, el rango en el que se har variar cada factor) y en cuanto al nmero de niveles de cada variable que usar. Para ello se requiere del conocimiento del proceso. Este conocimiento del proceso suele ser una combinacin de experiencia prctica y conocimientos tericos. Es importante investigar todos los factores que pueden ser de importancia y no dejarse influir demasiado por la experiencia pasada, en particular cuando uno se encuentra en las fases iniciales de la experimentacin o cuando el proceso no est del todo maduro. Cuando el objetivo del experimento es el tamizado de los factores o caracterizacin del proceso, por lo general es mejor mantener reducido el nmero de niveles de los factores. En general, dos niveles funcionan bastante bien en los estudios de tamizado de factores. Elegir la regin de inters tambin es importante. En el tamizado de factores, la regin de inters deber ser relativamente grande; es decir, el rango en el que se hacen variar los factores deber ser amplio. Conforme se sepa ms acerca de las variables que son importantes y de los niveles que producen los mejores resultados, la regin de inters se har por lo general ms estrecha.
3. Seleccin de la variable de respuesta. Para seleccionar la variable de respuesta, el experimentador deber tener la certeza de que esta variable proporciona en realidad informacin til acerca del proceso bajo estudio. En la mayora de los casos, el promedio o la desviacin estndar (o ambos) de la caracterstica medida ser la variable de respuesta. No son la excepcin las respuestas mltiples. La eficiencia de los instrumentos de medicin (o error de medicin) tambin es un factor importante. Si la eficiencia de los instrumentos de medicin es inadecuada, el experimentador slo detectar los efectos relativamente grandes de los factores o quiz sean necesarias rplicas adicionales. En algunas situaciones en que la eficiencia de los instrumentos de medicin es pobre, el experimentador puede decidir medir varias veces cada unidad
16
CAPTULO 1 INTRODUCCIN
experimental y usar el promedio de las mediciones repetidas como respuesta observada. Suele ser de importancia determinante identificar los aspectos relacionados con la definicin de las respuestas de inters y cmo van a medirse antes de llevar a cabo el experimento. En ocasiones se emplean experimentos diseados para estudiar y mejorar el desempeo de los sistemas de medicin. Para un ejemplo, ver el captulo 12. Se reitera lo crucial que es exponer todos los puntos de vista y la informacin del proceso en los pasos 1 al 3 anteriores. Se hace referencia a esto como planeacin previa al experimento. Coleman y Montgomery [27] proporcionan hojas de trabajo que pueden ser tiles en la planeacin previa al experimento. Vase tambin la informacin complementaria del texto para ms detalles y un ejemplo del uso de estas hojas de trabajo. En muchas situaciones, no es posible que una sola persona posea todos los conocimientos requeridos para hacer esto adecuadamente. Por lo tanto, se hace una amplia recomendacin para el trabajo en equipo durante la planeacin del experimento. La mayor parte del xito gravitar en torno a qu tan bien se haya hecho la planeacin previa del experimento. Si las actividades de planeacin previas al experimento se realizan como es debido, este paso es relativamente sencillo. La eleccin del diseo implica la consideracin del tamao de la muestra (nmero de rplicas), la seleccin de un orden de corridas adecuado para los ensayos experimentales y la determinacin de si entran en juego o no la formacin de bloques u otras restricciones sobre la aleatorizacin. En este libro se revisan algunos de los tipos ms importantes de diseos experimentales, y puede usarse en ltima instancia como un catlogo para seleccionar el diseo experimental apropiado para una amplia variedad de problemas. Existen tambin varios paquetes interactivos de software de estadstica que soportan esta fase del diseo experimental. El experimentador puede introducir la informacin del nmero de factores, los niveles y los rangos, y estos programas presentarn a la consideracin del experimentador una seleccin de diseos o recomendarn un diseo particular. (Nosotros preferimos ver varias alternativas en lugar de confiar en la recomendacin de la computadora en la mayora de los casos.) Estos programas proporcionan tambin por lo general una hoja de trabajo (con el orden aleatorizado de las corridas) que se usar en la conduccin del experimento. Al seleccionar el diseo, es importante tener en mente los objetivos experimentales. En muchos experimentos de ingeniera se sabe de antemano que algunos de los niveles de los factores producirn valores diferentes de la respuesta. En consecuencia, el inters se centra en identificar qu factores causan esta diferencia yen estimar la magnitud del cambio de la respuesta. En otras situaciones podra haber ms inters en verificar la uniformidad. Por ejemplo, pueden compararse dos condiciones de produccin Ay B, donde A es el estndar y B es una alternativa con una eficiencia de costos mayor. El experimentador estar interesado entonces en demostrar que, por ejemplo, no hay ninguna diferencia en el rendimiento entre las dos condiciones.
4. Eleccin del diseo experimental. 5. Realizacin del experimento.
Cuando se lleva a cabo el experimento es vital monitorear con atencin el proceso a fin de asegurarse de que todo se est haciendo conforme a la planeacin. Los errores en el procedimiento experimental en esta etapa destruirn por lo general la validez experimental. Poner en un primer plano la planeacin es crucial para el xito. Es fcil subestimar los aspectos de logstica y planeacin cuando se corre un experimento diseado en un ambiente complejo de manufactura o de investigacin y desarrollo. Coleman y Montgomery [27] sugieren que antes de llevar a cabo el experimento, es conveniente en muchas ocasiones realizar algunas corridas piloto o de prueba. Estas corridas proporcionan informacin acerca de la consistencia del material experimental, una comprobacin del sistema de medicin, una idea aproximada del error experimental y la oportunidad de poner en prctica la tcnica experimental global. Esto ofrece tambin una oportunidad para revisar, de ser necesario, las decisiones tomadas en los pasos 1 al 4.
17
Debern usarse mtodos estadsticos para analizar los datos a fin de que los resultados y las conclusiones sean objetivos y no de carcter apreciativo. Si el experimento se ha diseado correctamente y si se ha llevado a cabo de acuerdo con el diseo, los mtodos estadsticos necesarios no deben ser complicados. Existen varios paquetes de software excelentes diseados para auxiliar en el anlisis de datos, y muchos de los programas usados en el paso 4 para seleccionar el diseo cuentan con una interfase directa para el anlisis estadstico. Con frecuencia se encuentra que los mtodos grficos simples desempean un papel importante en el anlisis e interpretacin de datos. Debido a que muchas de las preguntas que el experimentador quiere responder pueden insertarse en el marco de la prueba de hiptesis, los procedimientos para probar hiptesis y estimar intervalos de confianza son muy tiles en el anlisis de datos de un experimento diseado. Muchas veces es muy til tambin presentar los resultados de varios experimentos en trminos de un modelo emprico, es decir, mediante una ecuacin derivada de los datos que expresa la relacin entre la respuesta y los factores importantes del diseo. El anlisis residual y la verificacin de la adecuacin del modelo son tambin tcnicas de anlisis importantes. Ms adelante se revisarn en detalle estos temas. Recuerde que los mtodos estadsticos no pueden demostrar que un factor (o factores) posee un efecto particular, slo proporcionan pautas generales en cuanto a la confiabilidad y la validez de los resultados. Aplicados en forma correcta, los mtodos estadsticos no permiten la demostracin experimental de nada, pero s sirven para medir el error posible en una conclusin o asignar un nivel de confianza a un enunciado. La ventaja principal de los mtodos estadsticos es que agregan objetividad al proceso de toma de decisiones. Las tcnicas estadsticas, aunadas a una buena ingeniera o conocimiento del proceso y el sentido comn, llevarn por lo general a conclusiones slidas.
6. Anlisis estadstico de los datos.
7. Conclusiones y recomendaciones. Una vez que se han analizado los datos, el experimentador debe sacar conclusiones prcticas acerca de los resultados y recomendar un curso de accin. Los mtodos grficos suelen ser tiles en esta etapa, en particular para presentar los resultados. Tambin debern realizarse corridas de seguimiento o pruebas de confirmacin para validar las conclusiones del experimento. A lo largo del proceso completo es importante tener presente que la experimentacin es una parte esencial del proceso de aprendizaje, en la que se formulan hiptesis tentativas acerca de un sistema, se realizan experimentos para investigar estas hiptesis y se formulan nuevas hiptesis con base en los resultados, y as sucesivamente. Esto sugiere que la experimentacin es iterativa. Por lo general es un gran' error disear un solo experimento comprensivo y extenso al principio de un estudio. Un experimento exitoso requiere conocer los factores importantes, los rangos en los que debern hacerse variar estos factores, el nmero apropiado de niveles que debern usarse y las unidades de medicin apropiadas para estas variables. En general, no se conocen las respuestas precisas de estas cuestiones, pero se aprende acerca de ellas sobre la marcha. A medida que avanza un programa experimental, es comn abandonar algunas variables de entrada e incorporar otras, modificar la regin de exploracin de algunos factores o incorporar nuevas variables de respuesta. Por consiguiente, generalmente la experimentacin se hace en forma secuencial y, como regla general, no deber invertirse ms de 25% de los recursos disponibles en el primer experimento. Con esto se asegurar que se contar con los recursos suficientes para realizar las corridas de confirmacin y que se alcanzar en ltima instancia el objetivo final del experimento.
1~5
Ha habido cuatro eras del desarrollo moderno del diseo experimental estadstico. La era agrcola fue encabezada por el trabajo pionero de Sir Ronald A. Fisher en los aos 1920 y principios de la dcada de 1930. En este periodo, Fisher fue el responsable de las estadsticas y el anlisis de datos en la Estacin
18
CAPTULO 1 INTRODUCCIN
Agrcola Experimental de Rothamsted en las cercanas de Londres, Inglaterra. Fisher se percat de que las fallas en la forma en que se llevaba a cabo el experimento que generaba los datos obstaculizaban con frecuencia el anlisis de los datos de los sistemas (en este caso sistemas agrcolas). Mediante la interaccin con mltiples cientficos e investigadores de diversos campos, Fisher desarroll las ideas que llevaron a los tres principios bsicos del diseo experimental que se revisan en la seccin 1-3: la aleatorizacin, la realizacin de rplicas y la formacin de bloques. Fisher incorpor de manera sistemtica ~l pensamiento y los principios estadsticos en el diseo de las investigaciones experimentales, incluyendo el concepto de diseo factorial y el anlisis de varianza. Sus libros [44a, b] tuvieron profunda influencia en el uso de la estadstica, particularmente en la agricultura y las ciencias biolgicas relacionadas. Para una excelente biografa de Fisher, ver Box [21]. Si bien es cierto que la aplicacin del diseo estadstico en ambientes industriales se inici en la dcada de 1930, el catalizador de la segunda era, o era industrial, fue el desarrollo de la metodologa de superficies de respuesta (MSR) por parte de Box y Wilson [20]. Estos autores se percataron y explotaron el hecho de que muchos experimentos industriales son fundamentalmente diferentes de sus contrapartes agrcolas en dos sentidos: 1) la variable de respuesta puede observarse por lo general (casi) de inmediato, y 2) el experimentador puede obtener pronto informacin crucial de un pequeo grupo de corridas que puede usarse para planear el siguiente experimento. Box [12f] denomina inmediatez y secuencialidad a estas dos caractersticas de los experimentos industriales. En los 30 aos siguientes, la MSR y otras tcnicas de diseo se generalizaron en las industrias qumica y de proceso, sobre todo en el trabajo de investigacin y desarrollo. George Box fue el lder intelectual de este movimiento. Sin embargo, la aplicacin del diseo estadstico a nivel de plantas o procesos de manufactura todava no estaba muy generalizada. Algunas de las razones de ello incluyen la capacitacin inadecuada de ingenieros y otros especialistas en procesos en los conceptos y los mtodos estadsticos bsicos, as como la falta de recursos de computacin y software de estadstica que fueran fciles de usar para apoyar la aplicacin de experimentos diseados estadsticamente. El inters creciente de la industria occidental en el mejoramiento de calidad que empez a fines de la dcada de 1970 anunci la tercera era del diseo estadstico. El trabajo de Genichi Taguchi (Taguchi y Wu [109], Kackar [62] y Taguchi [108a, b]) tuvo un impacto significativo en el aumento del inters y el uso de los experimentos diseados. Taguchi propugnaba por el uso de experimentos diseados para lo que denomin el diseo paramtrico robusto, es decir,
1. Hacer procesos insensibles a los factores ambientales o de otra ndole que son difciles de controlar. 2. Fabricar productos insensibles a la variacin transmitida por los componentes. 3. Encontrar los niveles de las variables del proceso que obliguen a la media a un valor deseado mientras que al mismo tiempo se reduzca la variabilidad en torno a este valor.
Taguchi propuso diseos factoriales altamente fraccionados y otros arreglos ortogonales junto con algunos mtodos estadsticos nuevos para resolver estos problemas. La metodologa resultante gener muchas discusiones y controversias. Parte de la controversia surgi porque en Occidente la metodologa de Taguchi fue defendida al principio (y sobre todo) por empresarios, y no se haba hecho la revisin escrutadora adecuada de la ciencia estadstica fundamental. Para fines de la dcada de 1980, los resultados de esta revisin indicaron que aun cuando los conceptos y los objetivos enfocados en la ingeniera de Taguchi tenan bases slidas, existan problemas sustanciales con su estrategia experimental y sus mtodos para el anlisis de los datos. Para detalles especficos de estas cuestiones, ver Box [12d], Box, Bisgaard y Fung [14], Hunter [59a, b], Myers y Montgomery [85a] y Pignatiello y Ramberg [94]. Gran parte de estas preo-
19
cupaciones se resumen tambin en el amplio panel de discusin del nmero de mayo de 1992 de TeehnomeDies (ver Nair, et al. [86]).
Hubo al menos tres resultados positivos de la controversia desatada por Taguchi. Primero, el uso de los experimentos diseados se hizo ms generalizado en las industrias con piezas discretas, incluyendo la industria de manufacturas automotrices y aeroespaciales, de electrnica y semiconductores, y muchas otras, que anteriormente hacan poco uso de esta tcnica. Segundo, se inici la cuarta era del diseo estadstico. Esta era ha incluido un renovado inters general tanto por parte de investigadores como de profesionales en ejercicio en el diseo estadstico y el desarrollo de varios enfoques nuevos y tiles para los problemas experimentales en el mundo industrial, incluyendo alternativas a los mtodos tcnicos de Thguchi que permiten que sus conceptos de ingeniera se lleven a la prctica de manera eficaz y eficiente. Algunas de estas alternativas se revisarn e ilustrarn en captulos subsecuentes, en particular en el captulo 11. Tercero, la educacin formal en diseo experimental estadstico se est haciendo parte de los programas de ingeniera en las universidades, tanto a nivel de licenciatura como de posgrado. La integracin exitosa de una buena prctica del diseo experimental en la ingeniera y las ciencias es un factor clave en la competitividad industrial futura.
1~6
Gran parte de la investigacin en la ingeniera, las ciencias y la industria es emprica y hace un uso extensiva de la experimentacin. Los mtodos estadsticos pueden incrementar en gran medida la eficiencia de estos experimentos y con frecuencia pueden fortalecer las conclusiones as obtenidas. El uso correcto de las tcnicas estadsticas en la experimentacin requiere que el experimentador tenga presentes los puntos siguientes:
1. Uso de conocimientos no estadsticos del problema.
Los experimentadores suelen poseer amplios conocimientos de sus respectivos campos. Por ejemplo, un ingeniero civil que trabaja en un problema de hidrologa cuenta de manera tpica con considerable experiencia prctica y capacitacin acadmica formal en esta rea. En algunos campos existe un cuerpo enorme de teora fsica en el cual indagar para explicar las relaciones entre los factores y las respuestas. Este tipo de conocimientos no estadsticos es invaluable para elegir los factores, determinar los niveles de los factores, decidir cuntas rplicas correr, interpretar los resultados del anlisis, etc. El uso de la estadstica no es sustituto de la reflexin sobre el problema. Es necesario no exagerar en el uso de tcnicas estadsticas complejas y sofisticadas. Los mtodos de diseo y anlisis relativamente simples son siempre los mejores. En este punto cabe hacer hincapi nuevamente en el paso 4 del procedimiento recomendado en la seccin 1-4. Si un diseo se hace de manera cuidadosa y correcta, el anlisis casi siempre ser relativamente directo. Sin embargo, si el diseo se estropea grandemente por ineptitud, no es posible que incluso la estadstica ms compleja y elegante salve la situacin.
Debido justamente a que dos condiciones experimentales producen respuestas medias que son estadsticamente diferentes, no existe ninguna seguridad de que esta diferencia sea de la magnitud suficiente como para tener algn valor prctico. Por ejemplo, un ingeniero puede determinar que una modificacin en el sistema de inyeccin de combustible de un automvil puede producir un mejoramiento promedio real en el rendimiento del combustible de 0.1 mi/gal. ste es un resultado estadsticamente significativo. Sin embargo, si
20
CAPTULO 1 INTRODUCCIN
el costo de la modificacin es de $1000, la diferencia de 0.1 mi/gal probablemente ser muy pequea para poseer algn valor prctico.
4. Los experimentos son generalmente iterativos. Recuerde que en la mayora de las situaciones no es conveniente disear un experimento demasiado comprensivo al principio de un estudio. Un diseo exitoso requiere conocer los factores importantes, los rangos en los que estos factores se harn variar, el nmero aprOpiado de niveles para cada factor y los mtodos y las unidades de medicin adecuados para cada factor y respuesta. En general, ningn experimentador est en posicin de responder estas cuestiones al principio del experimento, sino que las respuestas aparecen sobre la marcha. Esto habla en favor del enfoque iterativo o secuencial analizado anteriormente. Desde luego, hay situaciones en las que un experimento comprensivo es totalmente apropiado pero, como regla general, la mayora de los experimentos debern ser iterativos. Por consiguiente, no deber invertirse ms de 25% de los recursos para la experimentacin (corridas, presupuesto, tiempo, etc.) en el experimento inicial. Con frecuencia estos esfuerzos iniciales constituyen slo experiencias de aprendizaje, y es necesario contar con recursos suficientes para alcanzar los objetivos finales del experimento.
En este captulo se examinan los experimentos para comparar dos condiciones (llamadas en ocasiones tratamientos), a las cuales es comn denominar experimentos comparativos simples. Se empieza conel ejemplo de un experimento que se realiza para determinar si dos formulaciones diferentes de un producto producen resultados equivalentes. El estudio lleva a revisar varios conceptos bsicos de la estadstica, como variables aleatorias, distribuciones de probabilidad, muestras aleatorias, distribuciones de muestreo y pruebas de hiptesis.
2..1 INTRODUCCIN
La fuerza de la tensin de adhesin del mortero de cemento portland es una caracterstica importante del producto. Un ingeniero est interesado en comparar la fuerza de una formulacin modificada en la que se han agregado emulsiones de ltex de polmeros durante el mezclado, con la fuerza del mortero sin modificar. El experimentador ha reunido 10 observaciones de la fuerza de la formulacin modificada y otras 10 observaciones de la formulacin sin modificar. Los datos se muestran en la tabla 2-1. Podra hacerse referencia a las dos formulaciones diferentes como dos tratamientos o como dos niveles del factor formulaciones. En la figura 2-1 se grafican los datos de este experimento. A esta representacin se le llama diagrama de puntos. Del examen visual de estos datos se obtiene la impresin inmediata de que la fuerza del mortero sin modificar es mayor que la fuerza del mortero modificado. Esta impresin se confirma al comparar las fuerzas de la tensin de adhesinpromedio'Yl = 16.76 kgf/cm2 para el mortero modificado YY2 = 17.92 kgf/cm2 para el mortero sin modificar. Las fuerzas de la tensin de adhesin promedio de estas dos muestras difieren en lo que parece ser una cantidad no trivial. Sin embargo, no es evidente que esta diferencia sea de la magnitud suficiente para implicar que las dos formulaciones son en realidad diferentes. Quizs esta diferencia observada en las fuerzas promedio sea el resultado de fluctuaciones del muestreo y las dos formulaciones sean idnticas en realidad. Posiblemente otras dos muestras produzcan el resultado contrario, con la fuerza del mortero modificado excediendo la de la formulacin sin modificar. Puede usarse una tcnica de la inferencia estadstica llamada prueba de hiptesis (algunos autores prefieren el trmino prueba de significacin) para auxiliar al experimentador en la comparacin de estas
21
22
Tabla 2.1
Datos de la fuerza de la tensin de adhesin del experimento de la formulacin del cemento portland
Mortero modificado
j
1
2
3
4
5 6 7 8
9 10
Y1j 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57
dos formulaciones. La prueba de hiptesis permite que la comparacin de las dos formulaciones se haga en trminos objetivos, con el conocimiento de los riesgos asociados si se llega a una conclusin equivocada. Antes de presentar los procedimientos de la prueba de hiptesis en experimentos comparativos simples, se har una breve revisin de algunos conceptos elementales de la estadstica.
2.2
A cada una de las observaciones del experimento del cemento portland citado anteriormente se le llamara una corrida. Observe que las corridas individuales difieren, por lo que existen fluctuaciones, o ruido, en los resultados. Es comn llamar a este ruido el error experimeutal o simplemente el error. Se trata de un error estadstico, lo cual significa que se origina por la variacin que no est bajo control y que generalmente es inevitable. La presencia del error o ruido implica que la variable de respuesta, la fuerza de la tensin de adhesin, es una variable aleatoria. Una variable aleatoria puede ser discreta o coutinua. Si el conjunto de todos los valores posibles de la variable aleatoria es finito o contablemente infinito, entonces la variable aleatoria es discreta, mientras que si el conjunto de todos los valores posibles de la variable aleatoria es un intervalo, entonces la variable aleatoria es continua. Descripcin grfica de la variabilidad Es frecuente usar mtodos grficos simples como ayuda para analizar los datos de un experimento. El diagrama de puntos, ilustrado en la figura 2-1, es un recurso muy til para representar un cuerpo reducido. de datos (digamos hasta unas 20 observaciones). El diagrama de puntos le permite al experimentador ver de inmediato la localizacin o tendencia central de las observaciones y su dispersin. Por ejemplo, en el experimento de la fuerza de tensin d adhesin del cemento portland, el diagrama de puntos revela
ee_ 15
ee Ieee
00
16
oro!> 000 18
y,
Figura 2-1
17 Fuerza
(kgf/cm 2)
19
20
e o
~
~
16.76
Y2 ~ 17.92
23
ro
'E ro
ID ::J ID
0.10
ro . c:
20
ro . c:
ID ::J
" .t
"-
" ~
0.05
10
0.00
60
65
70
75
Figura 2-2 Histograma de 200 observaciones de la recuperacin de metal (rendimiento) en un proceso de fundicin.
que probablemente las dos formulaciones difieran en la fuerza promedio, pero que ambas producen aproximadamente la misma variacin en la fuerza. Cuando los datos son muy numersos, es difcil distinguir las observaciones graficadas en un diagrama de puntos, y en tal caso sera preferible un histograma. En la figura 2-2 se presenta el histograma de 200 observaciones de la recuperacin de metal (o rendimiento) en un proceso de fundicin. El histograma muestra la tendencia central, la dispersin y la forma general de la distribucin de los datos. Recuerde que un histograma se construye dividiendo el eje horizontal en intervalos (generalmente de longitud igual) y trazando un rectngulo sobre el intervalo j-simo con el rea del rectngulo proporcional a l1j , el nmero de observaciones incluidas en ese intervalo. El diagrama de caja (o diagrama de caja y bigotes) es una manera muy til de representar grficamente los datos. En un diagrama de caja se muestra el mnimo, el mximo, los cuartiles inferior y superior (el percentil25 y el percentil 75, respectivamente) y la mediana (el percentil50) en una caja rectangular alineada horizontal o verticalmente. La caja se extiende del cuartil inferior al cuartil superior y se traza una lnea por la mediana que atraviesa la caja. Se trazan dos lneas (o bigotes) que se extienden de los extremos de la caja hasta (de manera tpica) los valores mnimo y mximo. (Existen diversas variantes de los diagramas de caja que tienen reglas diferentes para denotar los puntos muestrales extremos. Ver Montgomery y Runger [83d] para ms detalles.) En la figura 2-3 se muestran los diagramas de caja de las dos muestras de la fuerza de la tensin de adhesin en el experimento del mortero de cemento portland. En esta representacin se revela con toda claridad la diferencia en la fuerza promedio entre las dos formulaciones. Indica asimismo que ambas formulaciones producen distribuciones de la fuerza razonablemente simtricas con una variabilidad o dispersin similar. Los diagramas de puntos, los histogramas y los diagramas de caja son tiles para resumir la informacin de una muestra de datos. Para describir con mayor detalle las observaciones que podran presentarse en una muestra, se usa el concepto de distribucin de probabilidad.
Distribuciones de probabilidad
La estructura de la probabilidad de una variable aleatoria, por ejemplo y, se describe mediante su distribucin de probabilidad. Cuando y es discreta, es comn hacer referencia a su distribucin de probabili-
24
;-
E 18.4 1u
Cl
-o .;
"
w
18 1-
.I::
w 17.6 ro
"O "O
17.2 16.8
'0 .;
" " 2l
ro
:J
.!!!
"O
w 16.4 w
~
$
1 I Modificado Sin modificar Formulacin del mortero
16 -
LL
Figura 2-3 Diagramas de caja del experimeuto de la fuerza de la tensin de adhesin del cemento portland.
dad, por ejemplo p(y), como la funcin de probabilidad de y. Cuando y es continua, es comn hacer referencia a su distribucin de probabilidad, por ejemplo f(y), como la funcin de densidad de probabilidad de y. En la figura 2-4 se ilustran dos distribuciones de probabilidad hipotticas, una discreta y la otra continua. Observe que en la distribucin de probabilidad discreta es la altura de la funcin p(Yj) la que representa la probabilidad, mientras que en el caso continuo, es el rea bajo la curva f(y) asociada con un
L..----..LI~..L__.I__I_..I.-L-.L......L--'---LI__'_I _
Y1 Y3 Ya Y7
Yj
Yg
Y11
Y13
Y2
Y4
Ya
Ya
Y10
Y12
Y14
b-----=--Y
b) Una distribucin continua
25
intervalo dado la que representa la probabilidad. Un resumen cuantitativo de las propiedades de las distribuciones de probabilidad sera el siguiente:
y discreta: 0:5 p(Yj ):51 P(y= Yj) = p(Yj
L
todos los
p(yJ=1
valores de y j
y continua:
La media, ,t, de una distribucin de probabilidad es una medida de su tendencia central o localizacin. Matemticamente, la media se define como
f:oo yf(y) dy ,t- { LYP(Y)
toda y
y continua y discreta
(2-1)
La media tambin puede expresarse en trminos del valor esperado o valor promedio a la larga de la variable aleatoria y como
J:oo yf(y)dy ,t= E(y) = { LJYP(Y)
toda y
y continua y discreta
(2-2)
donde E denota el operador del valor esperado. La variabilidad o dispersin de una distribucin de probabilidad puede medirse con la varianza, la cual se define como
y continua y discreta
(2-3)
Observe que la varianza puede expresarse exclusivamente en trminos del valor esperado debido a que
(2-4)
Por ltimo, el uso de la varianza es tan frecuente que resulta conveniente definir un operador de la varianza V tal que
V(y) = E[(y_,t)2] = 0 2
(2-5)
26
Los conceptos de valor esperado y varianza se usan constantemente a lo largo de este libro, y puede ser til revisar varios resultados elementales relacionados con estos operadores. Si y es una variable aleatoria con media fl y varianza if y c es una constante, entonces
1. 2. 3. 4. 5. 6. E(c) = c E(y) = fl E( cy) = cE(y) = cfl V(c)= O _ V(y) = a 2 V(cy) = c 2V(y) = c 2a 2
a;, se tiene
7.
8.
donde
(2-6)
es la covarianza de las variables aleatorias Y1 y Y2. La covarianza es una medida de la asociacin lineal entre Y1 y Y2" Ms especficamente, puede demostrarse que si Y1 y Y2 son independientes, 1 entonces COV(y1' Y2) = O. Tambin puede demostrarse que
9.
2,3
El objetivo de la inferencia estadstica es sacar conclusiones acerca de una poblacin utilizando una muestra de la misma. La mayora de los mtodos que se estudiarn aqu incluyen el supuesto de que se
Observe que el recproco no es necesariamente verdadero; es decir, puede tenerse Cov ',Y2) = OYno obstante esto no implica que las variables sean independientes. Para un ejemplo, ver Hines y Montgomery ([55] pp. 128-129).
27
usan muestras aleatorias. Es decir, si la poblacin contiene N elementos y va a seleccionarse una muestra de n de ellos, y si cada una de las N!/(N - n)!n! muestras posibles tiene una probabilidad igual de ser escogida, entonces al procedimiento empleado se le llama muestreo aleatorio. En la prctica, en ocasiones es difcil obtener muestras aleatorias, para lo cual pueden ser tiles las tablas de nmeros aleatorios, como la tabla XI del apndice. En la inferencia estadstica se utilizan profusamente cantidades calculadas a partir de las observaciones de la muestra. Un estadstico se define como cualquier funcin de las observaciones de una muestra que no contiene parmetros desconocidos. Por ejemplo, suponga queY'Y2' ...,Yn representa una muestra. Entonces la media muestral
(2-7)
y la varianza muestral
S2
= -""i=::.:1'-n-1
(Yi"':' y)2
_
(2-8)
son estadsticos. Estas cantidades son medidas de la tendencia central y la dispersin de la muestra, respectivamente. En ocasiones se usa S = -JS2, llamada la desviacin estndar muestral, como medida de dispersin. Los ingenieros suelen preferir el uso de la desviacin estndar para medir la dispersin debido a que se expresa en las mismas unidades que la variable de inters y.
La media muestralji" es un estimador puntual de la media poblacional,u, y la varianza muestral S2 es un estimador puntual de la varianza poblacional rJ2. En general, un estimador de un parmetro desconocido es un estadstico que corresponde con dicho parmetro. Observe que un estimador puntual es una variable aleatoria. Al valor numrico particular de un estimador, calculado a partir de los datos muestrales, se le llama una estimacin. Por ejemplo, suponga que quiere estimarse la media y la varianza de la resistencia a la ruptura de un tipo particular de fibra textil. Se prueba una muestra aleatoria de n = 25 ejemplares de prueba de la fibra y se registra la resistencia de cada uno de ellos. La media y la varianza muestrales se calculan de acuerdo con las ecuaciones 2-7 y 2-8, respectivamente, obtenindose ji" = 18.6 YS2 = 1.20. Por lo tanto, la estimacin de ,u es ji" = 18.6 Y la estimacin de rJ2 es S2 = 1.20. Un buen estimador puntual debe tener varias propiedades. Dos de las ms importantes son las siguientes:
1. El estimador puntual deber ser insesgado. Es decir, el parmetro que se est estimando deber ser el promedio o valor esperado a la larga del estimador puntual. Aun cuando la ausencia de sesgo es deseable, esta propiedad por s sola no siempre hace que un estimador sea adecuado. ' 2. Un estimador insesgado deber tener la varianza mnima. Esta propiedad establece que el estimador puntual de varianza mnima tiene una varianza que es menor que la varianza de cualquier otro estimador del parmetro en cuestin.
28
Es sencillo demostrar que y y S2 son estimadores insesgados de ,t y primero y. Al utilizar las propiedades del valor esperado, se tiene
i=l
=,t
porque el valor esperado de cada observacin Yi es ,t. Por lo tanto,y es un estimador insesgado de ,t. Considere ahora la varianza muestral S2. Se tiene
E(S2)= E
!
.:.::i=:=...l
(Yi -
Y)2]
_
n-1
= n~ 1 E[~
=_1_ E (SS)
(Yi - y)2 ]
n-1
donde SS = L~=l (Yi - y)2 es la suma de cuadrados corregida de las observaciones Yi' Entonces
E(SS) =
E[~
n
(Yi - y)2]
(2-9)
= E[~
=
Por lo tanto,
i=l
Yi
_ny2 ]
=(n-1)a 2
E(S2)=_1_ E (SS)
n-1
er.
29
Grados de libertad A la cantidad n -1 de la ecuacin 2-10 se le llama el nmero de grados de libertad de la suma de cuadrados SS. Se trata de un resultado muy general; es decir, si y es una variable aleatoria con varianza if y SS = L(Yi - y)2 tiene v grados de libertad, entonces
(2-11)
El nmero de grados de libertad de una suma de cuadrados es igual al nmero de elementos independientes en dicha suma de cuadrados. Por ejemplo, SS = L7=1 (Yi - y)2 en la ecuacin 2-9 consiste en la suma de los cuadrados de los n elementos YI - y, Y2 - y, ..., Yn - y. No todos estos elementos son independientes porque L7=1 (Yi - y) = O; de hecho, slo n -1 de ellos son independientes, lo cual implica que SS tiene n-1 grados de libertad.
La distribucin normal y otras distribuciones de muestreo En muchas ocasiones la distribucin de probabilidad de un estadstico particular puede determinarse si se conoce la distribucin de probabilidad de la poblacin de la que se tom la muestra. A la distribucin de probabilidad de un estadstico se le llama la distribucin de muestreo. A continuacin se revisan brevemente varias distribuciones de muestreo tiles. Una de las distribuciones de muestreo ms importantes es la distribucin normal. Siy es una variable aleatoria normal, la distribucin de probabilidad de y es
a.J2ii
-oo<y<oo
(2-12)
donde -00 < fJ. < 00 es la media de la distribucin y if > Oes la varianza. En la figura 2-5 se ilustra la distribucin normal. Debido a que las corridas muestrales que difieren como resultado del error experimental a menudo se encuentran descritas adecuadamente en la distribucin normal, sta desempea un papel fundamental en el anlisis de los datos de experimentos diseados. Tambin es posible definir muchas distribuciones de muestreo importantes en trminos de variables aleatorias normales. Con frecuencia se usa la notacin y - N(t, if) para denotar que y sigue una distribucin normal con media fJ. y varianza if. Un caso especial importante de la distribucin normal es la distribucin normal estndar; es decir, fJ. = O y if = 1. Se observa que si y - N(t, if), la variable aleatoria
Y- fJ. z=-a
(2-13)
fJ.
Figura 2-5
La distribucin normal.
30
sigue la distribucin normal estndar, denotada z - N(O, 1). A la operacin ilustrada en la ecuacin 2-13 suele llamrsele la estandarizacin de la variable aleatoria normaly. En la tabla I del apndice se presenta la distribucin normal estndar acumulada. En muchas tcnicas estadsticas se supone que la variable aleatoria sigue una distribucin normal. El teorema del lmite central es con frecuencia una justificacin de la normalidad aproximada.
SiYI'Y2' ..,Yn es una sucesin de n variables aleatorias independientes que tienen una distribucin idntica con E(Yi) = t y V(Yi) = rT (ambas finitas) y x = YI + Y2 + '" + Ym entonces
zn
=,------: --
x-nt
vna-
tiene una distribucin N(O, 1) aproximada en el sentido de que, si Fn(z) es la funcin de la distribucin de Zn y cI>(z) es la funcin de la distribucin de la variable aleatoria N(O, 1), entonces lmn -+ ",[Fn(z)1 cI>(z)] = 1.
Este resultado establece en esencia que la suma de n variables aleatorias independientes que tienen una distribucin idntica sigue una distribucin aproximadamente normal. En muchos casos esta aproximacin es adecuada para valores muy pequeos de n, digamos n < 10, mientras que en otros casos se necesita un valor grande de n, digamos n > 100. Frecuentemente se considera que el error de un experimento surge de una manera aditiva de varias fuentes independientes; por consiguiente, la distribucin normal se convierte en un modelo recomendable para el error experimental combinado. Una importante distribucin de muestreo que puede definirse en trminos de variables aleatorias normales es la distribucin X2 o ji-cuadrada. Si ZI' Z2' ... , Zk son variables aleatorias que tienen una distribucin normal e independiente con media yvarianza 1, cuya abreviatura es NID(O, 1), entonces la variable aleatoria
sigue la distribucin ji-cuadrada con k grados de libertad. La funcin de densidad de la distribucin ji-cuadrada es
x>O
(2-14)
En la figura 2-6 se ilustran varias distribuciones ji-cuadrada. La distribucin es asimtrica, o sesgada, con media y varianza
l= k
a2
= 2k
respectivamente. En la tabla III del apndice se presentan los puntos porcentuales de la distribucin ji-cuadrada.
31
Como un ejemplo de una variable aleatoria que sigue la distribucin ji-cuadrada, suponga que YI' Y2, ..., Yn es una muestra aleatoria de una distribucin N(t, 02). Entonces
SS a2
L
i=l
(Yi - y)2
a2
Xn-I
(2-15)
Es decir, SS/o2 sigue una distribucin ji-cuadrada con n - 1 grados de libertad. Muchas de las tcnicas utilizadas en este libro requieren el clculo y la manipulacin de sumas de cuadrados. El resultado dado en la ecuacin 2-15 es de suma importancia y aparece en mltiples ocasiones; cuando una suma de cuadrados de variables aleatorias normales se divide por 02 sigue la distribucin ji-cuadrada. Al examinar la ecuacin 2-8, se observa que la varianza muestral puede escribirse como
(2-16)
Si las observaciones de la muestra son NID(t, 02), entonces la distribucin de S2 es [o2/(n -1)]X~_I' Porlo tanto, la distribucin de muestreo de la varianza muestral es una constante multiplicada por la distribucin ji-cuadrada si la poblacin tiene una distribucin normal. Si z y X~ son variables aleatorias independientes normal estndar y ji-cuadrada, respectivamente, la variable aleatoria
t
k
= ---===
~XUk
(2-17)
sigue la distribucin t con k grados de libertad, denotada tic La funcin de densidad de t es r[(k+1)/2] 1 f(t)= .Jkiir(k/2) [(t 2 /k)+1r k +I )/2
-oo<t<oo (2-18)
y la media y la varianza de t son.u = OY02 = k/(k - 2) para k> 2, respectivamente. En la figura 2-7 se ilustran varias distribuciones t. Observe que si k = 00, la distribucin t se convierte en la distribucin normal
32
k=
(normal)
o
Figura 2-7 Varias distribuciones t.
estndar. En la tabla II del apndice se presentan los puntos porcentuales de la distribucin t. Siy,yz, ..., Yn es una muestra aleatoria de una distribucin N{fl, a2), entonces la cantidad
y- f1 t = SI.Jn
(2-19)
se distribuye como t con n - 1 grados de libertad. La ltima distribucin de muestreo que consideraremos es la distribucin F. Si X;, YX~ son dos variables aleatorias ji-cuadrada independientes con u y v grados de libertad, respectivamente, entonces el cociente
F
II,V
=--
X;,lu X~ Iv
(2-20)
sigue la distribucin F con u grados de libertad en el numerador y v grados de libertad en el denominador. Six es una variable aleatoriaF con u grados de libertad en el numeradoryv grados de libertad en el denominador, entonces la distribucin de probabilidad de x es
h
x _
()- r(~)r(~)[(;;~+1rh)"
0.8
r(T)(;f
Z
x(u/Z)-l
o<x<oo
(2-21)
:B .o e c.
tU
-o tU -o
0.6
~ 0.4
-o tU -o
D
.~ 0.2
ID
o
Figura 2-8 Varias distribuciones F.
33
En la figura 2-8 se ilustran varias distribuciones F. Esta distribucin es muy importante en el anlisis estadstico de experimentos diseados. En la tabla IV del apndice se presentan los puntos porcentuales de la distribucin F. Como un ejemplo de un estadstico que sigue una distribucinF, suponga que se tienen dos poblaciones normales independientes con varianza comn cJ2. SiYn,Ylz, Yln es una muestra aleatoria de nI observaciones de la primera poblacin y SiYZl,Y2z, .. o, YZ nz es una muestra aleatoria de nz observaciones de la segunda, entonces
000'
(2-22)
donde SIZ y S; son las dos varianzas muestrales. Este resultado se sigue directamente de las ecuaciones 2-15 y 2-20.
2,4
Estamos preparados ahora para volver al problema del mortero de cemento portland de la seccin 2-1. Recuerde que se estaban investigando dos formulaciones diferentes para determinar si difieren en la fuerza de la tensin de adhesin. En esta seccin se examina cmo pueden analizarse los datos de este experimento comparativo simple utilizando procedimientos de prueba de hiptesis e intervalos de confianza para comparar las medias de dos tratamientos. A lo largo de esta seccin se supone que se usa un diseo experimental completamente aleatorizado. En este diseo, los datos se consideran como si fueran una muestra aleatoria de una distribucin normal.
2,4.1
Prueba de hiptesis
Se retoma ahora el experimento del cemento portland introducido en la seccin 2-1. Recuerde que el inters se encuentra en comparar la fuerza de dos formulaciones diferentes: una del mortero sin modificar y una del mortero modificado. En general, estas dos formulaciones pueden considerarse como dos niveles del factor "formulaciones". Sea queYn'Y12' .oo, Yln represente las nI observaciones del primer nivel del factor y que YZl, Yzz, ... , Y2nz represente las n z observaciones del segundo nivel del factor. Se supone que las muestras se sacan al azar de dos poblaciones normales independientes. En la figura 2-9 se ilustra la situacin.
34
Un modelo de los datos Con frecuencia los resultados de un experimento se describen con un modelo. Un modelo estadstico simple que describe los datos de un experimento como el que acaba de describirse es
i
=1
2
.. ,
Yij=fl+cij { )'=1', 2,
ni
(2-23)
donde Yij es la observacinj-sima del nivel i del factor, fl es la media de la respuesta para el nivel i-simo del factor, y cij es una variable aleatoria normal asociada con la observacin ij-sima. Se supone que las C ij son NlD(O, a), i = 1, 2. Se acostumbra hacer referencia a cq como el componente del error aleatorio del modelo. Puesto que las medias fl1 y fl2 son constantes, se observa directamente a partir del modelo que las Yijson NID(,u, a), i = 1,2, como se acaba de suponer arriba. Para ms informacin acerca de los modelos de los datos, referirse al material suplementario del texto. Hiptesis estadsticas . Una hiptesis estadstica es un enunciado o afirmacin ya sea acerca de los parmetros de una distribucin de probabilidad o de los parmetros de un modelo. La hiptesis refleja alguna conjetura acerca de la situacin del problema. Por ejemplo, en el experimento del cemento portland, puede pensarse que las fuerzas de la tensin de adhesin promedio de las dos formulaciones del mortero son iguales. Esto puede enunciarse formalmente como
H a :fl1
H 1 : fl1
= fl2
:;z!: fl2
donde fl1 es la fuerza de la tensin de adhesin promedio del mortero modificado y fl2 es la fuerza de tensin de enlace promedio del mortero sin modificar. Al enunciado H a:fl1 = fl2 se le llama la hiptesis nula y aH1:fl1 :;z!: fl2 se le llama la hiptesis alternativa. A la hiptesis alternativa que se especifica aqu se le llama hiptesis alternativa de dos colas porque sera verdadera si fl1 < fl2 o si fl1 > fl2' Para probar una hiptesis se proyecta un procedimiento para tomar una muestra aleatoria, calcular un estadstico de prueba apropiado para despus rechazar o no estar en posicin de rechazar la hiptesis nula Ha. Parte de este procedimiento consiste en especificar el conjunto de valores del estadstico de prueba que llevan al rechazo de Ha. A este conjunto de valores se le llama la regin c~tica o regin de re~ chazo de la prueba. Pueden cometerse dos tipos de errores cuando se prueban hiptesis. Si la hiptesis nula se rechaza cuando es verdadera, ha ocurrido un error tipo I. Si la hiptesis nula no se rechaza cuando es falsa, se ha cometido un error tipo II. Las probabilidades de estos dos errores se expresan con smbolos especiales:
a
= P( error tipo l) = P(rechazar Ha IHa es verdadera) f3 = P( error tipo II) = P( dejar de rechazar Ha IHa es falsa)
Potencia = 1- f3 = P(rechazar Ha IHa es falsa)
El procedimiento general en la prueba de hiptesis es especificar un valor de la probabilidad a del error tipo l, llamada con frecuencia el nivel de significacin de la prueba, y despus disear el procedimiento de prueba de tal modo que la probabilidadf3 del error tipo II tenga un valor convenientemente pequeo.
35
Considere que puede suponerse que las varianzas de las fuerzas de la tensin de adhesin fueron idnticas para ambas formulaciones del mortero. Entonces el estadstico de prueba que deber usarse para comparar las medias de dos tratamientos en el diseo completamente aleatorizado es - -v t = Y1 - Z (2-24)
o
S
p
JFfl
-+lZl
lZz
dondeYl YYz son las medias muestrales, lZlY lZz son los tamaos de las muestras, S~ es una estimacin de la varianza comn ai = = aZ calculada a partir de
a;
SZ
p
= (lZ l- 1)SI
nI
+(lZz -1)Si +n z - 2
(2-25)
y y son las dos varianzas muestra1es individuales. Para determinar si deber rechazarse H o:ll = #z, se comparara to con la distribucin t con lZl + lZz - 2 grados de libertad. Si It oI > t alZ,lI1 +1I2- Z ' donde t alZ,lI1 +112 -z es el punto porcentual a/2 superior de la distribucin t con nI + n z - 2 grados de libertad, entonces se rechazada H o Y se concluira que las fuerzas promedio de las dos formulaciones del mortero de cemento portland difieren. A este procedimiento de prueba se le llama generalmente la prueba t de dos muestras. Este procedimiento puede justificarse de la siguiente manera. Si el muestreo se est haciendo de distribuciones normales independientes, entonces la distribucin de Yl - Yz es N[ul - #z, er(l/n 1 + l/n z)]. Por lo tanto, si se conociera er, y si H O :#1 = lz fuera verdadera, la distribucin de
(2-26)
s si
seraN(O, 1). Sin embargo, al sustituir a con Sp en la ecuacin 2-26, la distribucin de Zo cambia de la normal estndar a la distribucin t con nI + lZz - 2 grados de libertad. Ahora bien, si H o es verdadera, t o de la ecuacin 2-24 se distribuye como t +1I2- Z y, por consiguiente, se esperara que 100(I-a) por ciento de los valores de to estn entre -t alZ,II +112 -Z Yt alZ,II +112 -Z' Una muestra que produjera un valor de to que estuviera fuera de estos lmites sera inusual si la hiptesis nula fuera verdadera y es evidencia de que H o deber rechazarse. Por lo tanto, la distribucin t con nI + n z - 2 grados de libertad es la distribucin de referencia apropiada para el estadstico de prueba too Es decir, describe el comportamiento de t ocuando la hiptesis nula es verdadera. Observe que a es la probabilidad del error tipo 1 de la prueba. En algunos problemas quiz quiera rechazarse H o nicamente si una de las medias es mayor que la otra. Por lo tanto, se especificara una hiptesis alternativa de una cola H 1 :#1 > #z YH o slo se rechazara si t o > t a,lI +112 -z Si se desea rechazar H o slo si #1 es menor que #2' entonces la hiptesis alternativa es H 1:#1 < lz, Y H o se rechazara si t o < -t a ,II+1I2- Z ' Para ilustrar el procedimiento, considere los datos del cemento portland de la tabla 2-1. Para estos datos, se encuentra que
ll
si = 0.061
12 z
SI = 0.316 11 = 10
Sz = 0.247 =10
36
Puesto que las desviaciones estndar muestrales son razonablemente similares, no es improcedente concluir que las desviaciones estndar (o las varianzas) poblacionales son iguales. Por lo tanto, puede usarse la ecuacin 2-24 para probar las hiptesis
H o :fl1
= fl2
:;z!: fl2
H 1 : fl1
Adems, 11 1 + 11 2 - 2 = 10 + 10 - 2 = 18, Ysi se elige a = 0.05, entonces H o:fl1 = fl2 se rechazara si el valor numrico del estadstico de prueba to > tO.025 , 18 = 2.101, o si to < -tO.025 , 18 = -2.101. Estos lmites de la regin crtica se ilustran en la distribucin de referencia (t con 18 grados de libertad) de la figur:a 2-10. Al utilizar la ecuacin 2-25 se encuentra que
S2 p
Sp = 0.284
y el estadstico de prueba es t
o
= Y1 - Y2
Sp
R1
-+111 11 2
Puesto que t o = -9.13 < -tO.025 , 18 = -2.101, se rechazaraHoy se concluira que las fuerzas de la tensin de adhesin promedio de las dos formulaciones del mortero de cemento portland son diferentes.
:B 1l
~ 0.2
"'C "'C
:2
~
"'C
0.3
'i
"'C
ro
ij 0.1 o
-6
-4
o
to
Figura 2-10 La distribucin t con 18 grados de libertad con la regin crtica tO025 18 = 2.1Dl.
37
Una manera de reportar los resultados de una prueba de hiptesis es estableciendo que la hiptesis nula fue rechazada o no para un valor de a o nivel de significacin especfico. Por ejemplo, en el experimento del mortero de cemento portland anterior puede decirse que H O :f-l1 = f-l2 se rechaz con el nivel de significacin 0.05. Esta enunciacin de las conclusiones es con frecuencia inadecuada porque no le ofrece al responsable de la toma de decisiones idea alguna de si el valor calculado del estadstico de prueba apenas rebas la regin de rechazo o si se adentr bastante en la misma. Adems, al darse los resultados de esta manera se les impone a otros usuarios de la informacin el nivel de significacin predefinido. Este enfoque puede ser insatisfactorio porque algunos responsables de la toma de decisiones podran sentirse incmodos con los riesgos que implica el valor a = 0.05. Para evitar estas dificultades, en la prctica se ha adoptado extensivamente el enfoque del valor P. El valor P es la probabilidad de que el estadstico de prueba asuma un valor que sea al menos tan extremo como el valor observado del estadstico cuando la hiptesis nula Ha es verdadera. Por lo tanto, un valor P transmite mucha informacin acerca del peso de la evidencia en contra de Ha y, por consiguiente, el responsable de la toma de decisiones puede llegar a una conclusin con cualquier nivel de significacin especificado. En trminos ms formales, el valor P se define como el nivel de significacin menor que llevara a rechazar la hiptesis nula Ha. Se acostumbra decir que el estadstico de prueba (y los datos) es significativo cuando se rechaza la hiptesis nula; por lo tanto, el valor P puede considerarse como el menor nivel a en el que los datos son significativos. Una vez que se conoce el valor P, el responsable de la toma de decisiones puede determinar la medida en que los datos son significativos sin que el analista de los datos imponga formalmente un nivel de significacin preseleccionado. No siempre es sencillo calcular el valor P exacto de una prueba. Sin embargo la mayora de los programas de computacin modernos para realizar anlisis estadsticos reportan valores P, y pueden obtenerse tambin en algunas calculadoras porttiles. A continuacin se indicar cmo obtener una aproximacin del valor P para el experimento del mortero de cemento portland. Por la tabla II del apndice, para una distribucin l con 18 grados de libertad, la probabilidad menor en el rea de la cola es 0.0005, para la cual lO.0005, 18 = 3.922. Ahora bien, Ilo I = 9.13 > 3.922, de donde, ya que la hiptesis alternativa es de dos colas, se sabe que el valor P debe ser menor que 2(0.0005) = 0.001. Algunas calculadoras porttiles tienen la capacidad para calcular valores P. Una de ellas es la HP-48. Utilizando esta calculadora se obtiene el valor P para el valor lo = -9.13 del experimento de la formulacin del mortero de cemento portland como P = 3.68 X 10-8 Por lo tanto, la hiptesis nula Ho:f-l 1 = f-l2 se rechazara con cualquier nivel de significacin a 2:: 3.68 X 10-8.
Solucin por computadora
Hay muchos paquetes de software de estadstica que cuentan con la capacidad para probar hiptesis estadsticas. En la tabla 2-2 se presenta la salida del procedimiento para la prueba l de dos muestras de Minitab aplicado al experimento de la formulacin del mortero de cemento portland. Observe que la salida incluye algunos estadsticos concisos acerca de las dos muestras (la abreviatura "SE Mean" ["SE media"] se refiere al error estndar de la media, s / J1i.), as como alguna informacin sobre los intervalos de confianza para la diferencia en las dos medias (los cuales se revisan en las secciones 2-4.3 y 2-6). El programa tambin prueba la hiptesis de inters, permitiendo que el analista especifique la naturaleza de la hiptesis alternativa ("not =" ["no ="] significa H 1:f-l1 :t: f-l2) Y la eleccin de a (a = 0.05 en este caso). La salida incluye el valor calculado de lo, el valor P (llamado el nivel de significacin) y la decisin que debera tomarse dado el valor especificado de a. Observe que el valor calculado del estadstico l difiere ligeramente del valor que se calcul manualmente aqu y que el valor P que se reporta es P = 0.0000. Mu-
38
Tabla 2-2
Prueba t de dos muestras usando Minitab para el experimento del mortero de cemento portland Prueba t de dos muestras e intervalo de confianza
Mod if i ed Unmod
10 10
mu Unmod: (-1.411, -0.885) 95% el for mu Modified t-Test mu Modified = mu Unmod (vs not =): T = -9.16 p = 0.0000 DF = 18 Both use Pooled StDev = 0.280
chos paquetes de software no reportarn un valor P real menor que 0.0001 y en su lugar presentan un valor "por omisin". ste es el caso aqu.
Para utilizar el procedimiento de la prueba t se establecen los supuestos de que ambas muestras se toman de poblaciones independientes que pueden describirse con una distribucin normal, que las desviaciones estndar o las varianzas de ambas poblaciones son iguales, y que las observaciones son variables aleatorias independientes. El supuesto de independencia es crtico, pero si el orden de las corridas est aleatorizado (y, de ser apropiado, se seleccionan al azar otras unidades y materiales experimentales), este supuesto por lo general se satisfar. Los supuestos de la igualdad de las varianzas y la normalidad son fciles de verificar utilizando una grfica de probabilidad normal. En general, la graficacin de probabilidades es una tcnica para determinar si los datos muestrales se ajustan a una distribucin hipotetizada con base en un examen visual subjetivo de los datos. El procedimiento general es muy simple y puede realizarse rpidamente con la mayora de los paquetes de software de estadstica. En el material suplementario del texto se analiza la construccin manual de las grficas de probabilidad normal. Para construir una grfica de probabilidad, primero se ordenan de menor a mayor las observaciones de la muestra. Es decir, la muestraYl,Yz, ... ,Yn se ordena como Y(1)'Y(2)' ...,Y(n)' donde Y(1) es la observacin menor'Y(2) es la segunda observacin menor, y as sucesivamente, conY(Il) la mayor. Las observaciones ordenadas Y() se grafican entonces contra sus respectivas frecuencias acumuladas observadas (j - 0.5)/n. La escala de la frecuencia acumulada se ha dispuesto de tal modo que si la distribucin hipotetizada describe de manera adecuada los datos, los puntos graficados estarn aproximadamente sobre una lnea recta; si los puntos graficados muestran una desviacin significativa de una recta, el modelo hipotetizado no es apropiado. Generalmente, determinar si los datos graficados pertenecen o no a una recta es una decisin subjetiva. Para ilustrar el procedimiento, suponga que quiere verificarse el supuesto de que la fuerza de la tensin de adhesin en el experimento de la formulacin del mortero de cemento portland sigue una distribucin normal. Inicialmente slo se consideran las observaciones de la formulacin del mortero sin modificar. En la figura 2-11a se ilustra una grfica de probabilidad normal generada por computadora. La mayora de las grficas de probabilidad normal muestran 100(j - O.5)/n en la escala vertical izquierda (yen ocasiones se muestra 100[1- (j - O.5)/n] en la escala vertical derecha), con el valor de la variable graficado en la escala horizontal. Algunas grficas de probabilidad normal convierten la frecuencia acumulada en un valor z normalizado. Una lnea recta, elegida de manera subjetiva, se ha trazado en medio de los pun-
39
o
ro ro
u
99.9 99 95 80 50 20 5
~
~
"O
:i
ro
E :o
ro
"O
E o
c: ro
:a ro
.o
O-
32
~
0.1
Fuerza de la tensin de adhesin a) Mortero sin modificar
o o ~
"O
_ 99.9 r-r--,--,--,--,--,--,--,--,--,--,----r---r---r---r---r--------,--,-, 99 95 80 50 20 5
:i
u
ro ro
E :o
ro
ro
c: ro
"O
E o
:c ro
.o
o
c::
0.1
16.3
16.5
16.7
16.9
Figura 2-11 Grficas de probabilidad normal de la fuerza de la tensin de adhesin eu el experimento del cemento portland.
tos graficados. Al trazar la lnea recta, uno deber guiarse ms por los puntos de la parte media de la grfica que por los puntos extremos. Una buena regla emprica es trazar la recta aproximadamente entre los puntos de los cuartiles 25 y 75. As se determin la recta de la figura 2-11a. Para evaluar la "proximidad" de los puntos a la lnea recta, imagine un lpiz grueso colocado sobre la recta. Si este lpiz imaginario cubre todos los puntos, entonces una distribucin normal describe de manera adecuada los datos. Puesto que los puntos de la figura 2-11a pasaran la prueba del lpiz grueso, se concluye que la distribucin normal es un modelo apropiado para la fuerza de la tensin de adhesin del mortero sin modificar. En la figura 2-11b se presenta la grfica de probabilidad normal para las 10 observaciones de la fuerza de la tensin de adhesin del mortero modificado. De nueva cuenta, se concluira que es razonable el supuesto de una distribucin normal. Es posible obtener una estimacin de la media y la desviacin estndar directamente de la grfica de probabilidad normal. La media se estima como el percentil50 de la grfica de probabilidad y la desviacin estndar se estima como la diferencia entre los percentiles 84 y 50. Esto significa que el supuesto de la igualdad de las varianzas poblacionales en el experimento del cemento portland puede verificarse comparando las pendientes de las dos rectas de las figuras 2-lla y 2-llb. Ambas rectas tienen pendientes muy si-
40
milares, por lo que el supuesto de la igualdad de las varianzas es razonable. Si se viola este supuesto, deber usarse la versin de la prueba t que se describe en la seccin 2-4.4. En el material suplementario del texto hay ms informacin acerca de la verificacin de los supuestos de la prueba t. Cuando ocurren violaciones importantes de los supuestos, se afectar el desempeo de h. prueba t. En general, las violaciones de pequeas a moderadas no son motivo de preocupacin particular, pero no deber ignorarse cualquier falla del supuesto de independencia, as como los indicios claros de que no se satisface el supuesto de normalidad. Tanto el nivel de significacin de la prueba como la capacidad para detectar diferencias entre las medias sern afectados adversamente por el incumplimiento de estos supuestos. Un recurso para resolver este problema son las transformaciones. Este tema se analiza con mayor detalle en el captulo 3. Tambin es posible utilizar procedimientos no paramtricos para la prueba de hiptesis cuando las observaciones provienen de poblaciones no normales. Referirse a Montgomery y Runger [83d] para ms detalles.
Una justificacin alternativa de la prueba t
La prueba t de dos muestras que acaba de presentarse depende en teora del supuesto fundamental de que las dos poblaciones de las que se seleccionaron las muestras al azar son normales. Aun cuando el supuesto de normalidad es necesario para desarrollar formalmente el procedimiento de prueba, como ya se mencion, las desviaciones moderadas de la normalidad no afectarn seriamente los resultados. Puede argumentarse (por ejemplo, ver Box, Hunter y Hunter [18]) que el uso de un diseo aleatorizado permite probar hiptesis sin ningn supuesto respecto de la forma de la distribucin. En resumen, el razonamiento es el siguiente. Si los tratamientos no tienen ningn efecto, todas las [20!/(1O!l0!)] = 184,756 formas posibles en que podran ocurrir las 20 observaciones son igualmente posibles. Hay un valor de t o para cada uno de estos 184,756 posibles arreglos. Si el valor de to que se obtiene en realidad de los datos es inusualmente grande o inusualmente pequeo con referencia al conjunto de los 184,756 valores posibles, es una indicacin de que #1 :; #2' A este tipo de procedimiento se le llama prueba de aleatorizacin. Puede demostrarse que la prueba t es una buena aproximacin de la prueba de aleatorizacin. Por lo tanto, se usarn aqu pruebas t (y otros procedimientos que pueden considerarse aproximaciones de pruebas de aleatorizacin) sin prestar demasiada atencin al supuesto de normalidad. sta es una de las razones por las que un procedimiento simple, como las grficas de probabilidad normal, es adecuado para verificar el supuesto de normalidad.
2~4.2
La eleccin de un tamao de la muestra apropiado es uno de los aspectos ms importantes de cualquier problema de diseo experimental. La eleccin del tamao de la muestra y la probabilidad/3 del error tipo 11 guardan una estrecha relacin. Suponga que se estn probando las hiptesis
H O:#1=#2 H 1 : #1
:;
#2
Yque las medias no son iguales, por lo que o = #1 -#2' Puesto que H O :#1 = #2 no es verdadera, la preocupacin principal es cometer la equivocacin de no rechazar H o. La probabilidad del error tipo 11 depende de la verdadera diferencia en las medias o. A una grfica de /3 contra opara un tamao particular de la muestra se le llama la curva de operacin caracterstica, o curva OC, de la prueba. El error f3 tambin es una funcin del tamao de la muestra. En general, para un valor dado de o, el error /3 se reduce cuando el tamao de la muestra se incrementa. Es decir, es ms fcil detectar una diferencia especificada en las medias para tamaos grandes de la muestra que para los tamaos pequeos.
41
En la figura 2-12 se muestra un juego de curvas de operacin caracterstica para las hiptesis H o :fll = fl2 H 1 : fll :; fl2 para el caso en que las dos varianzas poblacionales o~ yo; son desconocidas pero iguales (o~ = o; = 0 2 ) Ypara un nivel de significacin de a = 0.05. Las curvas tambin parten del supuesto de que los tamaos de las muestras de las dos poblaciones son iguales; es decir, nI = n 2 = n. El parmetro del eje horizontal de la figura 2-12 es
d)fll-fl21=~
20 20 La divisin de 1<3 I por 20 permite al experimentador usar el mismo juego de curvas, independientemente del valor de la varianza (la diferencia en las medias se expresa en unidades de desviacin estndar). Por otra parte, el tamao de la muestra usado para construir las curvas es en realidad n * = 211 - 1. Al examinar estas curvas, se observa lo siguiente:
Entre ms grande sea la diferencia en las medias, /11 -1.(,20 menor ser la probabilidad del error tipo TI para un tamao de la muestra y un valor de a dados. Es decir, para un tamao de la muestra y un valor de a especificados, la prueba detectar con mayor facilidad las diferencias grandes que las pequeas. 2. Cuando el tamao de la muestra se hace ms grande, la probabilidad del error tipo TI se hace ms pequea para una diferencia en las medias y un valor de a dados. Es decir, para detectar una diferencia <3 especificada, puede aumentarse la potencia de la prueba incrementando el tamao de la muestra.
1.
Las curvas de operacin caracterstica son con frecuencia tiles para seleccionar el tamao de la muestra que debe usarse en un experimento. Por ejemplo, considere el problema del mortero de cemento portland comentado antes. Suponga que si las dos formulaciones difieren en la fuerza promedio hasta en 0.5 kgf/cm2, sera deseable detectarlo con una probabilidad alta. Por lo tanto, puesto que fll - fl2 =
1.0 .------r------------r---~--....---__
0.8
E.
~
lO
lO
0.6
"C "C
al
:5
"C
lO
O.4I--Hffi-t\-t--\--\--.,.-t~.--t--~d----
13
J:
0.21--IrH!H\---\-\----*--:-~_+~...---p...-----+_--_
Figura 212 Curvas de operacin caracterstica para la prueba t de dos colas con a = 0.05. (Reproducida con permiso de "Operating Characteristics Curves for the Common Statistical Tests of Significance", c.L. Ferris, EE. Grubbs y C.L. Weaver, Annals of Mathematical Statistics.)
42
0.5 kgf/cm2es la diferencia "crtica" en las medias que quiere detectarse, se encuentra que d, el parmetro del eje horizontal de la curva de operacin caracterstica de la figura 2-12, es
d=
Ifl l-fl21=
2a
0.5= 0.25
2a
Desafortunadamente, d incluye al parmetro desconocido a. Sin embargo, suponga que con base en la experiencia previa se piensa que es altamente improbable que la desviacin estndar de cualquiera de las observaciones de la fuerza exceda 0.25 kgf/cm 2. Entonces al usar a = 0.25 en la expresin anterior para d se obtiene d = 1. Si quiere rechazarse la hiptesis nula 95% de las veces cuandofll -fl2 = 0.5, entoncesf3 = 0.05, Y en la figura 2-12 conf3 = 0.05 Y d = 1 se obtiene n* = 16, aproximadamente. Por lo tanto, puesto que n * = 2n - 1, el tamao de la muestra requerido es
n= n*+l = 16+1 = 8.5=9 2 2
y se usaran los tamaos de las muestras n 1 = n 2 = n = 9. En el ejemplo que se ha venido considerando, el experimentador utiliz en realidad un tamao de la muestra de 10. Quizs el experimentador decidi incrementar ligeramente el tamao de la muestra a fin de prevenir la posibilidad de que la estimacin previa de la desviacin estndar comn a haya sido demasiado conservadora y quiz fuera un poco mayor que 0.25. Las curvas de operacin caracterstica desempean con frecuencia un papel importante en la eleccin del tamao de la muestra en los problemas de diseo experimental. Su utilizacin a este respecto se revisa en captulos subsecuentes. Para un anlisis de los usos de las curvas de operacin caracterstica en otros experimentos comparativos simples similares a la prueba t de dos muestras, vase Montgomery y Runger [83d].
2~4.3
Intervalos de confianza
Aun cuando la prueba de hiptesis es un procedimiento til, en ocasiones no cuenta la historia completa. Muchas veces es preferible proporcionar un intervalo dentro del cual cabra esperar que estara incluido el valor del parmetro o los parmetros en cuestin. A las declaraciones de estos intervalos se les llama intervalos de confianza. En m~chos experimentos de ingeniera e industriales, el experimentador sabe de antemano que las medias fll y fl2 difieren; por consiguiente, la prueba de la hiptesis fll = fl2 es de escaso inters. Por lo general el experimentador estara ms interesado en un intervalo de confianza para la diferencia en las medias fll - fl2' Para definir un intervalo de confianza, suponga que e es un parmetro desconocido. Para obtener una estimacin del intervalo de e, es necesario encontrar dos estadsticos L y U tales que la declaracin de probabilidad
P(L::5 e::5 U) = 1- a
(2-27)
sea verdadera. Al intervalo (2-28) se le llama intervalo de confianza de 100(1- a) por ciento para el parmetro e. La interpretacin de este intervalo es que si, en muestreos aleatorios repetidos, se construye gran nmero de estos intervalos, 100(1 -a) por ciento de ellos contendrn el verdadero valor de e. Alos estadsticosL y U se les llama los lmites
43
de confianza inferior y superior, respectivamente, y a 1- a se le llama el coeficiente de confianza. Si a == 0.05, a la ecuacin 2-28 se le llama intervalo de confianza de 95% para e. Observe que los intervalos de confianza tienen una interpretacin de frecuencia; es decir, no se sabe si la declaracin es verdadera para esta muestra especfica, pero s se sabe que el mtodo usado para generar el intervalo de confianza produce declaraciones correctas en 100(1 - a) por ciento de las veces. Suponga que quiere encontrarse un intervalo de confianza de 100(1 - a) por ciento para la verdadera diferencia de las medias f.-lI - f.-lz en el problema del cemento portland. El intervalo puede deducirse de la siguiente manera. El estadstico
== 1-a
(2-29)
(2-30)
es un intervalo de confianza de 100(1 - a) por ciento para f.-lI - f.-lz. La estimacin real del intervalo de confianza de 95% para la diferenCia en la fuerza de la tensin de adhesin promedio de las formulaciones del mortero de cemento portland se encuentra haciendo la siguiente sustitucin en la ecuacin 2-30:
16.76-17.92- (2.101)0.284~fa-+fa-'5. f.-lI - f.-lz '5.16.76 -17. 92 + (2.101 )0.284~fa- + fa-1.16-0.27'5.f.-lI-f.-lZ '5.-1.16+0.27 -1.43'5. f.-lI - f.-lz '5. -0.89
Por lo tanto, el intervalo de confianza de 95% estimado para la diferencia en las medias se extiende de -1.43 kgf/cm z a -0.89 kgf/cmz. Expresado en otros trminos, el intervalo de confianza es f.-lI - f.-lz == -1.16 kgf/cm z 0.27 kgflcmz, o la diferencia enlasfuerzas promedio es -1.16 kgf/cmz, y la precisin de esta estimacin es de 0.27 kgf/cmz. Observe que como f.-lI - f.-lz == Ono est incluida en este intervalo, los datos no apoyan la hiptesis de que f.-lI == f.-lz con el nivel de significacin de 5%. Es probable que la fuerza media de la formulacin sin modificar exceda la fuerza media de la formulacin modificada. Observe que en la ta-
44
bla 2-2 Minitab tambin report este intervalo de confianza cuando se llev a cabo el procedimiento de la prueba de hiptesis.
2~4.4
Caso en que
a :;z!: a;
H o : /11 H 1 : /11
Si se est probando
= /12
:;z!:
/12
y no hay bases para suponer que las varianzas a~ ya; son iguales, entonces es necesario hacer ligeras modificaciones en la prueba t de dos muestras. En este caso el estadstico de prueba es
J\ - Y2
S2 S; _1_+_nI n2
(2-31)
Este estadstico no se distribuye exactamente como t. No obstante, t es una buena aproximacin de la distribucin de to si se usa
(2-32)
para los grados de libertad. Una indicacin clara de la desigualdad de las varianzas en una grfica de probabilidad normal sera una situacin que requerira esta versin de la prueba t. El lector no deber encontrar problemas para desarrollar una ecuacin para encontrar ese intervalo de confianza para la diferencia en las medias en el caso de varianzas desiguales.
2~4.5
a ya;
H o : /11 H 1 : /11
= /12
:;z!:
/12
z - Y Y2
10-
2 2 _1 + _ 2
(2-33)
nI
n2
Si ambas poblaciones son normales, o si los tamaos de las muestras son lo suficientemente grandes para aplicar el teorema del lmite central, la distribucin de Zo es N(O, 1) si la hiptesis nula es verdadera. Por lo tanto, la regin crtica se encontrara utilizando la distribucin normal en lugar de la distribucin t. Especficamente, H ose rechazara si IZo I > Za12' donde Zal2 es el punto porcentual a/2 superior de la distribucin normal estndar.
r
1:
i:
l: 1.
45
A diferencia de la prueba t de las secciones anteriores, en la prueba de las medias con varianzas conocidas no se requiere el supuesto de que el muestreo se haga de poblaciones normales. Puede aplicarse el teorema del lmite central para justificar una distribucin normal aproximada para la diferencia en las medias muestrales Yl - YZ. El intervalo de confianza de 100(1-a) por ciento para#l-#Z cuando las varianzas se conocen es
(2-34)
Como ya se seal, el intervalo de confianza es con frecuencia un complemento til del procedimiento de prueba de hiptesis.
2,4.6
Algunos experimentos incluyen la comparacin de la media# de una sola poblacin con un valor especificado, por ejemplo #0. Las hiptesis son
H o:#
= #0
H 1 :W:;. #0
Si la poblacin es normal con varianza conocida, o si la poblacin no es normal pero el tamao de la muestra es lo suficientemente grande para aplicar el teorema del lmite central, entonces la hiptesis puede probarse utilizando una aplicacin directa de la distribucin normal. El estadstico de prueba es
Z - Y-#o
0-
a/.Jii
(2-35)
Si H o:# = #0 es verdadera, entonces la distribucin de Zo es N(O, 1). Por lo tanto, la regla de decisin para H o:# = #0 es rechazar la hiptesis nula si IZo I > ZaIZ. El valor de la media #0 especificado en la hiptesis nula se determina por lo general mediante una de las tres formas siguientes. Puede ser resultado de evidencia, conocimientos o experimentacin previos. Puede ser resultado de alguna teora o modelo que describe la situacin bajo estudio. Por ltimo, puede ser resultado de especificaciones contractuales. El intervalo de confianza de 100(1 - a) por ciento para la verdadera media poblacional es
(2-36)
Un proveedor ofrece lotes de tela a un fabricante de textiles. El fabricante desea saber si la resistencia a la ruptura promedio excede 200 psi. De ser as, el fabricante aceptar el lote. La experiencia pasada indica que un valor razonable para la varianza de la resistencia a la ruptura es 100(psif Las hiptesis que debern probarse son
HO:Jl
= 200
H 1 : # > 200
Observe que se trata de una hiptesis alternativa de una cola. Por lo tanto, el lote se aceptara slo si la hiptesis nula H o:# = 200 pudiera rechazarse (es decir, si Zo > Za).
46
ji
= 214 psi.
Se seleccionan cuatro ejemplares aleatoriamente, y la resistencia a la ruptura promedio observada es El valor del estadstico de prueba es
Z
o
Si se especifica un error tipo 1 de a = 0.05, en la tabla 1 del apndice se encuentra que Za = ZO.05 = 1.645. Por lo tanto, H ose rechaza y se concluye que la resistencia a la ruptura promedio del lote excede 200 psi.
Cuando no se conoce la varianza de la poblacin, es necesario establecer el supuesto adicional de que la poblacin sigue una distribucin normal, aunque las desviaciones moderadas de la normalidad no afectarn seriamente los resultados. Para probar H o:f1 = f10 en el caso de la varianza desconocida, se usa la varianza muestral 52 para estimar if. Al sustituir a con 5 en la ecuacin 2-35, se obtiene el estadstico de prueba
t _Y-f1o
0-
5/.Jii
(2-37)
La hiptesis nula H o:1-1 = f10 se rechazara si Ito I > ta /2,1l-1' donde ta/2,1l-1 denota el punto porcentual a/2 superior de la distribucin t con n -1 grados de libertad. El intervalo de confianza de 100(1-a) por ciento es en este caso
(2-38)
2~4.7
Resumen
En las tablas 2-3 y 2-4 se resumen los procedimientos de prueba estudiados aqu para las medias muestrales. Se muestran las regiones crticas para hiptesis alternativa tanto de una como de dos colas.
Tabla 2-3 Pruebas para medias con varianza conocida
Hiptesis
H O:# = #0
H:# ~ #0
H o:# = #0 H:Jl < #0 H o:# = #0 H:#> #0
Z - y - #0 o-a/.J
Zo < -Za
H o:# = Jlz H:#z ~ #z H o:# = #z H:Jl < #z H o:# = #z H:# > Jlz
r
2-5 INFERENCIAS ACERCA DE LAS DIFERENCIAS EN LAS MEDIAS, DISEOS DE COMPARACIONES PAREADAS
47
Tabla 2-4
Hiptesis
Ho:/-l = /-lo H:/-l ~ /-lo Ho:/-l = /-lo H:/-l < /-lo Ho:fl = /-lo H:/-l> /-lo Ho:/-l = flz H:fl ~ /-lz
Estadstico de prueba
Criterios de rechazo
t - Ji -/-lo o - S / .Jii
t <
o
a,n-
t =
o
S
p
R1
y -yz
Il
-+/2z
V =Il
+ /2z-2
/2z-1
2,5 2,5.1
En algunos experimentos comparativos simples puede conseguirse un mejoramiento significativo de la precisin haciendo comparaciones de observaciones pareadas del material experimental. Por ejemplo, considere una mquina para probar la dureza que presiona una barra con una punta afilada sobre un ejemplar de prueba de metal con una fuerza conocida. Al medir la profundidad de la depresin producida por la punta, se determina la dureza del ejemplar de prueba. En esta mquina pueden instalarse dos puntas diferentes y aun cuando la precisin (la variabilidad) de las mediciones hechas con las dos puntas parece ser la misma, se sospecha que una de las puntas produce diferentes lecturas de la dureza que la otra. Sera posible realizar un experimento de la siguiente manera. Podran seleccionarse al azar varios ejemplares de prueba del metal (por ejemplo, 20). La mitad de estos ejemplares de prueba podran probarse con la punta 1 y la otra mitad con la punta 2. La asignacin exacta de los ejemplares a las puntas se determinara de manera aleatoria. Puesto que se trata de un diseo completamente aleatorizado, la dureza promedio de las dos muestras podra compararse utilizando la prueba t descrita en la seccin 2-4. Al reflexionar un poco al respecto, se descubrira una seria desventaja del diseo completamente aleatorizado en este problema. Suponga que los ejemplares de prueba del metal se cortaron de barras di-
48
ferentes que se fabricaron a temperaturas diferentes o que no fueran exactamente homogneos en cualquier otra forma que pudiera afectar la dureza. Esta falta de homogeneidad entre los ejemplares contribuir a la variabilidad de las mediciones de la dureza y tender a inflar el error experimental, haciendo ms difcil detectar una diferencia real entre las puntas. Para protegerse de esta posibilidad, considere un diseo experimental alternativo. Suponga que cada ejemplar de prueba tiene el tamao suficiente para que puedan hacerse en l dos determinaciones de la dureza. Este diseo alternativo consistira en dividir cada ejemplar de prueba en dos secciones, para despus asignar de manera aleatoria una punta a una mitad de cada ejemplar de prueba y la otra punta a la otra mitad. El orden en que se prueban las puntas en un ejemplar de prueba particular se seleccionara al azar. El experimento, cuando se llev a cabo de acuerdo con este diseo con 10 ejemplares de prueba, produjo los datos (codificados) que se muestran en la tabla 2-5. Un modelo estadstico que describe los datos de este experimento puede expresarse como
i =1 2 Yij = /1 +{3j +sij { j= 1: 2, oo., 10
(2-39)
donde Yij es la observacin de la dureza para la puntai en el ejemplar de pruebaj,/1 es la verdadera dureza promedio de la punta i-sima,{3j es un efecto sobre la dureza debido al ejemplar de pruebaj-simo, y sij es Es decir, es la varianza de las mediciones el error experimental aleatorio con media cero y varianza de la dureza hechas con la punta 1 ya; es la varianza de las mediciones de la dureza hechas con la punta 2. Observe que si se calcula la diferencia pareada j-sima
a .
a;
dj
= Y1j /1d
Y2j
= 1,
2, oo., 10
(2-40)
= E(d j )
= E(Y1j -
Y2j )
Tabla 2-5
176
233 3 3 5 443 588 632 724 8 9 9 954
10
2-5 INFERENCIAS ACERCA DE LAS DIFERENCIAS EN LAS MEDIAS, DISEOS DE COMPARACIONES PAREADAS
49
tivo de las f3j de los ejemplares de prueba se cancela cuando las observaciones estn pareadas de esta manera. Probar H o:/11 = /1z es equivalente a probar H o :/1d = O H 1:/1d # O El estadstico de prueba para esta hiptesis es
(2-41)
donde
Sd =
t (dj_d)z]l/Z
}-1
[!
}=1
Z d:-!(! dj)Z]l/
n
}=1
(2-43)
n-1
n-1
es la desviacin estndar muestral de las diferencias. H o: /1d = Ose rechazara si ItoI > talZ,n-l' Debido a que las observaciones de los niveles del factor estn "pareadas" en cada unidad experimental, a este procedimiento suele llamrsele prueba t pareada. Por los datos de la tabla 2-5, se encuentra d 6 = 3- 2= 1 d 1 = 7- 6= 1 dz = 3- 3= O
d 3 =3-5=-2 d 4 =4-3=1 d 7 =2-4=-2 d s =9-9=0 d g =5-4=1
d lO = 4-5=-1
d s = 8- 8= O
Por lo tanto,
_ 1 d=n
2: d j=l
11
1 =-(-1)=-0.10 10
_ Sd -
[~
d;
-~(~
n-1
di
= 1.20
Suponga que se elige a = 0.05. Entonces, para tomar una decisin se calculara toYH o se rechazara si ItoI > tO.025 , 9 = 2.262. El valor calculado del estadstico de prueba t pareada es
t
= -----;=
50
"C
:s jg
o
"C "C "C 'ji
<ti
~ 0.3
~0.2
0.1
Cl
-6
-4
y como Ita I = 0.261> t O.025 , 9 = 2.262, la hiptesis Ho:fld = Ono puede rechazarse. Es decir, no hay evidencia que indique que las dos puntas producen lecturas de la dureza diferentes. En la figura 2-13 se muestra la distribucin de to con 9 grados de libertad, la distribucin de referencia para esta prueba, con el valor de t o indicado en relacin con la regin crtica. En la tabla 2-6 se muestra la salida de computadora del procedimiento para la prueba t pareada de Minitab para este problema. Observe que el valor P para esta prueba es P=O.SO, lo cual implica que no puede rechazarse la hiptesis nula con ningn nivel de significacin razonable.
2~5.2
Al diseo que se utiliz en realidad para este experimento se le llama diseo de comparaciones pareadas, el cual ilustra el principio de la formacin de bloques comentado en la seccin 1-3. De hecho, es un caso especial de un tipo de diseo ms general llamado diseo de bloques aleatorizados. El trmino bloque se refiere a una unidad experimental relativamente homognea (en el caso tratado aqu, los ejemplares de prueba del metal son los bloques), y el bloque representa una restriccin sobre la aleatorizacin completa debido a que las combinaciones de los tratamientos slo se aleatorizan dentro del bloque. En el captulo 4 se examina este tipo de diseos. En dicho captulo el modelo matemtico del diseo, la ecuacin 2-39, se escribe en una forma ligeramente diferente.
Tabla 2-6 Resultados de Minitab de la prueba t pareada para el ejemplo de la prueba de la dureza Prueba t pareada e intervalo de confianza
Pair~d
10 10 10
SE
95% el for mean difference: (-0.956, 0.756) t-Test of mean difference = O (vs not = O): T-Value = -0.26 P-Value = 0.798
51
Antes de dejar este experimento, es necesario destacar varios puntos. Observe que, aun cuando se han hecho 2n = 2(10) = 20 observaciones, se cuenta nicamente con n - 1 = 9 grados de libertad para el estadstico t. (Se sabe que conforme se incrementan los grados de libertad para t, la prueba se hace ms sensible.) Al hacer la formacin de bloques o pareo, se han "perdido" en. realidad n -1 grados de libertad, pero se espera haber ganado un mejor conocimiento de la situacin al eliminar una fuente adicional de variabilidad (la diferencia entre los ejemplares de prueba). Puede obtenerse unaindicacin de la calidad de la informacin producida por el diseo pareado comparando la desviacin estndar Sd de las diferencias con la desviacin estndar combinada Sp que habra resultado si el experimento se hubiera conducido de manera completamente aleatorizada y se hubieran obtenido los datos de la tabla 2-5. Al utilizar los datos de la tabla 2-5 como dos muestras independientes, la desviacin estndar combinada que se calcula con la ecuacin 2-25 es Sp = 2.32. Al comparar este valor con Sd = 1.20, se observa que la formacin de bloques o pareo ha reducido la estimacin de la variabilidad en cerca de 50%. Esta informacin tambin puede expresarse en trminos de un intervalo de confianza para,ul -flz. Utilizando los datos pareados, un intervalo de confianza de 95% para,ul - ,uz es
-0.10(2.262)(1.20)/ .JIO -0.1O0.86 Recprocamente, al utilizar el anlisis combinado o independiente, un intervalo de confianza de 95% para,ul - ,uz es
4.80- 4.90(2.101 )(2.32)~to+to -0.102.18 El intervalo de confianza basado en el anlisispareado tiene una anchura sensiblemente menor que el intervalo de confianza del anlisis independiente. Esto ilustra la propiedad de reduccin del ruido de la formacin de bloques. La formacin de bloques no es siempre la mejor estrategia de diseo. Si la variabilidad dentro de los bloques es la misma que la variabilidad entre los bloques, la varianza de Yl -Yz ser la misma independientemente del diseo que se use. De hecho, la formacin de bloques en esta situacin sera una eleccin de diseo pobre porque la formacin de bloques produce la prdida de n - 1 grados de libertad y llevar en realidad a un intervalo de confianza con una anchura mayor para,ul - ,uz. En el captulo 4 se ofrece una revisin ms amplia de la formacin de bloques.
2~6
En muchos experimentos, el inters se encuentra en las posibles diferencias en la respuesta media de dos tratamientos. Sin embargo, en algunos experimentos es la comparacin de la variabilidad en los datos lo que es importante. En la industria de alimentos y bebidas, por ejemplo, es importante que la variabilidad del equipo de llenado sea pequea para que todos los empaques estn cerca del peso neto nominal o el
52
volumen del contenido neto nominal. En los laboratorios qumicos, tal vez quiera compararse la variabilidad de dos mtodos de anlisis. A continuacin se examinan brevemente las pruebas de hiptesis y los intervalos de confianza para las varianzas de distribuciones normales. A diferencia de las pruebas para las medias, los procedimientos para las pruebas de varianzas son bastante ms sensibles al supuesto de normalidad. En el apndice 2A de Davies [36] hay un buen anlisis del supuesto de normalidad. Suponga que quiere probarse la hiptesis de que la varianza de una poblacin normal es igual a una constante, por ejemplo, o~. Expresado en trminos formales, quiere probarse
H O:0 =o~
H 1 :0 2
;
(2-44)
o~
El estadstico de prueba para la ecuacin 2-44 es (2-45) donde SS = 2:7=1 (y - y)2 es la suma de cuadrados corregida de las observaciones muestrales. La distribucin de referencia apropiada para X ~ es la distribucin ji-cuadrada con 12 - 1 grados de libertad. La hiptesis nula se rechaza si X~ > X~/2,n-l o si X ~ < X~-(a/2),n-1' donde X~/2,n-l y XL(a/2),n-l son los puntos porcentuales a/2 superior y 1 - (a/2) inferior de la distribucin ji-cuadrada con 12 - 1 grados de libertad, respectivamente. En la tabla 2-7 se presentan las regiones crticas para las hiptesis alternativas de una cola. El intervalo de confianza de 100(1 - a) por ciento para if es (12-1)S2 <
?
X~/2,1l-1
-o _
<
(12-1)S2
?
(2-46)
Xi"-(a/2),1l-1
Considere ahora la prueba de la igualdad de las varianzas de dos poblaciones normales. Si se toman muestras aleatorias independientes de tamao 12 1 y 12 2 de las poblaciones 1 y 2, respectivamente, el estadstico de prueba para
H O''02 1
?
2 0 2 ?
(2-47)
H l:i";
La distribucin de referencia apropiada para Fa es la distribucinF con 12 1 -1 grados de libertad en el numerador y 12 2 -1 grados de libertad en el denominador. La hiptesis nula se rechazara si Fa > Fa/2 ,1l1 -1,n2- 1 O si Fa < F1-(a/2),Il-1,1l2- 1 ' donde Fa/2 ,n-1,1l2- 1 YF1-(a/2),Il-1,n2- 1 denotan los puntos porcentuales a/2 superior y 1- (a/2) inferior de la distribucinF con 12 1 -1 Y12 2 -1 grados de libertad. En la tabla IV del apndice slo aparecen los puntos porcentuales para la cola superior de F; sin embargo, los puntos de las colas superior e inferior se relacionan por
1 F:l-a,vl'V2 = F- - a,v2 ,v]
(2-49)
r
2-6 INFERENCIAS ACERCA DE LAS VARIANZAS DE DISTRIBUCIONES NORMALES
53
Tabla 2-7
Hiptesis
2 H o:a2 = a 0
Estadstico de prueba
Criterios de rechazo
X(j
?
H :a
:;
a~
2
X~ < X:-a/2,fI-
Xo =
>
X~/2,fI-
H o:a2 = a~
H:a 2
en -1 )S2
a2 o
< a~ > a~
X~ < X:-a,fI-
H o:a2 = a~
H :a
2
X~ > X~'fI-
R = S2
o
Ho:a: = a; H :a:
:;
a;
si
Ro=~
s;
sI
> a;
En el captulo 3, seccin 3-4.3, se analizan los procedimientos de prueba para ms de dos varianzas. Se revisar tambin el uso de la varianza o la desviacin estndar como variable de respuesta en situaciones experimentales ms generales.
EJEMPLO
2~2
Un ingeniero qumico investiga la variabilidad inherente de dos tipos de equipo de prueba que pueden usarse para monitorear la produccin de un proceso. El ingeniero sospecha que el equipo antiguo, tipo 1, tiene una varianza mayor que la del equipo nuevo. Por lo tanto, quiere probar las hiptesis
H a''a2 1
H1
:a; >a;
=a 2 2
=
Se toman dos muestras aleatorias de 11 1 = 12 Y11 2 = 10 observaciones, y las varianzas muestrales son S12 14.5 Y si = 10.8. El estadstico de prueba es
F
a
= S1 = 14.5 = 1.34
si
10.8
En la tabla IV del apndice se encuentra que Fa,os, 11, 9 = 3.10, por lo que no puede rechazarse la hiptesis nula. Es decir, se ha encontrado evidencia estadstica insuficiente para concluir que la varianza del equipo antiguo sea mayor que la varianza del equipo nuevo.
..........................................
a; /a;
El intervalo de confianza de 100(1 - a) por ciento para el cociente de las varianzas poblacionales es (2-50)
54
,
Para ilustrar el uso de la ecuacin 2-50, el intervalo de confianza de 95% para el cociente de las varianzas .025 , 9,11 = 3.59 Y F O.975 ,9,l1 = 1/FO.025,l1,9 = 1/3.92 = 0.255, O 14.5 (0.255):5
10.8
o~
O2
:5 14.5 (3.59)
10.8
o;
2~7
PROBLEMAS
Se requiere que la resistencia a la ruptura de una fibra sea de por lo menos 150 psi. La experiencia pasada indica que la desviacin estndar de la resistencia a la ruptura es o = 3 psi. Se prueba una muestra aleatoria de cuatro ejemplares de prueba, y los resultados son Y = 145, Yz = 153, Y3 = 150 YY4 = 147. a) Enunciar las hiptesis que el lector considere que deberan probarse en este experimento. b) Probar estas hiptesis utilizando a = 0.05. A qu conclusiones se llega? e) Encontrar el valor P para la prueba del inciso b. d) Construir un intervalo de confianza de 95% para la resistencia a la ruptura promedio. Supuestamente, la viscosidad de un detergente lquido debe promediar 800 centistokes a 25C. Se colecta una muestra aleatoria de 16 lotes del detergente, y la viscosidad promedio es 812. Suponga que se sabe que la desviacin estndar de la viscosidad es a = 25 centistokes. a) Enunciar las hiptesis que debern probarse. b) Probar estas hiptesis utilizando a = 0.05. A qu conclusiones se llega? e) Cul es el valor P para la prueba? d) Encontrar un intervalo de confianza de 95% para la media. Los dimetros de las flechas de acero producidas en cierto proceso de manufactura debern tener un promedio de 0.255 pulgadas. Se sabe que el dimetro tiene una desviacin estndar de a = 0.0001 pulgadas. Una muestra aleatoria de 10 flechas tiene un dimetro promedio de 0.2545 pulgadas. a) Establecer las hiptesis apropiadas para la media !L. b) Probar estas hiptesis utilizando a = 0.05. A qu conclusiones se llega? e) Encontrar el valor P para esta prueba. d) Construir un intervalo de confianza de 95% para el di,metro promedio de las flechas. Una variable aleatoria con una distribucin normal tiene una media desconocida!L y varianza a2 = 9. Encontrar el tamao de la muestra que se necesita para construir un intervalo de confianza de 95% para la media, cuya anchura total sea de 1.0. La vida de anaquel de una bebida carbonatada es motivo de inters. Se seleccionan 10 botellas al azar y se prueban, obtenindose los siguientes resultados: Das 108 124 124 106 115 138 163 159 134 139
2-1.
2-2.
2-3.
2-4.
2-5.
a) Quiere demostrarse que la vida media de anaquel excede los 120 das. Establecer las hiptesis apropiadas para investigar esta afirmacin. b) Probar estas hiptesis utilizando a = 0.01. A qu conclusiones se llega?
2-7 PROBLEMAS
55
d)
2-6.
2-7.
e) Encontrar el valor P para la plUeba del inciso b. ConstlUir un intervalo de confianza de 99% para la vida media de anaquel. Considere los datos de la vida de anaquel del problema 2-5. La vida de anaquel puede describirse o modelarse adecuadamente con una distribucin normal? Qu efecto tendra la violacin de este supuesto sobre el procedimiento de plUeba usado para resolver el problema 2-5? El tiempo para reparar un instlUmento electrnico es una variable aleatoria medida en horas que sigue una distribucin normal. El tiempo de reparacin de 16 de estos instlUmentos elegidos al azar es el siguiente:
Horas 159 224 222 149 280 379 362 260 101 179 168 485 212
264
250 170
2-8. 2-9.
a) Quiere saberse si el tiempo de reparacin promedio excede 225 horas. Establecer las hiptesis apropiadas para investigar esta cuestin. b) Probarlas hiptesis que se formularon en el inciso a. A qu conclusiones se llega? Utilizara = 0.05. e) Encontrar el valor P para la plUeba. d) ConstlUir un intervalo de confianza de 95% para el tiempo de reparacin promedio. Considere nuevamente los datos del tiempo de reparacin del problema 2-7. En opinin del lector, el tiempo de reparacin puede modelarse de manera adecuada con una distribucin normal? Se utilizan dos mquinas para llenar botellas de plstico con un volumen neto de 16.0 onzas. Puede supon~ se que el proceso de llenado es normal, con desviaciones estndar de al = 0.015 yaz = 0.018. El departamento de ingeniera de calidad sospecha que ambas mquinas llenan el mismo volumen neto, sin importar si este volumen es 16.0 onzas o no. Se realiza un experimento tomando una muestra aleatoria de la produccin de cada mquina.
a) b) e) d)
2-10.
Enunciar las hiptesis que debern probarse en este experimento. Probar estas hiptesis utilizando a = 0.05. A qu conclusiones se llega? Encontrar el valor P para esta plUeba. Encontrar un intervalo de confianza de 95 % para la diferencia en el volumen de llenado promedio de las dos mquinas. Un fabricante de calculadoras electrnicas puede usar dos tipos de plstico. La resistencia a la ruptura de este plstico es importante. Se sabe que al = a z = 1.0 psi. De muestras aleatorias de nI = 10 Yn z = 12 se obtiene YI = 162.5 YYz = 155.0. La compaa no emplear el plstico 1 a menos que su resistencia a la lUptura exceda la del plstico 2 por al menos 10 psi. Con base en la informacin muestral, deber usarse el plstico 1? Para responder esta pregunta se deben establecer y probar las hiptesis apropiadas utilizando a = 0.01. ConstlUir un intervalo de confianza de 99% para la verdadera diferencia media en la resistencia a la lUptura.
56
2-11.
A continuacin se presenta el tiempo de combustin de dos cohetes qumicos con formulaciones diferentes. Los ingenieros de diseo se interesan tanto en la media como en la varianza del tiempo de combustin.
Tipo 1
65 81 57 66 82 82 67 59 75 70
Tipo 2
64 71 83 59 65 56 69 74 82 79
a) Probar la hiptesis de que las dos varianzas son iguales. Utilizar a = 0.05.
2-12.
b) Utilizando los resultados del inciso a, probar la hiptesis de que los tiempos de combustin promedio son iguales. Utilizar a = 0.05. Cul es el valor P para esta prueba? e) Comentar el papel del supuesto de normalidad en este problema. Verificar el supuesto de normalidad para ambos tipos de cohetes. En un artculo de Solid State Technology, "Diseo ortogonal para optimizacin de procesos y su aplicacin en el grabado qumico con plasma" de G.Z. Yin y D.W. Jillie, se describe un experimento para determinar el efecto de la velocidad del flujo de CZF 6 sobre la uniformidad del grabado en una oblea de silicio usada en la fabricacin de circuitos integrados. Los datos de la velocidad del flujo son los siguientes:
Flujo de CZF 6
125 200
Observacin de la uniformidad
1 2.7 4.6 2 4.6 3.4 3 2.6 2.9 4 3.0 3.5 5 3.2 4.1 6 3.8 5.1
b)
2-13.
a) La velocidad del flujo de CZF 6 afecta la uniformidad del grabado promedio? Utilizar a = 0.05. Cul es el valor P para la prueba del inciso a? e) La velocidad del flujo de CZF 6 afecta la variabilidad de una oblea a otra en la uniformidad del grabado? Utilizar a = 0.05. d) Trazar diagramas de caja que ayuden a interpretar los datos de este experimento. Se instala un nuevo dispositivo de filtrado en una unidad qumica. Antes de instalarlo, de una muestra aleatoria se obtuvo la siguiente informacin sobre el porcentaje de impurezas:)l1 = 12.5, Slz = 101.17 Y nI = 8. Despus de instalarlo, de una muestra aleatoria se obtuvo )lz = 10.2, si = 94.73, n z = 9. a) Puede concluirse que las dos varianzas son iguales? Utilizar a = 0.05. b) El dispositivo de filtrado ha reducido de manera significativa el porcentaje de impurezas? Utilizar a =
0.05. Se hacen 20 observaciones de la uniformidad del grabado en obleas de silicio durante un experimento de evaluacin de un grabador de plasma. Los datos son los siguientes: 5.34 6.00 5.97 5.25 6.65 7.55 7.35 6.35 4.76 5.54 5.44 4.61 5.98 5.62 4.39 6.00 7.25 6.21 4.98 5.32
2-14.
a) Construir una estimacin con un intervalo de confianza de 95% de aZ b) Probar la hiptesis de que a Z = 1.0. Utilizar a = 0.05. A qu conclusiones se llega?
2-7 PROBLEMAS
57
2-15.
llega? Doce inspectores midieron el dimetro de un cojinete de bolas, utilizando cada uno dos tipos diferentes de calibradores. Los resultados fueron
Inspector 1 2 3 4 5 6 7 8 9 10 11 12
Calibrador 1 0.265 0.265 0.266 0.267 0.267 0.265 0.267 0.267 0.265 0.268 0.268 0.265
Calibrador 2 0.264 0.265 0.264 0.266 0.267 0.268 0.264 0.265 0.265 0.267 0.268 0.269
2-16.
a) Existe una diferencia significativa entre las medias de la poblacin de mediciones de las que se seleccionaron las dos muestras? Utilizar a = 0.05. b) Encontrar el valor P para la prueba del inciso a. e) Construir un intervalo de confianza de 95 % para la diferencia en las mediciones de los dimetros promedio para los dos tipos de calibradores. En un artculo de Joumal ofStrainAnalysis (vol. 18, no. 2) se comparan varios procedimientos para predecir la resistencia al corte de vigas d placas de acero. Los datos para nueve vigas en la forma del cociente de la carga predicha y la observada para dos de estos procedimientos, los mtodos Karlsruhe y Lehigh, son los siguientes
Viga Sl/l S2/1 S3/1 S4/1 S5/1 S2/1 S2/2 S2/3 S2/4
Mtodo Karlsruhe 1.186 1.151 1.322 1.339 1.200 1.402 1.365 1.537 1.559
Mtodo Lehigh 1.061 0.992 1.063 1.062 1.065 1.178 1.037 1.086 1.052
a) Existe alguna evidencia que apoye la afirmacin de que hay una diferencia en el des.empeo promedio entre los dos mtodos? Utilizar a = 0.05. b) Cul es el valor P para la prueba del inciso a? e) Construir un intervalo de confianza de 95% para la diferencia en la carga promedio predicha y la observada. d) Investigar el supuesto de normalidad en ambas muestras. e) Investigar el supuesto de normalidad para la diferencia en los cocientes para los dos mtodos. /) Comentar el papel del supuesto de normalidad en la prueba t pareada.
58
2-17.
Se estudia la temperatura de deflexin bajo carga de dos formulaciones diferentes de un tubo de plstico ABS. Dos muestras de 12 observaciones cada una, se preparan utilizando cada'formulacin y las temperaturas de deflexin (en F) se presentan abajo: Formulacin 1 193 192 207 210 185 194 189 178 Formulacin 2
177
197 206
201
2-18. 2-19.
a) Construir las grficas de probabilidad normal para ambas muestras. Estas grficas apoyan los supuestos de normalidad y de la igualdad de la varianza de ambas muestras? b) Los datos apoyan la afirmacin de que la temperatura promedio de deflexin bajo carga de la formulacin 1 excede la de la formulacin 2? Utilizar a = 0.05. e) Cul es el valor P para la prueba del inciso a? Referirse a los datos del problema 2-17. Los datos apoyan la afirmacin de que la temperatura promedio de deflexin bajo carga de la formulacin 1 excede la de la formulacin 2 en al menos 3F? En la fabricacin de semiconductores es comn el uso del grabado qumico hmedo para eliminar el silicio de la parte posterior de las obleas antes de la metalizacin. La rapidez del grabado es una caracterstica importante de este proceso. Se estn evaluando dos soluciones de grabado diferentes. Se grabaron ocho obleas seleccionadas al azar en cada solucin, y las cifras de la rapidez del grabado observada (en milsimas de pulgada/min) se muestran abajo
Solucin 1 10.6 9.9 9.4 10.3 9.3 10.0 9.8 10.3 Solucin 2 10.2 10.6 10.0 10.2 10.7 10.4 10.5 10.3
2-20.
a) Los datos indican que la afirmacin de que ambas soluciones tienen la misma rapidez de grabado promedio es verdadera? Utilizar a = 0.05 y suponer la igualdad de las varianzas. b) Encontrar un intervalo de confianza de 95% para la diferencia en la rapidez de grabado promedio. e) Usar grficas de probabilidad normal para investigar la adecuacin de los supuestos de normalidad e igualdad de las varianzas. Se estn comparando dos populares analgsicos con base en la rapidez de absorcin del cuerpo. Especficamente, se afirma que la tableta 1 se absorbe con el doble de rapidez que la tableta 2. Suponer que y a~ se conocen. Desarrollar un estadstico de prueba para
a;
2-21.
2-22.
donde a; y a~ se conocen. Los recursos para hacer el muestreo son limitados, por lo que n + n 2 = N. Cmo debern asignarse las N observaciones entre las dos poblaciones para obtener la prueba con la potencia ms alta? Desarrollar la ecuacin 2-46 para un intervalo de confianza de 100(1- a) por ciento para la varianza de una distribucin normal.
2-7 PROBLEMAS
59
Desarrollar la ecuacin 2-50 para un intervalo de confianza de 100(1- por ciento para el cociente donde y son las varianzas de dos distribuciones normales. 2-24. Desarrollar una ecuacin para encontrar un intervalo de confianza de 100(1-a) por ciento para la diferencia en las medias de dos distribuciones normales donde ;t: Aplicar la ecuacin desarrollada a los datos del experimento del cemento portland, y encontrar un intervalo de confianza de 95%. 2-25. .Construir un conjunto de datos para los que el estadstico de prueba t pareada sea muy grande, pero para el cual el estadstico de prueba t de dos muestras o combinada usual sea pequeo. En general, describir cmo se crearon los datos. Le da esto al lector alguna idea respecto de cmo funciona la prueba t pareada?
2-23.
ai a;
a)
ai / a;,
ai a;.
En el captulo 2 se analizaron los mtodos para comparar dos condiciones o tratamientos. Por ejemplo, el experimento de la fuerza de la tensin de adhesin del cemento portland incluy dos formulaciones diferentes del mortero. Otra forma de describir este experimento es como un experimento con un solo factor, con dos niveles del factor, donde el factor es la formulacin del mortero y los dos niveles son los dos mtodos diferentes para hacer la formulacin. Muchos experimentos de este tipo involucran ms de dos niveles del factor. En este captulo se presentan los mtodos para el diseo y el anlisis de los experimentos con un solo factor cona niveles del mismo (o a tratamientos). Se supondr que el experimento se ha aleatorizado completamente.
3~ 1
UN EJEMPLO
Un ingeniero de desarrollo de productos tiene inters en investigar la resistencia a la tensin de una fibra sinttica nueva que se usar para hacer tela de camisas para caballero. El ingeniero sabe por experiencia previa que la resistencia a la tensin se afecta por el peso porcentual del algodn utilizado en la mezcla de materiales de la fibra. Adems, sospecha que al aumentar el contenido de algodn se incrementar la resistencia, al menos en un principio. Sabe asimismo que el contenido de algodn deber variar entre 10 y 40 por ciento para que el producto final tenga otras caractersticas de calidad que se desean (como la capacidad de ser sometido a un tratamiento de planchado permanente). El ingeniero decide probar ejemplares en cinco niveles del peso porcentual del algodn: 15,20,25,30 Y35 por ciento. Tambin decide probar cinco ejemplares en cada nivel del contenido de algodn. Se trata de un ejemplo de un experimento con un solo factor con a = 5 niveles del factor y n = 5 rplicas. Las 25 corridas debern realizarse de manera aleatoria. Para ilustrar cmo puede aleatorizarse el orden de las corridas, suponga que las corridas se numeran de la siguiente manera:
60
3-1 UN EJEMPLO
61
15 20 25 30 35
1 6
11
16 21
2 7 12 17 22
3 8
13
18 23
4 9 14 19 24
5
10
15 20 25
Ahora se selecciona un nmero aleatorio entre 1 y 25. Suponga que este nmero es 8. Entonces la observacin nmero 8 (20% de algodn) se corre primero. Este proceso se repetira hasta que las 25 observaciones tengan asignada una posicin en la secuencia de prueba. 1 Muchos paquetes de software de computadora para ayudar a los experimentadores a seleccionar y construir un diseo, aleatorizan el orden de las corridas utilizando nmeros aleatorios de esta manera. Suponga que la secuencia de prueba obtenida es
Secuencia de prueba
Nmero de corrida
1
2 3 4
5
6
18 10 23 17
5
7
8 9
10
14
6
15 20
9 4
11
12
13
12
7
14 15 16
17
24 21
11
18 19 20 21 22 23 24 25
2
13 22
16 25 19
3
20 30 20 35 30 15 25 20 25 30 20 15 25 20 15 35 35 25 15 25 35 30 35 30 15
Esta secuencia de prueba aleatorizada es necesaria para evitar que los efectos de variables perturbadoras desconocidas -las cuales quiz varen fuera de control durante el experimento-- contaminen los resultados. Para ilustrar esto, suponga que las 25 corridas de prueba tuvieran que realizarse en el orden original no aleatorizado (es decir, primero se prueban los cinco ejemplares con 15% de algodn, despus se prue1 La nica restriccin sobre la aleatorizacin en este caso, es que si se saca de nuevo el mismo nmero (es decir, 8), se descarta. Se trata de una restriccin secundaria y se ignora.
62
CAPTULO 3
Tabla 3-1
Datos (en lb/pulgadaZ) del experimento de la resistencia a la tensin Observaciones 1 7 12 14 19 7 2 7 17 18 25 10 3 15 12 18 22 11 4 11 18 19 19 15 5 9 18 19 23 11 Total 49 77 88 108 54 Promedio 9.8 15.4 17.6 21.6 10.8 -15.04
376
ban los cinco ejemplares con 20% de algodn, etc.). Si la mquina empleada para probar la resistencia a la tensin presenta un efecto de calentamiento tal que entre ms tiempo est funcionando sean menores las lecturas de la resistencia a la tensin observadas, el efecto del calentamiento contaminar potencialmente los datos de la resistencia a la tensin y destruir la validez del experimento. Suponga que el ingeniero corre la prueba en el orden aleatorio que se ha determinado. En la tabla 3-1 se muestran las observaciones que obtiene para la resistencia a la tensin. Siempre es una buena idea examinar grficamente los datos experimentales. En la figura 3-1 se muestran los diagramas de caja para la resistencia a la tensin con cada nivel del peso porcentual de algodn, y en la figura 3-2 se ilustra n diagrama de dispersin de la resistencia a la tensin contra el peso porcentual del algodn. En la figura 3-2, los puntos rellenos son las observaciones individuales y los crculos huecos son los promedios de la resistencia a la tensin observada. Ambas grficas indican que la resistencia a la tensin se incrementa cuando el contenido de algodn se incrementa, hasta cerca de 30% de algodn. Despus de 30% de algodn, hay un marcado descenso de la resistencia a la tensin. No hay evidencia slida que sugiera que la variabilidad de la resistencia a la tensin alrededor del promedio dependa del peso porcentual del algodn. Con base en este anlisis grfico simple, se tienen firmes sospechas de que 1) el contenido de algodn afecta la resistencia a la tensin y 2) alrededor de 30% de algodn produce la resistencia mxima. Suponga que se quiere ser ms objetivo en el anlisis de los datos. Especficamente, imagine que quieren probarse las diferencias entre las resistencias a la tensin promedio con todos los niveles a = 5 del
30
'b;
:;
c: '0 .; c:
~
l!l
20
..!!! ro ro '
t .;
ij 10
ID
a:
Figura 3-1 Diagramas de caja de la resistencia a la tensin contra el peso porcentual del algodn.
63
30
"b;
:;
c: -o 'i c:
~20
!
10
..!!! ro ro '; c:
'i
a:
Q)
OL---I.---'----'----'------'
Pese eercentual del alcedn
Figura 3-2 Diagrama de dispersin de la resistencia a la tensin contra el peso porcentual del algodn.
peso porcentual del algodn. Por lo tanto, el inters se centra en probar la igualdad de las cinco medias. Pudiera parecer que este problema se resolvera realizando una prueba t para todos los pares de medias posibles. Sin embargo, no es sta la mejor solucin de este problema, porque llevara a una distorsin considerable en el error tipo 1. Por ejemplo, suponga que quiere probarse la igualdad de las cinco medias usando comparaciones por pares. Hay 10 pares posibles, y si la probabilidad de aceptar correctamente la hiptesis nula en cada prueba individual es de 1 - a = 0.95, la probabilidad de aceptar correctamente la hiptesis nula en las 10 pruebas es de (0.95)10 = 0.60 si las pruebas son independientes. Por lo tanto, ha ocurrido un incremento sustancial en el error tipo l. El procedimiento correcto para probar la igualdad de varias medias es el anlisis de varianza. Sin embargo, el anlisis de varianza tiene un rango de aplicaciones mucho ms amplio que el problema anterior. Probablemente sea la tcnica ms til en el campo de la inferencia estadstica.
3..2
EL ANLISIS DE VARIANZA
Suponga que se tienen a tratamientos o niveles diferentes de un solo factor que quieren compararse. La respuesta observada de cada uno de los a tratamientos es una variable aleatoria. Los datos apareceran como en la tabla 3-2. Una entrada de la tabla 3-2 (por ejemplo, Yij) representa la observacinj-sima to-
Tabla 3-2
'Itatamiento (nivel)
1
fu
Observaciones
fu
~ ~
Totales Promedios
h
~,
Ya!
Ya2
Yan
y,.
5'..
64
mada bajo el nivel del factor o tratamiento i. Habr, en general,}1 observaciones bajo el tratamiento i-simo. Observe que la tabla 3-2 es el caso general de los datos del experimento de la resistencia a la tensin de la tabla 3-1.
Modelos para los datos Se encontrar til describir las observaciones de un experimento con un modelo. Una manera de escribir este modelo es
i=l, 2,
Yij=fl+cij { }=1,2,
,a
,11
(3-1)
dondeYij es la observacin ij-sima, t es la media del nivel del factor o tratamiento i-simo, y cij es un componente del error aleatorio que incorpora todas las dems fuentes de variabilidad del experimento, incluyendo las mediciones, la variabilidad que surge de factores no controlados, las diferencias entre las unidades experimentales (como los materiales de prueba, etc.) a las que se aplican los tratamientos, y el ruido de fondo general en el proceso (ya sean la variabilidad con el tiempo, los efectos de variables ambientales, etc.). Es conveniente considerar que los errores tienen media cero, de tal modo que E(yij) = fl. A la ecuacin 3-1 se le llama el modelo de las medias. Una forma alternativa de escribir un modelo de los datos es definiendo i de tal modo que la ecuacin 3-1 se convierte en
i=l, 2, ..., a y.. = fl+. +1' .. { IJ IJ j= 1,2, ... ,11
1
= 1,
2, ..., a
(3-2)
En esta forma del modelo, fl es un parmetro comn a todos los tratamientos al que se llama la media global, y es un parmetro nico del tratamiento i-simo al que se le llama el efecto del tratamiento i-simo. A la ecuacin 3-2 se le llama por lo general el modelo de los efectos. Tanto el modelo de las medias como el de los efectos son modelos estadsticos lineales; es decir, la variable de respuestaYij es una funcin lineal de los parmetros del modelo. Aun cuando ambas formas del modelo son tiles, el modelo de los efectos se encuentra con mayor frecuencia en la literatura del diseo experimental. Tiene cierto atractivo intuitivo por cuanto fl es una constante y los efectos de los tratamientos representan desviaciones de esta constante cuando se aplican los tratamientos especficos. A la ecuacin 3-2 (o a la 3-1) se le llama tambin el modelo del anlisis de varianza simple o de un solo factor (o direccin), porque nicamente se investiga un factor. Adems, ser un requisito que el experimento se lleve a cabo en orden aleatorio para que el ambiente en el que se apliquen los tratamientos (llamados con frecuencia unidades experimentales) sea lo ms uniforme posible. Por lo tanto, el diseo experimental es un diseo completamente aleatorizado. Los objetivos sern probar las hiptesis apropiadas acerca de las medias de los tratamientos y estimarlas. Para probar las hiptesis, se supone que los errores del modelo son variables aleatorias que siguen una distribucin normal e independiente con media cero y varianza el. Se supone asimismo que la varianza el es constante para todos los niveles del factor. Esto implica que las observaciones
65
El modelo estadstico (ecuacin 3-2) describe dos situaciones diferentes con respecto a los efectos de los tratamientos. Primera, los a tratamientos pudieron ser elegidos expresamente por el experimentador. En esta situacin quieren probarse hiptesis acerca de las medias de los tratamientos, y las conclusiones se aplicarn nicamente a los niveles del factor considerados en el anlisis. Las conclusiones no pueden extenderse a tratamientos similares que no fueron considerados explcitamente. Tambin se podra querer estimar los parmetros del modelo (p" Ti' 02). A ste se le llama el modelo con efectos fijos. De manera alternativa, los a tratamientos podran ser una muestra aleatoria de una poblacin ms grande de tratamientos. En esta situacin sera deseable poder extender las conclusiones (las cuales se basan en la muestra de los tratamientos) a la totalidad de los tratamientos de la poblacin, sea que se hayan considerado explcitamente en el anlisis o no. Aqu las Ti son variables aleatorias, y el conocimiento de las Ti particulares que se investigaron es relativamente intil. Ms bien, se prueban hiptesis acerca de la variabilidad de las Ti y se intenta estimar su variabilidad. A ste se le llama el modelo con efectos aleatorios o modelo de los componentes de la varianza. La revisin de experimentos con factores aleatorios se pospondr hasta el captulo 12.
3~3
En esta seccin se desarrolla el anlisis de varianza de un solo factor para el modelo con efectos fijos. Recuerde que Yi. representa el total de las observaciones bajo el tratamiento i-simo. Sea que Yi. represente el promedio de las observaciones bajo el tratamiento i-simo. De manera similar, sea que Y.. represente el gran total de todas las observaciones y que Y.. represente el gran promedio de todas las observaciones. Expresado simblicamente,
Yi.=}:
j=l
= 1, 2, oo.,
(3-3)
Y..
= }:}:
=l j=l
Yj
Y .. = Y.. / N
donde N = an es el nmero total de observaciones. Se nota que el subndice "punto" implica la operacin suma sobre el subndice que reemplaza. El inters se encuentra en probar la igualdad de lasa medias de los tratamientos; es decir,E(yJ =fl + T = fli' i = 1, 2, a. Las hiptesis apropiadas son
OO"
Ho:fll H 1 : fli
fl j
En el modelo de los efectos, la mediafli del tratamiento i-simo se descompone en dos componentes tales que fli = fl + Ti' Por lo general, fl se considera como una media global, de tl modo que
--=fl
~fli
i=l
~
i=l
=O
66
CAPTULO 3
Es decir, los efectos del tratamiento o factor pueden considerarse como desviaciones de la media globaI.z Por consiguiente, una forma equivalente de escribir las hiptesis anteriores es en trminos de los efectos de los tratamientos Ti> por ejemplo
H o :T 1 =T 2 =T a =O H 1 : Ti ':!; O para al menos una i
Por 10 tanto, se habla de probar la igualdad de las medias de los tratamientos o de probar que los efectos de los tratamientos (las Ti) son cero. El procedimiento apropiado para probar la igualdad de las medias de los a tratamientos es el anlisis de varianza.
3~3.1
El nombre anlisis de varianza se deriva de la particin de la variabilidad total en sus partes componentes. La suma de cuadrados total corregida
se usa como una medida de la variabilidad global de los datos. Intuitivamente, esto es razonable porque, si SST tuviera que dividirse por el nmero apropiado de grados de libertad (en este caso, an -1 = N -1), se obtendra la varianza muestral de las y. La varianza muestral es, desde luego, una medida estndar de variabilidad. Observe que la suma de cuadrados total corregida SST se puede escribir como
(3-4)
(Yij _ Yi. - )2
(3-5)
i=l j=l
Sin embargo, el trmino del producto cruzado de la ecuacin 3-5 es cero, ya que
.. -y-.)= y.t. -ny-.l. L"., (y lJ l.
j=l
= y.
l.
-n(y. /n)= O
l.
_ Yi. - )2
(3-6)
i=l
i=l j=l
La ecuacin 3-6 establece que puede hacerse la particin de la variabilidad total de los datos, medida por la suma de cuadrados total corregida, en una suma de cuadrados de las diferencias eutre los promedios de los tratamientos y el gran promedio, ms una suma de cuadrados de las diferencias de las observaciones dentro de los tratamientos y el promedio de los tratamientos. Entonces, la diferencia entre los promedios
2
Para ms informacin sobre este tema, referirse al material suplementario del texto del captulo 3.
r
J
67
de los tratamientos observados y el gran promedio es una medida de las diferencias entre las medias de los tratamientos, mientras que las diferencias de las observaciones dentro de un tratamiento y el promedio del tratamiento, pueden deberse nicamente al error aleatorio. Por lo tanto, la ecuacin 3-6 puede escribirse simblicamente como SST
= SSTratamientns +SSE
donde a SSnatamientos se le llama la suma de cuadrados debida a los tratamientos (es decir, entre los tratamientos), y a SSE se le llama la suma de cuadrados debida al error (es decir, dentro de los tratamientos). Hayan = N observaciones en total; por lo tanto, SST tiene N -1 grados de libertad. Haya niveles del factor (y medias de a tratamientos), de donde SSnatamientos tiene a - 1 grados de libertad. Por ltimo, dentro de cualquier tratamiento hay n rplicas que proporcionan n - 1 grados de libertad con los cuales estimar el error experimental. Puesto que haya tratamientos, se tienen a(n - 1) = an - a = N - a grados de libertad para el error. Es til examinar explcitamente los dos trminos del lado derecho de la identidad fundamental del anlisis de varianza (ecuacin 3-6). Considere la suma de cuadrados del error
En esta forma es fcil ver que el trmino entre corchetes, si se divide por n -1, es la varianza muestral del tratamiento i-simo, o
S~
= ..:..j=_I
n-1
= 1, 2, oo.,
.Ahora pueden combinarse a varianzas muestrales para obtener una sola estimacin de la varianza poblacional comn de la siguiente manera:
2 2
[LJ'~_1
~
SSE (N-a) Por lo tanto, SSEI(N -a) es una estimacin combinada de la varianza comn dentro de cada uno de los a tratamientos. De manera similar, si no hubiera diferencias entre las medias de los a tratamientos, podra usarse la variacin de los promedios de los tratamientos y el gran promedio para estimar cr. Especficamente
SSTratamientos
i=l
a-1
a-1
es una estimacin de cr si las medias de los tratamientos son iguales. La razn de esto puede verse de manera intuitiva de la siguiente manera. La cantidad k~=l <Yi. -yY/(a -1) estima crin, la varianza de los pro-
68
CAPTULO 3
medios de los tratamientos, de donde nL~=1 (jIi. - --YY/(a - 1) debe estimar cJl si no hay diferencias en las medias de los tratamientos. Se observa que la identidad del anlisis de varianza (ecuacin 3-6) nos proporciona dos estimaciones de cJl: una basada en la variabilidad inherente dentro de los tratamientos y una basada en la variabilidad entre los tratamientos. Si no hay diferencias en las medias de los tratamientos, estas dos estimaciones debern ser muy similares, y si no lo son, se sospecha que la diferencia observada puede ser causada por diferencias en las medias de los tratamientos. Aun cuando se ha usado un razonamiento intuitivo para desarrollar este resultado, puede adoptarse un enfoque un tanto ms formal. A las cantidades
MS
Tratamientos
= SS Tratamientos
a-
SSE MS = - E N-a
se les llama cuadrados medios. Se examinarn ahora los valores esperados de estos cuadrados medios. Considere
LL j=1
i=1
= N_a E
=_1
[a n
~#
;=1 j=1
N-a
E[!I
Entonces, al elevar al cuadrado y tomar el valor esperado de la cantidad entre corchetes, se observa que los trminos que incluyen ac~ y c~ son reemplazados por cJly ncJl, respectivamente, debido a que E (cij) = O. Adems, todos los productos cruzados que incluyen a cij tienen valor esperado cero. Por lo tanto, despus de elevar al cuadrado y tomar el valor esperado, la ltima ecuacin se convierte en
[a
a] 2
69
( MS
n!
o
';
Tratamientos) = a - + -a--"--l-
=I
Por lo tanto, como se argument heursticamente, MSE = SSE/(N - a) estima dl y, si no hay diferencias en las medias de los tratamientos (lo cual implica que ' = O), MSnatamientos = SSTratamientoJ(a -1) tambin estima dl. Sin embargo, observe que si las medias de los tratamientos difieren, el valor esperado del cuadrado medio de los tratamientos es mayor que dl. Parece claro que es posible realizar una prueba de la hiptesis de que no hay diferencias en las medias de los tratamientos comparando MSnatamientos y MSE Se considera ahora cmo puede hacerse esta comparacin.
3,3.2
Anlisis estadstico
Se investiga ahora cmo puede llevarse a cabo una prueba formal de la hiptesis de que no hay diferencias en las medias de los tratamientos (HO:f.l1 = f.l2 = = Ila, o de manera equivalente, HO:' 1 = ' 2 = ''a = O). Puesto que se ha supuesto que los errores Bij siguen una distribucin normal e independiente con media cero y varianza dl, las observaciones Yij tienen una distribucin normal e independiente con media f.l + ' y varianza dl. Por lo tanto, SST es una suma de cuadrados de variables aleatorias con una distribucin normal; por consiguiente, puede demostrarse que SST/rJ2 tiene una distribucin ji-cuadrada con N -1 grados de libertad. Adems, puede demostrarse que SSE/dl es una variable ji-cuadrada con N -a grados de libertad y que SSnatamientoJdl es una variable ji-cuadrada con a -1 grados de libertad si la hiptesis nula Ho:' = Oes verdadera. Sin embargo, las tres sumas de cuadrados no son necesariamente independientes, ya que la suma de SSnatamientos YSSE es SS,!, El siguiente teorema, que es una forma especial de un teorema atribuido a William Cochran, es til para establecer la independencia de SSE Y SSnatamientos'
o" o.
TEOREMA 3,1
Teorema de Cochran
Sea Z igual a NID(O, 1) para i
= 1,
2,
o ,
vy
Z2
= QI +Q2 + ... + Q,
;=1
donde s :5 v, YQ tiene Vi grados de libertad (i = 1,2, .", s). Entonces Ql' Q2' oo., Q, son variables aleatorias ji-cuadrada independientes con VI' V 2, oo., V, grados de libertad, respectivamente, si y slo si
.........................................................................
Puesto que los grados de libertad de SSnatamientos YSSE suman N -1, el nmero total de grados de libertad, el teorema de Cochran implica que SSnatamiento,/dl Y SSE/dl son variables aleatorias ji-cuadrada con
3
v = VI +V 2 + ... +v,
7O
CAPTULO 3
Tabla 3-3
Tabla de anlisis de varianza para el modelo con un solo factor y efectos fijos
Fuente de variacin Entre los tratamientos Error (dentro de los tratamientos) Total
SSTrntamientos
Suma de cuadrados
=n
Grados de libertad
a-l
N-a
Cuadrado medio
F: =
MSTratamicntos
MSTrntamientos
2: (Yi. - Y.J
i=l
MSE
SSTrntamicntos
~~
i=l 1'=1
(Yij
-y.}
N-l
una distribucin independiente. Por lo tanto, si la hiptesis nula de que no hay diferencias en las medias de los tratamientos es verdadera, el cociente
F.
o
1)
= MS Tratamieotos
MS E
(3-7)
se distribuye como F con a - 1 y N - a grados de libertad. La ecuacin 3-7 es el estadstico de prueba para la hiptesis de que no hay diferencias en las medias de los tratamientos. Por los cuadrados medios esperados se observa que, en general, MS E es un estimador insesgado de el-. Asimismo, bajo la hiptesis nula, MSTratamientos es un estimador insesgado de el-. Sin embargo, si la hiptesis nula es falsa, el valor esperado de MSTIatamientos es mayor que el-. Por lo tanto, bajo la hiptesis alternativa, el valor esperado del numerador del estadstico de prueba (ecuacin 3-7) es mayor que el valor esperado del denominador, y Ha deber rechazarse para valores del estadstico de prueba que son muy grandes. Esto implica una regin crtica de una sola cola superior. Por lo tanto, Ha deber rechazarse y concluirse que hay diferencias en las medias de los tratamientos si
Fa > Fa,a-l,N-a
donde Fa se calcula con la ecuacin 3-7. De manera alternativa, podra usarse el enfoque del valor P para tomar una decisin. Es posible obtener frmulas para calcular estas sumas de cuadrados reescribiendo y simplifican~o las definiciones de SSTratamientos Y SSy en la ecuacin 3-6. Se obtiene as
Y. Yij - N
2
2
(3-8)
1
SS Tratamientos
a 1=1
Yi.2 - Y. N
(3-9)
EJEMPLO 3,1
"
El experimento de la resistencia a la tensin Para ilustrar el anlisis de varianza, se retoma al ejemplo que empez a comentarse en la seccin 3-1. Recuerde que al ingeniero de desarrollo de productos le interesa determinar si el peso porcentual del algo-
71
dn en una fibra sinttica afecta la resistencia a la tensin, y ha llevado a cabo un experimento completamente aleatorizado con cinco niveles del peso porcentual del algodn y cinco rplicas. Por conveniencia, a continuacin se repiten los datos de la tabla 3-1:
Peso porcentual del algodn 15 20 25 30 35 Resistencia a la tensin observada (lb/pulg2) 1 7 12 14 19 7 2 7 17 18 25 10 3 15 12 18 22 11 4 11 18 19 19 15 5 9 18 19 23 11
Totales Yi 49 77 88 108 54
Y.. = 376
Y . = 15.04
Se usar el anlisis de varianza para probar H o:fl1 = fl2 = fl3 = fl4 = fl5 contra la hiptesis alternativa H 1: algunas medias son diferentes. Las sumas de cuadrados requeridas se calculan como sigue:
SST
= 2:2: Y~ - ~
;=1 j=l
(376)2
1?
(376)2
= SST - SS Tratamientos
Fo Fo=14.76
Valor P <0.01
72
CAPTULO 3
:s
E!
"O "O
ID
:Q
"O
0.6
E
c. 0.4
ro "O .;
0.2
Figura 3-3 La distribucin de referencia (F4, 20) para el estadstico de prueba F o en el ejemplo 3-1.
podra calcularse un valor P para este estadstico de prueba. En la figura 3-3 se muestta la distribucin de referencia (F4,20) para el estadstico de prueba Fa. Evidentemente, el valor P es muy pequeo en este caso. Puesto que F0.G1,4,20 = 4.43 YFa> 4.43, puede concluirse que un lmite superior del valor Pes 0.01; es decir, P < 0.01 (el valor P exacto es P = 9.11 X 10-6)
Clculos manuales Posiblemente el lector haya notado que la suma de cuadrados se defini en trminos de promedios; es decir, por la ecuacin 3-6,
SS Tratamientos
=n
2: (jii. - )1.. )2
i=l
pero las frmulas de clculo se desarrollaron utilizando los totales. Por ejemplo, para calcular SSnatamientoS' se usara la ecuacin 3-9: 1 a 2 SS ~ 2 Y.. Tratamientos = -;; LJ Yi. - N
i=1
La razn principal de esto es por conveniencia; adems, los totales Yi. y Y.. estn menos sujetos al error de redondeo que los promedios Yi. y Y..' En general, no deber prestarse demasiada atencin a los clculos, ya que se cuenta con una amplia variedad de programas de computadora para realizarlos. Estos programas de computadora son tambin tiles para realizar muchos otros anlisis asociados con el diseo experimental (como el anlisis residual y la verificacin de la adecuacin del modelo). En muchos casos, estos programas tambin ayudarn al experimentador a establecer el diseo. Cuando es necesario realizar los clculos manualmente, en ocasiones es til codificar las observaciones. Esto se ilustra en el ejemplo siguiente.
EJEMPLO 3..2
Codificacin de observaciones Los clculos del anlisis de varianza pueden hacerse con frecuencia de manera ms precisa o simplificada codificando las observaciones. Por ejemplo, considere los datos de la resistencia a la tensin del ejemplo
73
Tabla 3-5 Datos codificados de la resistencia a la tensin del ejemplo 32 Observaciones Peso porcentual 1 2 3 del algodn
5 -6 3
4
Totales Yi
15 20 25 30 35
-8 -3 -1
4
-8 2 3
10
-4
-3 3
7
3
4 4 O
-8
-5
-4
8 -4
-26 2 13 33 -21
3-1. Suponga que se resta 15 de cada observacin. Los datos codificados se muestran en la tabla 3-5. Es sencillo verificar que
SST = (-8)2 +(_8)2 + .. , +(_4)2 _
(~2
= 636.96
SS
y
. TratamIentos
(1)2 25
=4
576 7 .
SSE
= 161.20
Al comparar estas sumas de cuadrados con las que se obtuvieron en el ejemplo 3-1, se observa que al restar una constante de los datos originales las sumas de cuadrados no se modifican. Suponga ahora que cada una de las observaciones del ejemplo 3-1 se multiplica por 2. Es sencillo verificar que las sumas de cuadrados de los datos transformados son SST = 2547.84, SSnatamientos = 1903.04 Y SSE = 644.80. Estas sumas de cuadrados parecen diferir considerablemente de las que se obtuvieron en el ejemplo 3-1. Sin embargo, si se dividen por 4 (es decir, 22), los resultados son idnticos. Por ejemplo, para la suma de cuadrados de los tratamientos, 1903.04/4 = 475.76. Asimismo, para los datos codificados, el cociente F es F = (1903.04/4)/(644.80/20) = 14.76, que es idntico al cociente F de los datos originales. Por lo tanto, los anlisis de varianza son equivalentes.
Pruebas de aleatorizacin y anlisis de varianza
En el desarrollo del anlisis de varianza con la prueba F, se ha utilizado el supuesto de que los errores aleatorios sij son variables aleatorias que siguen una distribucin normal e independiente. Thmbin es posible justificar la pruebaF como la aproximacin de una prueba de aleatorizaciu. Para ilustrar esto, su~ ponga que se tienen cinco observaciones de cada uno de dos tratamientos y que quiere probarse la igualdad de las medias de los tratamientos. Los datos apareceran as:
1J:atamiento 1
Yl1 Y12
1J:atamiento 2
Y21 Y22 Y23 Y24 Y25
Y13
Y14 Y15
Podra usarse el anlisis de varianza con la pruebaF para probar HO:#l = #2' De manera alternativa, podra recurrirse a un enfoque un tanto diferente. Suponga que se consideran todas las formas posibles de
74
CAPTULO 3
asignar los 10 nmeros de la muestra anterior a los dos tratamientos. Hay 10!/5151 = 252 arreglos posibles de las 10 observaciones: Si no hay ninguna diferencia en las medias de los tratamientos, los 252 arreglos son igualmente posibles. Para cada uno de los 252 arreglos, se calcula el valor del estadstico F usando la ecuacin 3-7. A la distribucin de estos valores F se le llama distribucin de aleatorizacin, y un valor grande de F indica que los datos no son consistentes con la hiptesis Ho:fil = fiz. Por ejemplo, si el valor de F que se observ realmente fue excedido slo por 5 de los valores de la distribucin de aleatorizacin, esto correspondera con el rechazo de Ho:ll = fiz con un nivel de significacin de a = 5/252 = 0.0198 (o 1.98%). Observe que no es necesario ningn supuesto de normalidad en este enfoque. La dificultad con este enfoque es que, incluso en problemas relativamente pequeos, los clculos requeridos hacen inviable la enumeracin de la distribucin de aleatorizacin exacta. Sin embargo, numerosos estudios han demostrado que la distribucin F comn de la teora normal es una buena aproximacin de la distribucin de aleatorizacin exacta. Por lo tanto, incluso sin el supuesto de normalidad, la prueba F puede considerarse como una aproximacin de la prueba de aleatorizacin. Para ms detalles sobre las pruebas de aleatorizacin en el anlisis de varianza, ver Box, Hunter y Hunter [18].
3~3.3
Se presentan ahora los estimadores de los parmetros del modelo con un solo factor
y los intervalos de confianza para las medias de los tratamientos. Ms adelante se demostrar que estimadores razonables de la media global y de los efectos de los tratamientos estn dados por
{t
= Y..
i= 1, 2, ..., a
(3-11)
fi=Yi.-Y..,
Estos estimadores poseen un considerable atractivo intuitivo; observe que la media global se estima con el gran promedio de las observaciones y que el efecto de cualquier tratamiento no es sino la diferencia entre el promedio del tratamiento y el gran promedio. Es posible determinar con facilidad una estimacin del intervalo de confianza de la media del tratamiento i-simo. La media del tratamiento i-simo es
Un estimador puntual defi sera{t = {t+f = Y.' Ahora bien, si se supone que los errores siguen una distribucin normal, cadaY. es una NID(u, cJ2/n). Por lo tanto, si cJ2 fuera conocida, podra usarse la distribucin normal para definir el intervalo de confianza. Al utilizar MS E como estimador de cJ2, el intervalo de confianza se basara en la distribucin t. Por lo tanto, un intervalo de confianza de 100(1- a) por. ciento . para la media fii del tratamiento i-simo es
Y.
_
t a/Z.N-a
s n ~
__E_<
fi
<-
Y.
t a/Z.N-a
__E_ ~MS n
(3-12)
Un intervalo de confianza de 100(1- a) por ciento para la diferencia en las medias de dos tratamientos cualesquiera, por ejemplo fii - fij' sera
Yi, - Yj. - t a / Z N - a --n-:::; li - fi j :::; Y. - Yj. +t a / ZN - a --n-
J2MS E
~2MSE
(3-13)
75
EJEMPLO 3~3 .
Utilizando los datos del ejemplo 3-1 pueden encontrarse las estimaciones de la media global y de los efectos de los tratamientos como f1, = 376/25 = 15.04 Y
= Yl -Ji.. = 9.80-15.04=-5.24 f 2 = Y2. - Y.. = 15.40-15.04 = +0.36 f3 =h - Y .. = 17.60-15.04 = -2.56 f 4 = Y4. - Y .. = 21.60-15.04 = +6.56 ~ 5 = Ys. -:- Y.. = 10.80-15.04 = -4.24
~1
Un intervalo de confianza de 95% para la media del tratamiento 4 (30% de algodn) se calcula con la ecuacin 3-12 como
fl4
$ 24.25.
Las expresiones para los intervalos de confianza dados en las ecuaciones 3-12 y 3-13 son intervalos de confianza uno a la vez. Es decir, el nivel de confianza 1- a slo se aplica a una estimacin particular. Sin embargo, en muchos problemas, el experimentador tal vez quiera calcular varios intervalos de confianza, uno para cada una de varias medias o diferencias entre medias. Si hay inters en r de estos intervalos de confianza de 100(1- a) por ciento, la probabilidad de que los r intervalos sean correctos simultneamente es al menos 1- ra. A la probabilidad ra se le llama con frecuencia ndice de error en el modo del experi, mento o coeficiente de confianza global. El nmero de intervalos r no tiene que ser muy grande antes de que el conjunto de intervalos de confianza se vuelva relativamente falto de informacin. Por ejemplo, si hay r = 5 intervalos y a = 0.05 (una eleccin tpica), el nivel de confianza simultneo para el conjunto de los cinco intervalos de confianza es de al menos 0.75, y si r = 10 Ya = 0.05, el nivel de confianza simultneo es de al menos 0.50. Un enfoque para asegurarse de que el nivel de confianza simultneo no sea demasiado pequeo es sustituir a/2 con a/(2r) en las ecuaciones 3-12 y 3-13 del intervalo de confianza uno a la vez. A ste se le llama el mtodo de Bonferroni, y le permite al experimentador construir un conjunto de r intervalos de confianza simultneos para las medias de los tratamientos o las diferencias en las medias de los tratamientos para los que el nivel de confianza global es de al menos 100(1- a) por ciento. Cuando r no es muy grande, ste es un mtodo muy atinado que produce intervalos de confianza razonablemente cortos. Para ms informacin, referirse al material suplementario del texto del captulo 3.
3~3.4
Datos no balanceados
En algunos experimentos con un solo factor, puede ser diferente el nmero de observaciones que se hacen dentro de cada tratamiento. Se dice entonces que el diseo es no balanceado. Sigue siendo posible aplicar el anlisis de varianza descrito arriba, pero deben hacerse ligeras modificaciones en las frmulas
76
CAPTULO 3
de las sumas de cuadrados. Sea que se hagan ni observaciones bajo el tratamiento i (i = 1,2, ..., a) y que N = L~=ln. Las frmulas para calcular manualmente SST y SSTratamientos quedan como
(3-14)
y
SS
Tratamientos
.LJ
i=l
2:'L_L N
n
(3-15)
No se requieren ms cambios en el anlisis de varianza. Hay dos ventajas al elegir un diseo balanceado. Primera, el estadstico de prueba es relativamente insensible a las desviaciones pequeas del supuesto de la igualdad de las varianzas de los a tratamientos cuando los tamaos de las muestras son iguales. No es ste el caso cuando los tamaos de las muestras son diferentes. Segunda, la potencia de la prueba se maximiza cuando las muestras tienen el mismo tamao.
3~4
La descomposicin de la variabilidad presente en las observaciones mediante la identidad del anlisis de varianza (ecuacin 3-6) es una relacin puramente algebraica. Sin embargo, el uso de la particin para probar formalmente que no hay diferencias en las medias de los tratamientos requiere que se satisfagan ciertos supuestos. Especficamente, estos supuestos son que el modelo
Yij = f1+r: i +sij describe de manera adecuada las observaciones, y que los errores siguen una distribucin normal e independiente con media cero yvarianza cr constante pero desconocida. Si estos supuestos se satisfacen, el procedimiento del anlisis de varianza es una prueba exacta de la hiptesis de que no hay diferencias en las medias de los tratamientos. Sin embargo, es comn que en la prctica estos supuestos no se satisfagan exactamente. Por consiguiente, en general no es prudente confiar en el anlisis de varianza hasta haber verificado estos supuestos. Las violaciones de los supuestos bsicos y la adecuacin del modelo pueden investigarse con facilidad mediante el examen de los residuales. El residual de la observacinj-sima en el tratamiento i-simo se define como (3-16)
donde Yij es una estimacin de la observacin Yij correspondiente que se obtiene como sigue:
Yij
-) Y..
(3-17)
La ecuacin 3-17 da el resultado intuitivamente claro de que la estimacin de cualquier observacin en el tratamiento i-simo no es sino el promedio del tratamiento correspondiente. El examen de los residuales deber ser una parte automtica de cualquier anlisis de varianza. Si el modelo es adecuado, los residuales debern estar sin estructura; es decir, no debern contener patrones obvios. A travs de un estudio de los residuales, pueden descubrirse muchos tipos de inadecuaciones del modelo y violaciones de los supuestos subyacentes. En esta seccin se indica cmo puede hacerse con facilidad la verificacin de diagnstico del modelo mediante el anlisis grfico de los residuales y cmo resolver varias anormalidades que ocurren comnmente.
77
3~4.1
El supuesto de normalidad
La verificacin del supuesto de normalidad podra hacerse graficando un histograma delos residuales. Si se satisface el supuesto de NID(O, 0 2) para los errores, esta grfica deber aparecer como una muestra de una distribucin normal con centro en cero. Desafortunadamente, cuando se trabaja con muestras pequeas, suelen ocurrir fluctuaciones significativas, por lo que la aparicin de una desviacin moderada de la normalidad no implica necesariamente una violacin seria de los supuestos. Las desviaciones marcadas de la normalidad son potencialmente serias y requieren anlisis adicional. Un procedimiento en extremo til es construir una grfica de probabilidad normal de los residuales. Recuerde que en el captulo 2 se utiliz una grfica de probabilidad normal de los datos originales para verificar el supuesto de normalidad cuando se us la prueba t. En el anlisis de varianza, por lo general es ms eficaz (y directo) hacer lo mismo con los residuales. Si la distribucin fundamental de los errores es normal, esta grfica tendr la apariencia de una lnea recta. Para visualizar la lnea recta, deber prestarse ms atencin a los valores centrales de la grfica que a los valores extremos. En la tabla 3-6 se muestran los datos originales y los residuales de los datos de la resistencia a la tensin del ejemplo 3- i. La grfica de probabilidad normal se muestra en la figura 3-4. La impresin general que surge al examinar esta representacin es que la distribucin de los errores puede tener un ligero sesgo, con la cola derecha siendo ms larga que la izquierda. La tendencia de la grfica de probabilidad normal a curvarse hacia abajo ligeramente del lado izquierdo, implica que la cola izquierda de la distribucin de los errores sea un tanto ms delgada de lo que se anticipara con una distribucin normal; es decir, los residuales negativos no son tan grandes (en valor absoluto) como se esperaba. Sin embargo, esta grfica no muestra una desviacin marcada de la distribucin normal. En general, las desviaciones moderadas de la normalidad no son motivo de gran preocupacin en el anlisis de varianza de efectos fijos (recuerde el anlisis de las pruebas de aleatorizacin de la seccin 3-3.2). Una distribucin de los errores que tiene colas considerablemente ms gruesas o delgadas que la distribucin normal es motivo de mayor preocupacin que una distribucin sesgada. Puesto que la prueba F slo se afecta ligeramente, se dice que el anlisis de varianza (y los procedimientos relacionados como las comparaciones mltiples) es robusto con respecto al supuesto de normalidad. Las desviaciones de la normalidad hacen por lo general que tanto el verdadero nivel de significacin como la verdadera potencia difieran ligeramente de los valores anunciados, con la potencia siendo generalmente ms baja. El modelo de los efectos aleatorios que se revisar en el captulo 12 se afecta en forma ms severa por la no normalidad.
Tabla 3-6 Datos y residuales del ejemplo 3-1 a
Peso
porcentual del algodn
15 20 25 30 7 12 14 19 7 1-2.8 (15) 1-3.4 (8) 1-3.6 (18) 1-2.6 (22) 1-3.8 (17) 7 17 18 25
10
Observaciones (j) 2
1-2.8 (19) 15 12 18 22 11
5
1-0.8 (6) 9 9.8 15.4 17.6 21.6
5.2 (25)
I
11 18 19 19 15
1.2 (12)
1.6 (14)
(13)
I
19
I 0.4
I
3.4 (5)
I
19
I
23
0.2 1 4.2 10.8 (16) 11 (23) . . Los reSIduales se mdlcan en el recuadro de cada celda. Los numeros entre parentesls mdlcan el orden en que se recolectaron los datos. 35 1-0.8 (21)
78
99
95 90
ro
SO
70 50 30 20 10 5
E o
t:
"C
:5 ro
.c
Ql
31
ro
o.
"C
::!< o
gm
~.;:i'
-3.8
-1.55
0.7
Residual
2.95
5.2
Figura 3-4
Una anomala muy comn que suele ponerse de manifiesto en las grficas de probabilidad normal es un residual que es mucho ms grande que cualquier otro. A un residual as se le llama con frecuencia punto atpico. La presencia de uno o ms puntos atpicos puede introducir serias distorsiones en el anlisis de varianza, por lo que cuando se localiza un punto atpico potencial, se requiere una investigacin atenta. En muchas ocasiones, la causa del punto atpico es un error en los clculos o un error al codificar o copiar los datos. Si no es sta la causa, las circunstancias experimentales que rodean esta corrida particular deben estudiarse con atencin. Si la respuesta atpica ocurre en un valor particularmente deseable (alta resistencia, costo bajo, etc.), el punto atpico puede ser ms informativo que el resto de los datos. Deber tenerse cuidado de no rechazar o descartar una observacin atpica a menos que se tengan razones no estadsticas de peso para hacerlo. En el peor de los casos, puede terminarse con dos anlisis; uno con el punto atpico y uno sin l. Existen varios procedimientos estadsticos formales para detectar puntos atpicos (por ejemplo, ver Barnett y Lewis [8], John YPrescott [60] YStefansky [107]). Puede hacerse una verificacin aproximada de los puntos atpicos examinando los residuales estandarizados e .. d = __ 9(3 18)
ij
.JMSE
79
Si los errores cij son N(O, 02), los residuales estandarizados debern ser aproximadamente normales con media cero y varianza unitaria. Por lo tanto, cerca de 68% de los residuales estandarizados debern estar incluidos dentro de los lmites 1, cerca de 95% de ellos debern estar incluidos dentro de 2 y virtualmente todos ellos debern estar incluidos dentro de 3. Un residual mayor que 3 o 4 desviaciones estndar a partir de cero es un punto atpico potencial. Para los datos de la resistencia a la tensin del ejemplo 3-1, la grfica de probabilidad normal no produce indicio alguno de puntos atpicos. Adems, el residual estandarizado mayor es d 13
La graficacin de los residuales en el orden temporal de la recoleccin de los datos es til para detectar correlaciones entre los residuales. Una tendencia a tener corridas de residuales positivos y negativos indica una correlacin positiva. Esto implicara que el supuesto de independencia de los errores ha sido violado. Se trata de un problema potencialmente serio y cuya solucin es difcil, por lo que de ser posible es importante evitar el problema cuando se colecten los datos. La aleatorizacin adecuada del experimento es un paso importante para conseguir la independencia. En ocasiones las habilidades del experimentador (o los sujetos) pueden cambiar conforme el experimento avanza, o el proceso bajo estudio puede "vagar sin rumbo" o volverse ms errtico. Esto producir con frecuencia un cambio en la varianza del error con el tiempo. Esta condicin suele llevar a una grfica de los residuales contra el tiempo que muestra una dispersin mayor en uno de sus extremos que en el otro. Una varianza no constante es un problema potencialmente serio. En las secciones 3-4.3 y 3-4.4 se abundar sobre el tema. En la tabla 3-6 se muestran los residuales y la secuencia en el tiempo de la recoleccin de los datos para el experimento de la resistencia a la tensin. En la figura 3-5 se presenta una grfica de estos residua6
5
4
15
Tiempo
3
2
. ro
:J
ID
:::;.
:2
o
-2
'" -1 a:
-3
-4
-5
20
-6
Figura 35
80
CAPTULO 3
les contra el tiempo. No hay razn para sospechar cualquier violacin de los supuestos de independencia o de una varianza constante.
3,4.3
Si el modelo es correcto y se satisfacen los supuestos, los residuales debern estar sin estructura; en particular, no debern estar relacionados con ninguna otra variable, incluyendo la respuesta predicha. Una verificacin simple es graficar los residuales contra los valores ajustados Yj' (Para el modelo de un experimento con un solo factor, recuerde que Yij = Yi.> el promedio del tratamiento i-simo.) Esta grfica no deber mostrar ningn patrn obvio. En la figura 3-6 se grafican los residuales contra los valores ajustados para los datos de la resistencia a la tensin del ejemplo 3-1. No es evidente ninguna estructura inusual. Un defecto que sale a relucir en ocasiones en esta grfica es una varianza no constante. En ocasiones la varianza de las observaciones se incrementa cuando la magnitud de la observacin se incrementa. ste sera el caso si el error o ruido de fondo del experimento fuera un porcentaje constante de la magnitud de la observacin. (Esto ocurre comnmente con muchos instrumentos de medicin; el error es un porcentaje de la escala de medicin.) Si ste fuera el caso, los residuales se haran mayores conforme Yij se hiciera ms grande, y la grfica de los residuales contraYij se vera como un embudo o un megfono con la boca hacia afuera. Una varianza no constante tambin surge en los casos en que los datos siguen una distribucin no normal, sesgada, porque en las distribuciones sesgadas la varianza tiende a ser una funcin de la media. Si se viola el supuesto de la homogeneidad de las varianzas, la prueba F slo resulta afectada ligeramente en el modelo balanceado (el mismo tamao de la muestra en todos los tratamientos) con efectos fijos. Sin embargo, en diseos no balanceados o en casos en que una de las varianzas es considerablemente ms grande que las dems, el problema es ms grave. Especficamente, si los niveles del factor que tienen las varianzas mayores corresponden tambin con los tamaos de las muestras ms pequeos, el ndice de error tipo 1 real es mayor que lo previsto (o los intervalos de confianza tienen niveles de confianza reales ms bajos que los que fueron especificados). Recprocamente, si los niveles del factor con las varianzas mayores tienen tambin los tamaos de las muestras mayores, los niveles de significacin son mucho menores que lo anticipado (los niveles de confianza son ms altos). sta es una buena razn para escoger tamaos de las muestras iguales siempre que sea posible. Para los modelos con efectos aleatorios, las
6
5
4 3
2
ri.>::;O
-E ';
al
ro
Ol-----'----J..:.----'----L.----l..-
c:r: -1
10
15
Yij
20 25
-2 -3
-4
-5
-6
Figura 36
81
varianzas del error diferentes pueden introducir alteraciones significativas en las inferencias sobre los componentes de la varianza, incluso cuando se usan diseos balanceados. El enfoque usual para abordar el problema de una varianza no constante que ocurre por las razones expuestas antes consiste en aplicar una transformacin para estabilizar la varianza para correr despus el anlisis de varianza en los datos transformados. En este enfoque, deber tenerse presente que las conclusiones del anlisis de varianza se aplican a las poblaciones trans!01madas. Se han dedicado considerables esfuerzos de investigacin a la seleccin de una transformacin adecuada. Si los experimentadores conocen la distribucin terica de las observaciones, pueden hacer uso de esta informacin para elegir la transformacin. Por ejemplo, si las observaciones siguen la distribucin de poisson, se usara la transformacin de la raz cuadrada Y~ = o Y~ = ~1 + Yij' Si los datos siguen la distribucin lognormal, la transformacin logartmica Y~ = log Yij es adecuada. Para datos binomiales expresados como fracciones, la transformacin arcseny~ = arcsenJY;; es til. Cuando no hay una transformacin obvia, el experimentador realizar por lo general la bsqueda emprica de una transformacin que iguale la varianza independientemente del valor de la media. Al final de esta seccin se ofrecen algunos consejos al respecto. En los experimentos factoriales, los cuales se introducen en el captulo 5, otro enfoque es seleccionar una transformacin que minimice el cuadrado medio de las interacciones, siendo el resultado un experimento cuya interpretacin es ms sencilla. En el captulo 14 se revisan con mayor detalle los mtodos para seleccionar analticamente la forma de la transformacin. Las transformaciones que se hacen para la desigualdad de la varianza afectan tambin la forma de la distribucin del error. En la mayora de los casos, la transformacin hace que la distribucin del error est ms cerca de la distribucin normal. Para ms detalles sobre las transformaciones, referirse a Bartlett [7], Box y Cox [15], Dolby [38] y Draper y Hunter [39].
y;;
Pruebas estadsticas para la igualdad de la varianza Aun cuando es frecuente el uso de las grficas residuales para diagnosticar la desigualdad de la varianza, se han propuesto tambin varias pruebas estadsticas. Estas pruebas pueden considerarse como pruebas formales de las hiptesis
Ho:o =o~
= "'=0;
x~
donde
= 2.3026 1
(3-19)
S~ i=l
(ni -1)10glO Si
(!
a
..o.i=-"l
i=l
(n-1
r1 -(N-a r1 )
_
2: (n -1)S; S2 =
P
N-a
S2
82
CAPTULO 3
La cantidad q es grande cuando la diferencia entre las varianzas muestrales Si2 es considerablemente grande, y es igual a cero cuando todas las S son iguales. Por lo tanto, H o deber rechazarse para los valores de X~ que sean muy grandes; es decir, se rechaza H o slo cuando
2 X o >X2 a,a-l
donde X~.a-l es el punto porcentual a superior de la distribucin ji-cuadrada con a - 1 grados de libertad. Tambin podra usarse el enfoque del valor P para tomar una decisin. La prueba de Bartlett es muy sensible al supuesto de normalidad. Por consiguiente, cuando la validez de este supuesto est en duda, no deber usarse la prueba de Bartlett.
EJEMPLO 3-4
Ya que el supuesto de normalidad no est en entredicho, la prueba de Bartlett puede aplicarse a los datos de la resistencia a la tensin del experimento del peso porcentual de algodn del ejemplo 3-1. Se calculan primero las varianzas muestrales de cada tratamiento y se encuentra que S12 = 11.2, S~ = 9.8, si = 4.3, = 6.8 YS; = 8.2. Entonces
si
S2 = 4(11.2)+4(9.8)+4(4.3)+4(6.8)+4(8.2) = 8.06
p
20
q = 20 10glO (8.06)- 4[10glO 11.2+ 10glO 9.8+ 10glO 4.3+ loglo 6.8+ 10glO 8.2] = 0.45
Debido a que la prueba de Bartlett es sensible al supuesto de normalidad, puede haber situaciones en las que sera til un procedimiento alternativo. Anderson y McLean [2] presentan una atinada revisin de algunas pruebas estadsticas de la igualdad de la varianza. La prueba de Levene modificada (ver Levene [72] y Conover, Johnson y Johnson [31]) es un procedimiento muy til que es robusto en cuanto a las desviaciones de la normalidad. Para probar la hiptesis de que las varianzas son iguales en todos los tratamientos, la prueba de Levene modificada utiliza la desviacin absoluta de las observaciones Yij de cada tratamiento de la mediana de los tratamientos, por ejemplo y;. Sea que estas desviaciones se denoten por
=IYij - Yil J"= 1, 2,
_{i = 1, 2, ...,
... ,
a
l'
"i
dj
La prueba de Levene modificada evala entonces si la media de estas desviaciones es igual no para todos los tratamientos. Cuando las desviaciones medias son iguales, las varianzas de las observaciones de
83
Tabla 3-7
Datos de la descarga pico Mtodo de estimacin 0.12 0.34 1 0.91 2 2.94 6.31 8.37 3 17.15 4 11.82
Observaciones 1.23 2.14 9.75 10.95 0.70 2.36 6.09 17.20 1.75 2.86 9.82 14.35 0.12 4.55 7.24 16.82
Y.
0.71 2.63 7.93 14.72
s
0.66 1.09 1.66 2.77
Mtodo de estimacin
Desviaciones d para la prueba de Levene modificada 0.18 1.70 1.495 1.56 0.40 0.33 0.565 3.77 0.71 0.47 1.945 4.64 0.18 0.25 1.715 1.61 1.23 0.25 2.015 1.24 0.40 1.94 0.565 1.23
1 2 3 4
todos los tratamientos sern iguales. El estadstico de prueba para la prueba de Levene es simplemente el estadstico F ANOVA usual para probar la igualdad de las medias que se aplica a las desviaciones absolutas. EJEMPLO 3 ~ 5
...............................
Un ingeniero civil est interesado en determinar si cuatro mtodos diferentes para estimar la frecuencia de las inundaciones producen estimaciones equivalentes de la descarga pico cuando se aplican a la misma cuenca. Cada procedimiento se usa seis veces en la cuenca, y los datos de las descargas resultantes (en pies cbicos por segundo) se muestran en la parte superior de la tabla 3-7. El anlisis de varianza de los datos, el cual se resume en la tabla 3-8, implica que hay una diferencia en las estimaciones de la descarga pico promedio obtenidas en los cuatro procedimientos. La grfica de los residuales contra los valores ajustados, la cual se muestra en la figura 3-7, es preocupante porque la forma de embudo con la boca hacia afuera indica que no se satisface el supuesto de una varianza constante. Se aplicar la prueba de Levene modificada a los datos de la descarga pico. La parte superior de la tabla 3-7 contiene las medianas de los tratamientos Ji; y la parte inferior contiene las desviaciones dij alrededor de las medianas. La prueba de Levene consiste en realizar un anlisis de varianza estndar en las dijo El estadstico de pruebaF que resulta en este caso es Fa = 4.55, para el cual el valor Pes P = 0.0137. Por lo tanto, la prueba de Levene rechaza la hiptesis nula de que las varianzas son iguales, coincidiendo en esencia con el diagnstico que se hizo a partir del examen visual de la figura 3-7. Los datos de la descarga pico son un buen candidato para una transformacin de datos.
Seleccin emprica de una transformacin Se seal ya que si los experimentadores conocieran la relacin entre la varianza de las observaciones y la media, podran usar esta informacin como gua para la seleccin de la forma de la transformacin. Se
Tabla 3-8 Anlisis de varianza de los datos de la descarga pico Fuente de Suma de Grados de variacin cuadrados libertad Mtodos 708.3471 3 Error 20 62.0811 Total 23 770.4282
Valor P <0.001
84
4
3 2
'"
::::-
o
-1
a
I
-2 -3
-4
desarrolla ahora este punto y se presenta un mtodo para seleccionar empricamente la forma de la transformacin requerida de los datos. SeaE(y) = tIa media dey, y suponga que la desviacin estndar dey es proporcional a una potencia de la media de y tal que
Quiere encontrarse una transformacin de y que produzca una varianza constante. Suponga que la transformacin es una potencia de los datos originales, por ejemplo
i'=yA
Puede demostrarse entonces que
(3-20)
y'
oc
11
A+a-l
t'"
(3-21)
Evidentemente, si se hace A = 1 - a, la varianza de los datos transformados y* es constante. En la tabla 3-9 se resumen varias de las transformaciones comunes analizadas anteriormente. Observe que A = O implica la transformacin logartmica. Estas transformaciones se enlistan en el orden de fuerza creciente. Por fuerza de una transformacin se entiende la cantidad de curvatura que induce. Una transformacin suave aplicada a datos que se extienden en un rango estrecho tiene escaso efecto sobre el
A=l-a
1 1/2 O
Transformacin Sin transformacin Raz cuadrada Log Raz cuadrada recproca Recproco
o
1/2 1 3/2 2
-1/2
-1
85
1.0
0.5
CIj-
O>
-0.5
-1
Figura 3-8 Grfica de lag Si contra logy,. para los datos de la descarga pico del ejemplo 3-5.
anlisis, mientras que una transformacin fuerte aplicada en un rango amplio puede tener resultados dramticos. Con frecuencia las transformaciones tienen escaso efecto a menos que el cociente YrnJ/Yrnn sea mayor que 2 o 3. En muchas situaciones de diseo experimental en las que se usan rplicas, a puede estimarse empricamente a partir de los datos. Puesto que la combinacin i-simo de los tratamientos a Yi ex: fl ~ = 8,u ~ , donde 8 es una constante de proporcionalidad, pueden tomarse logaritmos para obtener loga Yi
= 10g8+alog,ui
(3-22)
Por lo tanto, una grfica de lag a Yi contra log,ui sera una lnea recta con pendiente a. Puesto que no se conocen a Yi y,u, pueden sustituirse estimaciones razonables de ellos en la ecuacin 3-22 Yusar la pendiente del ajuste de la lnea recta resultante como estimacin de a. De manera tpica, se usara la desviacin estndar Si y el promedio y. del tratamiento i-simo (o, en trminos ms generales, la combinacin i-sima de los tratamientos o conjunto de condiciones experimentales) para estimar a Yi y ,u. Para investigar la posibilidad de usar una transformacin para estabilizar la varianza en los datos de la descarga pico del ejemplo 3-5, en la figura 3-8 se grafica lag S contra logy.. La pendiente de la recta que pasa por estos cuatro puntos est cerca de 1/2 y, por la tabla 3-9, esto implica que la transformacin de la raz cuadrada puede ser apropiada. El anlisis de varianza de los datos transformadosy* = vy se presenta en la tabla 3-10, y en la figura 3-9 se muestra una grfica de los residuales contra la respuesta predicha. Esta grfica residual muestra una mejora sensible en comparacin con la figura 3-7, por lo que se concIuTabla 310 Anlisis de varianza de los datos transformados de la descarga pico, y* = yY
Suma de cuadrados
32.6842 2.6884 35.3726
Grados de libertad
3 19 22
Cuadrado medio
10.8947 0.1415 76.99
ValorP
<0.001
86
1.00 0.75 0.50 0.25
,iJ::'
O
CAPTULO 3
110
ti
Figura 3-9 Grfica de los residuales de los datos transformados contra yij para los datos de la descarga pico del ejemplo 3-5.
ye que la transformacin de la raz cuadrada ha sido til. Observe que en la tabla 3-10 se han reducido los grados de libertad del error en 1 para tomar en consideracin el uso de los datos para estimar el parmetro de la transformacin a. En la prctica, muchos experimentadores seleccionan la forma de la transformacin probando varias alternativas y observando el efecto de cada transformacin en la grfica de los residuales contra la respuesta predicha. Entonces se selecciona la transformacin que produjo la grfica residual ms satisfactoria.
3~4.4
Si se hn recolectado datos de cualesquiera otras variables que posiblemente pudieran afectar la respuesta, los residuales debern graficarse contra estas variables. Por ejemplo, en el experimento de la resistencia a la tensin del ejemplo 3-1, la resistencia puede ser afectada de manera significativa por el espesor de la fibra, por lo que los residuales debern graficarse contra el espesor de la fibra. Si se usaron diferentes mquinas de prueba para recolectar los datos, los residuales debern graficarse contra las mquinas. Los patrones en tales grficas residuales implican que la variable afecta la respuesta. Esto sugiere que la variable debera controlarse con mayor atencin en experimentos futuros o que debera incluirse en el anlisis.
3~5
Despus de realizar el experimento, llevar a cabo el anlisis estadstico e investigar los supuestos fundamentales, el experimentador est listo para sacar conclusiones prcticas acerca del problema bajo estudio. Muchas veces esto es relativamente fcil, y ciertamente en los experimentos sencillos que s.e han considerado hasta este punto, esto podra hacerse de manera un tanto informal, tal vez mediante la inspeccin de las representaciones grficas, como los diagramas de caja y el diagrama de dispersin de las figuras 3-1 y 3-2. Sin embargo, en algunos casos es necesario aplicar tcnicas ms formales. En esta seccin se presentarn algunas de ellas.
87
3~5.1
Un modelo de regresin
Los factores que intervienen en un experimento pueden ser cuantitativos o cualitativos. Un factor cuantitativo es aquel cuyos niveles pueden asociarse con puntos en una escala numrica, como la temperatura, la presin o el tiempo. Los factores cualitativos, por otra parte, son aquellos cuyos niveles no pueden ordenarse por magnitud. Los operadores, los lotes de materia prima y los cambios de tumo son factores cualitativos tpicos, ya que no existe ninguna razn para ordenarlos bajo algn criterio numrico particular. En lo que se refiere al diseo inicial y al anlisis del experimento, ambos tipos de factores se tratan de manera idntica. El experimentador est interesado en determinar las diferencias, en caso de haberlas, entre los niveles de los factores. Si el factor es cualitativo, como los operadores, no tiene sentido considerar la respuesta de una corrida subsecuente en un nivel intermedio del factor. Sin embargo, con un factor cuantitativo como el tiempo, el experimentador tiene inters por lo general en el rango completo de los valores usados, particularmente la respuesta de una corrida subsecuente con un nivel intermedio del factor. Es decir, si se usan los niveles 1.0, 2.0 Y3.0 en el experimento, tal vez quiera predecir la respuesta de 2.5 horas. Por lo tanto, el experimentador tiene con frecuencia inters en desarrollar una ecuacin de interpolacin para la variable de respuesta del experimento. Esta ecuacin es un modelo emprico del proceso que se ha estudiado. Al enfoque general para ajustar modelos empricos se le llama anlisis de regresin, el cual se analiza en detalle en el captulo 10. Vase tambin el material suplementario del texto para este captulo. En esta seccin se ilustra brevemente la tcnica utilizando los datos de la resistencia a la tensin del ejemplo 3-1. En la figura 3-10 se presenta el diagrama de dispersin de la resistencia a la tensin y contra el peso porcentual del algodn x en la tela para el ~xperimento del ejemplo 3-1. Los crculos huecos de la grfica son las resistencias de tensin promedio para cada valor x del peso porcentual del algodn. A partir del examen del diagrama de dispersin, es evidente que la relacin entre la resistencia a la tensin y el peso
25
~ ",-X
20
'"
~
'o 15 .; c:
:!l
c: :!l 10
al
a::
..
Figura 3-10 Diagrama de dispersin para los datos de la resistencia a la tensin del ejemplo 3-1.
88
porcentual del algodn no es lineal. Como una primera aproximacin, podra intentarse ajustar un modelo cuadrtico para los datos, por ejemplo
donde/3o,/31 y/32 son parmetros desconocidos que debern estimarse y [; es un trmino del error aleatorio. El mtodo que se usa con mayor frecuencia para estimar los parmetros en un modelo como ste es el mtodo de mnimos cuadrados. ste consiste en elegir estimaciones de las /3 tales que minimicen la suma de cuadrados de los errores (las [;). El ajuste de mnimos cuadrados en el ejemplo que se considera aqu es
y= -39.9886+4.596x- 0.0886x 2
(Si el lector no est familiarizado con los mtodos de regresin, vea el 'captulo 10 y el material suplementario del texto para este captulo.) En la figura 3-10 se muestra este modelo cuadrtico. No parece muy satisfactorio, ya que subestima de manera drstica las respuestas para x = 30% de algodn y sobrestima las respuestas para x = 25%. Quiz pueda lograrse un mejoramiento agregando un trmino cbico enx. El ajuste con el modelo cbico resultante es
y= 62.6114- 9.0114x+0.4814x 2 -
0.0076x 3
Este ajuste cbico se ilustra tambin en la figura 3-10. El modelo cbico parece mejor que el cuadrtico porque proporciona un ajuste mejor para x = 25 Y x = 30% de algodn. En general, sera preferible hacer el ajuste con el polinomio de orden menor que describa adecuadamente el sistema o proceso. En este ejemplo, el polinomio cbico parece un mejor ajuste que el cuadrtico, por lo que la complejidad adicional del modelo cbico se justifica. Sin embargo, seleccionar el orden del polinomio de aproximacin no siempre es fcil, y es relativamente sencillo excederse en el ajuste, es decir, agregar polinomios de orden superior que no mejoran en realidad el ajuste pero que incrementan la complejidad del modelo y con frecuencia demeritan su utilidad como predictor o ecuacin de interpolacin. En este ejemplo,.el modelo emprico podra usarse para predecir la resistencia a la tensin media para los valores del peso porcentual del algodn dentro de la regin de experimentacin. En otros casos, el modelo emprico podra usarse para la optimizacin del proceso, es decir, para encontrar los niveles de las variables del diseo que dan como resultado los mejores valores de la respuesta. Ms adelante se analizarn e ilustrarn en detalle estos problemas.
3~5.2
Suponga que al hacer el anlisis de varianza en el modelo con efectos fijos se rechaza la hiptesis nula. Por lo tanto, hay diferencias entre las medias de los tratamientos, pero no se especifica exactamente cules medias difieren. En ocasiones pueden ser de utilidad en esta situacin las comparaciones y los anUsis adicionales entre grupos de las medias de los tratamientos. La media del tratamiento i-simo se define como fl. =fl. + ti' y fl. se estima con y.. Las comparaciones entre las medias de los tratamientos se hacen ya sea en trminos de los totales de los tratamientos {y'} o bien de los promedios de los tratamientos {jIJ. Es comn llamar a los procedimientos para hacer estas comparaciones mtodos de comparaciones mltiples. En varias de las secciones siguientes se analizan los mtodos para hacer comparaciones entre las medias de los tratamientos individuales o de grupos de estas medias.
89
3..5.3
Es muy sencillo desarrollar un procedimiento grfico para la comparacin de las medias despus de un anlisis de varianza. Suponga que el factor de inters tiene a niveles y que Y1.'Y2., ...,Ya. son los promedios de los tratamientos. Si se conoce a, el promedio de cualquier tratamiento tendra una desviacin estndar aNli. Por consiguiente, si todas las medias de los niveles del factor son idnticas, las medias muestrales observadas Y. se comportaran como un conjunto de observaciones tomadas al azar de una distribucin normal con mediaY.. y desviacin estndar a/..[ii. Visualice una distribucin normal con la capacidad de ser deslizada sobre un eje abajo del cual estn graficadasY1.'Y2., ... ,Ya.. Si todas las medias de los tratamientos son iguales, deber haber una posicin de esta distribucin que haga evidente que los valores y. se sacaron de la misma distribucin. Si no es ste el caso, los valores Y. que no parecen haberse sacado de esta distribucin se asocian con los niveles del factor que producen respuestas medias diferentes. La nica falla en esta lgica es que a es desconocida. Sin embargo, puede sustituirse a con .JMS E del anlisis de varianza y usar una distribucin t cQn un factor de escalacin.J MS E/n en lugar de la distribucinnormal. En la figura 3-11 se muestra este arreglo para los datos de la resistencia a la tensin del ejemplo 3-1. Para trazar la distribucin t de la figura 3-11, simplemente se multiplica el valor de la abscisa t por el factor de escalacin
25
5
10 15
30
20
25
Figura 3-11 Promedio de la resistencia a la tensin del experimento del peso porcentual del algodn en relacin con una distribucin t con un factor de escalacin .JMSE / n =.JS.D6 / 5 =127.
90
Este procedimiento simple es una tcnica aproximada pero eficaz en muchos problemas de comparaciones mltiples. Sin embargo, existen mtodos ms formales. A continuacin se presenta una breve revisin de algunos de estos procedimientos.
3..5.4
Contrastes
Muchos mtodos de comparaciones mltiples utilizan el concepto de contraste. Considere el problema de la prueba de la fibra sinttica del ejemplo 3-1. Puesto que se rechaz la hiptesis nula, se sabe que algunos pesos porcentuales del algodn producen resistencias a la tensin diferentes que otros, pero, cules son los que causan en realidad esta diferencia? Al principio del experimento podra sospecharse que los niveles 4 y 5 del peso porcentual del algodn (30 y 35 por ciento) producen la misma resistencia a la tensin, lo cual implicara que la hiptesis por probar sera
H o : fl4
= fls
H l :fl4 ; fls
o, de manera equivalente,
H o : l4 - fls
=O
(3-23)
H l :fl4-fls ;0
Si desde el principio del experimento se hubiera sospechado que el promedio de los niveles ms bajos del peso porcentual del algodn (1 y 2) no difera del promedio de los niveles ms altos del peso porcentual del algodn (4 Y 5), entonces la hiptesis habra sido Ho:fll Hl:fll
+flz +flz
= fl4 +fls
; fl4 +fls
o
Ho:fll H l : fll
+flz
=O
+ flz -
=O
(3-24)
donde las constantes de los contrastes cl , Cz, oo., ca suman cero; es decir, L ~=l c riores pueden expresarse en trminos de contrastes:
Ho
Hl
:! :!
=1
i=1
cfl
=O
(3-25)
Cfl; O
91
Las pruebas de hiptesis que incluyen contrastes pueden hacerse de dos maneras bsicas. En el primer mtodo se utiliza la prueba t. El contraste de inters se escribe en trminos de los totales de los tratamientos, obtenindose
c=!
i=l
La varianza de C es
V(C) = n0 2
2: c;
=1
(3-26)
cuando los tamaos de las muestras de cada tratamiento son iguales. Si la hiptesis nula de la ecuacin 3-25 es verdadera, el cociente
i=1
tiene la distribucinN(O, 1). Entonces se sustituira la varianza desconocida a2 con su estimacin, el error cuadrtico medio MSE' y se utilizara el estadstico
(3-27)
para probar las hiptesis de la ecuacin 3-25. La hiptesis nula se rechazara si It oI de la ecuacin 3-27 excede tal2, N-a' En el segundo enfoque se utiliza la prueba F. Entonces, el cuadrado de una variable aleatoria t con v grados de libertad es una variable aleatoria F con un grado de libertad en el numerador y v grados de libertad en el denominador. Por lo tanto, puede obtenerse
F.o = t o 2
! ( =
C i y.)2
1=1
nMSE
2: C;
i=1
(3-28)
como un estadstico F para probar la ecuacin 3-25. La hiptesis nula se rechazara si Fo > Fa ,1,N-a' Este estadstico de prueba de la ecuacin 3-28 puede escribirse como MS c SSc /1 Fo = MS = MS
E E
SS
C
= ...:..:....1=~1_ _-'--i=1
! CYi.)2 ( n! C2
(3-29)
92
Intervalo de confianza para un contraste En lugar de probar hiptesis acerca de un contraste, puede ser ms til construir un intervalo de confianza. Entonces el contraste suele expresarse en trminos de los promedios de los tratamientos Yi. Suponga que el contraste de inters es
r=}:
i=1
Al sustituir las medias de los tratamientos con los promedios de los tratamientos se obtiene
V(C)=~
L c; n
i=1
cuando los tamaos de las muestras son iguales. Si se usaMSE para estimar cJ2, el intervalo de confianza de 100(1 - a) por ciento para el contraste "L~=1cdti es (3-30) Evidentemente, si este intervalo de confianza incluye al cero, no podra rechazarse la hiptesis nula en fa ecuacin 3-25. Contraste estandarizado Cuando hay inters en ms de un contraste, con frecuencia es til evaluarlos en la misma escala. Una forma de hacer esto es estandarizando el contraste para que su varianza sea a2 Si el contraste "L~=1Cif.1i se expresa en trminos de los totales de los tratamientos como "L ~=1 C i Yi. , al dividirlo por ~ n"L ~=1 c; se obtendr un contraste estandarizado con varianza cJ2. Entonces el contraste estandarizado es en realidad
donde
Tamaos de las muestras desiguales Cuando los tamaos de las muestras de cada tratamiento son diferentes, se introducen modificaciones menores en los resultados anteriores. Primero, observe que la definicin de un contraste requiere ahora que
~ n.c. =0 L.J ~.
l
i=1
93
Otros cambios requeridos son directos. Por ejem'plo, el estadstico t de la ecuacin 3-27 queda como
3~5.5
Contrastes ortogonales
Un caso especial til del procedimiento de la seccin 3-5.4 es el de los contrastes ortogonales. Dos contrastes con coeficientes {cJ y {dJ son ortogonales si
!
o, para un diseo no balanceado, si
cd
=O
=1
ncd =0
=1
Para a tratamientos, el conjunto de a -1 contrastes ortogonales hace la particin de la suma de cuadrados debida a los tratamientos en a - 1 componentes independientes con un solo grado de libertad. Por lo tanto, las pruebas que se realizan en los contrastes ortogonales son independientes. Existen varias maneras de elegir los coeficientes de los contrastes ortogonales para un conjunto de tratamientos. En general, algn elemento en la naturaleza del experimento deber sugerir las comparaciones que son de inters. Por ejemplo, si haya = 3 tratamientos, donde el tratamiento 1 es de control y donde los niveles del factor en los tratamientos 2 y 3 son de inters para el experimentador, los contrastes ortogonales apropiados podran ser los siguientes:
Coeficientes de los contrastes ortogonales
-2
1 1
o
-1 1
Observe que el contraste 1 con c = -2, 1, 1 compara el efecto promedio del factor con el control, mientras que el contraste 2 con di = O, -1, 1 compara los dos niveles del factor de inters. En general, el mtodo de contrastes (o de contrastes ortogonales) es til para lo que se llama comparaciones preplaneadas. Es decir, los contrastes se especifican antes de llevar a cabo el experimento y de examinar los datos. La razn de esto es que, si las comparaciones se seleccionan despus de examinar los
I!i!
1,
'1'..1.
:i
~ ii
li:
li
94
CAPTULO 3
datos, la mayora de los experimentadores construiran pruebas que corresponderan con las diferencias grandes observadas en las medias. Estas diferencias grandes podran ser el resultado de la presencia de efectos reales o podran ser el resultado del error aleatorio. Si los experimentadores se inclinan consistentemente a escoger las diferencias ms grandes para hacer las comparaciones, inflarn el error tipo 1 de la prueba porque es probable que, en un porcentaje inusualmente elevado de las comparaciones seleccionadas, las diferencias observadas sern el resultado del error. Al examen de los datos para seleccionar las comparaciones de inters potencial se le llama con frecuencia curioseo o sondeo de datos. El mtodo de Scheff para todas las comparaciones, el cual se comenta en la seccin siguiente, permite el curioseo o sondeo de datos. EJEMPLO 3..6 .
Considere los datos del ejemplo 3-1. Hay cinco medias de los tratamientos y cuatro grados de libertad entre estos tratamientos. Suponga que antes de correr el experimento se especific la siguiente serie de comparaciones entre las medias de los tratamientos (y sus contrastes asociados):
Hiptesis
HO :f.l4 = f.l5 Ho:f.ll + f.l3 = f.l4 + f.l5 Ho:f.ll =f.l3 H o:4f.l2 = f.ll + f.l3 + f.l4 + f.l5
Contraste C =
-Y4+Y5.
Observe que los coeficientes de los contrastes son ortogonales. Utilizando los datos de la tabla 3-4, se encuentra que los valores numricos de los contrastes y de las sumas de cuadnidos son los siguientes:
c1 =
C 2 =+1(49)
-1(108)+1(54) = -54
ss
Cl
C2
C3 = +1(49)
c,
C4 = -1(49)+4(77)-1(88)-1(108)-1(54) = 9
SS
Fuente de variacin Peso porcentual del algodn contrastes ortogonales C:f.l4 = f.l5 C2:f.l1 + f.l3 = f.l4 + f.l5 C3:f.l1 =f.l3 C4:4f.l2 = f.ll + f.l3 + f.l4 + f.l5 Error Total
Suma de cuadrados
475.76 (291.60) (31.25) (152.10) (0.81) 161.20 636.96
Grados de libertad
4 1 1 1 1 20 24
Fo 14.76
36.18 3.88 18.87 0.10
Valor P
<0.001 <0.001 0.06 <0.001 0.76
95
Estas sumas de cuadrados de los contrastes hacen la particin completa de la suma de cuadrados de los tratamientos. Las pruebas de estos contrastes ortogonales se incorporan por lo general en el anlisis de varianza, como se muestra en la tabla 3-11. Por los valores P se concluye que hay diferencias significativas entre los niveles 4 y 5 Y1 Y3 del peso porcentual del algodn, pero que el promedio de los niveles 1 y 3 no difiere del promedio de los niveles 4 y 5 con el nivel a = 0.05, Yque el nivel 2 no difiere del promedio de los otros cuatro niveles .
(1
1Il
3~5.6
En muchas situaciones, los experimentadores pueden no conocer de antemano cules son los contrastes que quieren comparar, o pueden tener inters en ms de a -1 posibles comparaciones. En muchos experimentos de exploracin, las comparaciones de inters slo se descubren despus del examen preliminar de los datos. Scheff [98a] ha propuesto un mtodo para comparar todos y cada uno de los contrastes posibles entre las medias de los tratamientos. En el mtodo de Scheff, el error tipo 1 es a lo sumo a para cualquiera de las comparaciones posibles. Suponga que se ha determinado un conjunto de m contrastes
u=l, 2, ..., m
(3-31)
en las medias de los tratamientos de inters. El contraste correspondiente de los promedios de los tratamientos Yi. es
C u = c1u J\ +C 2"Y2. y el error estndar de este contraste es
o"
+cauYa.
u=l, 2, ..., m
(3-32)
SCu =
MsEI (c~ In
i=1
i )
(3-33)
donde ni es el nmero de observaciones en el tratamiento i-simo. Puede demostrarse que el valor crtico contra el que deber compararse C" es Sa,u = SCu .J(a-1)Fa,a-1.N-a (3-34) Para probar la hiptesis de que el contraste r" difiere de manera significativa de cero, se compara C" con el valor crtico. Si IC" I > Sa,", se rechaza la hiptesis de que el contraste r" es igual a cero. El procedimiento de Scheff puede usarse tambin para formar intervalos de confianza para todos los contrastes posibles entre las medias de los tratamientos. Los intervalos resultantes, por ejemplo C u Sa.u ::5 r" ::5 Cu + Sa,u, son intervalos de confianza simultneos por cuanto la probabilidad de que todos ellos sean verdaderos simultneamente es al menos 1 - a. Para ilustrar el procedimiento, considere los datos del ejemplo 3-1 y suponga que los contrastes de inters son
r2 =,t1-,t4
Los valores numricos de estos contrastes son C-+i-1 - Yi h -) _4. Ys. = 9.80+ 17.60- 21.60-10.80
= 5.00
96
y
CAPTULO 3
Cz = Yr
= -11.80
y los errores estndar se encuentran con la ecuacin 3-33 como
5
Sc!
MSEL
=l
(c~/ni)=~8.06(1+1+1+1)/5=2.54
y
5
SC,
MSEL (C;Z
i=l
/ni)=~8.06(1+1)/5=1.80
Puesto que ICll existe evidencia slida para concluir que las medias de los tratamientos 1 y 3 como grupo difieren de las medias de los tratamientos 4 y 5 como grupo. Sin embargo, como ICzl > SO.Ol,Z' se concluye que el contraste r z = fll - fl4 no es igual a cero; es decir, las resistencias medias de los tratamientos 1 y 4 difieren significativamente. En muchas situaciones prcticas, querrn compararse slo pares de medias. Frecuentemente, es posible determinar cules son las medias que difieren probando las diferencias entre todos los pares de medias de los tratamientos. Por 10 tanto, el inters se encuentra en los contrastes de la forma r = fli - flj para toda i : j. Aun cuando el mtodo de Scheff podra aplicarse fcilmente a este problema, no es el procedimiento ms sensible para tales comparaciones. Se pasa ahora a la consideracin de los mtodos diseados especficamente para las comparaciones por pares entre todas las a medias poblacionales.
3~5. 7
= Sc, ~(a -1 )FO.Ol,a-l,N-a = 1.80~4( 4.43) = 7.58 < SO.Ol,l' se concluye que el contraste r l = fll + fl3 - fl4 - fl5 es igual a cero; es decir, no
SO,Ol,Z
Supongaque el inters se encuentra en comparar todos los pares de a medias de tratamientos y que las hiptesis nulas que quieren probarse son Ho:fl = flj para toda i : j. A continuacin se presentan cuatro mtodos para hacer estas comparaciones. Prueba de Tukey Suponga que, despus de un anlisis de varianza en el que se ha rechazado la hiptesis nula de la igualdad de las medias de los tratamientos, quieren probarse todas las comparaciones de las medias por pares:
Ho:fli=flj Hl:ft: flj
para toda i : j. Tukey [ll1d] propuso un procedimiento para probar hiptesis para las que el nivel de significacin global es exactamente a cuando los tamaos de las muestras son iguales y es a 10 sumo a cuando
97
los tamaos de las muestras no son iguales. Este procedimiento puede usarse tambin para contraer los intervalos de confianza para las diferencias en todos los pares de medias. Para estos intervalos, el nivel de confianza simultneo es de 100(1 - a) por ciento cuando los tamaos de las muestras son iguales y de al menos 100(1- a) por ciento cuando los tamaos de las muestras no son iguales. Se trata de un procedimiento excelente para curiosear sobre los datos cuando el inters se centra en pares de medias. El procedimiento de Tukey hace uso de la distribucin del estadstico del rango studentizado
q = ----'~~M.====S:::::E=/n=-
Ymx - Ymio
donde Ymx YYrnn son las medias muestrales mayor y menor, respectivamente, sacadas de un grupo de p medias muestrales. La tabla VIII del apndice contiene los valores de qaCp,j), los puntos porcentuales a superiores de q, donde f es el nmero de grados de libertad asociados con MSE Para tamaos de las muestras iguales, la prueba de Tukey declara que dos medias son significativamente diferentes si el valor absoluto de sus diferencias muestrales excede
(3-35)
De manera equivalente, podra construirse una serie de intervalos de confianza de 100(1- a) por ciento para todos los pares de medias de la siguiente manera:
i ; j.
Cuando los tamaos de las muestras no son iguales, las ecuaciones 3-35 y 3-36 quedan como
(3-36)
(3-37)
y
respectivamente. A la versin para tamaos de las muestras diferentes se le llama en ocasiones el procedimiento Tukey-Kramer.
EJEMPLO 3..7
' .
Para ilustrar la prueba de Tukey, se usan los datos del experimento del peso porcentual del algodn del ejemplo 3-1. Con a = 0.05 yf = 20 grados de libertad para el error, en la tabla VIII del apndice se obtiene tio.os(S, 20) = 4.23. Por lo tanto, por la ecuacin 3-35,
To.os
= qo.os (5,
98
5',.
9.8
CAPTULO 3
Ys.
10.8
Figura 3-12
Por lo tanto, cualquier par de promedios de los tratamientos que difieran en valor absoluto por ms de 5.37 implicara que el par correspondiente de medias poblacionales son significativamente diferentes. Los cinco promedios de los tratamientos son
Y i = 9.8
Yz. = 15.4
Y3. = 17.6
Y4. = 21.6
- 5.6 * -7.8* -11.8* -1.0 -2.2 - 6.2 * 4.6 -4.0 6.8* 10.8*
Ys. = 10.8.
Yi - Yz. = 9.8-15.4 = Yi - Y3. = 9.8-17.6 = Yi - Y4. = 9.8- 21.6 = Yi - Ys. = 9.8-10.8= Yz. -h =15.4-17.6= Yz. - Y4. = 15.4- 21.6 = Yz. - Ys. = 15.4-10.8= Y3. -Y4. =17.6-21.6= Y3. - Ys. = 17.6-10.8= Y4. - Ys. = 21.6-10.8=
Los valores marcados con asterisco indican pare; de medias que son significativamente diferentes. Suele ser til trazar una grfica, como la de la figura 3-12, donde se subraya a los pares de medias que no difieren significativamente. Esta grfica da una indicacin de que las medias de los tratamientos forman tres grupos: fi1 y fis, fiz Y fi3' Y fi4' Sin embargo, la pertenencia a estos grupos no es del todo clara.
Cuando se utiliza cualquiera de los procedimientos para probar las medias por pares, ocasionalmente se encuentra que la pruebaF global del anlisis de varianza es significativa, pero la comparacin de las medias por pares falla para revelar cualquier diferencia significativa. Esta situacin ocurre porque la prueba F considera simultneamente todos los contrastes posibles en los que intervienen las medias de los tratamientos, no slo las comparaciones por pares. Es decir, en los datos a la mano, quiz no todos los contrastes significativos sean de la forma fii - fij' Algunos paquetes de software de computadora presentan comparaciones por pares con intervalos de confianza. Para el procedimiento de Tukey, estos intervalos se calcularan con la ecuacin 3-36 o la 3-38, dependiendo de si los tamaos de las muestras son iguales o no. La deduccin del intervalo de confianza de Tukey de la ecuacin 3-36 para tamaos de las muestras iguales es directa. Para el estadstico del rango studentizado q se tiene
min(Yi. - fi i ) <
-qa a,
f)) = 1- a
99
f1.j) I
Si mx(Y. - f1.) - mn(Y. - f1.) es menor o igual que qaCa,f).J MS E /11, debe ser verdadero que I(Y. - f1.) - (yj. :::; qa(a, f).J MS E /11 para cada par de medias. Por lo tanto,
~ __
l.
Al reordenar esta expresin para aislar f1. - f1.j entre las desigualdades se llegar al conjunto de intervalos de confianza simultneos de 100(1 - a) por ciento dado en la ecuacin 3-38.
El mtodo de la diferencia significativa mnima (LSD) de Fisher En este procedimiento se utiliza el estadstico F para probar H o:f1.
= f1.j
(3-39)
t o = :::==;=======
11 j
Y. - Yj.
MSE(~+~) 11
Suponiendo una hiptesis alternativa de dos colas, los pares de medias f.t y f1.j se declararan significativamente diferentes si I)I. - )lj.1 > ta /Z N-a~ MS E (1 / 11 + 1/ 11 j ). A la cantidad LSD
= ta/Z,N-a
MSE(~+~) 11
11 j 11 z
(3-40)
se le llama diferencia significativa mnima. Si el diseo es balanceado, 11 1 = LSD = t a / Z ,N-a ~2MSE -11-
= ... =
11 a
= 11, Y (3-41)
Para usar el procedimiento LSD de Fisher, simplemente se compara la diferencia observada entre cada par de promedios conlaLSD correspondiente. Si I)I. -)lj.1 > LSD, se concluye que las medias poblacionales f1. y f1.j difieren.
EJEMPLO
3~8
Para ilustrar el procedimiento, si se usan los datos del experimento del ejemplo 3-1, la LSD con a = 0.05 es LSD = t. 025 ,zo -11- = 2.086
~2MSE
~2(8.06)
5
= 3.75
Por lo tanto, cualquier par de promedios de los tratamientos que difiera del valor absoluto por ms de 3.75 implicara que el par correspondiente de medias poblacionales es significativamente diferente. Las diferencias en los promedios son
Yl - Yz. = 9.8-15.4 = Yl - J\ = 9.8-17.6 = Yl - Y4. = 9.8- 21.6 = Yl - )15. = 9.8-10.8= Yz. - )13. = 15.4-17.6 =
)lz. - )14. = 15.4- 21.6 = )lz. - )15. = 15.4-10.8= )13. - )14. = 17.6- 21.6 = )13. - )15. = 17.6-10.8= )14. - )15. = 21.6-10.8=
- 5.6* -7.8* -11.8* -1.0 - 2.2 - 6.2 * 4.6* - 4.0* 6.8* 10.8*
,1
li
!i
100
Y,.
9.8
CAPTULO 3
Ys.
10.8
Figura 3-13
Los valores marcados con asterisco indican pares de medias que son significativamente diferentes. En la figura 3-13 se resumen los resultados. Evidentemente, los nicos pares de medias que no difieren significativamente son 1 y 5 Y2 Y3, Yel tratamiento 4 produce una resistencia a la tensin significativamente mayor que los otros tratamientos.
Observe que el riesgo global a puede inflarse de manera considerable al utilizar este mtodo. Especficamente, cuando a se hace ms grande, el error tipo I del experimento (el cociente del nmero de experimentos en los que se comete al menos un error tipo I y el nmero total de experimentos) se hace grande.
Prueba del rango mltiple de Duncan Un procedimiento muy utilizado para comparar todos los pares de medias es la prueba del rango mltiple desarrollada por Duncan [41]. Para aplicar la prueba del rango mltiple de Duncan cuando los tamaos de las muestras son iguales, los a promedios de los tratamientos se arreglan en orden ascendente, y el error estndar de cada promedio se determina como
SYi.
= ~MSE -n-
(3-42)
Para tamaos de las muestras desiguales, se sustituye n en la ecuacin 3-42 con la media armnica n, del {ni}' donde nh
=-a----
L (l/ni)
i=l
(3-43)
Observe que si nI = n z = = na, nh = n. En la tabla de Duncan de los rangos significativos (tabla VII del apndice) se obtienen los valores ra(p,j) parap = 2,3, oo., a, donde a es el nivel de significacinyfes el nmero de grados de libertad del error. Estos rangos se convierten en un conjunto de a -1 rangos mnimos de significacin (por ejemplo, Rp ) para p = 2, 3, ..., a calculando
oo.
parap = 2, 3, oo., a
(3-44)
Entonces, se prueban las diferencias observadas entre las medias, empezando con la ms grande contra la menor, la cual se comparara con el rango mnimo de significacinRa Despus se calcula la diferencia de la mayor y la segunda menor y se compara con el rango mnimo de significacin R a -1' Estas comparaciones se continan hasta que todas las medias se han comparado con la media mayor. Por ltimo, se calcula la diferencia entre la segunda media mayor y la menor y se compara con el rango mnimo de significacin R a -1' Este proceso se contina hasta que se han considerado las diferencias entre todos los a(a - 1)/2 pares de medias posibles. Si una diferencia observada es mayor que el rango de significacin mnima correspondiente, se concluye que el par de medias en cuestin es significativamente diferente. Para evitar
101
contradicciones, ninguna de las diferencias entre un par de medias se considera significativa si las dos medias en cuestin se localizan entre otras dos medias que no difieren significativamente.
EJEMPLO 3~9
La prueba del rango mltiple de Duncan puede aplicarse al experimento del ejemplo 3-1. Recuerde que MSE = 8.06, N = 25,12 = 5, Yhay 20 grados de libertad del error. Al arreglar los promedios de los tratamientos en orden ascendente, se tiene
20)S Yi.
20)8 Yi.
20)S Yi.
Los resultados de las comparaciones seran 9.8 = 11.8 10.8 = 10.8 15.4 = 6.2 17.6 = 4.0 9.8 = 7.8 10.8 = 6.8 15.4 = 2.2 9.8 = 5.6 10.8 = 4.6 9.8 = 1.0
Por el anlisis se observa que hay diferencias significativas entre todos los pares de medias con excepcin de la 3 y la 2 y la 5 y la 1. En la figura 3-14 se muestra una grfica en la que esas medias que no son significativamente diferentes aparecen subrayadas. Observe que en este ejemplo la prueba del rango mltiple de Duncan y el mtodo LSD llevan a conclusiones idnticas.
Ys . 10.8
Ya.
17.6
102
CAPTULO 3
En la prueba del rango mltiple de Duncan se requiere una diferencia observada ms grande para detectar pares significativamente diferentes de medias, cuando el nmero de medias incluidas en el grupo aumenta. De esta forma, en el ejemplo anterior R 2 = 3.75 (dos medias) mientras queR 3 = 3.94 (tres medias). Para dos medias, el valor crtico R 2 ser exactamente igual al valor LSD de la prueba t. Los valores ra(p,f) de la tabla VII del apndice se eligen de tal modo que se obtenga un nivel de proteccin especificado. Es decir, cuando se comparan dos medias que estn p pasos aparte, el nivel de proteccin es (1- a y -\ donde a es el nivel de significacin especificado para dos medias adyacentes. Por lo tanto, el ndice de error de reportar al menos una diferencia significativa incorrecta entre dos medias es 1- (1- a Y-1, cuando el tamao del grupo es p. Por ejemplo, si a = 0.05, entonces 1- (1- 0.05)1 = 0.05 es el nivel de significacin para comparar el par de medias adyacentes, 1 - (1 - 0.05? = 0.10 es el nivel de significacin para medias que estn un paso aparte, y as sucesivamente. En general, si el nivel de proteccin es a, las pruebas de las medias tienen un nivel de significacin que es mayor o igual que a. Por consiguiente, el procedimiento de Duncan tiene una gran potencia; es decir, es muy eficaz para detectar diferencias entre medias cuando existen diferencias reales. Por esta razn, la prueba del rango mltiple de Duncan es muy popular.
La prueba de N ewman-Keuls
Esta prueba fue creada por Newman [90]. Debido a que un inters renovado en la prueba de Newman fue generdo por Keuls [64], al procedimiento se le llama la prueba de Newman-Keuls. Operacionalmente, el procedimiento es similar a la prueba del rango mltiple de Duncan, salvo porque las diferencias crticas entre las medias se calculan en una forma un tanto diferente. Especficamente, se calcula una serie de valores crticos K p = qa(P, f)SYi. P = 2, 3, ..., a (3-45) donde qa(P,f) es el punto porcentual a superior del rango studentizado para grupos de medias de tamao p y con!grados de libertad del error. Una vez que se calculan los valores Kp con la ecuacin 3-45, los pares de medias extremos en los grupos de tamao p se comparan conKp exactamente igual que en la prueba del rango mltiple de Duncan.
Qu mtodo de comparacin por pares debe usarse?
Ciertamente, una pregunta lgica en este punto es qu mtodo de comparacin por pares debe usarse. Desafortunadamente, no hay una respuesta precisa para esta pregunta, y los especialistas en estadstica estn con frecuencia en desacuerdo en cuanto a la utilidad de los diferentes procedimientos. Carmer y Swanson [24] han realizado estudios de simulacin Montecarlo con varios procedimientos de comparaciones mltiples, incluyendo algunos que no se han considerado aqu. Estos autores reportan que el mtodo de la diferencia significativa mnima es una prueba muy eficaz para detectar diferencias reales en las medias si se aplica slo despus de que la prueba F en el anlisis de varianza sea significativa en 5 %. Reportan asimismo un buen desempeo en la deteccin de diferencias reales con la prueba del rango mltiple de Duncan. Esto no es motivo de sorpresa, ya que estos dos mtodos son los ms poderosos delos que se han comentado aqu. Sin embargo, estos mtodos no incluyen el ndice de error en el modo del experimento. Debido a que el mtodo de Tukey efecta un control sobre el ndice de error global, muchos experimentadores prefieren su uso. La prueba de Newman-Keuls es ms conservadora que la prueba del rango mltiple de Duncan por cuanto a que el ndice de error tipo 1 es menor. Especficamente, el error tipo 1 del experimento es a para todas las pruebas que incluyen el mismo nmero de medias. Por consiguiente, debido a que a es por lo general bajo, la potencia de la prueba de Newman-Keuls casi siempre es menor que la de la prueba del rango mltiple de Duncan. Para demostrar que el procedimiento de Newman-Keuls lleva a una prueba con menor potencia que la prueba del rango mltiple de Duncan, se observa por una comparacin de las ta-
103
bIas VII YVIII del apndice que parap > 2 se tiene qa(P,f) > ra(P'[). Es decir, es "ms difcil" declarr que un par de medias es significativamente diferente al utilizar la prueba de Newman-Ketils que cuando se f = 20: usa el procedimiento de Duncan. Esto se ilustra a continuacin para el caso en que a = 0.01, a = 8 Y
p
2
4.02 4.02
3
4.22,
4
4.33 5.02
5
4.40
7
4.53
8
4.58 5.84
4.64
5.29
4.47 5.51
5.69
Como se seal antes, existen otros procedimientos de comparaciones mltiples. Algunos artculos que describen estos mtodos son los de Miller [78], O'Neill y Wetherill [91] YNelson [89]. Tambin se recomienda el libro de Miller [77].
3~5.8
En muchos experimentos, uno de los tratamientos es un control, y el analista se interesa en comparar cada una de las medias de los a -1 tratamientos restantes con el control. Por lo tanto, slo es necesario hacer a - lcomparaciones. Un procedimiento para hacer estas comparaciones ha sido desarrollado por Dunnett [42]. Suponga que el tratamiento a es el control y que quieren probarse las hiptesis
14-1
Ho:p = Pa ; H 1 :p:;z!: Pa ~
para i = 1, 2, .oo, a -1. El procedimiento de Dunnett es una modificacin de la prueba t comn. Para cada hiptesis se calculan las diferencias observadas en las medias muestrales /1, - r i = 1, 2, oo., a-1 La hiptesis nula Ho:p
= Ila
2 l(C
j..:i'
IY
l.
-Ya.I>da(~-l,f)
1/
()
MS E
~+l... n na
'd' \l~"
,...,J,-F~'
'-)-'\
(3-46)
IV'
donde la constante daCa -1,!) se da en la tabla IX del apndice. (Pueden hacerse pruebas tanto de una como de dos colas.) Observe que a es el nivel de significacin conjunto asociado con las a -1 pruebas.
~2MS E
~2(8.06) 5 = 4.76
(Observe que se trata de una simplificacin de la ecuacin 3-46 que resulta de un diseo balanceado.) Por lo tanto, cualquier media de los tratamientos que difiera del control por ms de 4.76 se declarara significativamente diferente. Las diferencias observadas son
104
Slo las diferencias )13. -)15. Y)l4. -)15. indican alguna diferencia significativa cuando se comparan con el control; por lo tanto, se concluye que /13 ~ /15 Y /14 ~ /15' Cuando se hace la comparacin de los tratamientos con un control, una buena idea es usar ms observaciones para el tratamiento de control (por ejemplo, na) que para los dems tratamientos (por ejemplo, n), suponiendo un nmero igual de observaciones para los a -1 tratamientos restantes. El cociente naln deber elegirse de tal modo que sea aproximadamente igual a la raz cuadrada del nmero total de tratamientos. Es decir, se elige naln = ,
3~6
Hay una gran cantidad de programas de computadora para apoyar el diseo experimental y la realizacin de anlisis de varianza. En la figura 3-15 se muestra la salida de uno de estos programas, Design-Expert, utilizando los datos del experimento con un solo factor del ejemplo 3-1. La suma de cuadrados correspondiente al "Modelo" ("Model") es la SSnatamientos usual de un diseo con un solo factor. Esa fuente se identifica adicionalmente como ''A''. Cuando hay ms de un factor en el experimento, la suma de cuadrados ("Sum of Squares") del modelo se descompondr en varias fuentes (A, B, etc.). Observe que el resumen del anlisis de varianza de la parte superior de la salida de computadora contiene las sumas de cuadrados, los grados de libertad ("DF", degrees offreedom), los cuadrados medios ("Mean Square") y el estadstico de pruebaFo ("F Value") acostumbrados. La columna "Prob > F" es el valor P (de hecho, el lmite superior del valor p, ya que a las probabilidades menores que 0.0001 se les asigna el valor por omisin 0.0001). Adems del anlisis de varianza bsico, el programa presenta informacin adicional til. La cantidad "R cuadrada" ("R-Squared") se define como 475.76 = 0.746923 636.96 y se interpreta en trminos generales como la proporcin de la variabilidad en los datos "explicada" por el modelo del anlisis de varianza. Por 10 tanto, en los datos para probar la resistencia de la fibra sinttica, el factor "peso porcentual del algodn" explica cerca de 74.69% de la variabilidad en la resistencia a la tensin. Evidentemente, debe tenerse O:5 R 2 :5 1, siendo ms deseables los valores ms grandes. En la salida se presentan tambin otros estadsticos enR2 R 2 "ajustada" (''Adj R-Squared") es una variante del estadstico R 2 comn que refleja el nmero de factores presentes en el modelo. Puede ser un estadstico til en experimentos ms complejos en los que intervienen varios factores en el diseo, cuando quiere evaluarse el impacto de aumentar o disminuir el nmero de trminos del modelo. "Desviacin estndar" ("Std. Dev.") es la raz cuadrada del cuadrado medio del error, v'8.060 = 2.839, y "C.V:" es el coeficiente de variacin, definido como (..J MS E I y)100. El coeficiente de variacin mide la variabilidad no explicada o residual de los datos como un porcentaje de la media ("Mean") de la variable de respuesta. "PRESS" son las siglas de Prediction EITor Sum 01Squares (suma de cuadrados del error de prediccin) y es una medida de la adecuacin con que es posible que el modelo del experimento predecir las respuestas en un nuevo experimento. Son deseables valores pequeos de PRESS. Alternativamente, puede calcularse una R 2 para predicciones con base en PRESS (ms adelante se indicar cmo hacer esto). Esta R;red ("Pred R-Squared") para el problema tratado aqu es 0.6046, el cual no es irrazonable, considerando que el modelo explica cerca de 75% de la variabilidad del experimento en curso. El estadstico "Prediccin adecuada" (''Adeq Precision") se calcula dividiendo la diferencia entre la respuesta predicha mxima y la respuesta predicha mnima por la desviacin estndar promedio de todas las respuestas predichas. Son deseables valores grandes de esta cantidad, y los valores que exceden cuatro indican por lo general que el modelo tendr un desempeo razonable en la prediccin.
SSModelo SSTotaI
R2 =
PO'
Utilice el mouse para posicionarse en una celda y su definicin.
Response: Strength in psi ANOVA for Selected Factorial Model Analysis of variance table [Partial sum of squares] Source
Model
Sumof Squares
DF
Mean Square
F
Value Prob> F
A
Residual
4 4 20
O
14.76 14.76
<0.0001 <0.0001
significativo
20 24
8.06
El valor F del Modelo de 14.76 implica que el modelo es significativo. Slo hay una probabilidad de 0.01 % de que un 'Valor F del Modelo" de esta magnitud pudiera ocurrir debido a ruido. Los valores de "Prob > F" menores que 0.0500 indican que los trminos del modelo son significativos. En este caso A son trminos significativos del modelo. Los valores mayores que 0.1000 indican que los trminos del modelo no son significativos. Si hay muchos trminos del modelo no significativos (sin contar los que se necesitan para apoyar la jerarquizacin), la reduccin del modelo puede mejorarlo. Std. Dev. Mean
C.V.
PRESS
La "R cuadrada predicha" de 0.6046 concuerda razonablemente con la "R cuadrada ajustada" de 0.6963. Una diferencia mayor que 0.20 entre la "R cuadrada predicha" y la "R cuadrada ajustada" indica un posible problema con el modelo y/o los datos. "Precisin adecuada" mide la relacin de la seal a ruido. Es deseable una relacin mayor que 4. La relacin de 9.294 indica una seal adecuada para usar este modelo para navegar el espacio del diseo.
Itl
3 vs 4 3 vs 5
4vs 5
-5.60 -7.80 -11.80 -1.00 -2.20 -6.20 4.60 -4.00 6.80 10.80
1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80
-3.12 -4.34 -6.57 -0.56 -1.23 -3.45 2.56 -2.23 3.79 6.01
Ome6
Los valores de "Prob > Itl" menores que 0.0500 indican que la diferencia en las medias de los dos tratamientos es significativa. Los valores de "Prob > Iti" mayores que 0.1000 indican que la diferencia en las medias de los dos tratamientos no es significativa. Figura 315 Salida de computadora de Design-Expel1 para el ejemplo 3-1.
106.
CAPTULO 3
Residual
Leverage
Student Residual
. Cook's Distance
Outlier t
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
7.00 7.00 15.00 11.00 9.00 12.00 17.00 12.00 18.00 18.00 14.00 18.00 18.00 19.00 19.00 19.00 25.00 22.00 19.00 23.00 7.00 10.00 11.00 15.00 11.00
9.80 9.80 9.80 9.80 9.80 15.40 15.40 15.40 15.40 15.40 17.60 17.60 17.60 17.60 17.60 21.60 21.60 21.60 21.60 21.60 10.80 10.80 10.80 10.80 10.80
-2.80 -2.80 5.20 1.20 -0.80 -3.40 1.60 -3.40 2.60 2.60 -3.60 0.40 0.40 1.40 1.40 -2.60 3.40 0.40 -2.60 1.40 -3.80 -0.80 0.20 4.20 0.20
0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200 0.200
-1.103 -1.103 2.048 0.473 -0.315 -1.339 0.630 -1.339 1.024 1.024 -1.418 0.158 0.158 0.551 0.551 -1.024 1.339 0.158 -1.024 0.551 -1.496 -0.315 0.079 1.654 0.079
0.061 0.061 0.210 0.011 0.005 0.090 0.020 0.090 0.052 0.052 0.100 0.001 0.001 0.015 0.015 0.052 0.090 0.001 0.052 0.015 0.112 0.005 0.000 0.137 0.000
-1.109 -1.109 2.245 0.463 -0.308 -1.368 0.620 -1.368 1.025 1.025 -1.457 0.154 0.154 0.542 0.542 -1.025 1.368 0.154 -1.025 0.542 -1.548 -0.308 0.077 1.735 0.077
Proceder con las grficas de diagnstico (el icono siguiente en progresin). Asegurarse de examinar: 1) La grfica de probabilidad normal de los residuales studentizados para verificar la normalidad de los residuales. 2) Los residuales studentizados contra los valores predichos para verificar la constante del error. 3) Los puntos atpicos t contra el orden de las corridas para buscar puntos atpicos, es decir, valores influyentes o importantes 4) La grfica de Box-Cox para las transformaciones de potencia. Si todos los estadsticos del modelo y las grficas de diagnstico estn correctos, finalizar con el icono Model Graphs (Grficas del Modelo).
Figura 3-15
(Continuacin.)
Se hace la estimacin de las medias ("Estimated Mean") de los tratamientos y se muestra el error estndar ("Standard Error") (o desviacin estndar muestral de la media de cada tratamiento, .J MS E/n). Las diferencias entre pares de medias ("Mean Difference") de los tratamientos se investigan utilizando el mtodo LSD de Fisher descrito en la seccin 3-5.7. El programa de computadora tambin calcula y despliega los residuales, segn se definen en la ecuacin 3-16. El programa producir tambin todas las grficas de los residuales que se comentaron en la seccin 3-4. En la salida se muestran asimismo varios diagnsticos residuales ms. Algunos de ellos se revisarn ms adelante. Por ltimo, observe que el programa de computadora incluye tambin algunas guas para hacer la interpretacin. Esta informacin "aconsejable" es muy comn en muchos paquetes de estadstica para computadoras personales. Al leer estas guas, recuerde que estn escritas en trminos muy generales, y quiz no se ajusten exactamente a los requerimientos de redaccin del reporte de un experimentador particular. Esta salida aconsej able puede ser eliminada por el usuario.
107
3~7
En cualquier problema de diseo experimental, una decisin crtica es la eleccin del tamao de la muestra; es decir, determinar el nmero de rplicas que deben correrse. En general, si el experimentador tiene inters en detectar efectos pequeos, se necesitan ms rplicas que cuando el experimentador se interesa en detectar efectos grandes. En esta seccin se analizan varios enfoques para determinar el tamao de la muestra. Aun cuando la revisin se centra en un diseo con un solo factor, la mayora de los mtodos pueden usarse en situaciones experimentales ms complejas.
3~7.1
Recuerde que una curva de operacin caracterstica es una grfica de la probabilidad del error tipo II de una prueba estadstica para un tamao de la muestra particular contra un parmetro que refleja la medida en que la hiptesis nula es falsa. El experimentador puede usar estas curvas como gua en la seleccin del nmero de rplicas para que el diseo sea sensible a diferencias potenciales importantes en los tratamientos. Se considera la probabilidad del error tipo II del modelo con efectos fijos para el caso en que se usa el mismo tamao de las muestras en cada tratamiento, por ejemplo
(3-47)
Para evaluar el enunciado de probabilidad de la ecuacin 3-47, es necesario conocer cul es la distribucin del estadstico de pruebaFosi la hiptesis nula es falsa. Puede demostrarse que, si H oes falsa, el estadstico F o = MSTralamienloJMSE se distribuye como una variable aleatoria F no central con a - 1 YN - a grados de libertad y parmetro de no centralidad 15. Si 15 = O, la distribucinF no central se convierte en la distribucin F (central) comn. Las curvas de operacin caracterstica que se presentan en la parte V del apndice se usan para evaluar el enunciado de probabilidad de la ecuacin 3-47. En estas curvas se grafica la probabilidad del error tipo II (/3) contra un parmetro <1>, donde
<1>2
= ----,-i 1-::-_
= -'C
n! T
aa 2
(3-48)
La cantidad <lJ2 est relacionada con el parmetro de no centralidad 15. Se cuenta con curvas para a = 0.05 Ya = 0.01 Y un rango de grados de libertad para el numerador y el denominador. Al usar las curvas de operacin caracterstica, el experimentador debe especificar el parmetro <1>. Con frecuencia es difcil hacer esto en la prctica. Una manera de determinar <1> es elegir los valores reales de las medias de los tratamientos para los que querra rechazarse la hiptesis nula con una alta probabilidad. Por lo tanto, si /-l1' /-l2' .oo, /-la son las medias de los tratamientos especificadas, la Ti de la ecuacin 3-48 se encuentra como Ti = /-li - , donde = (l/a)~ :=1 =lf-li es el promedio de las medias de los tratamientos individuales. Se requiere asimismo una estimacin de 02. En ocasiones se cuenta con este valor por experiencia previa, un experimento anterior o una prueba preliminar (como se sugiri en el captulo 1), o por una estimacin discrecional. Cuando no se tiene la seguridad acerca del valor de 02, los tamaos de las muestras podran determinarse para un rango de valores posibles de 02, a fin de estudiar el efecto de este Parmetro sobre el tamao de la muestra requerido, antes de hacer la eleccin final.
108
CAPTULO 3
EJEMPLO 3~11
Considere el experimento de la resistencia a la tensin descrito en el ejemplo 3-1. Suponga que el experimentador est interesado en rechazar la hiptesis nula con una probabilidad de al menos 0.90 si las medias de los cinco tratamientos son
,u1=11
Planea utilizar a
,uz=12
,u3=15
,u4=18
,us=19
= 0.01.
= 75,
se tiene ji
= (1/5)75 = 15 Y
=,u1-;U=11-15=-4 'l' 2 = ,u 2 -;U = 12 -15 =- 3 'l' 3 = ,u 3 - ;U = 15- 15 = O 'l' 4 = ,u 4 -;U = 18- 15 = 3 'l's=,u5-;U=19-15= 4
Por lo tanto, "Li=1 'l'; = 50. Suponga que el experimentador piensa que la desviacin estndar de la resistencia a la tensin con cualquier nivel particular del peso porcentual del algodn no ser mayor que 0=3 psi. Entonces, al utilizar la ecuacin 3-48, se tiene
Se usa la curva de operacin caracterstica para a -1 = 5 -1 = 4 con N -a = a(n ~ 1) = 5(n -1) grados de libertad del error y a = 0.01 (ver la parte V del apndice). Como primera conjetura para el tamao de la muestra requerido, se prueba con n = 4 rplicas. Esto produce ep2 = 1.11(4) = 4.44, ep = 2.11 Y5(3) = 15 grados de libertad del error. Por consiguiente, en la parte V se encuentra que fJ =0.30. Por lo tanto, la potencia de la prueba es aproximadamente 1- fJ = 1- 0.30 = 0.70, que es menor que el 0.90 requerido, por lo que se concluye que n = 4 rplicas no son suficientes. Procediendo de manera similar, puede construirse la siguiente tabla:
n 4
I>2
4.44 5.55 6.66 2.11 2.36 2.58
a(n -1)
15
5
6
20 25
El nico problema con este enfoque para usar las curvas de operacin caracterstica es que por lo general es difcil seleccionar el conjunto de las medias de los tratamientos en el que se basar la decisin del tamao de la muestra. Un enfoque alternativo es seleccionar un tamao de la muestra tal que si la diferencia entre las medias de dos tratamientos cualesquiera excede un valor especificado, la hiptesis nula deber rechazarse. Si la diferencia entre las medias de dos tratamientos cualesquiera es tan grande como D, puede demostrarse que el valor mnimo de ep2 es
ep2
nD 2a0 2
(3-49)
109
puesto que ste es un valor mnimo de <1>2, el tamao de la muestra correspondiente que se obtiene de la curva de operacin caracterstica es un valor conservador; es decir, proporciona una potencia al menos tan grande como la que especific el experimentador. Para ilustrar este enfoque, suponga que en eL experimento de la resistencia a la tensin del ejemplo 3-1, el experimentador quisiera rechazar la hiptesis nula con una probabilidad de al menos 0.90 si las medias de dos tratamientos cualesquiera difieren hasta en 10 psi. Entonces, suponiendo que o = 3 psi, se encuentra que el valor mnimo de <1>2 es
<1>2 = n(10)2 = 1.11n
2(5)(3 2 ) y, por el anlisis del ejemplo 3-11, se concluye que se necesitan n deseada cuando a = 0.01.
3,7.2
Este enfoque es til en ocasiones para elegir el tamao de la muestra. Si las medias de los tratamientos no difieren, la desviacin estndar de una observacin elegida al azar es o. Sin embargo, si las medias de los tratamientos son diferentes, la desviacin estndar de una observacin elegida al azar es
Si se escoge un porcentaje P para el incremento de la desviacin estndar de una observacin, ms all del cual quiera rechazarse la hiptesis de que las medias de todos los tratamientos son iguales, esto es equivalente a escoger
2
+(t 7: /a) =
1=1
1 +O.01P
(P = por ciento)
de donde
7: / a
(3-50)
o/..Jn
Por lo tanto, para un valor especificado de P, <1> puede calcularse con la ecuacin 3-50 y despus usar las curvas de operacin caracterstica de la parte V del apndice para determinar el tamao de la muestra requerido.
110
CAPTULO 3
Por ejemplo, en el experimento de la resistencia a la tensin del ejemplo 3-1, suponga que se desea detectar un incremento de la desviacin estndar de 20% con una probabilidad de al menos 0.90 y a = 0.05. Entonces
cI>= ~(1.2)2 -1(.Jii) = 0.66.Jii
La referencia a las curvas de operacin caracterstica indica que'se necesita n lidad deseada.
3~7.3
En este enfoque se supone que el experimentador quiere expresar los resultados finales en trminos de intervalos de confianza y que est dispuesto a especificar por anticipado cul es el ancho que desea para estos intervalos de confianza. Por ejemplo, suponga que en el experimento de la resistencia a la tensin del ejemplo 3-1 se quiere que un intervalo de confianza de 95% para la diferencia en la resistencia a la tensin media de dos pesos porcentuales del algodn cualesquiera sea 5 psi y una estimacin previa de a es 3. Entonces, al utilizar la ecuacin 3-13, se encuentra que la precisin del intervalo de confianza es
t
a/2,N-a
~2MSE n
Suponga que se prueba con n = 5 rplicas. Entonces, al usar a2 = 3 2 = 9 como una estimacin de MSE , la precisin del intervalo de confianza es
2.086~2~) = 3.96
que es ms preciso que el requerimiento. Al probar con n
= 4 se
obtiene
2.132~2~) = 4.52
Al probar con n
3 se obtiene
2.22~2~) = 5.46
Evidentemente, n = 4 es el tamao de la muestra menor que llevar a la precisin deseada. El nivel de significacin consignado en el ejemplo anterior se aplica a un solo intervalo de confianza. Sin embargo, puede usarse el mismo enfoque general si el experimentador desea especificar de antemano un conjunto de intervalos de confianza acerca del cual se hace un enunciado de confianza simultneo o conjunto (ver los comentarios acerca de los intervalos de confianza simultneos de la seccin 3-3.3). Adems, los intervalos de confianza podran construirse con respecto a contrastes ms generales en las medias de los tratamientos, que la comparacin por pares ilustrada antes.
3~8
Nos hemos enfocado aqu en el uso del anlisis de varianza y de otros mtodos relacionados para determin.ar los niveles del factor que resultan en diferencias entre las medias de los tratamientos o los niveles del factor. Se acostumbra referirse a estos efectos como efectos de localizacin. Cuando ocurri la desigual-
111
Observaciones
1 4.93(0.05) 4.85(0.04) 4.83(0.09) 4.89(0.03) 2 4.86(0.04) 4.91(0.02) 4.88(0.13) 4.77(0.04)
3
dad de la varianza con los diferentes niveles del factor, se utilizaron transformaciones para estabilizar la varianza y mejorar as las inferencias hechas sobre los efectos de localizacin. Sin embargo, en algunos problemas el inters se centra en descubrir si los diferentes niveles del factor afectan la variabilidad; es decir, el inters est en descubrir efectos de dispersin potenciales. Esto ocurrir siempre que la desviacin estndar, la varianza o cualquier otra medida de la variabilidad se use como variable de respuesta. Para ilustrar estos conceptos, considere los datos de la tabla 3-12, los cuales se obtuvieron de un experimento diseado en una fundicin de aluminio. El aluminio se produce combinando almina con otros ingredientes en una celda de reaccin y aplicando calor al hacer pasar una corriente elctrica a travs de la celda. La almina se agrega de manera continua a la celda para mantener la proporcin apropiada de la misma con respecto a los otros ingredientes. En este experimento se investigaron cuatro algoritmos para controlar la proporcin. Las variables de respuesta estudiadas se relacionaron con el voltaje de la celda. Especficamente, un sensor registra el voltaje de la celda varias veces cada segundo, produciendo miles de mediciones del voltaje durante cada corrida del experimento. Los ingenieros del proceso decidieron usar como variables de respuesta el voltaje promedio y la desviacin estndar del voltaje de la celda (indicado entre parntesis) en la corrida experimental. El voltaje promedio es importante porque afecta la temperatura de la celda, y la desviacin estndar del voltaje (llamada "ruido del crisol" por los ingenieros del proceso) es importante porque afecta la eficiencia global de la celda. Se llev a cabo un anlisis de varianza para determinar si los diferentes algoritmos para controlar la proporcin afectan el voltaje promedio de la celda. ste revel que el algoritmo para controlar la proporcin no tuvo ningn efecto de localizacin; es decir, al cambiar los algoritmos para controlar la proporcin no hubo ningn cambio en el voltaje promedio de la celda. (Referirse al problema 3-28.) . Para investigar los efectos de dispersin, lo mejor suele ser utilizar log(s) o
log(s2)
como variable de respuesta, ya que la transformacin logartmica es eficaz para estabilizar la variabilidad en la distribucin de la desviacin estndar muestral. Puesto que todas las desviaciones estndar del voltaje del crisol son menores que la unidad, se usar
y= -ln(s)
como la variable de respuesta. En la tabla 3-13 se presenta el anlisis de varianza para esta respuesta, el logaritmo natural del "ruido del crisol". Observe que la eleccin de un algoritmo para controlar la proporcin afecta el ruido del crisol; es decir, el algoritmo para controlar la proporcin tiene un efecto de disTabla 3-13 Anlisis de varianza del logaritmo natural del ruido del crisol
Suma de cuadrados
6.166 1.872 8.038
Grados de libertad
3
20 23
Cuadrado medio
2.055 0.094 21.96
Valor P
<0.001
112
CAPTULO 3
2.00
3.00
I~
4.00
Figura 3-16 Ruido del crisol logartmico promedio [-ln(s)] de cuatro algoritmos para controlar la proporcin en relacin con una distribucin t escalada con factor de escalamiento ~ MS E / II = ,",,0.094/ 6 =0.125.
persin. Las pruebas estndares de la adecuacin del modelo, incluyendo las grficas de probabilidad
normal de los residuales, indican que no hay problemas con la validez del experimento. (Referirse al problema 3-29.) En la figura 3-16 se grafica el logaritmo promedio del ruido del crisol de cada algoritmo para controlar la proporcin y se presenta tambin una distribucin t escalada que se usa como distribucin de referencia para discriminar entre los algoritmos de la proporcin. Esta grfica revela con toda claridad que el algoritmo 3 para controlar la proporcin produce ms ruido del crisolo una desviacin estndar del voltaje de la celda mayor que los otros algoritmos. No parece haber gran diferencia entre los algoritmos 1, 2 Y 4.
3..9
Se ha ofrecido un desarrollo intuitivo o heurstico del anlisis de varianza. Sin embargo, es posible presentar un desarrollo ms formal. El mtodo ser de utilidad ms adelante para entender los fundamentos del anlisis estadstico de diseos ms complejos. Llamada la prueba general de significacin de la regresin, el procedimiento consiste en esencia en encontrar la reduccin en la suma de cuadrados total para ajustar el modelo con todos los parmetros incluidos y la reduccin en la suma de cuadrados cuando el modelo se restringe a la hiptesis nula. La diferencia entre estas dos sumas de cuadrados es la suma de cuadrados de los tratamientos con la que puede realizarse la prueba de la hiptesis nula. El procedimiento requiere los estimadores de mnimos cuadrados de los parmetros en el modelo del anlisis de varianza. Se dieron ya (en la seccin 3-3.3) las estimaciones de estos parmetros; sin embargo, ahora se presenta un desarrollo formal.
3..9.1
Se desarrollan ahora los estimadores de los parmetros en el modelo con un solo factor
'C,
utilizando el mtodo de mnimos cuadrados. Para encontrar los estimadores de mnimos cuadrados de fl y primero se forma la suma de cuadrados de los errores (3-51)
;=1 j=l
=1 j=l
113
y se eligen despus los valores de,t Y, por ejemplo lyf, que minimicenL. Los valores adecuados seran
=0
.
.t,T
=O
fl.T:
i=1, 2, ..., a
a . .
-2!!
=1 j=1
(Yij-l-f)=O
-2!
j=1
(Yij-l-f)=O
i=1, 2, ..., a
= Y..
= Yi = Yz.
+nr z
+nf a
(3-52)
= Ya.
A las a + 1 ecuaciones (ecuacin 3-52) con a + 1 incgnitas se les llama las ecuaciones normales de mnimos cuadrados. Observe que si se suman la ltimas a ecuaciones normales, se obtiene la primera ecuacin normal. Por lo tanto, las ecuaciones normales no son linealmente independientes, y no existe una solucin nica para,t, 1, ..., a Esta dificultad puede superarse mediante varios mtodos. Puesto que los efectos de los tratamientos se han definido como desviaciones de la media global, parece razonable aplicar la restriccin
!
l=
f=O
(3-53)
=1
Y .. f = Y. - Y ..
(3-54)
i=1, 2, ..., a
Evidentemente, esta solucin no es nica y depende de la restriccin (ecuacin 3-53) que se ha elegido. Al principio esto puede parecer desafortunado porque dos experimentadores diferentes podran analizar los mismos datos y obtener resultados diferentes si aplican restricciones diferentes. Sin embargo, ciertas funciones del parmetro del modelo son estimadas de manera nica, independientemente de la ., y la media del tratamienrestriccin. Algunos ejemplos son - J., que se estimara con r. - f . = y. - y. J. to i-simo ,ti = ,t + , que se estimara con l = l + f = y.. Puesto que el inters se encuentra generalmente en las diferencias entre los efectos de los tratamientos y no en sus valores reales, no produce preocupacin alguna que no pueda estimarse de manera ni1 ) l.
114
ca. En general, cualquier funcin de los parmetros del modelo que sea una combinacin lineal del miembro del lado izquierdo de las ecuaciones normales (ecuaciones 3-52) puede estimarse de manera nica. A las funciones que se estiman de manera nica independientemente de la restriccin que se use se les llama funciones estimables. Para ms informacin, ver el material suplementario del texto de este captulo. Nos encontramos listos para usar estas estimaciones de los parmetros en un desarrollo generl del anlisis de varianza.
3~9.2
Una parte fundamental de este procedimiento es escribir las ecuaciones normales del modelo. Estas ecuaciones siempre podrn obtenerse formando la funcin de mnimos cuadrados y derivndola con respecto a cada parmetro desconocido, como se hizo en la seccin 3-9.1. Sin embargo, se cuenta con un mtodo ms sencillo. Las reglas siguientes permiten escribir directamente las ecuaciones normales del modelo de cualquier diseo experimental:
REGLA 1. Hay una ecuacin normal para cada parmetro del modelo que va a estimarse. REGLA 2. El miembro derecho de cualquier ecuacin normal es slo la suma de todas las observaciones que contienen el parmetro asociado con esa ecuacin normal particular. Para ilustrar esta regla, considere el modelo con un solo factor. La primera ecuacin normal corresponde al parmetro fl; por lo tanto, el miembro derecho es y.., ya que todas las observaciones incluyen a fl. REGLA 3. El miembro izquierdo de cualquier ecuacin normal es la suma de todos los parmetros del modelo, donde cada parmetro est multiplicado por el nmero de veces que aparece en el total del miembro derecho. Los parmetros se escriben con un acento circunflejo (A) para indicar que son estimadores y no los verdaderos valores de los parmetros.
Por ejemplo, considere la primera ecuacin normal en un experimento con un solo factor. De acuerdo con las reglas anteriores, sta sera
Nfi, + ni 1 + ni 2
+ ... + ni a = Y..
porque fl aparece en las N observaciones, r 1 slo aparece en las n observaciones hechas bajo el primer tratamiento, r 2 aparece slo en las n observaciones tomadas bajo el segundo tratamiento, etc. Por la ecuacin 3-52 se verifica que la ecuacin presentada arriba es correcta. La segunda ecuacin normal correspondera a r 1 y es
nfi,+ni 1 = YL
porque slo las observaciones del primer tratamiento contienen a r 1 (esto daYL como miembro derecho),
fl Yr 1 aparecen exactamente n veces enYL, y todas las dems r i aparecen cero veces. En general, el miem-
bro izquierdo de cualquier ecuacin normal es el valor esperado del miembro derecho. Ahora bien, considere encontrar la reduccin en la suma de cuadrados ajustando un modelo particular a los datos. Al ajustar un modelo a los datos se "explica" parte de la variabilidad; es decir, la variabilidad no explicada se reduce en cierta cantidad. La reduccin en la variabilidad no explicada es siempre la suma de las estimaciones de los parmetros, cada una de ellas multiplicada por el segundo miembro de la
115
ecuacin normal que corresponde al parmetro especfico. Por ejemplo, en un experimento con un solo factor, la reduccin debida al ajuste del modelo completo Yij = fl + 7: + cij es (3-55)
f.y. 1 l.
La notacin R(1" 7:) significa la reduccin en la suma de cuadrados a partir del ajuste del modelo que contiene afl Y{7:}. AR(1" 7:) se le llama en ocasiones la suma de cuadrados "de regresin" del modelo completo Yj = fl + 7: + cij. El nmero de grados de libertad asociado con una reduccin en la suma de cuadrados, tal como R(1" 7:), siempre es igual al nmero de ecuaciones normales linealmente independientes. El resto de la variabilidad no explicada por el modelo se encuentra con
SSE
= ~}: Y~ -R(fl,7:)
i=l j=l
(3-56)
Esta cantidad se usa en el denominador del estadstico de prueba de H O:7: 1 = 7: 2 = ... = 7:a = O. A continuacin se ilustra la prueba general de significacin de la regresin para un experimento con un solo factor y se demuestra que produce el anlisis de varianza de un solo factor comn. El modelo es Yij = fl + 7: + cij' y las ecuaciones normales se encuentran con las reglas anteriores como
Nft+nf 1 +nf 2 nft+nf 1 nft nft +nf 2
+ ... +nf a =
=
Y.
Yl
=h
Compare estas ecuaciones normales con las que se obtuvieron en la ecuacin 3-52. Al aplicar la restriccin 2: ~=1 f 1 = O, los estimadores de fl y 7:i son
ft=
Y ..
i=l, 2, ..., a
La reduccin en la suma de cuadrados debida al ajuste de este modelo completo se encuentra con la ecuacin 3-55 como
R(fl, 7:) = fty..
+~
i=l
f i Yi.
;=1
= ~+
Yi.Yi. - Y..
;=1
2
;=1
Yi.
=
i=l
Yi.
116
CAPTULO 3
que tiene,a, grados de libertad porque haya ecuaciones normales:linealmenteindependientes. La suma de cuadradosl:del errores, por la ecuacin 3-56,
SSE
!:! Y~
=;1 j=l
- R(Jl, 7:)
y tiene N - a grados de libertad. Para encontrarla.suma de cuadrados que resulta de los efectos de los tratamientos (el {7:}), se considera que el modelo se restringe ala,hiptesis nula; es decir, 7: = Opara todai. El modelo reducido eSYij = Jl + f.ij' Hay ,una sola,ecuacinnormalpara este modelo:
NA = Y..
y el estimador de l esA = y.. . Por lo tanto, la reduccin enla suma de cuadrados que resulta de ajustar el modelo, reducido que slo contiene a Jl es
2
=;; Yi. - N
?
1,:
y2
1=1
con a -1.grados de libertad, queporla ecuacin 3-9 se identifica como SS1tatamientos' Estableciendo el supuesto de normqlidadusual, elestadstico apropiado para probar H o: 7: 1 = r 2 = ... = r a = O es
F=
o '[
11
R(rIJl)/(a-l)
a ~# Y~ -R(Jl,
7:) I(N-a)
que se distribuye como Fa~l,N-a bajo la hiptesis nula. Se trata, desde luego, del estadstico de prueba para el anlisis de varianza de un solo factor.
3..10
3..10.1
En situaciones en las que el supuesto de normalidad no est justificado, el experimentador quiz quiera usar un procedimiento alternativo del anlisis de varianza con la prueba F que no dependa de este su-
117
puesto. Kruskal y Wallis [68] han desarrollado este procedimiento. La prueba de Kruskal-Wallis se usa para probar la hiptesis nula de que los a tratamientos son idnticos contra la hiptesis alternativa de que algunos de los tratamientos generan observaciones que son mayores que otras. Debido a que el procedimiento est diseado para ser sensible al probar las diferencias en las medias, en ocasiones es conveniente considerar la prueba de Kruskal-Wallis como una prueba de la igualdad de las medias de los tratamientos. La prueba de Kruskal-Wallis es una alternativa no paramtrica del anlisis de varianza usual. Para realizar la prueba de Kruskal-Wallis, primero se hace la clasificacin en rangos de lasYij observaciones en orden ascendente y cada observacin se reemplaza con su rango, por ejemplo Rij' asignndole a la observacin menor el rango 1. En el caso de empates (observaciones que tienen el mismo valor), se asigna el rango promedio a cada una de las observaciones empatadas. SeaR.la suma de los rangos del tratamiento i-simo. El estadstico de. prueba es (3-57) donde ni es el nmero de observaciones del tratamiento i-simo, N es el nmero total de observaciones y S2
= -l-[I~
N-1
i=l j=l
R~ _ N(N+1)2]
4
(3-58)
Observe que S2 es slo la varianza de los rangos. Si no hay empates, S2 prueba se simplifica a
H=
12
a
R2
_i.
N(N +1)
f:t
"
-3(N+1)
Cuando el nmero de empates es moderado, habr pequeas diferencias entre las ecuaciones 3-57 y 3-59, Ypuede usarse la forma ms simple (ecuacin 3-59). Si las ni son razonablemente grandes, por ejemplo n ;::: 5, H se distribuye aproximadamente como X;-l bajo la hiptesis nula. Por lo tanto, si
H> Xa,a-l 2
la hiptesis nula se
r~chaza.
EJEMPLO 3".12
En la tabla 3-14 se muestran los datos del ejemplo 3-1 y sus rangos correspondientes. Puesto que hay un nmero bastante grande de empates, la ecuacin 3-57 se usa como el estadstico de prueba. Por la ecuacin 3-58 se encuentra S2
= -l-[I~
N-1
=l j=l
R~ _ N(N+1)2]
4 4
= ~[5497.79- 25(26)2]
24
= 53.03
118
CAPTULO 3
Tabla 3-14 Datos y rangos para el experimento de la resistencia a la tensin del ejemplo 3-1 Peso porcentual del algodn 15
Ylj 7 7 15 11 9
R.
20
Rlj
Y2 R2 Y3j
25
R 3j Y4j
30
R4j YSj
35
R Sj
12 17 12 18 18
14 18 18 19 19
19 25 22 19 23
7 10 11 15 11
y el estadstico de prueba es
H
= -1 [a Ri~
S2
i=l
= _1_[5245.0- 25(26)2]
53.03
= 19.25
Puesto que H > X~.01,4' 4 = 13.28, se rechazara la hiptesis nula y se concluira que los tratamientos difieren. (El valor PparaH = 19.25 esP = 0.0002.) Se trata de la misma conclusin obtenida por el anlisis de varianza usual con la prueba F.
3~10.2
Al procedimiento utilizado en la seccin anterior de reemplazar las observaciones con sus rangos se le llama la transformacin de rangos. Es una tcnica muy poderosa y til. Si se aplicara la prueba F comn a los rangos en lugar de a los datos originales, se obtendra
Fa
= -(N---1------'-H)-/(--'-N---a-)
H/(a-1)
(3-60)
como el estadstico de prueba (ver Conover [20], p. 337). Observe que cuando el estadstico H de Kruskal-Wallis se incrementa o decrementa, Fa tambin se incrementa o decrementa, por lo que la prueba de Kruskal-Wallis es equivalente a aplicar el anlisis de varianza comn a los rangos. La transformacin de rangos tiene una amplia aplicabilidad en los problemas de diseo experimental para los que no existe ninguna alternativa no paramtrica para el anlisis de varianza. Esto incluye muchos de los diseos de captulos subsecuentes de este libro. Si los datos estn en rangos y se aplica la pruebaF comn, el resultado es un procedimiento aproximado que tiene buenas propiedades estadsticas (ver Conover e lInan [30a, bD. Cuando existe preocupacin acerca del supuesto de normalidad o por el efecto de puntos atpicos o valores"absurdos", se recomienda que el anlisis de varianza comn se realice tanto en los datos originales como en los rangos. Cuando ambos procedimientos producen resultados similares, probablemente los supuestos del anlisis de varianza se satisfacen razonablemente, y el anlisis estndar es satisfactorio. Cuando los dos procedimientos difieren, deber darse preferencia a la transformacin de rangos, ya que es menos posible que sea distorsionada por una condicin de no normalidad o la presencia de observaciones inusuales. En tales casos, tal vez el experimentador quiera investigar el uso de transfor-
)1 .il
3-11 PROBLEMAS
119
maciones para la faIta de normalidad y examinar los datos y el procedimiento experimental a fin de determinar si hay puntos atpicos y por qu han ocurrido.
3~11
PROBLEMAS
Se estudia la resistencia a la tensin del cemento portland. Pueden usarse econmicamente cuatro diferentes tcnicas de mezclado. Se han colectado los siguientes datos: Tcnica de mezclado
1 2 3 4
3-1.
Resistencia a la tensin (lb/pulg2) 3129 3200 2800 2600 3000 3300 2900 2700 2865 2975 2985 2600 2890 3150 3050 2765
a) Probar la hiptesis de que las tcnicas de mezclado afectan la resistencia del cemento. Utilizar a = 0.05. b) Construir una representacin grfica como se describi en la seccin 3-5.3 para comparar las resistencias
a la tensin promedio de las cuatro tcnicas de mezclado. A qu conclusiones se llega? e) Usar el mtodo LSD de Fisher con a = 0.05 para hacer comparaciones entre pares de medias. d) Construir una grfica de probabilidad normal de los residuales. Qu conclusiones se sacaran acerca de la validez .del supuesto de normalidad? e) Graficar los residuales contra la resistencia a la tensin predicha. Comentar la grfica. /) Hacer un diagrama de dispersin de los resultados como ayuda para la interpretacin de los resultados de este experimento. 3-2. a) Resolver de nuevo el inciso b del problema 3-1 utilizando la prueba del rango mltiple de Duncan con a = 0.05. Hay alguna diferencia en las conclusiones? b) Resolver de nuevo el inciso b del problema 3-1 utilizando la prueba de Tukey con a = 0.05. Se llega a las .mismas conclusiones con la prueba de Tukey que las obtenidas con el procedimiento grfico y/o con la prueba del rango mltiple de Duncan? e) Explicar la diferencia entre los procedimientos de Duncan y de Tukey. 3-3. Considere nuevamente el problema 3-1. Encontrar un intervalo de confianza de 95 % para la resistencia a la tensin media del cemento portland que produce cada una de las cuatro tcnicas de mezclado. Encontrar tambin un intervalo de confianza de 95% para la diferencia en las medias de las tcnicas 1 y 3. Sirve esto de ayuda para interpretar los resultados del experimento? 3-4. Se llev a cabo un experimento a fin de determinar si cuatro temperaturas de coccin especficas afectan la densidad de cierto tipo de ladrillo. El experimento produjo los siguientes datos: Temperatura 100 125 150 175 21.8 21.7 21.9 21.9 21.9 21.4 21.8 21.7 Densidad 21.7 21.5 21.8 21.8 21.6 21.4 21.6 21.4 21.7 21.5
a) La temperatura de coccin afecta la densidad de los ladrillos? Utilizar a = 0.05. b) Es apropiado comparar las medias utilizando la prueba del rango mltiple de Duncan (por ejemplo) en este experimento? e) Analizar los residuales de este experimento. Se satisfacen los supuestos del anlisis de varianza? d) Construir una representacin grfica de los tratamientos como se describi en la seccin 3-5.3. Esta grfica resume adecuadamente los resultados del anlisis de varianza del inciso a?
120
3-5.
CAPTULO 3
3-6.
Resolver de nuevo el inciso d del problema 3-4 utilizando el mtodo LSD de Fisher. A qu conclusiones se llega? Explicar en detalle cmo se modific la tcnica para tomar en cuenta los tamaos de las muestras desiguales. Un fabricante de televisores est interesado en el efecto de cuatro tipos diferentes de recubrimientos para cinescopias de color sobre la conductividad de un cinescopio. Se obtienen los siguientes datos de la conductividad:
a) Hay alguna diferencia en la conductividad debida al tipo de recubrimiento? Utilizar a = 0.05. b) Estimar la media global y los efectos de los tratamientos. e) Calcular la estimacin de un intervalo de confianza de 95% para la media del tipo de recubrimiento 4. Calcular la estimacin de un intervalo de confianza de 99% para la diferencia media entre los tipos de recubrimiento 1 y 4. d) Probar todos los pares de medias utilizando el mtodo LSD de Fisher con a = 0.05. e) Usar el mtodo grfico comentado en la seccin 3-5.3 para comparar las medias. Cul es el tip9 de recubrimiento que produce la conductividad ms alta? f) Suponiendo que el recubrimiento tipo 4 es el que se est usando actualmente, qu se recomendara al fabricante? Quiere minimizarse la conductividad. 3-7. Considere nuevamente el experimento del problema 3-6. Analizar los residuales y sacar conclusiones acerca de la adecuacin del modelo. 3-8. En un artculo deACI Matelials Jaumal (vol. 84, pp. 213-216) se describen varios experimentos para investigar el varillado del concreto para eiiminar el aire atrapado. Se us un cilindro de 3 x 6 pulgadas; y el nmero de veces que esta barra se utiliz es la variable del diseo. La resistencia a la compresin resultante de la muestra de concreto es la respuesta. Los datos se muestran en la tabla siguiente:
Nivel de varillado
10 15 20 25
Resistencia a la compresin 1530 1610 1560 1500 1530 1650 1730 1490 1440 1500 1530 1510
a) Hay alguna diferencia en la resistencia a la compresin debida al nivel de varillado? Utilizar a = 0.05.
b) Encontrar el valor P para el estadstico F del inciso a.
3-9.
e) Analizar los residuales de este experimento. Qu conclusiones pueden sacarse acerca de los supuestos fundamentales del modelo? d) Construir una representacin grfica para comparar las medias de los tratamientos, como se describi en la seccin 3-5.3. En un artculo de Environment Intematianal (vol. 18, no. 4) se describe un experimento en el que se investig la cantidad de radn liberado en las duchas. Se us agua enriquecida con radn en el experimento, y se probaron seis dimetros diferentes de los orificios de las regaderas. Los datos del experimento se muestran en la ..~ siguiente tabla: "
3-:PROBLEMAS
121
80 75 74 67 62 60
77:
74 69' 66
85" 79
3-10.
e) Analizar los residuales de este experimento. d) Encontrar un intervalo de confianza de 95% para el porcentaje promedio de radn liberado cuando el dimetro de los orificios es 1.40. e) Construir una representacin grfica para comparar las medias de los tratamientds;como se describi en la seccin 3-5.3. Qu conclusiones pueden sacarse? Se determin el tiempo de respuesta en milisegundos para tres diferentes tipos de circuitos que podran usarse en un mecanismo de desconexin automtica. Los resultados se muestran en la siguiente tabla:
Tipo de circuito 1 2 3 9 20 6
Tiempo de respuesta 12 21 5 10 23 8 8 17 16 15 30 7
a) Probar la hiptesis de que los tres tipos de circuitostienen'd mismo tiempo de respuesta. Utilizar a = 0.01. b) Usar la prueba de Tukey para comparar pares de medias de los tratamientos. 'Utilizar a= 0.01. e) Usar el procedimiento grfico de la seccin3-5.3 para comparar las medias de los tratamientos. Qu conclusiones pueden sacarse? Cmo se comparan con las conclusiones del inciso b? d) Construir un conjunto de contrastes ortogonales, suponiendo que al principio del experimento se sospechaba que el tiempo de respuesta del circuito tipo 2 era diferente del de los otros dos. e) Si el lector fuera el ingeniero de diseo y quisiera minimizar el tiempo de respuesta, qu tipo de circuito seleccionara? f) Analizar los residuales de este experimento. Se satisfacen los supuestos del anlisis de varianza bsico? 3-11. Se estudia la vida efectiva de los fluidos aislantes en una carga acelerada de 35 kV. Se han obtenido datos de una prueba para cuatro tipos de fluidos. Los resultados fueron los siguientes:
Tipo de fluido 1 2 3 4 17.6 16.9 21.4 19.3 18.9 15.3 23.6 21.1
Vida (en horas) con 35 kV de carga 17.4 16.3 18.6 17.1 18.5 19.4 17.5 16.9
122
b)
CAPTULO 3
3-12.
a) Hay algn indicio de que los fluidos difieran? Utilizar a = 0.05. Cul fluido seleccionara el lector, dado que el objetivo es conseguir la vida efectiva ms larga? e) Analizarlos residuales de este experimento. Se satisfacen los supuestos del anlisis de varianza bsico? Se estudian cuatro diferentes tipos de diseos de un circuito digital de computadora para comparar la cantidad de ruido presente. Se obtienen los siguientes datos:
20 61 26 46
Ruido observado 19 30 56 73 25 35 83 78
8 80 50 97
3-13.
a) La cantidad de ruido presente es la misma para los cuatro diseos? Utilizar a = 0.05. b) Analizar los residuales de este experimento. Se satisfacen los supuestos del anlisis de varianza? e) Qu diseo del circuito se seleccionara para usarlo? El ruido bajo es mejor. Se pide a cuatro qumicos que determinen el porcentaje de alcohol metlico en cierto compuesto qumico. Cada qumico hace tres determinaciones, y los resultados son los siguientes:
Qumico 1 2 3 4
Porcentaje de alcohol metlico 84.99 84.04 84.38 85.15 85.13 84.88 84.72 84.48 85.16 84.20 84.10 84.55
3-14.
a) Los qumicos difieren significativamente? Utilizar a = 0.05. b) Analizar los residuales de este experimento. e) Si el qumico 2 es un empleado nuevo, construir un conjunto razonable de eX>ntrastes ortogonales que podra haberse usado al principio del experimento. Se someten a estudio tres marcas de bateras. Se sospecha que las vidas (en semanas) de las tres marcas son diferentes. Se prueban cinco bateras de cada marca con los resultados siguientes:
Marca 1 100 96 92 96 92
a) Las vidas de estas tres marcas son diferentes? b) Analizar los residuales de este experimento. e) Construir la estimacin de un intervalo de confianza de 95% para la vida media de la batera marca 2. Construir la estimacin del intervalo de confianza de 99% para la diferencia media entre las vidas de las bateras marcas 2 y 3.
3-11 PROBLEMAS
123
d)
3-15.
Qu marca seleccionara el lector para usarla? Si el fabricante reemplazara sin cargo cualquier batera que dure menos de 85 semanas, qu porcentaje esperara reemplazar la compaa? Se estn investigando cuatro catalizadores que pueden afectar la concentracin de un componente en una mezcla lquida de tres componentes. Se obtienen las-siguientes concentraciones:
Catalizador
3-16.
e) Construir la estimacin de un intervalo de confianza de 99% para la respuesta media del catalizador 1. Se llev a cabo un experimento para investigar la eficacia de cinco materiales aislantes. Se probaron cuatro muestras de cada material con un nivel elevado de voltaje para acelerar el tiempo de falla. Los tiempos de falla (en minutos) se muestran abajo:
Tiempo de falla (minutos) 157 2 1256 7040 5 194 4 5276 5307 29 178 18 4355 10,050 2
3-17.
a) Los cinco materiales tienen el mismo efecto sobre el tiempo de falla? b) Graficar los residuales contra la respuesta predicha. Construir una grfica de probabilidad normal de los residuales. Qu informacin transmiten estas grficas? e) Con base en la respuesta del inciso b, realizar otro anlisis de los datos del tiempo de falla y sacar las conclusiones apropiadas. Un fabricante de semiconductores ha desarrollado tres mtodos diferentes para reducir el conteo de partculas en las obleas. Los tres mtodos se prueban en cinco obleas y se obtiene el conteo de partculas despus del tratamiento. Los datos se muestran abajo:
Mtodo
Conteo 31 62 53 10 40 27 21 24 120
4 30 97 1 35 68
.
e)
1 2 3
a) Todos los mtodos tienen el mismo efecto sobre el conteo promedio de partculas?
b) Graficar los residuales contra la respuesta predicha. Construir una grfica de probabilidad normal de los
residuales. Hay motivo de preocupacin potencial acerca de la validez de los supuestos? Con base en la respuesta del inciso b, realizar otro anlisis de los datos del conteo de partculas y sacar las conclusiones apropiadas.
124
3-18.
3-19. 3-20.
3-21.
3-22.
3-23.
3-24.
3-25.
3-26.
3-27.
3-28.
3-29.
3-30.
Considere la prueba de la igualdad de las medias de dos poblaciones normales, donde las varianzas son desconocidas pero se suponen iguales. El procedimiento de prueba apropiado es la prueba t agrupada o combinada. Demostrar que la prueba t combinada es equivalente al anlisis de varianza de un solo factor. Demostrar que la varianza de la combinacin lineal ~:=CiYi. es a2~:=nici2. En un experimento con efectos fijos, suponga que hay n observaciones para cada uno de cuatro tratamientos. Sean (42, Qi, Q; los componentes con un solo grado de libertad de los contrastes ortogonales. Demostrar que S STratamientos = Q2 + Qi + Q;. Utilizar la prueba de Bartlett para determinar si el supuesto de la igualdad de las varianzas se satisface en el problema 3-14. Utilizar a = 0.05. Se lleg a la misma conclusin respecto de la igualdad de las varianzas con el examen de las grficas de los residuales? Utilizar la prueba de Levene modificada para determinar si el supuesto de las varianzas iguales se satisface en el problema 3-14. Utilizar a = 0.05. Se lleg a la misma conclusin respecto de la igualdad de las varianzas con el examen de las grficas de los residuales? Referirse al problema 3-10. Si quiere detectarse una diferencia mxima en los tiempos de respuesta promedio de 10 milisegundos con una probabilidad de al menos 0.90, qu tamao de la muestra deber usarse? Cmo se obtendra una estimacin preliminar de a2 ? Referirse al problema 3-14. a) Si quiere detectarse una diferencia mxima en la vida de las bateras de 10 horas con una probabilidad de al menos 0.90, qu tamao de la muestra deber usarse? Comentar cmo se obtendra una estimacin preliminar de a2 para responder esta pregunta. b) Si la diferencia entre las marcas es lo suficientemente grande para que la desviacin estndar de una observacin se incremente en 25%, qu tamao de la muestra deber usarse si quiere detectarse esto con una probabilidad de al menos 0.90? Considere el experimento del problema 3-14. Si quiere construirse un intervalo de confianza de 95% para la diferencia en las vidas medias de dos bateras que tenga una precisin de 2 semanas, cuntas bateras de cada marca deben probarse? Suponga que cuatro poblaciones normales tienen medias,u = 50,,u2 = 60,,u3 = 50 y,u4 = 60. Cuntas observaciones debern hacerse en cada poblacin para que la probabilidad de rechazar la hiptesis nula de la igualdad de las medias poblacionales sea al menos 0.90? Suponer que a = 0.05 y que una estimacin razonable de la varianza de error es a2 = 25. Referirse al problema 3-26. a) En qu forma cambiara la respuesta si una estimacin razonable de la varianza del error experimental fuera a2 = 36? b) En qu forma cambiara la respuesta si una estimacin razonable de la varianza del error experimental fuera a2 = 49? e) Puede sacarse alguna conclusin acerca de la sensibilidad de la respuesta dada en esta situacin particular acerca de cmo afecta la estimacin de a la decisin referente al tamao de la muestra? d) Puede hacerse alguna recomendacin acerca de cmo debera usarse este enfoque general para elegir n en la prctica? Referirse al experimento de la fundicin de aluminio descrito en la seccin 3-8. Verificar que los mtodos para controlar la proporcin de almina no afectan el voltaje promedio de la celda. Construir una grfica de probabilidad normal de los residuales. Graficar los residuales contra los valores predichos. Existe algn indicio de que se violan algunos de los supuestos fundamentales? Referirse al experimento de la fundicin de aluminio de la seccin 3-8. Verificar el anlisis de varianza del ruido del crisol que se resume en la tabla 3-13. Examinar las grficas de los residuales usuales y comentar la validez del experimento. Se investigaron cuatro diferentes velocidades de alimentacin en un experimento con unamquina CNC que produce una pieza que se usa en la unidad de potencia auxiliar de un avin. El ingeniero de manufactura a cargo del experimento sabe que una dimensin crtica de la pieza de inters puede ser afectada por la velocidad de alimentacin. Sin embargo, la experiencia previa indica que es probable que slo estn presentes
3-11 PROBLEMAS
125
efectos de dispersin. Es decir, al cambiarse la velocidad de alimentacin no se afecta la dimensin promedio, pero podra afectarse la variabilidad dimensional. El ingeniero realiza cinco corridas de produccin con cada velocidad de alimentacin y obtiene la desviacin estndar de la dimensin crtica (en 10-3 mm). Los datos se muestran abajo. Suponer que todas las corridas se hicieron en orden aleatorio. Velocidad de alimentacin (pulgadas/minuto) 10 12 14 16 Corrida de produccin
1 0.09 0.06 0.11 0.19
a) La velocidad de alimentacin tiene algn efecto sobre la desviacin estndar de esta dimensin crtica? b) Usar los residuales de este experimento para investigar la adecuacin del modelo. Hay algn problema
3-31.
con la validez experimental? Considere los datos del problema 3-10. a) Escribir las ecuaciones normales de mnimos cuadrados para este problema y resolverlas para it y Ti' utilizando la restriccin usual C~:=1Ti = O). Estimar T 1 - T 2 b) Resolver las ecuaciones del inciso a utilizando la restriccin i 3 = O. Los estimadores i i Yit son los mismos que se encontraron en el inciso a? Por qu? Estimar ahora T 1 -T2 Y compararla respuesta con la del inciso a. Qu afirmacin puede hacerse respecto de estimar los contrastes en las Ti? e) Estimar fl + T, 2T 1 -T2 - T3, Yfl + T1 + T 2 utilizando las dos soluciones de las ecuaciones normales. Comparar los resultados obtenidos en cada caso. Aplicar la prueba general de significacin de la regresin en el experimento del ejemplo 3-1. Demostrar que el procedimiento produce los mismos resultados que el anlisis de varianza usual. Usar la prueba de Kruskal-Wallis en el experimento del problema 3-11. Comparar las conclusiones obtenidas con las del anlisis de varianza usual. Usar la prueba de Kruskal-Wallis en el experimento del problema 3-12. Los resultados son comparables con los encontrados por el anlisis de varianza usual? Considere el experimento del ejemplo 3-1. Suponga que la observacin mayor de la resistencia a la tensin se registr incorrectamente como 50. Qu efecto tiene esto sobre el anlisis de varianza usual? Qu efecto tiene sobre la prueba de Kruskal-Wallis?
4~ 1
En cualquier experimento, la variabilidad que surge de un factor perturbador puede afectar los resultados. En general, un factor perturbador puede definirse como un factor del diseo que probablemente tenga un efecto sobre la respuesta, pero en el que no existe un inters especfico. En ocasiones un factor perturbador es desconocido y no controlable; es decir, se desconoce la existencia de ese factor e incluso puede tener niveles variables mientras se est realizando el experimento. La aleatorizacin es la tcnica de diseo que se utiliza para protegerse contra estos factores perturbadores "que estn al acecho". En otros casos, el factor perturbador es conocido pero no controlable. Si por lo menos puede observarse el valor que asume el factor perturbador en cada corrida del experimento, es posible hacer la compensacin correspondiente en el anlisis estadstico mediante el uso del anlisis de covarianza, una tcnica que se revisar en el captulo 14. Cuando la fuente de variabilidad perturbadora es conocida y controlable, puede usarse una tcnica de diseo llamada formacin de bloques para eliminar de manera sistemtica su efecto sobre las comparaciones estadsticas entre los tratamientos. La formacin de bloques es una tcnica de diseo en extremo importante que se utiliza ampliamente en la experimentacin industrial, y es la materia de este captulo. Para ilustrar la idea general, suponga que quiere determinarse si cuatro puntas diferentes producen o no lecturas diferentes en una mquina para probar la dureza. Un experimento como ste podra ser parte de un estudio de la aptitud en la calibracin de los instrumentos. La mquina funciona presionando la punta en un ejemplar de prueba de metal, y por la profundidad de la depresin resultante puede determinarse la dureza del ejemplar. El experimentador ha decidido obtener cuatro observaciones para cada punta. Hay un solo factor---'-el tipo de punta-, y un diseo completamente aleatorizado de un solo factor consistira en asignar al azar cada una de las 4 X 4 = 16 corridas a una unidad experimental, es decir, a un ejemplar de prueba de metal, y observar qu resulta de la lectura de la dureza. Por lo tanto, se necesitaran 16 ejemplares de prueba de metal en este experimento, uno por cada corrida del diseo. Existe un problema potencialmente serio con un experimento por completo aleatorizado en esta situacin de diseo. Si los ejemplares de prueba de metal difieren ligeramente en sus durezas, como podra
126
127
Tabla 4-1
Tipo de punta 1 2 3 4
Ejemplar de prueba 2 3 9.4 9.3 9.4 9.6 9.6 9.8 9.5 10.0
ocurrir si se tomaran de lingotes que se produjeron con temperaturas diferentes, las unidades experimentales (los ejemplares de prueba) contribuirn a la variabilidad observada en los datos de la dureza. Como resultado, el error experimental reflejar tanto el error aleatorio como la variabilidad entre los ejemplares de prueba. El objetivo sera hacer el error experimental tan pequeo como fuera posible; es decir, querra eliminarse del error experimental la variabilidad entre los ejemplares de prueba. Un diseo para lograr esto requiere que el experimentador pruebe cada punta una vez en cada uno de los cuatro ejemplares de prueba. A este diseo, que se muestra en la tabla 4-1, se le llama diseo de bloques completos aleatorizados (ReBD, randomized complete block design). La respuesta observada es la dureza en la escala C de Rockwell menos 40. La palabra "completos" indica que cada bloque (ejemplar de prueba) contiene todos los tratamientos(puntas). Al utilizar este diseo, los bloques o ejemplares de prueba forman una unidad experimental ms homognea en la cual comparar las puntas. De hecho, esta estrategia de diseo mejora la precisin de las comparaciones entre las puntas al eliminar la variabilidad entre los ejemplares de prueba. Dentro de un bloque, el orden en que se prueban las cuatro puntas se determina aleatoriamente. Observe la similitud de este problema de diseo con el de la seccin 2-5, donde se analiz la prueba t: pareada. El diseo de bloques completos aleatorizados es una generalizacin de ese concepto. El RCBD es uno de los diseos experimentales ms utilizados. Son numerosas las situaciones en las que el RCBD es apropiado. Las unidades de equipo o maquinaria de prueba son con frecuencia diferentes en sus caractersticas de operacin y seran un factor de formacin de bloques tpico. Lotes de materia prima, personas y el tiempo tambin son fuentes de variabilidad perturbadora comunes en un experimento que pueden controlarse de manera sistemtica mediante la formacin de bloques. La formacin de bloques tambin puede ser til en situaciones que no incluyen necesariamente factores perturbadores. Por ejemplo, suponga que un ingeniero qumico est interesado en el efecto de la velocidad de alimentacin del catalizador sobre la viscosidad de un polmero. Sabe que hay varios factores, como la fuente de la materia prima, la temperatura, el operador y la pureza de la materia prima, que son muy difciles de controlar en proceso en gran escala. Por lo tanto, decide probar en bloques la velocidad de alimentacin del catalizador, donde cada bloque consiste en alguna combinacin de estos factores no controlables. De hecho, est utilizando los bloques para probar la robustez de su variable de proceso (la velocidad de alimentacin) para las condiciones que no puede controlar con facilidad. Para un anlisis ms amplio de este punto, ver Coleman y Montgomery [27].
4-1.1
Suponga que se tienen, en general, a tratamientos que van a compararse y b bloques. El diseo de bloques completos aleatorizados se muestra en la figura 4-1. Hay una observacin por tratamiento en cada bloque, y el orden en que se corren los tratamientos dentro de cada bloque se determina al azar. Debido a
r']'
I
128
Bloque 1
CAPTULO 4
Bloque 2
Yab
que la nica aleatorizacin de los tratamientos se hace dentro de los bloques, con frecuencia se dice que los bloques representan una restriccin sobre la aleatorizacin. El modelo estadstico del RCBD puede escribirse de varias maneras. El tradicional es el modelo de los efectos:
Yij=fl+T+f3j+8ij
(4-1)
donde fl es la media global, T es el efecto del tratamiento i-simo, f3j es el efecto del bloque j-simo, y 8ij es el trmino del error NID(O, 02) usual. Se considerar inicialmente que los tratamientos y los bloques son factores fijos. Como en el modelo del diseo experimental con un solo factor del captulo 3, el modelo de los efectos para el RCBD es un modelo sobreespecificado. En consecuencia, los efectos de los tratamientos y los bloques se consideran por lo general como desviaciones de la media global, por lo que
Tambin es posible usar un modelo de las medias para el RCBD, por ejemplo
Yij=flij+8ij { )'=1
donde flj = fl + T + f3j. Sin embargo, en este captulo se usar el modelo de los efectos de la ecuacin 4-1. En un experimento en el que se use el RCBD, el inters se encuentra en probar la igualdad de las medias de los tratamientos. Por lo tanto, las hiptesis de inters son
H o : fll
= fl = ... = fla
2
H 1 : al menos una fl
:; fl j
Puesto que la media del tratamiento i-simo es fl = (l/b)L ~=l (J. + T + f3j) = fl + T, una manera equivalente de escribir las hiptesis anteriores es en trminos de los efectos de los tratamientos, por ejemplo
H o :T 1 =T 2
='''=T a =O
Seay. el total de observaciones hechas bajo el tratamiento i'YJ el total de observaciones del bloquej,y'. el gran total de las observaciones y N = ab el nmero total de observaciones. Expresado matemticamente,
129
(4-2)
Yi.
= 2:
j=1
Yij
Yj
=~
i=1
a
b
Yij
(4-3)
y
Y..
= 2: L
i=1 j=1
Yij
=L
i=1
Yi.
=L
j=1
Yj
-(4-4)
De manera similar'Yi. es el promedio de las observaciones hechas bajo el tratamiento i,YJ es el promedio de las observaciones del bloque j, es el gran promedio de todas las observaciones. Es decir,
Y..
Yi.
= Yi. / b
a
b
Y.j
= Y. j / a
Y.. / N
(4-5)
LL (Yij - y.. )2 = LL [(Yi. - Y.. )+(Y.j - Y.. )+(Yij - Yi. - Y.j + Y.. )]2 i=1 j=1 i=1 j=1
Al desarrollar el miembro del lado derecho de la ecuacin 4-6 se obtiene
a b
(4-6)
j=1
+" - _ Y. - j + Y.. - )2 + 2" " (- )(- ) LJ " LJ ( Yij _ Yi. LJ LJ Yi. _ Y.. Y. j _ Y..
i=1 j=1
a
i=1 j=1
+2"" LJLJ (Yi. --)( Y.. Yij -Yi. -Y.j +Y.. ) i=1 j=1
Mediante procedimientos algebraicos simples, pero laboriosos, se prueba que los tres productos cruzados son cero. Por lo tanto,
a b a b
"" - )2 LJ LJ ( Yij _ Y.
;=1 j=1
= b" LJ
;=1
a
(4-7)
representa una particin de la suma de cuadrados total. Al expresar simblicamente las sumas de cuadrados de la ecuacin 4-7, se tiene
SST
(4-8)
Puesto que hay N observaciones, SS T tiene N - 1 grados de libertad. Haya tratamientos y b bloques, de donde SSltatamientos y SSBloques tienen a -1 y b -1 grados de libertad, respectivamente. La suma de cuadra-
130
dos del error es slo la suma de cuadrados entre las celdas menos la suma de cuadrados de los tratamientos ylos bloques. Hayab celdas conab -1 grados de libertad entre ellas, de donde SSEtiene ab -1- (a -1) - (b -1) = (a -l)(b -1) grados de libertad. Adems, la suma de los grados de libertad del lado derecho de la ecuacin 4-8 es igual al total del lado izquierdo; por lo tanto, al establecer los supuestos de normalidad usuales para los errores, puede usarse el teorema 3-1 para demostrar que SSTratamiento/if, SSBloque/if y SSE/if son variables aleatorias ji-cuadrada con distribuciones independientes. Cada suma de cuadrados dividida por sus grados de libertad es un cuadrado medio. Puede demostrarse que el valor esperado de los cuadrados medios, si los tratamientos y los bloques son fijos, es
b
E( MS Tratamientos ) = a 2
L 7:7
b
i=l + --'-a--'---l-
2
2
aL f3~ 1'=1
b-1
Por lo tanto, para probar la igualdad de las medias de los tratamientos, se usara el estadstico de prueba
= MSTratamientos
MS E
que se distribuye como F a_1, (a-1j(b-1) si la hiptesis nula es verdadera. La regin crtica es la cola superior de la distribucin F, y H o se rechazara si F o > Fa, a-1, (a-l)(b-1)' Tambin podra haber inters en comparar las medias de los bloques porque, en caso de que la diferencia entre estas medias no sea considerable, quiz no sea necesaria la formacin de bloques en experimentos futuros. Por los cuadrados medios esperados, aparentemente la hiptesis H o:f31' = O puede probarse comparando el estadstico Fo = MSBloque/MSE con Fa, b-1, (a-1)(b-1)' Sin embargo, recuerde que la aleatorizacin slo se ha aplicado a los tratamientos dentro de los bloques; es decir, los bloques representan una restriccin sobre la aleatorizacin. Qu efecto tiene esto sobre el estadstico F o = MS Blo _ que/MSE? Existen diferentes puntos de vista para abordar esta cuestin. Por ejemplo, Box, Hunter y Hunter [18] sealan que la pruebaF del anlisis de varianza comn puede justificarse exclusivamente con base en la aleatorizacin,1 sin el uso directo del supuesto de normalidad. Agregan que en la prueba para comparar las medias de los bloques no puede recurrirse a dicha justificacin debido a la restriccin sobre la aleatorizacin; pero si los errores son NID(O, if), puede usarse el estadstico Fo = MSBloque/MSE para comparar las medias de los bloques. Por otra parte, Anderson y McLean [2] argumentan que la restriccin sobre la aleatorizacin impide que este estadstico sea una prueba significativa para comparar las medias de los bloques y que este cociente F es en realidad una prueba de la igualdad de las medias de los bloques ms la restriccin sobre la aleatorizacin (a la que llaman el error de la restriccin; ver Anderson y McLean [2] para detalles adicionales). Entonces, qu se hace en la prctica? Debido a que con frecuencia el supuesto de normalidad es cuestionable, considerar Fo = MSBloque/MSE como una pruebaF exacta para la igualdad de las medias de los bloques no es una buena prctica general. Por esa razn, esta prueba F no se incluye en la tabla del anlisis de varianza. Sin embargo, como un procedimiento aproximado para investigar el efecto de la variable formacin de bloques, examinar el cociente MSBloque/MSEes muy razonable. Si este cociente es muy
1 De hecho, la distribucin F de la teora normal es una aproximacin- de la distribucin de aleatorizacin generada al calcular F o a partir de cada asignacin posible de las respuestas a los tratamientos.
~ F'o. .
131
Tabla 4-2
Suma de cuadrados
SS1i:atamientos
Grados de libertad
a-1
b-1 (a -l)(b -1) N-1
MSTratamientos
SSBloques
SSE SST
grande, implica que el factor formacin de bloques tiene un efecto considerable y que la reduccin del ruido obtenida por la formacin de bloques probablemente fue til para mejorar la precisin de la comparacin de las medias de los tratamientos. El procedimiento suele resumirse en un esquema de anlisis de varianza, como el que se muestra en la tabla 4-2. En general, los clculos se realizaran con un paquete de software de estadstica. Sin embargo, es posible obtener frmulas de clculo manual de las sumas de cuadrados para los elementos de la ecuacin 4-7 expresndolos en trminos de los totales de los tratamientos y los bloques. Estas frmulas de clculo son
SST
LL Y~-~
i=1 j=1
(4-9)
y.~
SSTratamientos
SSBloques
(4-10) (4-11)
y.~
J=1
(4-12)
EJEMPLO 4 1
Considere el experimento de la prueba de la dureza de la seccin 4-1. Hay cuatro puntas y cuatro ejemplares de prueba de metal. Cada punta se prueba una vez en cada ejemplar, resultando un diseo de bloques completos aleatorizados. Los datos obtenidos se repiten por conveniencia en la tabla 4-3. Recuerde que el orden en que se probaron las puntas en un ejemplar particular se determin al azar. Para simplificar los
Tabla 4-3 Diseo de bloques completos aleatorizados para el experimento de la prueba de la dureza
1
9.3 9.4 9.2 9.7
2
9.4 9.3 9.4 9.6
3
9.6 9.8 9.5 10.0
4
10.0 9.9 9.7 10.2
1 2 3 4
132
CAPTULO 4
Tabla 4-4 Datos codificados del experimento de la prueba de la dureza Ejemplar de prueba (bloque) Tipo de punta 1 234
1 2 3 4
-2 -1 -3 2
-4
-1 -2 -1 1
1 3 O 5
9
5 4 2 7
18
Yi. 3 4
-2 15
20 = Y..
-3
clculos, los datos originales se codifican restando 9.5 de cada observacin y multiplicando el resultado por 10. Se obtienen as los datos de la tabla 4-4. Las sumas de cuadrados se obtienen de la siguiente manera:
SST
LL y~_L N
i=1 j=1
= 154.00SSTratamientos
(22t = 129.00
=bL
4
1=1
2 Y.~ Yi. - N
SSBloqnes
L
j=1
SS E
= 1. [(_4)2 +(_3)2 +(9)2 +(18)2]- (20)2 = 82.50 4 16 = SST - SSTratamientos - SSBJoqUes = 129.00- 38.50- 82.50= 8.00
En la tabla 4-5 se presenta el anlisis de varianza. Utilizando a = 0.05, el valor crtico de Fes F O05 ,3.9 = 3.86. Puesto que 14.44 > 3.86, se concluye que el tipo de punta afecta la lectura de la dureza media. El valor P para la prueba tambin es muy pequeo. Adems, al parecer los ejemplares (bloques) difieren de manera significativa, ya que el cuadrado medio de los bloques es grande en relacin con el error. Es interesante observar los resultados que se habran obtenido si no se hubiera tenido conocimiento de los diseos de bloques aleatorizados. Suponga que se usaran cuatro ejemplares, asignando al azar las puntas a cada uno de ellos, y que resultara (por casualidad) el mismo diseo que el de la tabla 4-3. El anlisis incorrecto de estos datos como un diseo completamente aleatorizado de un solo factor se presenta en la tabla 4-6.
Tabla 4-5 Fuente de variacin Tratamientos (tipo de punta) Bloques (ejemplares) Anlisis de varianza del experimento de la prueba de la dureza Suma de cuadrados 38.50 82.50 8.00 129.00 Grados de libertad Cuadrado medio 12.83 27.50 0.89 Valor P
3
3
9
14.44
0.0009
Error
Total
15
133
Tabla 4-6 Anlisis incorrecto del experimento de la prueba de la dureza como un diseo completamente aleatorizado
Grados de libertad 3 12 15
1.70
Puesto que F O.05 ,3,l2 = 3.49, no puede rechazarse la hiptesis de la igualdad de las mediciones de la dureza media de las cuatro puntas. Por lo tanto, el diseo de bloques aleatorizados reduce lo suficiente la cantidad de ruido en los datos para que las diferencias entre las cuatro puntas sean detectadas. Esto ilustra un punto muy importante. Si un experimentador no. recurre a la formacin de bloques cuando debera haberlo hecho, el efecto puede ser inflar el error experimental a tal grado que las diferencias importantes entre las medias de los tratamientos sean indetectables.
e.
En la figura 4-2 se muestra la salida de computadora condensada obtenida con Design-Expert para los datos de la prueba de la dureza del ejemplo 4-1. Recuerde que en el anlisis original de la tabla 4-5 se utilizaron datos codificados. (Las respuestas originales se codificaron restando 9.5 Ymultiplicando el resultado por 10.) El anlisis de computadora utiliz las respuestas originales. Por consiguiente, las sumas de cuadrados de la figura 4-2 son iguales a las de la tabla 4-5 divididas entre 100 (observe que Design-Expe/1 ha redondeado las sumas de cuadrados con dos cifras decimales). Los residuales se enlisin en la parte inferior de la salida de computadora. stos se calculan como
eij
= Yij -
Yij
= Yi. + YJ -
Y.., de donde
= Yij -
Yi. - Y.j
+ Y..
(4-13)
En la seccin siguiente se indicar cmo se usan los residuales en la verificacin de la adecuacin del modelo.
Comparaciones mltiples
Si los tratamientos en un RCBD son fijos, y el anlisis indica una diferencia significativa en las medias de los tratamientos, al experimentador le interesarn por lo general comparaciones mltiples para descubrir cules son los tratamientos cuyas medias difieren. Para ello puede utilizarse cualquiera de los procedimientos de comparaciones mltiples del captulo 3 (seccin 3-5). Simplemente se sustituye en las frmulas de la seccin 3-5 el nmero de rplicas (n) en el diseo completamente aleatorizado de un solo factor con el nmero de bloques (b). Asimismo, es necesario recordar usar el nmero de grados de libertad del error para el bloque aleatorizado [(a -l)(b -1)] en lugar de los grados de libertad del diseo completamente aleatorizado [a(n - 1)]. En la salida de Design-Expert de la figura 4-2 se ilustra el procedimiento LSD de Fisher. Observe que si se usa a = 0.05, se concluira que f.-l2 = f.-l3' Ahora bien, puesto que Y3. :5 Yl. :5 Y2. (es decir, las medias Y2. y Y3. abarcan algunas de las medias restantes), una conclusin inmediata sera que .tl = .t2 = .t3' Adems, f.-l4 es diferente de las otras tres medias. Se concluye por lo tanto que la punta tipo 4 produce una dureza media que es significativamente ms alta que las lecturas de la dureza media de los otros tres tipos de puntas.
134
CAPTULO 4
Response: Hardness in Rockwell C ANOVA for Selected Factorial Model Analysis of variance table [Partial sum of squaresl Source Sumof Squares DF Mean Square
F Value
Prob> F
Block Model
A Residual Cor Total
0.82 0.38
0.38
3 3
3
0.27 0.13
0.13
14.44 14.44
0.0009
0.0009
significant
9 15
8.889E-003
Treatment
Itl
1 vs 2 1 vs 3 1 vs 4 2 vs 3 2 vs 4 3 vs 4
1 1 1 1 1 1
Residual
Leverage
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Figura 4-2
9.30 9.40 9.60 10.00 9.40 9.30 9.80 9.90 9.20 9.40 9.50 9.70 9.70 9.60 10.00 10.20
9.35 9.38 9.67 9.90 9.38 9.40 9.70 9.93 9.22 9.25 9.55 9.78 9.65 9.68 9.97 10.20
-0.050 0.025 -0.075 0.100 0.025 -0.100 0.100 -0.025 -0.025 0.150 -0.050 -0.075 0.050 -0.075 0.025 0.000
0.438 0.438 0.437 0.438 0.438 0.437 0.437 0.437 0.438 0.437 0.437 0.437 0.438 0.437 0.437 0.437
-0.707 0.354 -1.061 1.414 0.354 -1.414 1.414 -0.354 -0.354 2.121 -0.707 -1.061 0.707 -1.061 0.354 0.000
0.056 0.014 0.125 0.222 0.014 0.222 0.222 0.014 0.014 0.500 0.056 0.125 0.056 0.125 0.014 0.000
-0.6.86 0.336 -1.069 1.512 0.336 -1.512 1.512 -0.336 -0.336 2.828 -0.686 -1.069 0.686 -1.069 0.336 0.000
135
Punta
Punta Punta
Punta
-1
1 2
Figura 4-3 Las medias del tipo de punta en relacin con una distribucin t escalada con un factor de escaIacin ,JMSE / b =.J0.89 / 4 = 0.47.
Thmbin puede usarse el procedimiento grfico del captulo 3 (seccin 3-5.1) para comparar las medias del tipo de punta. En la figura 4-3 se grafican las cuatro medias del tipo de punta del ejemplo 4-1 en relacin con una distribucint escalada con un factor de escalacin.J MS E/ b = .Jo. 89 1-4 = 0.47. Esta grfica indica que las puntas 1, 2 Y3 producen probablemente mediciones de la dureza promedio idnticas, pero que la punta 4 produce una dureza media mucho ms alta. Esta figura confirma los resultados de la prueba LSD de Fisher incluida en la salida de Design-Expert de la figura 4-2.
4~ 1.2
Se ha comentado ya la importancia de verificar la adecuacin del modelo supuesto. En general, deber estarse alerta a los problemas potenciales con el supuesto de normalidad, con la desigualdad de la varianza por tratamiento o bloque, y con la interaccin bloque-tratamiento. Como en el diseo completamente aleatorizado, el anlisis residual es la herramienta principal que se utiliza en estos diagnsticos de verificacin. En la parte inferior de la salida de Design-Expel1 de la figura 4-2 se enlistan los residuales del diseo de bloques aleatorizados. Los residuales codificados se encontraran multiplicando estos residuales por 10. Las observaciones, los valores ajustados y los residuales de los datos codificados de la prueba de la dureza del ejemplo 4-1 son los siguientes:
Yij Yij eij
-2.00 -1.00 1.00 5.00 -1.00 -2.00 3.00 4.00 -3.00 -1.00 0.00 2.00 2.00 1.00 5.00 7.00
-1.50 -1.25 1.75 4.00 -1.25 -1.00 2.00 4.25 -2.75 -2.50 0.50 2.75 1.50 1.75 4.75 7.00
-0.50 0.25 -0.75 1.00 0.25 -1.00 1.00 -0.25 -0.25 1.50 -0.50 -0.75 0.50 -0.75 0.25 0.00
En la figura 4-4 se muestra la grfica de probabilidad normal y el diagrama de puntos de estos residuales. No hay indicios marcados de no normalidad y tampoco hay evidencia que apunte a la posible presencia de puntos atpicos. En la figura 4-5 se muestran las grficas de los residuales por tipo de punta o
136
CAPTULO 4
-0.1
-0.0375
0.025
Residuales
0.0875
0.15
Figura 44
tratamiento y por ejemplar de prueba o bloque. Estas grficas podran ser, potencialmente, muy informativas. Si hay una dispersin mayor en los residuales de una punta particular, esto podra indicar que dicha punta produce lecturas de la dureza ms errticas que las otras. Una dispersin mayor en los residuales de un ejemplar de prueba particular podra indicar que la dureza del ejemplar no es uniforme. Sin embargo, en el ejemplo tratado aqu, la figura 4-5 no ofrece indicios de desigualdad de la varianza por tratamiento o por bloque. En la figura 4-6 se grafican los residuales contra los valores ajustados Yij' No deber haber relacin entre el tamao de los residuales y los valores ajustados Yij' En esta grfica no se observa nada de inters extraordinario. En ocasiones la grfica de los residuales contra Yij tiene una forma curvilnea; por ejemplo, puede haber una tendencia para que ocurran residuales negativos con valores bajos de Yij' residuales positivos con valores intermedios de Yij y residuales negativos con valores altos de Yij' Este tipo de patrn sugiere la existencia de una interaccin entre los bloques y los tratamientos. Cuando se presente este patrn, deber usarse una transformacin en un esfuerzo por eliminar o minimizar la interaccin. En el captulo 5 (seccin 5-3.7) se describe una prueba estadstica que puede utilizarse para detectar la presencia de interaccin en un diseo de bloques aleatorizados.
4~ 1.3
Yij
137
2.0
1.0
';'''' 0.0
-1.0
-2.0
2.0
-1.0
-2.0
Ejemplar de prueba
b) eij contra bloque
Figura 4-5 Grfica de los residuales por tipo de punta (tratamiento) y por ejemplar de prueba (bloque) para el ejemplo 4-1.
es completamente aditivo. Esto quiere decir que, por ejemplo, si el primer tratamiento hace que la respuesta esperada se incremente cinco unidades ( 1 = 5) Ysi el primer bloque incrementa la respuesta esperada 2 unidades (/31 = 2), el incremento esperado en la respuesta tanto del tratamiento 1 como del
..
-4
o
2 4
-2
Yij
Figura 4-6 Grfica de los residuales contra Yij para el ejemplo 4-1.
138
bloque 1 en conjunto esE(Yll) = f-l + 'i I + f3I = It + 5 + 2 = f-l + 7. En general, el tratamiento 1 incrementa siempre la respuesta esperada 5 unidades sobre la suma de la media global y del efecto del bloque. Aun cuando este modelo aditivo simple muchas veces es til, hay situaciones en las que resulta inadecuado. Suponga, por ejemplo, que se estn comparando cuatro formulaciones de un producto qumico utilizando seis lotes de materia prima; los lotes de materia prima se consideran bloques. Si una impureza en el lote 2 afecta de manera adversa la formulacin 2, dando como resultado un rendimiento inusualmente bajo, pero no afecta las dems formulaciones, ha ocurrido una interaccin entre las formulaciones (o tratamientos) y los lotes (o bloques). De manera similar, pueden ocurrir interacciones entre los tratamientos y los bloques cuando la respuesta se mide en la escala incorrecta. Por lo tanto, una relacin que es multiplicativa en las unidades originales, por ejemplo
Aun cuando este tipo de interaccin puede eliminarse con una transformacin, no todas las interacciones pueden tratarse con tanta facilidad. Por ejemplo, una transformacin no elimina la-interaccin formulacin-lote que se seal antes. El anlisis residual y otros procedimientos de diagnstico de verificacin pueden ser tiles para detectar la no aditividad. Si una interaccin est presente, puede afectar seriamente el anlisis de varianza y posiblemente lo invalide. En general, la presencia de una interaccin infla el cuadrado medio del error y puede afectar adversamente la comparacin de las medias de los tratamientos. En situaciones en las que ambos factores, as como su posible interaccin, son de inters, deben usarse diseos factoriales. Estos diseos se analizan en detalle en los captulos 5 al 9.
Tratamientos y bloques aleatorios
Aun cuando el procedimiento de prueba se ha descrito considerando los tratamientos y los bloques como factores fijos, se utiliza el mismo procedimiento de anlisis si los tratamientos o los bloques (o ambos) son aleatorios. Sin embargo, hay algunas modificaciones en la interpretacin de los resultados. Por ejemplo, si los bloques son aleatorios, como es con mucha frecuencia el caso, se espera que las comparaciones entre los tratamientos sean las mismas a lo largo de la poblacin de bloques de la cual se seleccionaron aleatoriamente para realizar el expermento. Estn tambin las modificaciones correspondientes en los cuadrados medios esperados. Por ejemplo, si los bloques son variables aleatorias independientes con varianza comn, entonces E(MSBIOqUes) = if + aa~, donde a~ es el componente de la varianza de los efectos de los bloques. En cualquier situacin, E(MSnatamientos) siempre est libre de cualquier efecto de bloque, y el estadstico de prueba para la variabilidad entre los tratamientos siempre es F o = MSnatamientoJMSE' En situaciones en las que los bloques son aleatorios, si est presente una interaccin tratamiento-bloque, las pruebas para las medias de los tratamientos no estn afectadas por la interaccin. La razn de ello es que los cuadrados medios esperados de los tratamientos y del error contienen ambos el efecto de la interaccin; por consiguiente, la prueba de las diferencias en las medias de los tratamientos puede realizarse como de costumbre comparando el cuadrado medio de los tratamientos con el cuadrado medio del error. Este procedimiento no proporciona ninguna informacin acerca de la interaccin.
139
Eleccin del tamao de la muestra La eleccin del tamao de la muestra, o nmero de bloques que deben correrse, es una decisin impor-
tante cuando se usa un RCBD. Al incrementar el nmero de bloques, se incrementa el nmero de rplicas y el nmero de grados de libertad del error, con lo cual se aumenta la sensibilidad del diseo. Cualquiera de las tcnicas dscritas en el captulo 3 (seccin 3-7) para seleccionar el nmero de rplicas que deben correrse en un experimento completamente aleatorizado con un solo factor puede aplicarse de forma directa al RCBD. Para el caso de un factor fijo, las curvas de operacin caracterstica de la parte V del apndice pueden usarse con
b
<])2=~
Il"7
aa 2
(4-14)
donde haya -1 grados de libertad en el numerador y (a -1 )(b -1) grados de libertad en el denominador.
EJEMPLO 4..2
Considere el problema de la prueba de la dureza del ejemplo 4-1. Suponga que quiere determinarse el nmero apropiado de bloques que deben correrse si el inters se encuentra en detectar una diferencia mxima real en las lecturas de la dureza media de 0.4 con una alta probabilidad, y una estimacin razonable de la desviacin estndar de los errores es a = 0.1. (Estos valores se dan en las unidades originales; recuerde que el anlisis de varianza se realiz usando datos codificados.) Por la ecuacin 3-49, el valor mnimo de <])2 es (escribiendo b, el nmero de bloques, en lugar de n)
<])2 = bD 2aa 2
2
Si se usan b = 3 bloques, entonces <]) = "';2.0b = "';2.0(3) = 2.45, Yhay (a -1 )(b -1) = 3(2) = 6 grados de libertad del error. La parte V del apndice con V = a -1 = 3 Ya = 0.05 indica que el riesgo f3 de este diseo es aproximadamente 0.10 (potencia = 1- f3 = 0.90). Si se usan b = 4 bloques, <]) = "';2.0b = "';2.0(4) = 2.83, con (a -l)(b -1) = 3(3) = 9 grados de libertad del error, y el riesgo f3 correspondiente es aproximadamente 0.03 (potencia = 1-f3 = 0.97). Tres o cuatro bloques darn como resultado un diseo con una alta probabilidad de detectar la diferencia entre las lecturas de la dureza media consideradas importantes. Debido a que los ejemplares de prueba (bloques) son baratos y estn en disponibilidad y el costo de la prueba es bajo, el experimentador decide usar cuatro bloques.
Cuando se usa el RCBD, en ocasiones falta una observacin en uno de los bloques. Esto puede ocurrir debido a descuido o error o por razones fuera del control del experimentador, tal como un dao inevitable a una unidad experimental. Una observacin faltante introduce un nuevo problema en el anlisis debido a que los tratamientos dejan de ser ortogonales a los bloques; es decir, no ocurren todos los tratamientos en
140
Tabla 4-7
Diseo de bloques completos aleatorizados para el experimento de la prueba de dureza con un valor faltante
Tipo de punta 1 2 3 4
1 -2 -1 -3 2
4 5
4
2 7
cada uno de los bloques. Existen dos enfoques generales para el problema de los valores faltantes. El primero es un anlisis aproximado, en el cual la observacin faltante se estima y se lleva a cabo el anlisis de varianza usual como si la observacin estimada fuera un dato real, con los grados de libertad del error reducidos en 1. Este anlisis aproximado es materia de esta seccin. El segundo es un anlisis exacto, el cual se revisa en la seccin 4-1.4. Suponga que falta la observacinYij del tratamiento i en el bloque j. La observacin faltante se denota comox. Como una ilustracin, suponga que en el experimento de la prueba de dureza del ejemplo 4-1 el ejemplar de prueba 3 se rompi mientras se probaba la punta 2 y que no pudo obtenerse el dato para esa punta. Los datos apareceran como en la tabla 4-7. En general, se har que i represente el gran total con una observacin faltante, que y;. represente el total del tratamiento con una observacin faltante, y que Y.~ sea el total del bloque con una observacin faltante. Suponga que quiere estimarse la observacin faltante x de tal modo que x tenga una participacin mnima en la suma de cuadrados del error. Puesto que SSE = L~=lL~=l(Yij - Yi. - Y.j + y.. )2, esto es equivalente a elegir x para minimizar
SSE=
i;~ Y:-;i; ~
SS
a b
a (b
]2
Yij
-~~
1 b
(a
o
E
(4-15)
donde R incluye todos los trminos en los que no interviene x. A partir de dSSE/dx=O, se obtiene
x= Yi.
a ' +b ' _
Y.j
Y.
'
(4-16)
(a-1)(b-1)
como la estimacin de la observacin faltante. Para los datos de la tabla 4-7, se encuentra que 4-16,
x=
Y23
= 4(1)+4(6)-17 = 1.22
Ahora puede realizarse el anlisis de varianza comn utilizando Y23 = 1.22 Yreduciendo los grados de libertad del error en 1. El anlisis de varianza se muestra en la tabla 4-8. Compare los resultados de este anlisis aproximado con los resultados obtenidos para el conjunto de datos completo (tabla 4-5).
141
Tabla 4~8
Suma de cuadrados
39.98 79.53 6.22 125.73
Grados de libertad
3 3 8
Cuadrado medio
13.33 26.51 0.78
17.12
Valor P
0.0008
14
Si son varias las observaciones faltantes, pueden estimarse escribiendo la suma de cuadrados del error como una funcin de los valores faltantes, derivando con respecto a cada valor faltante, igualando los resultados con cero y resolviendo las ecuaciones resultantes. De manera alternativa, puede usarse la ecuacin 4-16 de manera iterativa para estimar los valores faltantes. Para ilustrar el enfoque iterativo, suponga que faltan dos valores. Se estima arbitrariamente el primer valor faltante y despus se usa este valor junto con los datos reales y la ecuacin 4-16 para estimar el segundo. Entonces puede usarse la ecuacin 4-16 para volver a estimar el primer valor faltante, y despus de esto, puede volver a estimarse el segundo. Este proceso se contina hasta que se obtiene la convergencia. En cualquier problema con valores faltantes, los grados de libertad del error se reducen en una unidad por cada observacin faltante.
4-1.4
Si tanto los tratamientos como los bloques son fijos, los parmetros del RCBD pueden estimarse por mnimos cuadrados. Recuerde que el modelo estadstico lineal es
i=1' 2, ..., a Yij=fl+7:+(3j+sij { '=12 b
J " ...,
(4-17)
Al aplicar las reglas de la seccin 3-9.2 para encontrar las ecuaciones normales del modelo de un diseo experimental, se obtiene
oo'
+ M2
= YI. = Y2.
7: a: bjl
(31: (32:
Pb = Ya.
= Yl = Y2
(4-18)
+ r1 + f 2 + ajl + \ + r2 +
ajl
+ fa
+ aP2
(3b: ajl +
r1 + r2 + ... + fa
+ aPb
= Yb
Observe que la suma de la segunda a la (a + 1)-sima ecuaciones de la ecuacin 4-18 es la primera , ecuacin normal, como tambin es el caso de las b ltimas ecuaciones. Por lo tanto, hay dos dependencias
142
lineales en las ecuaciones normales, lo cual implica que deben imponerse dos restricciones para resolver la ecuacin 4-18. Las restricciones usuales son
ri=O
(4-19)
i=l
Al utilizar estas restricciones, las ecuaciones normales se simplifican considerablemente. De hecho, quedan como
i=l, 2, j= 1,2,
,a ,b
(4-20)
i=l, 2, , a j= 1,2, , b
(4-21)
Al utilizar la solucin de la ecuacin normal de la ecuacin 4-21, puede encontrarse el valor estimado o ajustado de Yij como
Yij
- ) Y.
Este resultado se us anteriormente en la ecuacin 4-13 para calcular los residuales de un diseo de bloques aleatorizados. La prueba general de significacin de la regresin puede usarSe para desarrollar el anlisis de varianza del diseo de bloques completos aleatorizados. Al utilizar la solucin de las ecuaciones normales dada por la ecuacin 4-21, la reduccin en la suma de cuadrados para ajustar el modelo completo es
R(j-l,
7:,
{3) = Jty. +
= ~'b + =
~'b + L J=l
y2
ab a
j=l _ y2 Yj Yj - ab
L
a
i=l
y2
_l.
b L j=l
y2
_.J - - "
SSE
= LL Y~ -R(j-l,7:,{3)
i=l j=1
a b
=LLY~-L~-L
i=1 j=1 j=1
i=1
_'_J
l. +L
2
j=1
ab
143
con (a - l)(b - 1) grados de libertad. Compare esta ltima ecuacin con SSE en la ecuacin 4-7. Para probar la hiptesis Ho:i = 0, el modelo reducido es
Yij
= ,t+(3j +B ij
que es un anlisis de varianza de un solo factor. Por analoga con la ecuacin 3-5, la reduccin en la suma de cuadrados para ajustar el modelo reducido es
R(,t, (3) =
2.: j=l
~
a
que tiene b grados de libertad. Por lo tanto, la suma de cuadrados debida a {J despus de ajustar ,t y {(3) es
R( l ,t, (3) = R(,t, , (3) - R(,t, (3) = R(Modelo completo) - R(Modelo reducido)
Yj
i=l
j=l
_L_ 2.:
2
Yj
ab
j=l a
2.: Y; - ~b
i=1
expresin que se identifica como la suma de cuadrados de los tratamientos con a - 1 grados de libertad (ecuacin 4-10). La suma de cuadrados de los bloques se obtiene ajustando el modelo reducido
Yij
= ,t+ i +Bij
que tambin es un anlisis de un solo factor. De nueva cuenta, por analoga con la ecuacin 3-5, la reduccin en la suma de cuadrados para ajustar este modelo es
R(,t, ) =
2.:
i=l
~.
con a grados de libertad. La suma de cuadrados de los bloques {(3j} despus de ajustar ,t y {J es
=~
;=1
Yi. + b j=l
2
2.:
b
2
=2: j=l
Y.j Y. --
ab
con b - 1 grados de libertad, la cual se haba dado anteriormente como la ecuacin 4-11. Se han desarrollado las sumas de cuadrados de los tratamientos, de los bloques y del error en el diseo de bloques completos aleatorizados utilizando la prueba general de significacin de la regresin. Aun cuando la prueba general de significacin de la regresin no se usara ordinariamente para hacer el anlisis real de los datos en un bloque completo aleatorizado, en ocasiones el procedimiento resulta til en diseos de bloques aleatorizados ms generales, como los que se revisan en la seccin 4-4.
144
CAPTULO 4
En la seccin 4-1.3 se present un procedimiento aproximado para solucionar las observaciones faltantes en el RCBD. Este anlisis aproximado consiste en estimar el valor faltante de tal modo que se minimice el cuadrado medio del error. Puede demostrarse que el anlisis aproximado produce un cuadrado medio sesgado de los tratamientos en el sentido de que E(MSnatamientos) es mayor que E(M8E) si la hiptesis nula es verdadera. Por consiguiente, se reportan demasiados resultados significativos. El problema del valor faltante puede analizarse exactamente utilizando la prueba general de significacin de la regresin. El valor faltante hace que el diseo sea no balanceado, y dado que no todos los tratamientos ocurren en todos los bloques, se dice que los tratamientos y los bloques no son ortogonales. Este mtodo de anlisis tambin se usa en tipos ms generales de diseos de bloques aleatorizados; el tema se analiza con mayor amplitud en la seccin 4-4. En el problema 4-26 se le pide al lector que realice el anlisis exacto para un diseo de bloques completos aleatorizados con un valor faltante.
4~2
En la seccin 4-1 se introdujo el diseo de bloques completos aleatorizados como un diseo para reducir el error residual de un experimento al eliminar la variabilidad debida a una variable perturbadora conocida y controlable. Hay otros tipos de diseos que utilizan el principio de la formacin de bloques. Por ejemplo, suponga que un experimentador estudia los efectos que tienen cinco formulaciones diferentes de la carga propulsora utilizada en los sistemas de expulsin de la tripulacin de un avin basado en la rapidez de combustin. Cada formulacin se hace con un lote de materia prima que slo alcanza para probar cinco formulaciones. Adems, las formulaciones son preparadas por varios operadores, y puede haber diferencias sustanciales en las habilidades y experiencia de los operadores. Por lo tanto, al parecer hay dos factores perturbadores que sern "calculados en promedio" en el diseo: los lotes de materia prima y los operadores. El diseo apropiado para este problema consiste en probar cada formulacin exactamente una vez con cada uno de los cinco operadores. Al diseo resultante, ilustrado en la tabla 4-9, se le llama diseo de cuadrado latino. Observe que el diseo es un arreglo cuadrado y que las cinco formulaciones (o tratamientos) se denotan por las letras latinas A, B, C, D YE; de ah el nombre de cuadrado latino. Se observa que tanto los lotes de materia prima (renglones) como los operadores (columnas) son ortogonales a los tratamientos. El diseo de cuadrado latino se usa para eliminar dos fuentes de variabilidad perturbadora; es decir, permite hacer la formacin de bloques sistemtica en dos direcciones. Por lo tanto, los renglones y las columnas representan en realidad dos restricciones sobre la aleatorizacin. En general, un cuadrado latino para p factores, o cuadrado latino p X p, es un cuadrado con p renglones y p columnas. Cada una de las p2
Tabla 4-9
1
A=~
Operadores 3
c=~
4
D =24 E=27 A =27 B = 23 C= 29
1
2 3 4 5
B = 17 C = 18 D = 26 E = 22
B=W
C D E A
= 24 = 38 = 31 = 30
D E A B
= 30 = 26 = 26 = 20
5 E= 24 A =36 B = 21 C = 22 D = 31
145
celdas resultantes contiene una de las p letras que corresponde a los tratamientos, y cada letra ocurre una y slo una vez en cada rengln y columna. Algunos ejemplos de cuadrados latinos son
4x4 ABDC BCAD CDBA DACB
5x5
ADBEC DACBE CBEDA BEACD ECDAB
(4-22)
donde Yijk es la observacin en el rengln i-simo y la columna k-sima para el tratamiento j-simo, fl es la media global, a es el efecto del rengln i-simo, t'j es el efecto del tratamientoj-simo, f3k es el efecto de la columnak-sima, y Sijk es el error aleatorio. Observe que se trata de un modelo de los efectos. El modelo es completamente aditivo; es decir, no hay interaccin entre renglones, columnas y tratamientos. Puesto que hay una sola observacin en cada celda, slo se necesitan dos de los tres subndices i, j y k para denotar una observacin particular. Por ejemplo, con referencia al problema de la carga propulsora de la tabla 4-9, si i = 2 Yk = 3, se encuentra automticamente que j = 4 (formulacin D), y si i = 1 Yj = 3 (formulacin C), se encuentra que k = 3. sta es una consecuencia de que cada tratamiento aparezca una vez exactamente en cada rengln y columna. El anlisis de varianza consiste en hacer la particin de la suma de cuadrados total de las N = p2 observaciones en los componentes de los renglones, las columnas, los tratamientos y el error, por ejemplo,
SST
(4-23)
p2 -1= p-1+p-1+p-1+(p-2)(p-1)
Bajo el supuesto usual de que Sijk es NID(O,o2), cada suma de cuadrados del lado derecho de la ecuacin 4-23 es, al dividir por 02, una variable aleatoria ji-cuadrada con una distribucin independiente. El estadstico apropiado para probar que no hay diferencias en las medias de los tratamientos es
F.
O
= MS Tratamientos
MS E
que se distribuye como Fp _ 1, (p -2)(P-l) bajo la hiptesis nula. Tambin puede probarse la ausencia de efectos de los renglones o la ausencia de efectos de las columnas formando el cociente de MSRengloneS o MSColumnas con MSE' Sin embargo, puesto que los renglones y las columnas representan restricciones sobre la aleatorizacin, estas pruebas quiz no sean apropiadas. En la tabla 4-10 se presenta el procedimiento de clculo para el anlisis de varianza. Por las frmulas de clculo para las sumas de cuadrados, se observa que el anlisis es una extensin simple del RCBD, con la suma de cuadrados resultante de los renglones obtenida a partir de los totales de los renglones.
146
Tabla 4-10 Anlisis de varianza del diseo del cuadrado latino Fuente de Grados de variacin Suma de cuadrados libertad Tratamientos Renglones Columnas
SSTratamientns
1i p.
P
Cuadrado medio
S STratamientns
2 y. Y.j. - N
2 .
p-1
F =
o
MSTratamientns
J=l
p"":l
SSRenglnnes
MSE
SS Renglnnes
2 p-1 p-1
p:-1
SSColumnas
1
SS _ Cnlumnas
=p
2 2: y ..2k _L. N
P
k=l
p-l
SSE (p-2)(p-1)
Error
Total
SSE(por sustraccin)
(p -2)(P -1)
?
SST =
p2-1
EJEMPLO 4~3
'~
Considere el problema de la carga propulsora descrito previamente, donde tanto los lotes de materia prima como los operadores representan restricciones sobre la a1eatorizacin. El diseo para este experimento, el cual se muestra en la tabla 4-9, es un cuadrado latino 5 x 5. Despus de codificar los datos restando 25 de cada observacin, se obtienen los datos de la tabla 4-11. Las sumas de cuadrados del total de los lotes (renglones) y los operadores (columnas) se calculan de la siguiente manera:
SST
= LLL
i
j
Y:k -
SS
Lotes
(10)2 = 680---= 676.00 25 1 P 2 = _" 2 _ Y... p ~ Yi.. N = 2:.[(-14)2 +9 2 +5 2 +3 2 +7 2 ]_ (10)2 = 68 00 5 25 . 1 P 2 _ " 2_~ - p LJ Y. k N
k=l
SS Operadores
4
D=-l E= 2 A= 2 B =-2 c= 4
5
E= A= B= C= D=
9
Yi..
1
2
4
5
Y.. k
C=-6 D= 5 E= 1 A= 1 B=-5
-1
11 -4 -3 6
-14
9
5 3 7
-18
18
-4
10 = Y..
147
Tabla 4-12 Anlisis de varianza del experimento de la carga propulsora Suma de Grados de Cuadrado cuadrados libertad medio Fuente de variacin 330.00 4 82.50 Formulaciones 68.00 4 17.00 Lotes de materia'prima 150.00 4 37.50 Operadores 12 10.67 128.00 Error 676.00 24 Total
7.73
ValorP 0.0025
= =
18
e
D E
Y.s. =
24 5
La suma de cuadrados que resulta de las formulaciones se calcula a partir de estos totales como
1
SS
2_~ Yj. N
(10)2
= 330.00
25
= SST -
SSLotes -
SS Operadores -
SSFormulacioncs
..... .... ....... ......... ...... ..... ......... ...... ............ ..... .....
eijk
Como en cualquier problema de diseo, el experimentador debera investigar la adecuacin del modelo inspeccionando y graficando los residuales. Para un cuadrado latino, los residuales estn dados por
= Yijk -
Yijk
Thmao
Cuadrados latinos estndares Ynmero de cuadrados latinos de varios tamaos 3x3 4x4 5x5 6x6 7x7
ABC BCA CAB ABCD BCDA CDAB DABC ABCDE BAECD CDAEB DEBAC ECDBA ABCDEF BCFADE CFBEAD DEABFC EADFCB FDECBA ABCDEFG BCDEFGA CDEFGAB DEFGABC EFGABCD FGABCDE GABCDEF
p xp
P A B
1 12
56 161,280
9408 818,851,200
16,942,080
61,479,419,904,000
576
"Parte de la informacin de esta tabla se encuentra en Statistical Tables for Biological, Agn"cul/llral and Medical Researc1J, 4a. edicin, de R.A Fisher y E Yates, Oliver & Boyd, Edimburgo. Es poco lo que se sabe de las propiedades de los cuadrados latinos ms grandes que 7 x 7.
A un cuadrado latino en el que el primer rengln y la primera columna constan de letras escritas en orden alfabtico se le llama cuadrado latino estndar, que es el diseo que se utiliz en el ejemplo 4-3. Siempre es posible obtener un cuadrado latino estndar escribiendo el primer rengln en orden alfabtico y escribiendo despus cada rengln sucesivo como la sucesin de letras que estn justo arriba, recorridas un lugar a la izquierda. En la tabla 4-13 se resumen varios hechos importantes acerca de los cuadrados latinos y de los cuadrados latinos estndares. Como con cualquier diseo experimental, las observaciones del cuadrado latino debern tomarse de manera aleatoria. El procedimiento de aleatorizacin correcto es seleccionando al azar el cuadrado empleado. Como se observa en la tabla 4-13, hay un gran nmero de cuadrados latinos de un tamao particular, por lo que es imposible enumerar todos los cuadrados y seleccionar uno al azar. El procedimiento usual es seleccionar un cuadrado latino de una tabla de estos diseos, como en Fisher y Yates [45], Y despus arreglar al azar el orden de los renglones, las columnas y las letras. Esto se analiza con mayor detalle en Fisher y Yates [45]. Ocasionalmente, falta una observacin en un cuadrado latino. Para un cuadrado latino p x p, el valor faltante puede estimarse con
Yijk
(4-24)
donde las primas indican los totales del rengln, la columna y el tratamiento con el valor faltante, y es el gran total con el valor faltante. Los cuadrados latinos pueden ser tiles en situaciones en las que los renglones y las columnas representan los factores que el experimentador en realidad quiere estudiar yen las que no hay restricciones sobre la aleatorizacin. Por lo tanto, los tres factores (renglones, columnas y letras), cada uno conp niveles, pueden investigarse en slo p2 corridas. En este diseo se supone que no existe interaccin entre los factores. Se abundar ms adelante sobre el tema de la interaccin.
Rplicas de cuadrados latinos Una desventaja de los cuadrados latinos pequeos es que proporcionan un nmero relativamente pequeo de grados de libertad del error. Por ejemplo, un cuadrado latino 3 x 3 slo tiene dos grados de libertad del error, un cuadrado latino 4 x 4' slo tiene seis grados de libertad del error, etc. Cuando se usan cuadrados latinos pequeos, con frecuencia es deseable hacer rplicas de los mismos para incrementar los grados de libertad del error.
Y:.
149
Tabla 4-14 Anlisis de varianza de un cuadrado latino con rplicas, caso 1 Fuente de variacin Tratamientos Renglones Columnas Rplicas Error Total Suma de cuadrados 1 P 2 " 2 y .... n'PL... Y.j .. -Ji
)~1
Grados de libertad
Cuadrado medio
SSTratamientos
MSTratamiemos
p-1
S SRenglones
MSE
" 2 y.... n'PL... Yi."-Ji l=l 1 P 2 " 2 y .... n'P L... Y..k. -Ji 1 2 " 2 y .... 2L... Y...l-Ji P 1=1
k~l
tI
p-1
SSColumnas
p-1
SSRPlicas
n-1
SSE
Sustraccin
(p-1)[n(p+1)-3]
Existen varias maneras de hacer rplicas de un cuadrado latino. Para ilustrar este punto, suponga que se hacen n rplicas del cuadrado latino 5 x 5 utilizado en el ejemplo 4-3. Esto podra haberse hecho de la manera siguiente:
1. Usando los mismos lotes y operadores en cada rplica. 2. Usando los mismos lotes pero operadores diferentes en cada rplica (o, de manera equivalente, usando los mismos operadores pero lotes diferentes). 3. Usando diferentes lotes y diferentes operadores.
El anlisis de varianza depende del mtodo utilizado para hacer las rplicas. Considere el caso 1, donde en cada rplica se usan los mismos niveles de los factores para la formacin de bloques en los renglones y las columnas. Sea Yijklla observacin del rengln i, el tratamiento j, la columna kylarplical. Hay en total N = np2 observaciones. El anlisis de varianza se resume enla tabla 4-14. Considere ahora el caso 2 y suponga que en cada rplica se usan nuevos lotes de materia prima pero los mismos operadores. Por lo tanto, hay ahora cinco nuevos renglones (en general,p nuevos renglones)
Tabla 4-15 Anlisis de varianza de un cuadrado latino con rplicas, caso 2 Fuente de Grados de variacin libertad Suma de cuadrados 1 P 2 " 2 y .... Tratamientos p-1 n'PL... Y.j .. -Ji
)=1
Cuadrado medio
SSTratamientos p-1
MSTratamientos
f;t
~ Y~ ..
p2
sS Renglones
n(p -1)
SSColumnas
p-1
SSRPlieas
n-1
SSE
(p -l)(np -1)
150
Fuente de variacin
CAPTULO 4
Suma de cuadrados
1
Grados de libertad
Cuadrado medio
S STratamientos A1STratamientos
np.
1
n
L
p
J~1
y.. . Yj-N
2 2
P .,
11
? ?
p-1
SSRengOnes
MSE
n(p -1)
SSColuronas
lJ
n(p-1)
SSRPliCas
1~1
Sustraccin
LLLLY~H-r .
np2-1
dentro de cada rplica. El anlisis de varianza se resume en la tabla 4-15. Observe que la fuente de variacin de los renglones mide en realidad la variacin entre los renglones dentro de las n rplicas. Por ltimo, considere el caso 3, donde se usan nuevos lotes de materia prima y nuevos operadores en cada rplica. Ahora la variacin que resulta tanto de los renglones como de las columnas mide la variacin que resulta de estos factores dentro de las rplicas. El anlisis.de varianza se resume en la tabla 4-16. Hay otros enfoques para analizar cuadrados latinos con rplicas que permiten la presencia de algunas interacciones entre tratamientos y cuadrados (referirse al problema 4-19).
Diseos alternados y diseos balanceados para efectos residuales
Ocasionalmente aparece un problema en el que los periodos son uno de los factores del experimento. En general, hayp tratamientos que deben probarse enp periodos utilizando np unidades experimentales. Por ejemplo, un analista del desempeo humano est estudiando el efecto de dos fluidos de restitucin para la deshidratacin en 20 sujetos. En el primer periodo, a la mitad de los sujetos (elegidos al azar) se le administra el fluido A y a la otra mitad el fluido B. Al trmino del periodo se mide la respuesta, y se deja transcurrir un lapso en el que se elimina cualquier efecto fisiolgico de los fluidos. Despus el experimentador hace que los sujetos que tomaron el fluido A tomen el fluido B y aquellos que tomaron el fluido B tomen el fluidoA. A este diseo se le llama diseo alternado o entrecruzado. Se analiza como un conjunto de 10 cuadrados latinos con dos renglones (los periodos) y dos tratamientos (los tipos de fluido). Las dos columnas en cada uno de los 10 cuadrados corresponden a los sujetos. En la figura 4-7 se muestra la disposicin de este diseo. Observe que los renglones del cuadrado latino representan a los periodos y que las columnas representan a los sujetos. Los 10 sujetos que reCibieron primero el fluido A (1, 4, 6, 7, 9, 12, 13, 15, 17 Y 19) se determinaron al azar.
Cuadrados latinos
1 2 A B B A
IV -- -- -- -- -- -- -- -- -ID
Il
VI
Vil
VID
IX
3 4 B A A B
5 6 B A A B
7 8 A B B A
9 10 A B B A
Il 12 B A A B
13 14 A B B A
15 16 A B B A
17 18 A B B A
19 20 A B B A
151
Tabla 4-17 Anlisis de varianza del diseo alternado de la figura 4-7 Fuente de Grados de variacin libertad Sujetos (columnas) Periodos (renglones) Fluidos (letras) Error Total
19
1 1 18 39
En la tabla 4-17 se resume un anlisis de varianza. La suma de cuadrados de los sujetos se calcula como la suma de cuadrados entre los totales de los 20 sujetos corregida, la suma de cuadrados de los periodos es la suma de cuadrados entre los renglones corregida, y la suma de cuadrados de los fluidos se calcula como la suma de cuadrados entre los totales de las letras corregida. Para ms detalles del anlisis estadstico de estos diseos, ver Cochran y Cox [26], John [61d] y Anderson y McLean [2]. Tambin es posible emplear diseos tipo cuadrado latino para experimentos en los que los tratamientos tienen un efecto residual; es decir, por ejemplo, si los datos del fluido B en el periodo 2 siguen reflejando algn efecto del fluido A tomado en el periodo 1. En Cochran y Cox [26] y John [61d] se estudian en . detalle los diseos balanceados para efectos residuales.
4~3
Considere un cuadrado latino p x p al cual se le superpone un segundo cuadrado latino p x p en el que los tratamientos se denotan con letras griegas. Si cuando se hace la superposicin los dos cuadrados tienen la propiedad de que cada letra griega aparece una y slo una vez con cada letra latina, se dice que los dos cuadrados latinos son 011ogonales, y al diseo obtenido se le llama cuadrado grecolatino. En la tabla 4-18 se muestra un ejemplo de un cuadrado grecolatino 4 x 4. El diseo de cuadrado grecolatino puede usarse para controlar sistemticamente tres fuentes de variabilidad extraa, es decir, para hacer la formacin de bloques en tres direcciones. El diseo permite la investigacin de cuatro factores (renglones, columnas, letras latinas y letras griegas), cada una conp niveles en slo p2 corridas. Existen cuadrados grecolatinos para toda p :::: 3, excepto p = 6.
3
Cy
1 2 3 4
Aa Ba Cf3
Dy
Bf3 Ay Da Ca
Df3 Aa Ba
Do Ca By Af3
~"l
I
152
Tabla 4-19 Anlisis de varianza de un diseo del cuadrado grecolatino Fuente de variacin Suma de cuadrados 1 P 2 SSL pL.. Y.2_~ Tratamientos con letras latinas j N
Grados de libertad
p-l p-l p-l p-l
=-"
j~l
SSG
1 =-" Y..
P
pL..
k~l
k.
_~ N
(P-3)(P-l)
Total
i = 1,2,
(4-25)
donde Yijkl es la observacin del rengln i y la columna l para la letra latinaj y la letra griega k, e es el efecto del rengln i-simo, T es el efecto del tratamiento de letra latinaj, W k es el efecto del tratamiento de letra griega k, 'PI es el efecto de la columna l, y 8ijkl es un componente NID(O, 0"') del error aleatorio. Slo son necesarios dos de los cuatro subndices para identificar completamente una observacin. El anlisis de varianza es muy parecido al de un cuadrado latino. Puesto que las letras griegas aparecen exactamente una vez en cada rengln y columna, y exactamente una vez con cada letra latina, el factor representado por las letras griegas es ortogonal a los renglones, las columnas y los tratamientos de letras latinas. Por lo tanto, puede calcularse una suma de cuadrados debida al factor de las letras gtiegas a partir de los totales de las letras griegas y el error experimental se reduce adicionalmente en esta cantidad. En la tabla 4-19 se ilustran los detalles de los clculos. La hiptesis nula de la igualdad de tratamietos de renglones, columnas, letras latinas y letras griegas, se probara dividiendo el cuadrado medio correspondiente por el cuadrado medio del error. La regin de rechazo es la cola superior del punto de la distribucin
Fp _ 1,
(P-3)(P-l)'
EJEMPLO 4,4
Suponga que en el experimento de la carga propulsora del ejemplo 4-3 un factor adicional, los montajes de prueba, podra ser importante. Sea que haya cinco montajes de prueba denotados por las letras griegas a, {3, y, o Y 8. En la tabla 4-20 se muestra el diseo de cuadrado grecolatino 5 x 5 resultante. Observe que, debido a que los totales de los lotes de materia prima (renglones), los operadores (columnas) y las formulaciones (letras latinas) son idnticos a los del ejemplo 4-3, se tiene
SSLotes
= 68.00
SS Operadores
= 150.00
SSFormula~iones
= 330.00
153
Tabla 4-20 Diseo del cuadrado grecolatino para el problema de la carga propulsora Operadores Lotes de materia prima 1 2 3 1 2
4
5
Aa Bf3 Cy Do Ee
By Ca De Ea Af3
= -5 = -1 =13 6 = 5 18
4
Df3 Ey Aa Be Ca =-1 = 2 = 2 =-2 = 4
5
Yi... -14 9 5 3 7
Y.../
-18
--4
10 = Y....
10
f3
y
= -6
= -3 = -4
13
25
En la tabla 4-21 se resume el anlisis de varianza completo. Las formulaciones son diferentes significativamente en 1%. Al comparar las tablas 4-21 y 4-12, se observa que al sacar la variabilidad debida a los montajes de prueba, el error experimental disminuye. Sin embargo, al disminuir el error experimental, se han reducido tambin los grados de libertad de 12 (en el diseo del cuadrado latino del ejemplo 4-3) a 8. Por lo tanto, la estimacin del error tiene menos grados de libertad, y la prueba puede ser menos sensible.
Tabla 4-21
Anlisis de varianza del problema de la carga propulsora Suma de cuadrados 330.00 68.00 150.00 62.00 66.00 676.00 Grados de libertad 4 4 4 4 8 24 Cuadrado medio 82.50 17.00 37.50 15.50 8.25 10.00 Valor P 0.0033
Fuente de variacin Formulaciones Lotes de materia prima Operadores Montajes de la prueba Error Total
r
154
CAPTULO 4 BLOQUES ALEATORIZADOS, CUADRADOS LATINOS YDISEOS RELACIONADOS
Puede hacerse cierta ampliacin del concepto de los pares ortogonales de cuadrados latinos que forman un cuadrado grecolatino. Un hipercuadrado p x p es un diseo en el que se superponen tres o ms cuadrados latinos ortogonales p x p. En general, hasta p + 1 factores podran estudiarse si se dispone de un conjunto completo de p -1 cuadrados latinos ortogonales. En este diseo se utilizaran todos los (p + 1)(P - 1) = p2 - 1 grados de libertad, por lo que se necesita una estimacin independiente de la varianza del error. Desde luego, no debe haber interacciones entre los factores cuando se usan hipercuadrados.
4~4
En ciertos experimentos en los que se utilizan diseos de bloques aleatorizados quiz no sea posible correr todas las combinaciones de los tratamientos en cada bloque. Situaciones como sta ocurren generalmente por limitaciones del aparato experimental o de las instalaciones o por el tamao fsico del bloque. Por ejemplo, en el experimento de la prueba de la dureza (ejemplo 4-1), suponga que debido a sus dimensiones cada ejemplar de prueba slo puede usarse para probar tres puntas. Por lo tanto, no es posible probar todas las puntas en cada uno de los ejemplares. Para este tipo de problema es posible utilizar diseos de bloques aleatorizados en los que cada tratamiento no est presente en cada bloque. Estos diseos se conocen como diseos de bloques incompletos aleatorizados. Cuando las comparaciones de todos los tratamientos son igualmente importantes, las combinaciones de los tratamientos usadas en cada bloque debern seleccionarse en una forma balanceada, es decir, de tal manera que cualquier par de tratamientos ocurra conjuntamente el mismo nmero de veces que cualquier otro par. Por lo tanto, un diseo de bloques incompletos balanceados (BIBD, balanced incomplete block design) es un diseo de bloques incompletos en el que dos tratamientos cualesquiera aparecen conjuntamente el mismo nmero de veces. Suponga que haya tratamientos y que cada bloque puede contener exactamente k (k < a) tratamientos. Un diseo de bloques incompletos balanceados puede construirse tomando (~) bloques y asignando una combinacin de tratamientos diferente a cada bloque. Con frecuencia, sin embargo, puede obtenerse un diseo balanceado con menos de (~ ) bloques. Tablas de BIBD se proporcionan en Fisher y Yates [45], Davies [36] y Cochran y Cox [26]. Como un ejemplo, suponga que un ingeniero qumico piensa que el tiempo de reaccin de un proceso qumico es una funcin del tipo de catalizador empleado. Se estn investigando cuatro catalizadores. El procedimiento experimental consiste en seleccionar un lote de materia prima, cargar l~ planta piloto, aplicar cada catalizador en una corrida separada de la planta piloto y observar el tiempo de reaccin. Debido a que las variaciones en los lotes de materia prima pueden afectar el desempeo de los catalizadores, el ingeniero decide usar los lotes de materia prima como bloques. Sin embargo, cada lote es apenas lo suficientemente grande para permitir que se prueben tres catalizadores. Por lo tanto, debe usarse un diseo
Tabla 4-22 Diseo de bloques incompletos balanceados para el experimento del catalizador
Tratamiento (catalizador)
1 2 3 4
Yi.
155
de bloques incompletos aleatorizados. El diseo de bloques incompletos balanceados para este experimento, junto con las observaciones registradas, se muestran en la tabla 4-22. El orden en que se corren los catalizadores en cada bloque est aleatorizado.
4~4: 1
Como de costumbre, se supone que haya tratamientos y b bloques. Adems, se supone que cada bloque contiene k tratamientos, que cada tratamiento ocurre r veces en el diseo (o que se hacen r rplicas del mismo), y que hay N = ar = bk observaciones en total. Asimismo, el nmero de veces que cada par de tratamientos aparece en el mismo bloque es
A = r(k-1)
a-1
= b, se dice que el diseo es simtrico. El parmetro A debe ser un entero. Para deducir la relacin paraA, considere cualquier tratamiento, por ejemplo el tratamiento 1. Puesto que el tratamiento 1 aparece en r bloques y hay otros k -1 tratamientos en cada uno de esos bloques, hay r(k -1) observaciones en un bloque que contiene al tratamiento 1. Estas r(k -1) observaciones tambin tienen que representar a los a -1 tratamientos restantes A veces. Por lo tanto, A(a - 1) = r(k - 1). El modelo estadstico del BIBD es
Si a
(4-26)
donde Yij es la observacin i-sima en el bloquej-simo, /1 es la media global, 7: es el efecto del tratamiento i-simo,/3j es el efecto del bloquej-simo, y eij es el componente NID(O, 02) del error aleatorio. La variabilidad total en los datos se expresa por la suma de cuadrados totales corregida: (4-27) Puede hacerse la particin de la variabilidad total en
SST
donde la suma de cuadrados de los tratamientos est ajustada para separar los efectos de los tratamientos y de los bloques. Este ajuste es necesario porque cada tratamiento est representado en un conjunto diferente de rbloques. Por lo tanto, las diferencias entre los totales de los tratamientos no ajustadosyl.oY2.0 oo., Ya. tambin son afectadas por las diferencias entre los bloques. La suma de cuadrados de los bloques es
SSBloques
=k L
b
J=1
Y.j - N
(4-28)
donde Y j es el total del bloquej-simo. SSBloqueS tiene b -1 grados de libertad. La suma de cuadrados de los tratamientos ajustada es
SS Tratamientos(ajustados)
= --'--'A'---a--
;=1
(4-29)
156
Tabla 4-23 Anlisis de varianza del diseo de bloques incompletos balanceados Fuente de Grados de variacin Suma de cuadrados libertad Cuadrado medio Tratamientos (ajustados) 1 Bloques Error Total
k (J2
Aa
a-l
SSTratamientoS(3jUstadOS)
E =
o
MSTratamieotoS(.just.dOS)
a-l
SSBloques
MSE
kY~-~
?
2
b-l N-a-b N-l
SSE(por sustraccin)
+1
b -1 SSE N-a-b+l
Y~-~
= Y. -y L
b
nijy.
i = 1,2, ..., a
(4-30)
=1
con n = 1 si el tratamiento i aparece en el bloque j y nij = Oen caso contrario. Los totales de los tratamientos ajustados siempre sumarn cero. SS1tatamientos(ajustados) tiene a -1 grados de libertad. La suma de cuadrados del error se calcula por sustraccin como
SSE
= SST -
SS Tratamientos(njustados) -
SS Bloques
(4-31)
y tiene N - a - b + 1 grados de libertad. El estadstico apropiado para probar la igualdad de los efectos de los tratamientos es
F.
o
= MSTratamientos(ajustadOS)
MS E
EJEMPLO 4~5
Considere los datos de la tabla 4-22 para el experimento del catalizador. Se trata de un BIBD con a = 4, b = 4, k = 3, r = 3, A = 2 YN = 12. El anlisis de estos datos es el siguiente. La suma de cuadrados totales
SST
L
1
Y~ - ~.;
12
157
Tabla 4-24 Anlisis de varianza del ejemplo 4-5 Suma de cuadrados Fuente de variacin natamientos (ajustados para los bloques) Bloques
22.75 55.00 3.25 81.00
Grados de libertad
3 3 5
Cuadrado medio
7.58
Fo
11.66
Valor P
0.0107
Error
lbtal
0.65
11
Para calcular la suma de cuadrados de los tratamientos ajustados para los bloques, primero se determinan los totales de los tratamientos ajustados utilizando la ecuacin 4-30 como Q1 = (218)- +(221 + 224+ 218) = -9/3 Q2 = (214)-+(207+224+218)= -7/3 Q3 = (216)-+(221+207+224)= -4/ 3 Q4 = (222)- +(221 + 207 + 218) = 20/3 La suma de cuadrados de los tratamientos ajustados se calcula con la ecuacin 4-29 como
k Q;
SSTratamientos(ajustlldOS)
= SST -
SS Tratamientos(aju~tados) -
SS Bloques
= 81.00-22.75-55.00= 3.25 Enla tabla 4-24 se muestra el anlisis de varianza. Puesto que el valor P es pequeo, se concluye que el catalizador empleado tiene un efecto significativo sobre el tiempo de reaccin.
Si el factor bajo estudio es fijo, las pruebas para las medias de tratamientos individuales pueden ser de inters. Si se emplean contrastes ortogonales, los contrastes deben hacerse sobre los totales de los tratamientos ajnstados, las {Q) en lugar de las {Ji). La suma de cuadrados de los contrastes es
SS e
k(! C
i=l
i Qi
)2
---,-_1=_1- - - ' - -
Aa! c;
donde {c) son los coeficientes de los contrastes. Pueden usarse otros mtodos de comparacin mltiple
158
CAPTULO 4
para comparar todos los pares de efectos de los tratamientos ajustados (seccin 4-4.2), los cuales se estiman con:i = kQJ(Aa). El error estndar del efecto de un tratamiento ajustado es
s=~kMSE Aa
(4-32)
En el anlisis que acaba de describirse, se ha hecho la particin de la suma de cuadrados total en una suma de cuadrados de los tratamientos ajustados, una suma de cuadrados de los bloques sin ajuste y una suma de cuadrados del error. En ocasiones habra inters en evaluar los efectos de los bloques. Para ello se requiere hacer una particin alternativa de SSn es decir, SST
Aqu, SS1tatamientos est sin ajuste. Si el diseo es simtrico, es decir, si a = b, puede obtenerse una frmula simple para SSBloques(ajustadOS)' Los totales de los bloques ajustados son
Q~=y--Ln .. y. J .J r ;=1 lJ l.
y
j= 1,2, ..., b
(4-33)
SS
Bloques(ajustados)
-"-i=_1
Ab
(4-34)
= b = 4. Por lo tanto,
Q; = (221)-+(218+216+222)= 7/3
=(224)-+(218+214+216)= 24/3 = (207)- +(214+ 216+ 222) = -31/3 =(218)-+(218+214+222)= O
ss
Asimismo,
.
Bloques(aJustados)
ss
Tratamientos
Tabla 4-25 Anlisis de varianza del ejemplo 4-5, incluyendo tanto los tratamientos como los bloques Suma de Grados de Cuadrado Fuente de variacin cuadrados libertad medio Tratamientos (ajustados) ltatamientos (sin ajuste) Bloques (sin ajuste) Bloques (ajustados) Error Total
22.75 11.67 55.00 66.08 3.25 81.0 3 3 3 3 5 7.58 11.66
Valor P
0.0107
22.03 0.65
33.90
0.0010
11
159
En la tabla 4-25 se presenta un resumen del anlisis de varianza del BIBD simtrico. Observe que las sumas de cuadrados asociadas con los cuadrados medios de la tabla 4-25 no producen la suma de cuadrados total, es decir,
SST
:;z!: SSTratamientoS(ajUstados)
+ SSBIOqueS(ajustadOS) + SSE
Salida de computadora Existen varios paquetes de computadora que realizarn el anlisis de un diseo de bloques incompletos balanceados. El procedimiento de Modelos Lineales Generales (General Linear Models) del SAS es uno de ellos, y Minitab, un paquete de estadstica para computadoras personales de uso generalizado, es otro. La parte superior de la tabla 4-26 es la salida del procedimiento de Modelos Lineales Generales de Minitab para el ejemplo 4-5. Al comparar las tablas 4-26 y 4-25, se observa que Minitab ha calculado la suma de cuadrados de los tratamientos ajustados y la suma de cuadrados de los bloques ajustados (en la salida de Minitab se les llama ''AdjSS'' o SS ajustada). La parte inferior de la tabla 4-26 es un anlisis de comparaciones mltiples, en el que se utiliza el mtodo de Tukey. Se presentan los intervalos de confianza para las diferencias de todos los pares de medias y la prueba de Tukey. Observe que el mtodo de Tukey llevara a la conclusin de que el catalizador 4 es diferente de los otros tres.
4~4.2
Considere la estimacin de los efectos de los tratamientos en el modelo BIBD. Las ecuaciones normales de mnimos cuadrados son
fl: Nft+r ~ i +k
~1
L P j = Y..
j~l
:rft+ri
+~
j~l
nijP j = Y.
i = 1, 2, ..., a
j= 1, 2, ..., b
(4-35)
!3 j : k ft+
Al imponer las restricciones Li
i=1
para {fJj} para eliminar los efectos de los bloques de las ecuaciones para {}, se obtiene
rki-ri- ~~ nijnpji p =ky. j~l p~l
~
j~l
nijy.j
(4-36)
p~i
Observe que el miembro del lado derecho de la ecuacin 4-36 es kQ, donde Q es el total del tratamiento ajustado i-simo (ver la ecuacin 4-29). Entonces, puesto que L~~lnppj =..t sip :;z!: iyn~j = n pj (ya que n pj = O o 1), la ecuacin 4-36 puede reescribirse como
r(k-1)i
-..t
p~l
ip
= kQ
i=l, 2, ..., a
(4-37)
p~i
,C'.
Tabla 4-26 Anlisis de Minitab (Modelo Lineal General) para el ejemplo 4-5
Modelo Lineal General
AnaLysis of Variance for Time, using Adjusted SS for Tests Source CataLyst BLock Error TotaL DF
3 3
5 11
11 .67 33.89
0.011 0.001
Tukey 95.0% SimuLtaneous Confidence IntervaLs Response VariabLe Time ALL Pairwise Comparisons among LeveLs of CataLyst CataLyst = 1 subtracted from: CataLyst 2
3
----------+---------+---------+-----(---------*---------) .(----------*---------) (----------*---------) ----------+---------+---------+-----0.0 2.5 5.0 ----------+---------+---------+-----(---------*---------) (----------*---------) ----------+---------+---------+-----0.0 2.5 5.0
CataLyst CataLyst
4
3 subtracted from:
Lower 0.4228
Center 3.000
Upper 5.577
----------+---------+---------+----~-
(---------*~--------)
Tukey SimuLtaneous Tests Response VariabLe Time ALL Pairwise Comparisons among LeveLs of CataLyst CataLyst = 1 subtracted from: LeveL CataLyst 2 3 4 CataLyst LeveL CataLyst 3
4
2 subtracted from:
SE of Difference 0.6982
T-VaLue 4.297
161
por ltimo, observe que la restriccin L~=1f = oimplica que L~=1f p = -f yrecuerde que r(k -1) = A(a1), de donde se obtiene p",
Aaf =kQ i=l, 2, ..., a
(4-38)
por lo tanto, los estimadores de mnimos cuadrados de los efectos de los tratamientos en el modelo de bloques incompletos balanceados son
i = 1, 2, ...,
(4-39)
Como una ilustracin, considere elBIBD del ejemplo 4-5. Puesto que Q1 = -9/3, Q2 = -7/3, Q3 = -4/3 Y Q4 = 20/3, se obtiene f = 3(-9/3)=_9/8 f = 3(- 7 / 3) - 7 / 8 1 (2)( 4) 2 (2)(4)
f = 3(-4/3)=_4/8 3 (2)(4) f
4
=3(20/3)=20/8 (2)( 4)
Al anlisis del BIBD presentado en la seccin 4-4.1 suele llamrsele el anlisis intrabloques porque las diferencias de los bloques se eliminan y todos los contrastes de los efectos de los tratamientos pueden expresarse como comparaciones entre las observaciones del mismo bloque. Este anlisis es apropiado independientemente de si los bloques son fijos o aleatmios. Yates [1l3c] seal que si los efectos de los bloques son variables aleatorias no correlacionadas con medias cero y varianza a~, es posible obtener informacin adicional acerca de los efectos de los tratamientos 'ti' Yates llam anlisis interbloques al mtodo para obtener esta informacin adicional. Considere los totales de los b10quesYj como una coleccin de b observaciones. El modelo para estas observaciones (siguiendo a John [61d]) es
Y.j
= k,t+ ~
l1ij't
+ (k,Bj +~ Sij)
(4-40)
donde el trmino entre parntesis puede considerarse como el error. Los estimadores interb10ques de ,t y 'ti se encuentran minimizando la funcin de mnimos cuadrados
L=
=Y ..
L T = L l1ijY.j
p
(4-41)
i=l, 2'00" a
p=1 p;t:.i
j=1
162
CAPTULO 4
donde y Ti denotan los estimadores interbloques. Al imponer la restriccin :2::=1 Ti soluciones de las ecuaciones 4-41 como
= O, se obtienen las
(4-42)
= Y ..
~ n .. y.-J,ayLJ
l}.}
..
= ~-r---..l--
j=l
i=l, 2, ..., a
(4-43)
Es posible demostrar que los estimadores interbloques {i} Ylos estimadores intrabloques {Ti} no estn correlacionados. Los estimadores interbloques {i 1 } pueden diferir de los estimadores intrabloques {T i }. Por ejemplo, los estimadores interbloques para el BIDD del ejemplo 4-5 se calculan de la siguiente manera:
i
Z
= 649- (3)(3)(72.50)
3-2
3
-3.50
7:
4
= 646-(3)(3)(72.50) = -6.50
3-2
Observe que los valores de :2: ~=1 nij Y.j se usaron en la pgina 157 para calcular los totales de los tratamientos ajustados en el anlisis intrabloques. Suponga ahora que quieren combinarse los estimadores interbloques e intrabloques para obtener una sola estimacin de la varianza mnima insesgada de cada Ti' Es posible demostrar que T Yf son insesgados y tambin que
1
(intrabloques)
(intrabloques) Se usa una combinacin lineal de los dos estimadores, por ejemplo
(4-44)
para estimar T. En este mtodo de estimacin, el estimador combinado insesgado de la varianza mnima T; deber tener las ponderaciones al = U1 /(U 1 + u z) y a z = UZ /(u 1 + u z), donde U1 = l/V(T i ) YU z = l/V(f i ). Por lo tanto, las ponderaciones ptimas son inversamente proporcionales a las varianzas de Ti Yf i . Esto implica que el mejor estimador combinado es
T; = --:-':--...,-!------:::-:---,;-:------I 1
k( a - 1) z + k( a -1) ( a z + ka z) z
i=l, 2'00" a
..la
a(r-..l)
fJ
163
ka~ )+ (
J=l
llij
Y.j - lay.. )a
2
i=l, 2, ..., a
Ti
(4-45)
Desafortunadamente, la ecuacin 4-45 no puede usarse para estimar Ti porque no se conocen las varianzas a2 y a ~ . El enfoque comn es estimar a2 y a ~ a partir de los datos y sustituir estos parmetros de la ecuacin 4-45 con las estimaciones. La estimacin que suele tomarse para a2 es el cuadrado medio del error del anlisis de varianza intrabloques, o el error intrabloques. Por lo tanto,
fJ2
= MS E
La estimacin de a~ se encuentra a partir del cuadrado medio de los bloques ajustados para los tratamientos. En general, para un diseo de bloques incompletos balanceados, este cuadrado medio es
k~Q2 LJ i
i=l
2
b
j=l
y2
_.J -
2
a
i=l
Yi.
l'
Aa
MSBloqUeS(ajustadOS)
= -'-----(b---1-)------'-
(4-46)
2 a(r-1) 2 + b _ 1 a fJ
Por lo tanto, si
MSBloqueS(ajustadOS)
a = ------'----.:...=.-----'-------A
[MSBloqUeS(ajustados) -
fJ
MS E ](b-1) a(r-1)
(4-47)
y si MSBloques(ajustadOS)
S;
= O.
kQ,(I)' +M;
T* i-
A continuacin se calculan las estimaciones combinadas para los datos del ejemplo 4-5. Por la tabla 4-25 se obtiene fJ2 = MSE = 0.65 YMSBIOques(ajustadOS) = 22.03. (Observe que para calcular MSBloqueS(ajustadOS) se hace uso del hecho de que ste es un diseo simtrico. En general, debe usarse la ecuacin 4-46.) Puesto que MSBloques(ajustados) > MSE , se usa la ecuacin 4-47 para estimar a~ como
= fJ
8.02
Por lo tanto, pueden sustituirse fJ2 = 0.65 y fJ~ = 8.02 en la ecuacin 4-48a para obtener las estimaciones combinadas que se enlistan enseguida. Por conveniencia, tambin se presentan las estimaciones intrablo-
1'' ',
164
ques e interbloques. En este ejemplo, las estimaciones combinadas estn prximas a las estimaciones intrabloques debido a que la varianza de las estimaciones interbloques es relativamente grande.
Parmetro Estimacin intrabloques Estimacin interbloques Estimacin combinada
4~5
PROBLEMAS
Un qumico quiere probar el efecto de cuatro agentes qumicos sobre la resistencia de un tipo particular de tela. Debido a que podra haber variabilidad de un rollo de tela a otro, el qumico decide usar un diseo de bloques aleatorizados, con los rollos de tela considerados como bloques. Selecciona cinco rollos y aplica los cuatro agentes qumicos de manera aleatoria a cada rollo. A continuacin se presentan las resistencias a la tensin resultantes. Analizar los datos de este experimento (utilizar a = 0.05) Ysacar las conclusiones apropiadas. Agente qumico 1 Rollo 1
4-1.
2 3 4 4-2.
73 73 75 73
2 68 67 68
71
3 74 75 78 75
4
71 72
73 75
5 67 70 68 69
Se estn comparando tres soluciones de lavado diferentes a fin de estudiar su efectividad para retardar el crecimiento de bacterias en contenedores de leche de 5 galones. El anlisis se hace en un laboratorio y slo pueden realizarse tres ensayos en un da. Puesto que 19s das podran representar una fuente potencial devariabilidad, el experimentador decide usar un diseo de bloques aleatorizados. Se hacen observaciones en cuatro das, cuyos datos se muestran enseguida. Analizar los datos de este experimento (utilizar a = 0.05) Y sacar las conclusiones apropiadas. Das Solucin
1
13
16 5
2 22 24 4
3 18 17 1
4 39 44 22
Graficar las resistencias a la tensin medias observadas para cada tipo de agente qumico en el problema 4-1 y compararlas con una distribucin t con la escalacin apropiada. Qu conclusiones se sacaran a partir de esta representacin grfica? Graficar los conteos de bacterias promedio para cada solucin en el problema 4-2 y compararlos con una distribucin t escalada. Qu conclusiones pueden sacarse? En un artculo de Fire Safety Joumal ("El efecto del diseo de boquillas en la estabilidad y el desempeo de surtidores de agua turbulenta", vol. 4) se describe un experimento en el que se determin un factor de la forma para varios diseos diferentes de boquillas con seis niveles de la velocidad del flujo de salida del surtidor.
4-5 PROBLEMAS
165
El inters se centr en las diferencias potenciales entre los diseos de las boquillas, con la velocidad considerada como una variable perturbadora. Los datos se presentan a continuacin.
Diseo de la boquilla
Velocidad del flujo de salida del surtidor (m/s) 11.73 0.78 0.85 0.93 1.140.97 14.37 0.80 0.85 0.92 0.97 0.86 16.59 0.81 0.92 0.95 0.98 0.78 20.43 0.75 0.86 0.89 0.88 0.76 23.46 0.77 0.81 0.89 0.86 0.76 28.74 0.78 0.83 0.83 0.83 0.75
1 2 3
4 5
a) El diseo de la boquilla afecta el factor de la forma? Comparar las boquillas con un diagrama de dispersin y con un anlisis de varianza, utilizando a = 0.05. b) Analizar los residuales de este experimento.
c) Qu diseos de las boquillas son diferentes con respecto al factor de la forma? Trazar una grfica del factor de la forma promedio para cada tipo de boquilla y compararla con una distribucin t escalada. Comparar las conclusiones que se sacaron a partir de esta grfica con las de la prueba del rango mltiple de Duncan. Considere el experimento del algoritmo para controlar la proporcin de almina del captulo 3, seccin 3-8. El experimento se llev a cabo en realidad como un diseo de bloques aleatorizados, en el que se seleccionaron seis periodos como bloques, y se probaron los cuatro algoritmos para controlar la proporcin en cada periodo. El voltaje promedio de la celda y la desviacin estndar del voltaje (indicada entre parntesis) para cada celda son los siguientes:
4-6.
Tiempo 1 (0.05) (0.04) (0.09) (0.03) 2 4.86 (0.04) 4.91 (0.02) 4.88 (0.13) 4.77 (0.04) 3 4.75 (0.05) 4.79 (0.03) 4.90 (0.11) 4.94 (0.05) 4.95 4.85 4.75 4.86 4 (0.06) (0.05) (0.15) (0.05) 5 4.79 (0.03) 4.75 (0.03) 4.82 (0.08) 4.79 (0.03) 4.88 4.85 4.90 4.76 6 (0.05) (0.02) (0.12) (0.02)
a) Analizarlos datos del voltaje promedio de las celdas. (Utilizar a = 0.05.) La eleccin del algoritmo para
controlar la proporcin afecta el voltaje promedio de las celdas? b) Realizar el anlisis apropiado de la desviacin estndar del voltaje. (Recuerde que a ste se le llam "ruido del crisol".) La eleccin del algoritmo para controlar la proporcin afecta el ruido del crisol? c) Realizar los anlisis residuales que parezcan apropiados. d) Qu algoritmo para controlar la proporcin debera seleccionarse si el objetivo es reducir tanto el voltaje promedio de las celdas como el ruido del crisol? El fabricante de una aleacin maestra de aluminio produce refinadores de textura en forma de lingotes. La compaa produce el producto en cuatro hornos. Se sabe que cada horno tiene sus propias caractersticas nicas de operacin, por lo que en cualquier experimento que se corra en la fundicin en el que se use ms de un horno, los hornos se considerarn como una variable perturbadora. Los ingenieros del proceso sospechan que la velocidad de agitacin afecta la medida de la textura del producto. Cada horno puede operarse con
4-7.
f1
I
166
CAPTULO 4 BLOQUES ALEATORIZADOS, CUADRADOS LATINOS Y DISEOS RELACIONADOS
cuatro diferentes velocidades de agitacin. Se lleva a cabo un diseo de bloques aleatorizados para un refinador particular y los datos resultantes de la medida de la textura se muestran a continuacin: Horno 2 3 4 5 5 6
6 9 9
1 8 14 14 17
4
6 9
2
6
4-13.
a) Existe evidencia de que la velocidad de agitacin afecta la medida de la textura? b) Representar los residuales de este experimento en una grfica de probabilidad normal. Interpretar esta grfica. e) Graficar los residuales contra el horno y la velocidad de agitacin. Esta grfica proporciona alguna informacin til? d) Cul sera la recomendacin de los ingenieros del proceso con respecto a la eleccin de la velocidad de agitacin y del horno para este refinador de textura particular si es deseable una medida de la textura pequea? Analizar los datos del problema 4-2 utilizando la prueba general de significacin de la regresin. Suponiendo que los tipos de agentes qumicos y los rollos de tela son fijos, estimar los parmetros del modelo Ti y {Ji del problema 4-1. Trazar una curva de operacin caracterstica para el diseo del problema 4-2. La prueba parece ser sensible a las diferencias pequeas en los efectos de los tratamientos? Suponga que falta la observacin del agente qumico 2 y el rollo 3 en el problema 4-1. Analizar el problema estimando el valor faltante. Realizar el anlisis exacto y comparar los resultados. Dos valoresfaltantes en un bloque aleatorizado. Suponga que en el problema 4-1 faltan las observaciones del agente qumico tipo 2 y el rollo 3 y del agente qumico tipo 4 y el rollo 4. a) Analizar el diseo haciendo la estimacin iterativa de los valores faltantes, como se describe en la seccin 4-1.3. b) Derivar SSE con respecto a los dos valores faltantes, igualar los resultados con cero y resolver las ecuaciones para las estimaciones de los valores faltantes. Analizar el diseo utilizando estas dos estimaciones de los valores faltantes. e) Deducir las frmulas generales para estimar dos valores faltantes cuando las observaciones estn en bloques diferentes. d) Deducir las frmulas generales para estimar dos valores faltantes cuando las observaciones estn en el mismo bloque. Un ingeniero industrial est realizando un experimento sobre el tiempo de enfoque del ojo. Se interesa en el efecto de la distancia del objeto alojo sobre el tiempo de enfoque. Cuatro distancias diferentes son de inters. Cuenta con cinco sujetos para el experimento. Debido a que puede haber diferencias entre los individuos, el ingeniero decide realizar el experimento en un diseo de bloques aleatorizados. Los datos obtenidos se presentan a continuacin. Analizar los datos de este experimento (utilizar a = 0.05) Ysacar las conclusiones apropiadas.
Distancia (pies) 4
6
1 10 7 5
6
2
6 6
Sujeto 3
6 6
4
6
5
6 6
8
10
3 4
3 4
1 2 2
5 3
4-5 PROBLEMAS
167
4-14.
Se estudia el efecto de cinco ingredientes diferentes (A, B, C, Dy E) sobre el tiempo de reaccin de un proceso qumico. Cada lote de material nuevD slo alcanza para permitir la realizacin de cinco corridas. Adems, cada corrida requiere aproximadamente 11/ 2 horas, por lo que slo pueden realizarse cinco corridas en un da. El experimentador decide realizar el experimento como un cuadrado latino para que los efectos del da y el lote puedan controlarse sistemticamente. Obtiene los datos que se muestran enseguida. Analizar los datos de este experimento (utilizar a= O.OS) y sacar conclusiones.
Da Lote 1 2 3 4 S 1 2
3 D = 1 A =7 C = 10 E=6 B = 3
C=7 D =3 E= 1 B =6 A = 8
4-1S.
Un ingeniero industrial investiga el efecto de cuatro mtodos de ensamblaje (A, B, C y D) sobre el tiempo de ensamblaje de un componente de televisores a color. Se seleccionan cuatro operadores para el estudio. Adems, el ingeniero sabe que todos los mtodos de ensamblaje producen fatiga, de tal modo que el tiempo requerido para el ltimo ensamblaje puede ser mayor que para el primero, independientemente del mtodo. Es decir, se desarrolla una tendencia en el tiempo de ensamblaje requerido. Para tomar en cuenta esta fuente de variabilidad, el ingeniero emplea el diseo del cuadrado latino que se presenta a continuacin. Analizar los datos de este experimento (a = O.OS) y sacar las conclusiones apropiadas.
Orden de ensamblaje
Operador
1
C=lO B =7 A =S D = 10
D
3
A D
1 2 3
4
= 14 C = 18 B = 10 A = 10
=7 = 11
C = 11 B = 12
Suponga que en el problema 4-14 falta la observacin del lote 3 en el da 4. Estimar el valor faltante con la ecuacin 4-24, y realizar el anlisis utilizando este valor. Considere un cuadrado latino p x p con renglones (a), columnas (A) y tratamientos (iJ fijos. Obtener estimaciones de mnimos cuadrados de los parmetros del modelo a, fJk y Tj . Deducir la frmula del valor faltante (ecuacin 4-24) para el diseo del cuadrado latino. Diseos que incluyen varios cuadrados latinos. (Ver Cochran y Cox [26] y John [61d].) El cuadrado latino p x p contiene nicamente p observaciones para cada tratamiento. Para obtener ms rplicas, el experimentador puede usar varios cuadrados, por ejemplo n. No es relevante si los cuadrados usados son el mismo o son diferentes. El modelo apropiado es
Yijkh
,p ,p ,P ,n
. .
'.:'"
168
CAPTULO 4
donde Yjkh es la observacin del tratamiento j en el rengln i y la columna k del cuadrado h-simo. Observe que a(h) Yf3k(h) son los efectos del rengln y la columna en el cuadrado h-simo, Ph es el efecto del cuadrado h-simo y (r:P)jh es la interaccin entre los tratamientos y los cuadrados. a) Establecer las ecuaciones normales para este modelo y resolverlas para las estimaciones de los parmetros del modelo. Suponga que las condiciones auxiliares apropiadas de los parmetros son LhPh = O, La(h) = OY L kf3k(h) = Opara cada h, L/r j = O, L/ip)j1 = Opara cada h y L h(ip)j11 = Opara cadaj. b) Desarrollar la tabla del anlisis de varianza para este diseo. Comentar la forma en que pueden utilizarse las curvas de operacin caracterstica del apndice cn el diseo del cuadrado latino. Suponga que en el problema 4-14 los datos tornados en el da 5 se analizaron incorrectamente y fue necesario descartarlos. Desarrollar un anlisis apropiado para los datos restantes. El rendimiento de un proceso qumico se midi utilizando cinco lotes de materia prima, cinco concentraciones del cido, cinco tiempos de procesamiento (A, B, C, D y E) Ycinco concentraciones del catalizador (a, 13, y, o, e). Se us el cuadrado grecolatino siguiente. Analizar los datos de este experimento (utilizar a = 0.05) Y sacar conclusiones.
Aa=26 By = 18 Ce = 20 Df3 = 15 Ea = 10
Bf3 = 16 Ca = 21 Da= 12 Ey = 15 Ae = 24
Cy = De = Ef3 = Aa = Ba =
Do = 16 Ea = 11 Ay=25 Be = 14 Cf3 = 17
4-23.
Suponga que en el problema 4-15 el ingeniero sospecha que los sitios de trabajo usados por los cuatro operadores pueden representar una fuente adicional de variacin. Es posible introducir un cuarto factor, el sitio de trabajo (a, 13, y, o), y realizar otro experimento, de donde resulta el cuadrado grecolatino siguiente. Analizar los datos de este experimento (utilizar a = 0.05) Y sacar conclusiones.
Orden de ensamblaje 1 2 3 4
Operador 2 3
4 Aa=8 Df3 = 12 Cy = 15 Bo =6
4-27.
Construir un hipercuadrado 5 x 5 para estudiar los efectos de cinco factores. Desarrollar la tabla del anlisis de varianza para este diseo. Considere los datos de los problemas 4-15 y 4-23. Despus de eliminar las letras griegas del problema 4-23, analizar los datos utilizando el mtodo desarrollado en el problema 4-19. Considere el diseo de bloques aleatorizados con un valor faltante en la tabla 4-7. Analizar los datos utilizando el anlisis exacto del problema del valor faltante revisado en la seccin 4-1.4. Comparar los resultados con el anlisis aproximado de estos datos que se presenta en la tabla 4-8. Un ingeniero estudia las caractersticas del rendimiento de combustible de cinco tipos de aditivos de gasolina. En laprueba de carretera el ingeniero desea usar los automviles corno bloques; sin embargo, debido a
4-5 PROBLEMAS
169
una restriccin de tiempo, debe utilizar un diseo de bloques incompletos. Realiza el diseo balanceado con los cinco bloques siguientes. Analizar los datos de este experimento (utilizar a = 0.05) Ysacar conclusiones. Automvil Aditivo
1 2 3 4 5 4-28. 4-29. 1 14 12 13 11 2 17 14 11 12 3 14 13 11 10 4 5 12 10 9 8
13 13 12 12
Construir un conjunto de contrastes ortogonales para los datos del problema 4-27. Calcular la suma de cuadrados para cada contraste. Se estudian siete concentraciones diferentes de madera dura para determinar su efecto sobre la resistencia del papel producido. Sin embargo, en la planta piloto slo pueden hacerse tres corridas de produccin por da. Dado que los das pueden diferir, el analista utiliza el diseo de bloques incompletos balanceados que se muestra abajo. Analizar los datos de este experimento (utilizar a = 0.05) Y sacar conclusiones. Concentracin de madera dura (%)
2 4 6 8
10
Das
1 114 126 141 145 120 136 2 120 137 3 4 5 120 119 117 129 134 149 150 143 118 123 130 6 7 117
127
Analizar los datos del ejemplo 4-6 utilizando la prueba general de significacin de la regresin. Demostrar que k'2.~=lQ! / (Aa) es la suma de cuadrados ajustada de los tratamientos en un BIBD. Un experimentador quiere comparar cuatro tratamientos en bloques de dos corridas. Encontrar un BIBD para este experimento con seis bloques. Un experimentador quiere comparar ocho tratamientos en bloques de cuatro corridas. Encontrar un BIBD con 14 bloques y . 1. = 3. Realizar el anlisis interbloques del diseo del problema 4-27. Realizar el anlisis interbloques del diseo del problema 4-29. Comprobar que no existe un BIBD con parmetros a = 8, r = 8, k = 4 Y b = 16. Demostrar que la varianza de los estimadores intrabloques {iJ es k(a -1 )a2 / (..1.a 2 ). Diseos ertendidos de bloques incompletos. Ocasionalmente, el tamao del bloque cumple con la relacin a < k < 2a. Un diseo extendido de bloques incompletos consiste en una sola rplica de cada tratamiento en cada bloque junto con un diseo de bloques incompletos con k* = k-a. En el caso balanceado, el diseo de bloques incompletos tendr los parmetros k* = k - a, r* = r - by..1. *. Desarrollar el anlisis estadstico. (Sugerencia: en el diseo extendido de bloques incompletos, se tiene..1. = 2r - b + . 1. *.)
5~ 1
En muchos experimentos interviene el estudio de los efectos de dos o ms factores. En general, los dise os factoriales son los ms eficientes para este tipo de experimentos. Por diseo factorial se entiende que en cada ensayo o rplica completa del experimento se investigan todas las combinaciones posibles de los niveles de los factores. Por ejemplo, si el factor A tiene a niveles y el factor B tiene b niveles, cada rplica contiene todas las ab combinaciones de los tratamientos. Cuando los factores estn incluidos en un diseo factorial, es comn decir que estn cruzados. El efecto de un factor se define como el cambio en la respuesta producido por un cambio en el nivel del factor. Con frecuencia se le llama efecto principal porque se refiere a los factores de inters primario en el experimento. Por ejemplo, considere el experimento sencillo de la figura 5-1. Se trata de un experimento factorial de dos factores en el que los dos factores del diseo tienen dos niveles. A estos niveles se les ha denominado "bajo" y "alto" y se denotan como "-" y "+", respectivamente. El efecto principal del factor A de este diseo de dos niveles puede visualizarse como la diferencia entre la respuesta promedio con el nivel bajo de A y la respuesta promedio con el nivel alto de A. Numricamente, esto es
A= 40+52 _ 20+30 = 21
2 2
Es decir, cuando el factor A se incrementa del nivel bajo al nivel alto se produce un incremento de la respuesta promedio de 21 unidades. De manera similar, el efecto principal de B es
B= 30+52 _ 20+40 = 11 2 2
Cuando los factores tienen ms de dos niveles, es necesario modificar el procedimiento anterior, ya que existen otras formas de definir el efecto de un factor. Este punto se estudia con mayor profundidad ms adelante. En algunos experimentos puede encontrarse que la diferencia en la respuesta entre los niveles de un factor no es la misma para todos los niveles de los otros factores. Cuando esto ocurre, existe una interac-
170
171
+
(Alto)
30
52
l:l:1
+
(Alto)
40
12
l:l:1
u.
~ co
(Bajo)
...
20
D
Factor A
ti
u.
o
co
40
+
(Bajo)
20
D
Factor A
50
+
(Bajo)
(Alto)
(Bajo)
(Alto)
Figura 51 Experimento factorial de dos factores con la respuesta (y) indicada en los vrtices.
cin entre los factores. Por ejemplo, considere el experimento factorial de dos factores que se ilustra en la figura 5-2. Con el nivel bajo del factor B (o B-), el efecto de A es
A= 50-20= 30
y con el nivel alto del factor B (o B+), el efecto de A es
A=12-40=-28
Puesto que el efecto deA depende del nivel que se elige para el factor B, se observa que existe una interaccin entre A y B. La magnitud del efecto de la interaccin es la diferencia promedio de estos dos efectos de A, o AB = (-28 - 30)/2 = -29. Evidentemente, en este experimento la interaccin es grande. Estas ideas pueden ilustrarse grficamente. En la figura 5-3 se grafican los datos de las respuestas de la figura 5-1 contra el factorA para ambos niveles del factor B. Observe que las rectasB-y B+ son aproximadamente paralelas, lo cual indica la ausencia de interaccin entre los factores A y B. De manera similar, en la figura 5-4 se grafican los datos de las respuestas de la figura 5-2. En este caso se observa que las rectas B- y B+ no son paralelas. Esto indica una interaccin entre los factores A y B. Grficas como stas son de gran ayuda para interpretar las interacciones significativas y para reportar los resultados al personal sin preparacin estadstica. Sin embargo, no debern utilizarse como la nica tcnica para el anlisis de datos, ya que su interpretacin es subjetiva y su apariencia con frecuencia es engaosa.
60 50 40 ::1 . 30 al a: 20
B+
co
~BFactor A
m40
. 30
al
::1
co
60 50
B-
a: 20
10
10
+
Factor A
172
El concepto de interaccin puede ilustrarse de otra manera. Suponga que los dos factores del diseo tratado son cuantitativos (temperatura, presin, tiempo, etc.). Entonces una representacin con un modelo de regresin del experimento factorial de dos factores podra escribirse como y= /30
+/31 X 1 +/32 X 2 +/312 X 1X 2 +e
donde y es la respuesta, las /3 son parmetros cuyos valores deben determinarse, Xl es una variable que representa al factorA,x 2 es una variable que representa al factor B, y e es un trmino del error aleat.orio. Las variables Xl y X 2 se definen en una escala codificada de -1 a + 1 (los niveles bajo y alto deA y B), YX 1X 2 representa la interaccin entre Xl y X 2 Las estimaciones de los parmetros en este modelo de regresin resultan estar relacionadas con las estimaciones de los efectos. Para el experimento ilustrado en la figura 5-1 se encuentra que los efectos principales deA y B sanA = 21 YB = 11. Las estimaciones de /31 y/32son la mitad del valor del efecto principal correspondiente; por lo tanto, ~1 = 21/2 = 10.5 Y ~ 2 = 11 /2 = 5.5. El efecto de la interaccin de la figura 5-1 es AB = 1, por lo que el valor del coeficiente de la interaccin en el modelo de regresin es ~12 = 1/2 = 0.5. El parmetro /30 se estima con el promedio de las cuatro respuestas, o ~o = (20+40+30+52)/4= 35.5. Por lo tanto, el modelo de regresin ajustado es
)7= 35.5+10.5x1 +5.5x 2 +0.5x1 x 2
49
y 39
29
-0.2
0.2
0.6
al La superficie de respuesta
b) La grfica de contorno
Figura 5-5 La superficie de respuesta y la grfica de contorno para el modelo y = 35.5 + lO.5x1 + 5.5xz.
173
Las estimaciones de los parmetros obtenidas de esta manera para el diseo factorial en el que todos los factores tienen dos niveles (- y +) resultan ser estimaciones de mnimos cuadrados (se abundar sobre el tema ms adelante). El coeficiente ~e l~ interaccin (/312 = O.S) es pequeo en comparacin con los coeficientes de los efectos principales /31y /3 2' La interpretacin que se har de este hecho es que la interaccin es pequea y puede ignorarse. Por lo tanto, al eliminar el trmino 0,Sx,x2 se obtiene el modelo y= 3S.S+10,Sxl +S,Sx 2 En la figura S-S se muestran las representaciones grficas de este modelo. En la figura S-Sa se tiene una grfica del plano de los valores de ygenerados por las diferentes combinaciones de Xl y X 2 A esta grfica tridimensional se le llama grfica de superficie de respuesta. En la figura S-Sb se muestran las lneas de contorno para las respuestas constantes y en el plano Xl' x 2 Observe que como la superficie de respuesta es un plano, la grfica de contorno contiene lneas rectas paralelas. Suponga ahora que la contribucin de la interaccin en el experimento no fuera insignificante; es decir, que el coeficiente /312 no fuera pequeo. En la figura S-6 se presenta la superficie de respuesta y la grfica de contorno del modelo
x,
0.2
0.6
al La superficie de respuesta
0.6 0.2
~
-0.2 -0.6
-1
b l La grfica de contorno
Figura 56 La superficie de respuesta y la grfica de contorno para el modelo y = 35.5 + lD.5x + 5.5x2 + 8xx2
174
(Se ha hecho que el efecto de la interaccin sea el promedio de los dos efectos principales.) Observe que el efecto significativo de la interaccin provoca el "torcimiento" del plano de la figura S-6a. Este torcimiento de la superficie de respuesta produce lneas de contorno curvas para las respuestas constantes en el planox1,x2, como se muestra en la figura S-6b. Por lo tanto, una interaccin es una forma de curvatura en el modelo de superficie de respuesta fundamental del experimento. El modelo de superficie de respuesta de un experimento es de gran importancia y utilidad. El tema se ampliar en la seccin 5-5 y en captulos posteriores. En general, cuando una interaccin es grande, los efectos principales correspondientes tienen escaso significado prctico. En el experimento de la figura 5-2, la estimacin del efecto principal deA sera
A= 50+12 _ 20+40
=1
que es muy pequeo, y se llegara a concluir que no hay ningn efecto debido a A. Sin embargo, cuando se examinan los efectos deA con niveles diferentes del fa ctor E, se observa que no es ste el caso. El factorA tiene un efecto, pero depende del nivel del factor E. Es decir, el conocimiento de la interaccinAB es ms til que el conocimiento del efecto principal. Una interaccin significativa suele enmascarar la significacin de los efectos principales. Estos puntos se ponen de manifiesto con claridad en la grfica de la interaccin de la figura 5-4. En presencia de una interaccin significativa, el experimentador deber por lo general examinar los niveles de uno de los factores, por ejemplo del factor A, manteniendo fijos los niveles de los otros factores para sacar conclusiones acerca del efecto principal de A.
5~2
Es sencillo ilustrar la ventaja de los diseos factoriales. Suponga que se tienen dos factores A y E, cada uno con dos niveles. Los niveles de los factores se denotan porA-,A+,E-y E+. Podra obtenerse informacin acerca de ambos factores hacindolos variar uno a la vez, como se muestra en la figura 5-7. El efecto de cambiar el factor A est dado por A +E- -A-E-, y el efecto de cambiar el factor E est dado por A-E + A-E-. Debido a que est presente el error-experimental, es deseable realizar dos observaciones, por ejemplo, para cada combinacin de tratamientos y estimar los efectos de los factores utilizando las respuestas promedio. Por lo tanto, se necesita un total de seis observaciones. Si se hubiera efectuado un experimento factorial, se habra registrado una combinacin adicional de los tratamientos, A +E+. Ahora, utilizando slo cuatro observaciones, pueden hacerse dos estimaciones del efecto deA:A+E- -A-E-yA+E+ -A-E+. De manera similar, pueden hacerse dos estimaciones del
A-B+
+
c:
~
u.
~ ca
A-BA+B-
Factor A
175
4.0 3.5
ro
'';:
,.
~
'0
::
ro
'0
lO III
UJ
Figura 58 Eficiencia relativa de un diseo factorial con respecto a un experimento de un factor a la vez (dos niveles del factor).
efecto de B. Estas dos estimaciones de cada efecto principal podran promediarse para producir efectos principales promedio que tienen la misma precisin que las estimaciones del experimento con un solo factor, pero slo se requieren cuatro observaciones en total, y nosotros diramos que la eficiencia relativa del diseo factorial con respecto al experimento de un factor a la vez es de (6/4) = 1.5. En general, esta eficiencia relativa aumentar conforme se incremente el nmero de factores, como se muestra en la figura 5-8. Suponga ahora que est presente una interaccin. Si el diseo de un factor a la vez indicara queA-B+ yA +B- dieron mejores respuestas queA-B-, una conclusin lgica sera que A +B+ sera todava mejor. Sin embargo, si est presente una interaccin, esta conclusin puede ser una equivocacin grave. Para un ejemplo, referirse al experimento de la figura 5-2. En resumen, observe que los diseos Jactoriales ofrecen varias ventajas. Son ms eficientes que los experimentos de un factor a la vez. Adems, un diseo factorial es necesario cuando puede haber interacciones presentes a fin de evitar llegar a conclusiones incorrectas. Por ltimo, los diseos factoriales permiten la estimacin de los efectos de un factor con varios niveles de los factores restantes, produciendo conclusiones que son vlidas para un rango de condiciones experimentales.
5~3
5~3.1
Los tipos ms simples de diseos factoriales incluyen nicamente dos factores o conjuntos de tratamientos. Haya niveles del factorA y b niveles del factor B, los cuales se disponen en un diseo factorial; es decir, cada rplica del experimento contiene todas las ab combinaciones de los tratamientos. En general, hay n rplicas. Como ejemplo de un diseo factorial en el que intervienen dos factores, un ingeniero est diseando una batera que se usar en un dispositivo que se someter a variaciones de temperatura extremas. El nico parmetro del diseo que puede seleccionar en este punto es el material de la placa o nodo de la batera, y tiene tres elecciones posibles. Cuando el dispositivo est fabricado y se enve al campo, el ingeniero no tendr control sobre las temperaturas extremas en las que operar el dispositivo, pero sabe por expe-
r "'
:
,"'.
176
Datos de la vida (en horas) para el ejemplo del diseo de la batera Temperatura (OF) 15 130 74 150 159 138 168 155 180 188 126 110 160 34 80 136 106 174 150 70 40 75 122 115 120 139 20 82 25 58 96 82 125 70 58 70 45 104 60
riencia que la temperatura probablemente afectar la vida efectiva de la batera. Sin embargo, la temperatura puede controlarse en el laboratorio donde se desarrolla el producto para fines de prueba. El ingeniero decide probar los tres materiales de la placa con tres niveles de temperatura -15, 70 Y 12S oP-, ya que estos niveles de temperatura son consistentes con el medio ambiente donde se usar finalmente el producto. Se prueban cuatro bateras con cada combinacin del material de la placa y la temperatura, y las 36 pruebas se corren de manera aleatoria. En la tabla 5-1 se presentan los datos del experimento y de la vida observada de la batera. En este problema, el ingeniero quiere responder las preguntas siguientes:
1. 2.
Qu efectos tienen el tipo de material y la temperatura sobre la vida de la batera? Existe alguna eleccin del material que produzca de manera regular una vida larga de la batera
independientemente de la temperatura?
La segunda pregunta es de particular importancia. Quiz sea posible encontrar una alternativa del material que no resulte afectada considerablemente por la temperatura. De ser ste el caso, el ingeniero puede hacer que la batera sea robusta para la variacin de la temperatura en el campo. Se trata de un ejemplo de la aplicacin del diseo experimental estadstico en el diseo de productos robustos, un problema de ingeniera muy importante. El anterior es un ejemplo especfico del caso general de un diseo factorial de dos factores. Para pasar al caso general, sea Yijk la respuesta observada cuando el factor A tiene el nivel i-simo (i = 1, 2, oo., a) y e1factor B tiene el nivelj-simo (j = 1,2, .oo, b) en la rplicak-sima (k = 1,2, oo., n). En general, el experimento factorial de dos factores aparecer como en la tabla 5-2. El orden en que se hacen las abn observaciones se selecciona al azar, por lo que este diseo es un diseo completamente aleatorizado.
1 1
Factor A
Ylll,Y1l2, ,Yl1n
2
Yl2lo Yl22, "'YI2J. Y221,Y222'
b
Ylbl,Ylb2, ""Ylbn Y2bI,Y2b2, ""Y2bn
Y2ll,Y212, ""Y2In
'Y22J1
a
I
Ya21,Ya22,
Yabl,Yab2, .. ,Yabn
,Ya2n
177
Las observaciones de un experimento factorial pueden describirse con un modelo. Hay varias formas de escribir el modelo de un experimento factorial. El modelo de los efectos es Yijk =/l+T+f3j+(Tf3)ij+Cijk i=l, 2, , a j=l, 2, , b { k = 1, 2, , n (5-1)
donde /l es el efecto promedio global, T es el efecto del nivel i-simo del factor A de los renglones, f3j es el efecto del nivelj-simo del factor B de las columnas, (Tf3)ij es el efecto de la interaccin entre T y f3 j, YCjk es un componente del error aleatorio. Se supone que ambos factores son fijos, y los efectos de los tratamientos se definen como las desviaciones de la media global, por lo que 2:~=1 T = Oy 2:~=1f3 j = O. De manera similar, los efectos de las interacciones son fijos y se definen de tal modo que 2:~=l(Tf3)ij = 2:~=l(Tf3)ij = O. Puesto que hay n rplicas del experimento, hay abn observaciones en total. Otro modelo posible de un experimento factorial es el modelo de las medias Yijk donde la media de la celda ij-sima es /lij
= /lij +cijk
i.: {
1,2, , a ] -1, 2, , b k = 1, 2, , n
Thmbin podra usarse un modelo de regresin como en la seccin 5-1. Los modelos de regresin resultan particularmente tiles cuando uno o ms de los factores del experimento son cuantitativos. En la mayor parte de este captulo se usar el modelo de los efectos (ecuacin 5-1) con referencia al modelo de regresin en la seccin 5-5. En el diseo factorial de dos factores, los factores (o tratamientos) de los renglones y las columnas, A y B, son de igual inters. Especficamente, el inters se encuentra en probar hiptesis acerca d~ la igualdad de los efectos de los tratamientos de los renglones, por ejemplo,
(5-2a)
(5-2b)
H 1 : al menos una f3 j
Tambin existe inters en determinar si los tratamientos de los renglones y las columnas interactan. Por lo tanto, tambin querra probarse
Ha: (Tf3)ij
=O
(5-2c)
A continuacin se indica cmo se prueban estas hiptesis utilizando un anlisis de varianza de dos factores.
5-3.2
Sea que Yi.. denote el total de observaciones bajo el nivel i-simo del factor A, que y J. denote el total de observaciones bajo el nivelj-simo del factor B, que Yij. denote el total de observaciones de la celda
fi"\'l'
178
ij-sima, y que Y... denote el gran total de todas las observaciones. Se definenYi.., Y'.,Yij. Y Y . . como los promedios correspondientes de los renglones, las columnas, las celdas y el gran promedio. Expresado matemticamente,
Yi.. = Yj.
LL Yijk
j=l k=l
Yi.. Yi.. = bn
y.=.J.
i=l, 2, ..., a
! Yijk
i=l k=l
Yj. an
j= 1,2, ..., b
i = 1, 2, j= 1, 2,
(5-3)
,a ,b
Y..
= LLL
i=l j=l
k~l
Yijk
Y..
= abn
Y..
j.
-Y... )
(5-4)
LLL (Yijk-YijY
i=l j=l k=l
ya que los seis productos cruzados del lado derecho de la igualdad son cero. Observe que se ha hecho la particin de la suma de cuadrados total en una suma de cuadrados debida a "los renglones", o factor A (SSA); una suma de cuadrados debida a "las columnas", o factor B (SSB); una suma de cuadrados debida a la interaccin entre A y B (SSAB); y una suma de cuadrados debida al error (SSE). Por el ltimo componente del lado derecho de la igualdad de la ecuacin 5-4, se observa que debe haber por lo menos dos rplicas (n ;:::: 2) para obtener una suma de cuadrados del error. La ecuacin 5-4 puede escribirse simblicamente como SST
(5-5)
Efecto
A
179
Esta asignacin de los abn - 1 grados de libertad totales a las sumas de cuadrados puede justificarse de la siguiente manera: los efectos principalesA y B tienen a y b niveles, respectivamente; por lo tanto, tienen a -1 y b - 1 grados de libertad, como se indica. Los grados de libertad de la interaccin son slo el nmero de grados de libertad de las celdas (que es ab - 1) menos el nmero de grados de libertad de los dos efectos principales A y B; es decir, ab -1- (a -1) - (b -1) = (a -1 )(b -1). Dentro de cada una de las ab celdas hay n -1 grados de libertad entre las n rplicas; por lo tanto hay aben -1) grados de libertad para el error. Observe que la suma del nmero de grados de libertad en el lado derecho de la ecuacin 5-5 es igual al nmero total de grados de libertad. Cada suma de cuadrados dividida por sus grados de libertad es un cuadrado medio. Los valores esperados de los cuadrados medios son
bn~ 7:7
a-1 anL f3~ b-1 nL L (7:f3)~
.=1 j=1 a
b b
.=1
)= a 2 +
j=1
= E(
SS AB (a-1)(b-1)
)= a2 + (a-1)(b-1)
La prueba F puede considerarse como una aproximacin de una prueba de aleatorizacin, como se seal anteriormente.
180
Tabla 5-3
CAPTULO 5
La tabla del anlisis de varianza para el diseo factorial de dos factores, modelo con efectos fijos
Suma de cuadrados
Grados de libertad
Cuadrado medio
F: = MSA
o
MSE MSE
MS = SSB B b-1
M _ SSAB SAB - (a-1)(b-1)
F: = MSB
o
F: = MSAB
o
MSE
mente las sumas de cuadrados de la ecuacin 5-5. La suma de cuadrados total se calcula como de costumbre con
SST=
LLL Yijk-b a n
i~l j~l k~l
abn
y.~
(5-6)
=-" f:t i- L
l..
abn
2
(5-7)
y
SSB
=~ an
1
j~l
,~1
y2
.J.
abn
(5-8)
Es conveniente obtener SSAB en dos pasos. Se calcula primero la suma de cuadrados entre los totales de las ab celdas, a la que se denomina la suma de cuadrados debida a los "subtotales": SS Sublotales
=;; L L
J~l
ab
Esta suma de cuadrados tambin contiene a SSA y SSB' Por 10 tanto, el segundo paso consiste en calcular SSAB comO (5-9) SS AB = SS Subtotales - SS A - SSB Puede calcularse SSE por sustraccin como (5-10) SSE = SST - SS AB - SS A - SSB o SS E
= SST -
SS Subtotales
EJEMPLO 5~ 1
El experimento del diseo de la batera En la tabla 5-4 se prese1}ta la vida efectiva (en horas) observada en el ejemplo del diseo de la batera que se describi en la seccin 5-3.1. Los totales de los renglones y las columnas se indican en los mrgenes de la tabla y los nmeros encerrados en un crculo son los totales de las celdas.
181
Tabla 5-4 Datos de la vida (en horas) del experimento del diseo de la batera Tipo de
material Thmperatura ("F)
15 130 74 150 159 138 168 1738 155 180 188 126 110 160
70
YL.
1 2 3
Ji.
@)
= LJLJLJ ~~~ T
i=1 j=1 k=1
el
@ @ @
20 82 25 58 96 82 770
70 58 70 45 104 60
@ @ @
SS
Y~-~ gk b
a n (3799)2 36 = 77,646.97
SSInteraccin
=-
Y.~ LL Yij. - -b n a n
ab
2 ;=1 j=1
SSMaterial -
SSTemperatura
10,683.72
= SST -
SS Material - SSTemperatura -
SS Interaccin
= 77,646.97-10,683.72- 39,118.72- 9613.78= 18,230.75 En la tabla 5-5 se muestra el anlisis de varianza. Puesto que F a.a5 , 4, 27 = 2.73, se concluye que hay una interaccin significativa entre los tipos del material y la temperatura. Adems, F a.a5 , 2, 27 = 3.35, por lo que los efectos principales del tipo de material y la temperatura tambin son significativos. En la tabla 5-5 tambin se muestran los valores P para los estadsticos de la prueba. Como ayuda para interpretar los resultados de este experimento, es conveniente construir una grfica de las respuestas promedio para cada combinacin de los tratamientos. Esta grfica se muestra en la figura 5-9. El hecho de que las rectas no sean paralelas indica que la interaccin es significativa. En general, se consigue una vida ms larga con una temperatura baja, independientemente del tipo de material. Al cambiar de una temperatura baja a una intermedia, la vida de la batera con el material tipo 3 tiene un in-
182
Tabla 5-5 Anlisis de varianza de los datos de la vida de la batera Fuente de Suma de Grados de variacin cuadrados libertad Tipos de material 10,683.72 2 39,118.72 2 Temperatura Interaccin 4 9,613.78 Error 27 18,230.75 Total 35 77,646.97
Cuadrado medio
5,341.86 19,559.36 2,403.44 675.21 7.91 28.97 3.56
Valor P
0.0020 0.0001 0.0186
cremento real, mientras que con los materiales tipos 1 y 2 disminuye. Con una temperatura de intermedia a alta, la vida de la batera disminuye para los materiales tipos 2 y 3 y se mantiene en esencia sin cambio pra el material tipo 1. El material tipo 3 parece producir los mejores resultados si se quiere una prdida menor de la vida efectiva cuando la temperatura cambia.
Comparaciones mltiples
Cuando el anlisis de varianza indica que las medias de los renglones o las columnas difieren, por lo general es de inters hacer comparaciones entre las medias individuales de los renglones o las columnas para descubrir diferencias especficas. Los mtodos de comparaciones mltiples revisados en el captulo 3 son tiles a este' respecto. Se ilustra ahora el uso de la prueba de Tukey con los datos de la vida de la batera del ejemplo S-l. Observe que en este experimento, la interaccin es significativa. Cuando la interaccin es significativa, las comparaciones entre las medias de uno de los factores (por ejemplo, A ) pueden ser oscurecidas por la interaccinAB. Una forma de abordar esta cuestin consiste en fijar el factor B en un nivel especfico y aplicar la prueba de Tukey a las medias del factorA con ese nivel. Para ilustrar, suponga que en el ejemplo S-l el inters se encuentra en detectar las diferencias entre las medias de los tres tipos de material. Puesto que la interaccin es significativa, esta comparacin se hace con un solo nivel de la temperatura, por ejemplo el nivel 2 (70F). Se supone que la mejor estimacin de la varianza del error es MSE de la tabla del anlisis de varianza, utilizando el supuesto de que la varianza del error experimental es la misma para todas las combinaciones de tratamientos.
175 150
1';':$125
:g
:>
ro -o
e o.
100 75 50
Material tipo 3
. . . .----..;;~ Material
25
0'-----:'::-----::':-------:-:-::----Temperatura (DFI
183
Los promedios de los tres tipos de material a 70F dispuestos en orden ascendente son
Y12. Y22. Y32.
= 57.25 = 119.75
= 145.75
y
TO. 05
= qo . 05 (3,
= 3.50~67~21 = 45.47
donde qo.05(3, 27) = 3.50 se obtiene por interpolacin en la tabla VIII del apndice. Las comparaciones por pares dan como resultado
145.75 - 57.25 = 88.50 > T O.05 = 45.47 145.75 - 119.75 = 26.00 < T O05 = 45.47 119.75 - 57.25 = 62.50 > T O05 = 45.47
Este anlisis indica que con el nivel de temperatura de 70F, la vida media de la batera es la misma para los materiales tipos 2 y 3, Yque la vida media de la batera para el material tipo 1 es significativamente menor. Si la interaccin es significativa, el experimentador podra comparar las medias de todas las ah celdas para determinar cules difieren significativamente. En este anlisis, las diferencias entre las medias de las celdas incluyen los efectos de la interaccin, as como ambos efectos principales. En el ejemplo 5-1, esto dara 36 comparaciones entre todos los pares posibles de las nueve medias de las celdas.
Sada de computadora En la figura 5-10 se presenta la salida de computadora de Design-Expert para los datos de la vida de la batera del ejemplo 5-1. Observe que
SS Modelo
= 59,416.22
y que
59,416.22 = 0.7652 77,646.97 Es decir, cerca de 77% de la variabilidad de la vida de la batera es explicada por el material de la placa de la batera, la temperatura y la interaccin entre el tipo de material y la temperatura. En la salida de computadora se muestran tambin los residuales del modelo ajustado. A continuacin se indica cmo usar estos residuales para verificar la adecuacin del modelo.
~I
184
in hours Response: Life ANOVA for Selected Factorial Model Analysis of variance table [Partial sum of squares] Mean Sum of Square Squares DF Source 7427.03 8 59416.22 Model 5341.86 2 10683.72 A 19559.36 2 39118.72 B 2403.44 9613.78 4 AB 675.21 18230.75 27 Residual 0.000 O Lack of Fit 675.21 18230.75 27 Pure Error 77646.97 35 Cor Total
Std. Dev. Mean
F Value
Prob> F
<0.0001
0.0020 <0.0001 0.0186
significant
C.V.
PRESS
Residual
Leverage
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
130.00 74.00 155.00 180.00 150.00 159.00 188.00 126.00 138.00 168.00 110.00 160.00 34.00 80.00 40.00 75.00 136.00 106.00 122.00 115.00 174.00 150.00 120.00 139.00 20.00 82.00 70.00 58.00 25.00 58.00 70.00 45.00 96.00 82.00 104.00 60.00
134.75 134.75 134.75 134.75 155.75 155.75 155.75 155.75 144.00 144.00 144.00 144.00 57.25 57.25 57.25 57.25 119.75 119.75 119.75 119.75 145.75 145.75 145.75 145.75 57.50 57.50 57.50 57.50 49.50 49.50 49.50 49.50 85.50 85.50 85.50 85.50
-4.75 -60.75 20.25 45.25 -5.75 3.25 32.25 -29.75 -6.00 24.00 -34.00 16.00 -23.25 22.75 -17.25 17.75 16.25 -13.75 2.25 -4.75 28.25 4.25 -25.75 -6.75 -37.50 24.50 12.50 0.50 -24.50 8.50 20.50 -4.50 10.50 -3.50 18.50 -25.50
0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250 0.250
-0.211 -2.700 0.900 2.011 -0.256 0.144 1.433 -1.322 -0.267 1.066 -1.511 0.711 -1.033 1.011 -0.767 0.789 0.722 -0.611 0.100 -0.211 1.255 0.189 -1.144 -0.300 -1.666 1.089 0.555 0.022 -1.089 0.378 0.911 -0.200 0.467 -0.156 0.822 -1.133
0.002 0.270 0.030 0.150 0.002 0.001 0.076 0.065 0.003 0.042 0.085 0.019 0.040 0.038 0.022 0.023 0.019 0.014 0.000 0.002 0.058 0.001 0.048 0.003 0.103 0.044 0.011 0.000 0.044 0.005 0.031 0.001 0.008 0.001 0.025 0.048
-0.207 -3.100 0.897 2.140 -0.251 0.142 1.463 -1.341 -0.262 1.069 -1.550 0.704 -1.035 1.011 -0.761 0.783 0.716 -0.604 0.098 -0.207 1.269 0.185 -1.151 -0.295 -1.726 1.093 0.548 0.022 -1.093 0.372 0.908 -0.196 0.460 -0.153 0.817 -1.139
185
5,3.3
Antes de adoptar las conclusiones del anlisis de varianza, deber verificarse la adecuacin del modelo fundamental. Como anteriormente, la herramienta primaria de diagnstico es el anlisis residual. Los residuales del modelo factorial de dos factores son (5-11) y puesto que el valor ajustado Yijk cin 5-11 queda como
= )lij,
En la salida de computadora de Design-Expert (figura 5-10) y en la tabla 5-6 se muestran los residuales de los datos de la vida de la batera del ejemplo 5-1. La grfica de probabilidad normal de estos residuales (figura 5-11) no revela nada particularmente problemtico, aun cuando el residual negativo ms grande (-60.75 con 15F para el material tipo 1) se aparta un poco de los dems. El valor estandarizado de este residual es -60.751'1675.21 = -2.34, Y es el nico residual cuyo valor absoluto es mayor que 2. En la figura 5-12 se grafican los residuales contra los valores ajustados Yijk' Esta grfica indica una ligera tendencia de la varianza de los residuales a incrementarse cuando la vida de la batera se incrementa. En las figuras 5-13 y 5-14 se grafican los residuales contra los tipos del material y la temperatura, respectivamente. Ambas grficas indican una ligera desigualdad de la varianza, con la combinacin del tratamiento 15F y material tipo 1, teniendo posiblemente una varianza mayor que las dems. En la tabla 5-6 se observa que la celda 15F-material tipo 1 contiene los dos residuales extremos (-60.75 y 45.25). Estos dos residuales son los principales responsables de la desigualdad de la varianza detectada en las figuras 5-12 a 5-14. Al examinarse nuevamente los datos no se observa ningn problema obvio, tal como un error al registrar los datos, por lo que estas respuestas se aceptan como legtimas. Es posible que esta combinacin de tratamientos particular produzca una vida de la batera ligeramente ms errtica que las dems. Sin embargo, el problema no es lo suficientemente grave como para tener un impacto dramtico en el anlisis y las conclusiones.
5,3.4
Los parmetros del modelo de los efectos para el diseo factorial de dos factores
Yijk
= fl + + f3 j +(f3)ij +8 ijk
(5-13)
Residuales del ejemplo 5-1 Temperatura 15 -4.75 -60.75 -5.75 3.25 -6.00 24.00 20.25 45.25 32.25 -29.75 -34.00 16.00 -23.25 22.75 16.25 -13.75 28.25 4.25 70 -17.25 17.75 2.25 -4.75 -25.75 -6.75 -37.50 24.50 -24.50 8.50 10.50 -3.50
(OF)
125 12.50 0.50 20.50 -4.50 18.50 -25.50
186
99
ro
o c:
o
;g :c ro
..c
-o ro
o.
-o ::R o
'"
-60.75
-34.25
-7.75
Residul
18.75
45.25
Figura 5-11
pueden estimarse por mnimos cuadrados. Puesto que el modelo tiene 1 + a + ab parmetros que deben estimarse, hay 1 + a + b + ab ecuaciones normales. Al utilizar el mtodo de la seccin 3-9, no es difcil demostrar que las ecuaciones normales son
a
tt:abn{t+bnL tri
i=l
+anL~j +n
j=l
LL
i=l j=l
(rf3)ij
= Y...
(5-14a)
80 60 40 20
.,
50
100
Yijk
200
'"
-20
-40
-60
-80
Figura 5-12
187
60 40 20
.,
'12
I I
63
l1po de materia I
"
Figura 513 Grfica de los residuales contra el tipo de material para el ejemplo 5-1.
i
j
= 1, 2,0 .. ,a
= 1, 2, 000' b
i 1, 2, a { } -1,2'000' b
:
o o o,
Por conveniencia, el parmetro que corresponde a cada ecuacin normal se indica a la izquierda de las ecuaciones 5-14.
60 40 20
: 125
Temperatura (OF)
-20 -40
-60 -130
Figura 5-14 Grfica de los residuales contra la temperatura para el ejemplo 5-1.
188
El modelo de los efectos (ecuacin 5-13) est sobreparametrizado. Observe que la suma de las a ecuaciones de la ecuacin 5-14b es igual a la ecuacin 5-14a y que la suma de las b ecuaciones de la ecuacin 5-14c es igual a la ecuacin 5-14a. Asimismo, la operacin suma de la ecuacin 5-14d sobre j para una i particular dar la ecuacin 5-l4b, y la operacin suma de la ecuacin 5-14d sobre i para unaj particular dar la ecuacin 5-14c. Por lo tanto, haya + b + 1 dependencias lineales en este sistema de ecuaciones y no existir ninguna solucin nica. A fin de obtener una solucin, se imponen las restricciones
L =1
y
/1
(r:(3)ij = O
j = 1,.2, ..., b
L j=1
/1
(r:(3)ij = O
i = 1, 2, ... ,a
(5-15d)
Las ecuaciones S-ISa y 5-15b constituyen dos restricciones, mientras que las ecuaciones 5-15c y 5-15d forman a + b - 1 restricciones independientes. Por lo tanto, se tienen en total a + b + 1 restricciones, el nmero que se requiere. Al aplicar estas restricciones, las ecuaciones normales (ecuaciones 5-14) se simplifican considerablemente, y se obtiene la solucin jl = Y ... i = 1, 2, ... ,a r: = Yi.. - Y..
h _ _
fi = Y.
j
/1
j. _
Ji...
_
= 1, 2, ..., b
_
(r:(3)ij
= Yij. -
{i=1'2,oo.,a
= 1,2, oo., b
(5-16)
Observe el gran atractivo intuitivo de esta solucin de las ecuaciones normales. Los efectos de los tratamientos de los renglones se estiman con el promedio del rengln menos el gran promedio; los tratamientos de las columnas se estiman con el promedio de la columna menos el gran promedio, y la interaccin ij-sima se estima con el promedio de la celda ij-sima menos el gran promedio, el efecto del rengln i-simo y el efecto de la columna j-sima. ' Al utilizar la ecuacin 5-16, el valor ajustado Yjk puede encontrarse como
Yijk
/1
=Yij. Es decir, la observacin k-sima de la celda ij-sima se estima con el promedio de las n observaciones de esa celda. Este resultado se us en la ecuacin 5-12 para obtener los residuales del modelo factorial de dos factores. Puesto que se han usado restricciones (ecuaciones 5-15) para resolver las ecuaciones normales, los parmetros del modelo no tienen estimaciones nicas. Sin embargo, ciertas funciones importantes de los parmetros del modelo son estimables, es decir, tienen una estimacin nica independientemente de las restricciones elegidas. Un ejemplo es r: - r: u + (r:(3)i. - (r:(3)"., que podra considerarse como la "verdade-
189
ra" diferencia entre los niveles i-simo y u-simo del factorA. Observe que la verdadera diferencia entre los niveles de cualquier efecto principal incluye un efecto de la interaccin "promedio". Es este resultado el que perturba las pruebas de los efectos principales en presencia de una interaccin, como se seal anteriormente. En general, cualquier funcin de los parmetros del modelo que sea una combinacin lineal del miembro izquierdo de las ecuaciones normales es estimable. Esta propiedad tambin se hizo notar en el captulo 3 cuando se estudi el modelo de un solo factor. Para mayores detalles, ver el material suplementario del texto de este captulo.
5-3.5
Para determinar un tamao de la muestra (el nmero de rplicas, n) apropiado en un diseo factorial de dos factores, el experimentador puede apoyarse en las curvas de operacin caracterstica que aparecen en la parte V del apndice. En la tabla S-7 se muestra el valor apropiado del parmetro <1>2, as como los grados de libertad del numerador y el denominador. Una forma muy eficaz de emplear estas curvas consiste en encontrar el valor menor de <1>2 que corresponde a una diferencia especificada entre las medias de dos tratamientos cualesquiera. Por ejemplo, si la diferencia en las medias de dos renglones cualesquiera es D, entonces el valor mnimo de <1>2 es (S-17) 2aa mientras que si la diferencia en las medias de dos columnas cualesquiera es D, entonces el valor mnimo de <1>2 es
<1>2
. 2
= nbD2
(S-18) 2ba Por ltimo, el valor mnimo de <1>2 que corresponde a una diferencia D entre dos efectos de interaccin cualesquiera es nD 2 <1>2 =--,-----_ (S-19) 2a 2 [(a-1)(b-1)+ 1]
<1>2
= naD2
Para ilustrar el uso de estas ecuaciones, considere los datos de la vida de la batera del ejemplo S-1. Suponga que antes de correr el experimento se decide que la hiptesis nula deber rechazarse con una alta
Tabla 5-7
Parmetros de la curva de operacin caracterstica de la parte V del apndice para el diseo factorial de dos factores, modelo con efectos fijos
Factor
a
bn
i=l
Ti
a -1
aben -1)
aa
b
an
a
f3~
j=l
b-1
aben -1)
AB
n (Tf3)~
i=l j=l
(a -1)(b -1)
aben -1)
" r
,,T
190
probabilidad si la diferencia en la vida media de la batera entre dos temperaturas cualesquiera es hasta de 40 horas. Por lo tanto D = 40, Ysi se supone que la desviacin estndar de la vida de la batera es aproximadamente 25, entonces por la ecuacin 5-18 se obtiene
<1>2
= naD
2ba n(3)(40)2
2(3)(25)2
=1.28n
como el valor mnimo de <1>2. Suponiendo que a construir la tabla siguiente:
n
2 3 4
<1>2 <1>
f3
0.45 0.18 0.06
2 2 2
Observe que con n = 4 rplicas se obtiene un riesgo f3 de cerca de 0.06, o una probabilidad aproximada de 94%, de rechazar la hiptesis nula si la diferencia en la vida media de la batera con dos niveles de temperatura cualesquiera es hasta de 40 horas. Por lo tanto, se concluye que cuatro rplicas bastan para proporcionar la sensitividad deseada siempre y cuando la estimacin usada para la desviacin estndar de la vida de la batera no tenga un error grave. En caso de duda, el experimentador podra repetir el procedimiento anterior con otros valores de a para determinar el efecto que tendra una estimacin equivocada de este parmetro sobre la sensitividad del diseo.
5~3.6
Ocasionalmente, un experimentador siente que es apropiado un modelo de dos factores sin interaccin, por ejemplo
(5-20)
Sin embargo, se deber ser muy cuidadoso al hacer caso omiso de los trminos de interaccin, ya que la presencia de una interaccin significativa puede tener un impacto dramtico sobre la interpretacin de los datos. El anlisis estadstico de un modelo factorial de dos factores sin interaccin es directo. En la tabla 5-8 presenta el anlisis de los datos de la vida de la batera del ejemplo 5-1, suponiendo que es vlido el mose
Tabla 5-8 Anlisis de varianza de los datos de la vida de la batera suponiendo que no hay interaccin
Suma de cuadrados
10,683.72 39,118.72 27,844.52 77,646.96
Grados de libertad 2 2
31 35
Cuadrado medio
5,341.86 19,559.36 898.21 5.95 21.78
191
delo sin interaccin (ecuacin 5-20). Como ya se seal, los dos efectos principales son significativos. Sin embargo, tan pronto como se efecta el anlisis residual de estos datos, se pone de manifiesto que el modelo sin interaccin es inadecuado. Para el modelo de dos factores sin interaccin, los valores ajustados son Jjk =)li.. + yj. - y.... En la figura 5-15 se presenta la grfica de Yij. - Jjk (los promedios de las celdas menos el valor ajustado de esa celda) contra el valor ajustado Yijk. Ahora las cantidades Yij. - Yijk pueden considerarse como las diferencias entre las medias de las celdas observadas y las medias de las celdas estimadas suponiendo que no hay interaccin. Cualquier patrn en estas cantidades sugiere la presencia de una interaccin. En la figura 5-15 se observa un patrn claro cuando las cantidades Yij. - Yijk pasan de positivo a negativo, y despus de nuevo a positivo y a negativo. Esta estructura es el resultado de la interaccin entre los tipos del material y la temperatura.
5.3.7
En ocasiones se encuentran experimentos de dos factores con una sola rplica, es decir, en los que slo hay una observacin por celda. Cuando hay dos factores y una sola observacin por celda, el modelo de los efectos es
i. : 1, 2, { J -1,2,
,a ,b
(5-21)
El anlisis de varianza para esta situacin se presenta en la tabla 5-9, suponiendo que ambos factores son fijos. Al examinar los cuadrados medios esperados, se observa que la varianza del error es no estimable; es decir, que el efecto de la interaccin de los dos factores (rf3)ij y el error experimental no pueden separarse de alguna manera obvia. Por consiguiente, no se cuenta con pruebas para los efectos principales a menos que el efecto de la interaccin sea cero. Si no hay una interaccin presente, entonces (rf3)ij = Opara toda i y j, y un modelo plausible es
er
i. : 1, 2, { J-1, 2,
,a ,b
(5-22)
Si el modelo (ecuacin 5-22) es apropiado, entonces el cuadrado medio de los residuales de la tabla 5-9 es y los efectos principales pueden probarse comparando MSA y MSB con un estimador insesgado de
er,
MSResidUa'
30 30 10
50 100
(~
I~
I
150 200
o
-10
Yijk
-20 -30
I!f'" ,.
192
Tabla 5-9 Anlisis de varianza de un modelo de dos factores, una observacin por celda
Suma de cuadrados
a
Grados de libertad
?
Cuadrado medio
MSA MSB
L
i=l
b
Yi~
_r
ab
b
?
a-1 b-1
bL!2
a-1
L
j~l
Y.j
_r
?
(J2+ _ _ 1
aL,B~
b -1
ab
Sustraccin
MSResidunl
(J-
L(!,B)~
(a-1)(b-1)
Una prueba desarrollada por Tukey [111a] es til para determinar si est presente una interaccin. En el procedimiento se supone que el trmino de la interaccin tiene una forma particularmente simple, a saber,
('fJ)ij = Y' i fJ j donde y es una constante desconocida. Al definir as el trmino de la interaccin, puede usarse un enfoque de regresin para probar la significacin del trmino de la interaccin. En la prueba se hace la particin de la suma de cuadrados de los residuales en un componente con un solo grado de libertad debido a lana aditividad (interaccin) yun componente del error con (a -l)(b -1) -1 grados de libertad. En lo que a los clculos se refiere, se tiene
SSN
SS Error /[(a-1)(b-1)-1]
(5-25)
Si F o > Fa,
1,
(u _ 1)(b
_ 1) _ b
EJEMPLO 5 2
Las impurezas presentes en un producto qumico son afectadas por dos factores, la presin y la temperatura. En la tabla 5-10 se muestran los datos de una sola rplica de un experimento factorial. Las sumas de cuadrados son
193
25 5 3 1
9
30 4 1 1
6
35
6
4 3 13
40 3 2 1
6
45 5 3 2 10
YL
23 13
8
44 = 1..
2 SS = B a L.J.J
J=1
"y
b
L... ab
= L Ly~-L...
i=1
j=1
ab
= 166-129.07 = 36.93
y
SSResidual
= SST -
SS N -
-=--------------~--=--
=.:o......._---''---'-'-
= [20.00]2 = 0.0985 4059.42 y la suma de cuadrados del error es, por la ecuacin 5-24,
SS Error
= SSResidual -
El anlisis de varianza completo se resume en la tabla 5-11. El estadstico de prueba para la no aditividad es Fa = 0.0985/0.2716 = 0.36, de donde se concluye que no hay evidencia de interaccin en estos datos. Los efectos principales de la temperatura y la presin son significativos.
Para concluir esta seccin, se hace notar que el modelo factorial de dos factores con una observacin por celda (ecuacin 5-22) luce exactamente igual que el modelo de bloques completos aleatorizados
194
Tabla 5-11 Anlisis de varianza del ejemplo 52 Suma de Fuente de variacin cuadrados Temperatura 23.33 Presin 11.60 No aditividad 0.0985
Grados de libertad
2 4 1 7 14
Cuadrado medio
11.67 2.90 0.0985 0.2716
Valor P
0.0001 0.0042 0.5674
Error
Total
1.9015 36.93
(ecuacin 4-1). De hecho, la prueba de Tukey con un solo grado de libertad para la no aditividad puede aplicarse directamente para probar la presencia de una interaccin en el modelo de bloques aleatorizados. Sin embargo, es necesario recordar que las situaciones experimentales que llevan al modelo de bloques aleatorizados y al modelo factorial son muy diferentes. En el modelo factorial, todas las ab corridas se hacen de manera aleatoria, mientras que en el modelo de bloques aleatorizados la aleatorizacin slo ocurre dentro del bloque. Los bloques constituyen una restriccin sobre la aleatorizacin. Por lo tanto, la manera en que se corren los experimentos, as como la interpretacin de los dos modelos, es muy diferente.
5..4
Los resultados del diseo factorial de dos factores pueden ampliarse al caso general en que haya niveles del factor A, b niveles del factor B, e niveles del factor e, etc., dispuestos en un experimento factorial. En general, habr abe ... n observaciones totales si se hacen n rplicas del experimento completo. De nueva cuenta, observe que es necesario un mnimo de dos rplicas (n ~ 2) para determinar una suma de cuadrados debida al error si todas las interacciones posibles estn incluidas en el modelo. Cuando todos los factores del experimento son fijos, es sencillo formular y probar hiptesis acerca de los efectos principales y las interacciones. Para un modelo con efectos fijos, los estadsticos de prueba para cada efecto principal e interaccin pueden construirse dividiendo el cuadrado medio correspondiente del efecto o interaccin por el cuadrado medio del error. Todas estas pruebas F sern de una cola superior. El nmero de grados de libertad de cualquier efecto principal es el nmero de niveles del factor menos uno, y el nmero de grados de libertad de una interaccin es el producto del nmero de grados de libertad asociados con los componentes individuales de la interaccin. Por ejemplo, considere el modelo del anlisis de varianza de tres factores:
Yijkl
= ,t +r: i + f3 j
( f3 )
i. :: 1, 2, oo., a
] - 1, 2, . oo, b
l= 1,2, oo., n
(5-26)
Suponiendo queA, B y e son fijos, la tabla del anlisis de varianza se presenta en la tabla 5-12. Las pruebas F para los efectos principales y las interacciones se siguen directamente de los cuadrados medios esperados.
Tabla 5-12 La tabla del anlisis de varianza del modelo de tres factores con efectos fijos
Fuente de variacin Suma de cuadrados Grados de libertad Cuadrado medio Cuadrado medio esperado
Fo
R _MSA 0 - MS E
A B
C
SSA
a-1
a+
7
2:
SSB
b-'-l
a-+ a-+
7
2:
Fa =
MSB MS E
SSc
e-1
2:
AB AC BC ABC
Error
Total
SSAB
(a -l)(b -1)
MSAB
a 2+ en a 2+ bn
2:2: (Tf3)~
(a-1)(b -1)
SSAC
(a -l)(e -1)
MSAC
2:2: (ry)~
(a-1)(e-1)
SSBC
(b-1)(e-1)
MSBC
a+ a 2+ n
2:2:
MS ABC MSE
2:2:2: (Tf3Y)~k
a7
1-'
\O
U1
196
En general, los clculos del anlisis de varianza se efectuaran utilizando un paquete de software de estadstica. Sin embargo, en ocasiones resultan tiles las frmulas para calcular manualmente las sumas de cuadrados de la tabla 5-12. La suma de cuadrados total se encuentra de la manera acostumbrada como
SST
2:2:2:2: Yijkl--b a en
i=l j=l k=l 1=1
y.~.
(5-27)
Las sumas de cuadrados de los efectos principales se encuentran a partir de los totales de los factores A(yiJ, B(y JJ Y C(Y..k) de la siguiente manera: 1 a 2 2 (5-28) SS Aben LJ yi... -~ aben
=-"
1=1
ss = _1_ ~
B
J=l
aen LJ
(5-29)
(5-30)
Para calcular las sumas de cuadrados de las interacciones de dos factores, se necesitan los totales de las celdasA x B,A x Cy B x C. Con frecuenciaes til desplegar la tabla de los datos originales en tres tablas de dos vas para calcular estas cantidades. Las sumas de cuadrados se encuentran con 1 a b 2 SS AB = - LJ "" LJ l g.. -~-SS b A -SSB en 1=1 j=l a en
(5-31)
SSC
AC
= -b 2:2:
n
i=l k=l
(5-32)
y
SSBC
=-
2:2: l an
j=l k=l
= SSSubtotaleS(BC) -
B - SSc
(5-33)
Observe que las sumas de cuadrados de los subtotales de dos factores se encuentran a partir de los totales de cada tabla de dos vas. La suma de cuadrados de la interaccin de los tres factores se calcula a partir de los totales de las celdas (yijd de tres vas como
SS
ABC
=- 2:2:2:
a b
e
y.~.
SS
AB -
SS
AC - SSBC
(5-34a) (5-34b)
La suma de cuadrados del error puede encontrarse restando la suma de cuadrados de cada efecto principal e interaccin de la suma de cuadrados total o con
SSE
= SST -SSSubtotaleS(ABC)
(5-35)
197
EJEMPLO 5..3
El problema del embotellado de un refresco Una empresa embotelladora de refrescos est interesada en obtener alturas de llenado ms uniformes en las botellas que se fabrican en su proceso de manufactura. Tericamente, la mquina de llenado llena cada botella a la altura objetivo correcta, pero en la prctica, existe variacin en torno a este objetivo, y a la embotelladora le gustara entender mejor las fuentes de esta variabilidad y, en ltima instancia, reducirla. El ingeniero del proceso puede controlar tres variables durante el proceso de llenado: el porcentaje de carbonatacin (A), la presin de operacin en el llenador (B) y las botellas producidas por minuto o rapidez de lnea (e). Es sencillo controlar la presin y la rapidez, pero el porcentaje de carbonatacin es ms difcil de controlar durante la manufactura real debido a que vara con la temperatura. Sin embargo, para los fines de un experimento, el ingeniero puede controlar la carbonatacin en tres niveles: 10, 12 Y14 por ciento. Elige dos niveles para la presin (25 y 30 psi) Ydos niveles para la rapidez de lnea (200 y 250 bpm). El ingeniero decide correr dos rplicas de un diseo factorial con estos tres factores, haciendo las 24 corridas de manera aleatoria. La variable de respuesta observada es la desviacin promedio de la altura del llenado objetivo que se observa en una corrida de produccin de botellas con cada conjunto de condiciones. En la tabla 5-13 se muestran los datos que resultaron de este experimento. Las desviaciones positivas son alturas de llenado arriba del objetivo, mientras que las desviaciones negativas son alturas de llenado abajo del objetivo. Los nmeros encerrados en crculos de la tabla 5-13 son los totales de las celdas de tres vas Yijk.' La suma de cuadrados total corregida que se encuentra con la ecuacin 5-27 es
SST
= ~~~~
y'~.
Yijki -
aben
-1 O
C[\
c.v
-1
C[\
6 TbtalesA x B
Yij..
CD
21
i
~
15
O 2 3 7 9
20
c.v
'5'
\:!.../
f6\
1 1 6 5 10 11
(3)
@ @
34
-4
20
59
75 = Y....
54 TotalesA x C Yi.k. C
B
A
10 12 14
25 -5 4 22
30 1 16 37
200 -5 6 25
250 1 14 34
1
1
10 12 14
1\
198
CAPTULO 5
y las sumas de cuadrados de los efectos principales que se calculan con las ecuaciones 5-28, 5-29 Y5-30 son
SS
Carbonatacin
45.375
Para calcular las sumas de cuadrados de las interacciones de dos factores, se deben encontrar los totales de las celdas de dos vas. Por ejemplo, para encontrar la carbonatacin-presin o interaccinAB, se necesitan los totales de las celdas A x B {Yij.) que se muestran en la tabla 5-13. Utilizando la ecuacin 5-31, se encuentra que las sumas de cuadrados son
SS
AB
= - ~~ en ~LJ
=1 ]=1
Y~ -~-SS -SS
y.. aben
A
(75)2
= 5.250
Para la carbonatacin-rapidez o interaccinAC se usan los totales de las celdasA x C {YUe} que se muestran en la tabla 5-13 y la ecuacin 5-32: SS AC
= -b L L Y~k. n
i=1 k=l
yb - SSA a en
SS C 252.750- 22.042
La presin-rapidez o interaccin BC se encuentra con los totales de las celdas B x C {y Jk} que se muestran en la tabla 5-13 y la ecuacin 5-33: SSBC
aben
45.375- 22.042
199
..
La suma de cuadrados de la interaccin de los tres factores se encuentra con los totales de las celdas B X e {Yijk.}, los cuales estn encerrados en un crculo en la tabla 5-13. Por la ecuacin 5-34a se encuentra 1 a b e 2 Y.~. SSABC = Yijk. ----SSA -SSB -SSC -SSAB -SSAC -SSBC n ;=1 j=l k=l aben
X
LLL
?
= 1.083
por ltimo, al observar que
SSsublotaleS(ABC)
=-;; LLL
;=1 j=l k=l
2
2 y... 328125 Yik . ,. --b-= a en
se tiene
SSE
En la tabla 5-14 se resume el anlisis de varianza. Se observa que el porcentaje de carbonatacin, la presin de operacin y la rapidez de lnea afectan significativamente el volumen de llenado. El cociente F de la interaccin carbonatacin-presin tiene un valor P de 0.0558, lo cual indica cierta interaccin entre estos factores. El siguiente paso deber ser un anlisis de los residuales de este experimento. Se deja como ejercicio para el lector, pero se seala que la grfica de probabilidad normal de los residuales y los dems diagnsticos usuales no indican ningn motivo de preocupacin importante. Como ayuda para la interpretacin prctica de este experimento, en la figura 5-16 se grafican los tres efectos principales y la interaccinAB (carbonatacin-presin). Las representaciones de los efectos principales son slo grficas de los promedios de las respuestas marginales para los niveles de los tres factores. Observe que las tres variables tienen efectos principales positivos; es decir, el incremento de la variable mueve hacia arriba la desviacin promedio dell1enado objetivo. La interaccin entre la cabonatacin y la presin es bastante pequea, como lo indica la forma similar de las dos curvas de la figura 5-16d. Puesto que la empresa quiere que la desviacin promedio del llenado objetivo est cerca de cero, el ingeniero decide recomendar el nivel bajo de la presin de operacin (25 psi) y el nivel alto de la rapidez de lnea (250 bpm, que maximizar la rapidez de produccin). En la figura 5-17 se grafica la desviacin
Tabla 5-14 Anlisis de varianza del ejemplo 5-3
;'1 I
Fuente de variacin Porcentaje de carbonatacin (A) Presin de operacin (B) Rapidez de lnea (C) AB AC BC ABC Error Total
Suma de cuadrados
252.750 45.375 22.042 5.250 0.583 1.042 1.083 8.500 336.625
Grados de libertad
2 1 1 2 2 1 2 12 23
Cuadrado medio
126.375 45.375 22.042 2.625 0.292 1.042 0.542 0.708
Fa
178.412 64:059 31.118 3.706 0.412 1.471 0.765
Valor P
<0.0001 <0.0001 0.0001 0.0558 0.6713 0.2485 0.4867
200
o -o co
Qi
8 6
1::
"
~
1::
-o o 'O E
o.
4 2
4 2
O
-o o
/
25
Presin (B) bl
co O o;;
lI)
o "
-2
10
12
14
-2
10
o -o co
1::
8 6 6
-o o 'O 4 E
Qi
"
~
00
/
200 250
C Rapidez de linea (Cl
4 2
O
-2
10
12
14
el
Interaccin carbonatacin-presin
dI
Figura 5-16 Grficas de los efectos principales y la interaccin del ejemplo 5-30 a) Porcentaje de carbonatacin (A), b) presin (B), e) rapidez de lnea (e), d) interaccin carbonatacin-presino
promedio observada de la altura de llenado objetivo con los tres diferentes niveles de carbonatacin para este conjunto de condiciones de operacin. Ahora, el nivel de la carbonatacin no puede actualmente controlarse perfectamente en el proceso de manufactura, y la distribucin normal indicada con la lnea continua de la figura 5-17 es una aproximacin de la variabilidad de los niveles de carbonatacin que se
-o co
8
6
=co "0-oE
:::loa
"
1::
~I::
~'Cii
JEa
~lii E-o 0 0 ~o.
o.~
1::1::
co"
4 2
O
:Q o
co o;;
uu
lI)
"
-2
10
12
14
Figura 517 Desviacin promedio de la altura de llenado con rapidez alta y presin baja para diferentes niveles de carbonatacino
201
registran actualmente. Como el proceso es impactado por los valores del nivel de carbonatacin sacado de esta distribucin, la fluctuacin de las alturas de llenado ser considerable. Esta variabilidad de las alturas de llenado podra reducirse si la distribucin de los valores del nivel de carbonatacin siguieran la distribucin normal indicada con la lnea punteada de la figura 5-17. La reduccin de la desviacin estndar de la distribucin del nivel de carbonatacin se consigui finalmente mejorando el control de la temperatura durante la manufactura.
Se seal ya que si todos los factores de un experimento factorial son fijos, la construccin del estadstico de prueba es directa. El estadstico para probar cualquier efecto principal o interaccin se forma siempre dividiendo el cuadrado medio del efecto principal o la interaccin por el cuadrado medio del error. Sin embargo, si el experimento factorial incluye uno o ms factores aleatorios, la construccin del estadstico de prueba no siempre se hace de esta manera. Es necesario examinar los cuadrados medios esperados para determinar las pruebas correctas. La revisin completa de los experimentos con factores aleatorios se pospone hasta el captulo 12.
5~5
Se ha visto que puede resultar til ajustar una curva de respuesta a los niveles de un factor cuantitativo para que el experimentador cuente con una ecuacin que relacione la respuesta con el factor. Esta ecuacin podra utilizarse para hacer interpolaciones, es decir, para predecir la respuesta en niveles intermedios entre los factores, respecto de los que se utilizaron realmente en el experimento. Cuando al menos dos de los factores son cuantitativos, puede ajustarse una superficie de respuesta para predecir y con varias combinaciones de los factores del diseo. En general, se usan mtodos de regresin lineal para ajustar estos modelos a los datos experimentales. Este procedimiento se ilustra en la seccin 3-5.1 para un experimento con un solo factor. A continuacin se presentan dos ejemplos que incluyen experimentos factoriales. Se utilizar un paquete de software de computadora para generar los modelos de regresin. Para mayor informacin acerca del anlisis de regresin, referirse al captulo 10 y al material suplementario del texto de este captulo.
EJEMPLO 5~4
Considere el experimento que se describe en el ejemplo 5-1. El factor temperatura es cuantitativo y el tipo de material es cualitativo. Adems, hay tres niveles de la temperatura. Por consiguiente, puede calcularse un efecto de la temperatura lineal y uno cuadrtico para estudiar la forma en que la temperatura afecta la vida de la batera. En la tabla 5-15 se presenta la salida condensada de Design-Expert para este experimento, donde se supone que la temperatura es cuantitativa y el tipo de material es cualitativo. El anlisis de varianza de la tabla 5-15 indica que la fuente de variabilidad "modelo" se ha subdividido en varios componentes. Los componentes "A" Y"A 2" representan los efectos lineal y cuadrtico de la temperatura, y "B" representa el efecto principal del factor tipo de material. Recuerde que el tipo de material es un factor cualitativo con tres niveles. Los trminos "AB" y "A2B" son las interacciones delfactor temperatura lineal y cuadrtico con el tipo de material. Los valores P indican queA 2 y AB no son significativos, mientras que el trminoA 2B es significativo. Con frecuencia se piensa en eliminar los trminos o factores no significativos del modelo, pero en este
P"
"
Tabla 5-15
Response: Life in hr ANOVA for Response Surface Reduced Cubic Model Analysis of variance table [Partial sum of squares] Sum of Mean F Squares DF Square Source Value
Prob> F
Model
A
59416.22
Na
Residual Lack of Fit
Pure Error
Aa
A2
7298.69 18230.75
0.000 18230.75
8 1 2 1 2 2 27
O 27
7427.03
39042.67
5341.86
76.06
<0.0001
<0.0001 0.0020 0.7398 0.1991 0.0106
significant
1157.54 3649.35 675.21 675.21 R-Squared Adj R-Squared Pred R-Squared Adeq Precision
1.71
5.40
DF
Standard Error
1 1 1 1 1 1 1 1 1
1.00 1.00
Final Equation in Terms of Coded Factors: Life = +107.58 -40.33 *A -50.33 *B[1] +12.17 *B[2] -3.08 *N +1.71 *AB[1] -12.79 *AB[2] +41.96 *NB[1] -14.04 *NB[2] Final Equation in Terms of Actual Factors: Material Type 1 Life = +169.38017 -2.48860 *Temp +0.012851 *Temp 2 Material Type 2 Life = +159.62397 -0.17901 *Temp +0.41627 *Temp 2 Material Type 3 Life = +132.76240 +0.89264 *Temp -0.43218 *Temp 2
203
caso eliminar A 2 YAB Yconservar A 2B resultar en un modelo que no es jerrquico. El priucipio de jerarqua establece que si un modelo contiene un trmino de orden superior (tal comoA 2B), deber contener tambin todos los trminos de orden inferior que lo componen (A 2 y AB en este caso). La jerarqua promueve un tipo de consistencia interna en un modelo, y muchos constructores de modelos estadsticos siguen rigurosamente este principio. Sin embargo, la jerarqua no es siempre una buena idea, y muchos modelos en realidad funcionan mejor como ecuaciones de prediccin que no incluyen los trminos no significativos que propone la jerarqua. Para mayor informacin, ver el material suplementario del texto de este captulo. La salida de computadora incluye tambin estimaciones de los coeficientes del modelo y una ecuacin para la prediccin final de la vida de la batera en trminos de factores codificados. En esta ecuacin, los niveles de la temperatura sanA = -1, 0, + 1, respectivamente, cuando la temperatura est en los niveles bajo, intermedio y alto (15,70, 125F). Las variables B[l] YB[2] son variables iudicadoras codificadas que se definen de la siguiente manera:
---------,-----
B[l] B[2]
Hay tambin ecuaciones para la prediccin de la vida de la batera en trminos de los niveles de los factores reales. Observe que como el tipo de material es un factor cualitativo, hay una ecuacin para la vida predicha como una funcin de la temperatura para cada tipo de material. En la figura 5-18 se muestran
188
146
104
62
97.50 125.00
Figura 5-18 La vida predicha como una funcin de la temperatura para los tres tipos de material, ejemplo 5-4.
ffr""!
204
las curvas de respuesta generadas por estas tres ecuaciones de prediccin. Comprense con la grfica de la interaccin de dos factores para este experimento de la figura 5-9.
Si varios de los factores de un experimento factorial son cuantitativos, puede usarse una superficie de respuesta para modelar la relacin entre y y los factores del diseo. Adems, los efectos de los factores cuantitativos pueden representarse con efectos polinomiales con un solo grado de libertad. De manera similar, es posible hacer la particin de las interacciones de factores cuantitativos en componentes de interaccin con un solo grado de libertad. Esto se ilustra en el ejemplo siguiente.
EJEMPLO
5~5
Se piensa que la vida efectiva de una herramienta de corte instalada en una mquina controlada numricamente se afecta por la velocidad de corte y el ngulo de la herramienta. Se seleccionan tres velocidades y tres ngulos, y se lleva a cabo un experimento factorial con dos rplicas. En la tabla 5-16 se muestran los datos codificados. Los nmeros de las celdas encerrados en crculos son los totales de las celdas {yij)' En la tabla 5-17 se presenta la salida condensada de Design-Expen para este ejemplo. Los trminos A y A 2 son los efectos lineal y cuadrtico del ngulo de la herramienta, y By B 2 son los efectos lineal y cuadrtico de la velocidad. Los trminosAB,A 2B,AB 2 y A 2B 2 representan los componentes lineal x lineal, cuadrtico x lineal, lineal x cuadrtico y cuadrtico x cuadrtico de la interaccin de dos factores. Aun cuando hay algunos valores P grandes, se han conservado todos los trminos del modelo para respetar la jerarqua. En la ecuacin de prediccin expresada en factores codificados se utilizan los niveles -1, OY+ 1 de A y B para representar los niveles bajo, intermedio y alto, respectivamente, de estos factores. En la figura 5-19 se presenta la grfica de contorno de la superficie generada por la ecuacin de prediccin de la vida de la herramienta. El examen de esta superficie de respuesta indica que la vida mxima de la herramienta se consigue con velocidades de corte de alrededor de 150 rpm y ngulos de la herramienta de 25. La grfica de la superficie de respuesta tridimensional de la figura 5-20 proporciona en esencia la misma informacin, pero ofrece una perspectiva diferente, y en ocasiones ms til, de la superficie de respuesta de la vida de la herramienta. La exploracin de las superficies de respuesta es un aspecto muy importante del diseo experimental, el cual se estudiar en detalle en el captulo 11.
Tabla 5-16 Datos del experimento de la vida de la herramienta de corte ngulo de la herramienta (grados) 15 20 25
Y.j.
Yi..
@ (1) @
-3 O
1
@
G)
3
4 6 O -1 14
0)
@
-1 16
9
3
5 6 12
24 = Y...
s-s
Tabla 5-17 Salida de Design-Expert para el ejemplo S-S
205
Response: Life in Hours ANOVA for Response Surface Reduced Order 4 Model Analysis of variance table [Partial sum of squares] Sum of Mean F DF Square Value Squares Source
Prob> F
Model
A
A2 B2
AB
NB
Residual
AB2 A 2 B2
111.00 49.00 16.00 0.000 1.33 8.00 2.67 42.67 8.00 13.00 0.000 13.00 124.00 1.20 1.33 90.14 52.00
Coefficient Estimate
8 1 1 1 1
1 1 1 1 9 O 9 17
13.87 49.00 16.00 0.00r:! 1.33 8.00 2.67 42.67 8.00 1.44
1.44
significant
1 1 1 1 1 1 1 1 1
Final Equation in Terms of Coded Factors: Life = +2.00 +3.50 *A +2.00 *8 +0.000 *N +1.00 *8 2 -1.00 *A *8 -1.00 *N *8 -4.00 *A *82 -3.00 *A2 *8 2 Final Equation in Terms of Actual Factors: Life = -1068.00000 +136.30000 *Tool Angle +14.48000 *Speed -4.08000 *Tool Angle2 . -0.049600 *Speed 2 -1.86400 *Tool Angle *Speed +0.056000 *Tool Angle 2 *Speed +6.40000E-003 *Tool Angle *Speed2 -1.92000E-004 *Tool Angle 2 *Speed2
175.00
2 2 ......,...------...::--------.....f - - - - . . , - - -__--'<;;:==:;--. .
162.50
ro
>
o ID
137.50
125.00 2 15.00
._-L
--l...~"__
~t-
.L__"""'"
22.50
17.50
20.00
ngulo de la herramienta
Figura 519 Grfica de contorno bidimensional de la superficie de respuesta de la vida de la herramienta del ejemplo 5-5.
5.5
:>
1:l
ro
Velocidad
ngulo de la herramienta
125.00
15.00
Figura 520
ejemplo 5-5.
206
207
5,6
Se han revisado los diseos factoriales en el contexto de un experimento completamente aleatorizado. En ocasiones no es factible o prctico hacer la aleatorizacin completa de todas las corridas de un diseo factorial. Por ejemplo, la presencia de un factor perturbador puede hacer necesario que el experimento se corra en bloques. Los conceptos bsicos de la formacin de bloques se analizaron en el captulo 4 en el contexto de un experimento con un solo factor. Ahora se indica la forma en que la formacin de bloques puede incorporarse en un diseo factorial. Otros aspectos de la formacin de bloques en diseos factoriales se presentan en los captulos 7, 8, 9 Y 13. Considere un experimento factorial con dos factores (A y B) Y11 rplicas. El modelo estadstico lineal de este diseo es i = 1, 2, a (5-36) Yijk = p,+7: +f3 j +(7:f3)ij +cijk j= 1,2, , b { k=1,2, ,11
o ,
donde 7:, f3j Y (7:f3)ij representan los efectos de los factores A, B y la interaccinAB, respectivamente. Suponga ahora que para realizar este experimento se necesita una materia prima particular. Esta materia prima est disponible en lotes cuyo tamao no es suficiente para permitir que se corran todas las abll combinaciones de los tratamientos con el mismo lote. Sin embargo, si un lote contiene material suficiente para hacer ab observaciones, entonces un diseo alternativo es correr cada una de las 11 rplicas utilizando un lote separado de materia prima. Por consiguiente, los lotes de materia prima representan una restriccin sobre la aleatorizacin o un bloque, y se corre una sola rplica de un experimento factorial completo dentro de cada bloque. El modelo de los efectos para este nuevo diseo es i : 1, 2, , a o (5-37) Yijk = p,+7: +f3j +(7:f3)ij +Ok +cijk J -1,2, , b { k= 1, 2, ,11 donde Ok es el efecto del bloque k-simo. Desde luego, dentro de un bloque el orden en que se corren las combinaciones de los tratamientos est completamente aleatorizado. En el modelo (ecuacin 5-37) se supone que la interaccin entre los bloques y los tratamientos es insignificante. Anteriormente se estableci el mismo supuesto en el anlisis de diseos de bloques aleatorizados. Si estas interacciones existen, no pueden separarse del componente del error. De hecho, el trmino del error en este modelo se compone en realidad de las interacciones (7:0)k' (f30)jk y (7:f30)ijk' En la tabla 5-18 se describe el anlisis de varianza. La disposicin tiene un gran parecido con la de un diseo factorial, con la suma de cuadrados del error reducida por la suma de cuadrados de los bloques. En lo que a los clculos se refiere, la suma de cuadrados de los bloques se encuentra como la suma de cuadrados entre los totales de los n bloques {Yook}' En el ejemplo anterior, la aleatorizacin se restringi al interior de un lote de materia prima. En la prctica, una diversidad de fenmenos pueden producir restricciones sobre la aleatorizacin, como el tiempo, los operadores, etc. Por ejemplo, si el experimento factorial completo no pudo correrse en un da, entonces el experimentador podra correr una rplica completa el da 1, una segunda rplica el da 2, etc. Por consiguiente, cada da sera un bloque.
EJEMPLO 5,6
. Un ingeniero estudia los mtodos para mejorar la capacidad para detectar objetivos en el campo de accin de un radar. Dos factores que el ingeniero considera importantes son la cantidad de ruido de fondo, . o "desorden de terreno", en el campo de accin del radar y el tipo de filtro colocado sobre la pantalla. Se
208
Tabla 5-18 Anlisis de varianza de un diseo factorial de dos factores en bloques completos aleatorizados Fuente de Suma de Grados de Cuadrado variacin cuadrados libertad medio esperado 1 2 _ " y 2 -~ (/+aba~ n-1 Bloques ab L.J .. k abn k
A
B
_ " y2_~
bn.L2
L.
abn
2
a-1 b-1
_ " y2_~
.j.
)
1 an L.J
abn
AB
(a -l)(b -1)
(ab -l)(n -1)
Error Total
,
"""
2 Yijk -
abn
y~.
abn-1
disea un experimento utilizando tres niveles del desorden de terreno y dos tipos de filtro. Estos factores se considerarn fijos. El experimento se lleva a cabo seleccionando al azar una combinacin de los tratamientos (nivel del desorden de terreno y tipo de filtro) e introduciendo despus una seal que representa el objetivo en el campo de accin del radar. La intensidad de este objetivo se incrementa hasta que el operador lo observa. Entonces se mide el nivel de intensidad en el momento de la deteccin como la variable de respuesta. Debido a la disponibilidad de los operadores, es conveniente seleccionar un operador y mantenerlo en el sistema hasta que se han realizado todas las corridas necesarias. Adems, los operadores difieren en su habilidad y capacidad para operar el sistema. Por consiguiente, parece lgico usar los operadores como bloques. Se seleccionan cuatro operadores al azar. Una vez que se ha elegido a un operador, el orden en que se corren las seis combinaciones de los tratamientos se determina aleatoriamente. Por lo tanto, se tiene una corrida de un experimento factorial 3 X 2 en un bloque completo aleatorizado. Los datos se presentan en la tabla 5-19. El modelo lineal para este experimento es
Yijk
= 1, 2, 3
j= 1, 2
k=1,2,3,4
donde r: representa el efecto del desorden de terreno, f3j representa el efecto del tipo de filtro, (r:f3)ij es la interaccin, Ok es el efecto del bloque y Cjk es el componente NID(O, cr) del error. Las sumas de cuadrados del desorden de terreno, del tipo de filtro y de su interaccin se calculan de la manera usual. La suma de
Tabla 5-19 Nivel de intensidad al detectarse el objetivo Operadores (bloques) Tipo de filtro Desorden de terreno Bajo Intermedio Alto 90 102 114 86 87 93 96 106 112 84 90 91 100 105 108
92 97 95 92 96 98
1 1 2 1
2 2 1
3 2 1
4 2 81 80 83
209
Tabla 5-20 Anlisis de varianza del ejemplo 5-6 Suma de cuadrados Fuente de variacin r>esorden de terreno (G) Tipo de filtro (F) GF Bloques Error Total 335.58 1066.67 71.08 402.17 166.33 2047.83
Grados de libertad 2 1 2 3 15 23
cuadrados debida a los bloques se encuentra a partir de los totales de los operadores {Y..k} de la siguiente manera: 1 11 2 SS -_~ 2_~ , Bloques - ab L., Y.. k abn
k=l
En el caso de dos restricciones sobre la aleatorizacin, cada una con p niveles, si el nmero de combinaciones de los tratamientos en un diseo factorial de k factores es exactamente igual al nmero de niveles de la restriccin, es decir, si p = ab ... m, entonces el diseo factorial puede correrse en un cuadrado latino p x p. Por ejemplo, considere una modificacin del experimento de la deteccin del objetivo en el radar del ejemplo 5-6. Los factores de este experimento son el tipo de filtro (dos niveles) y el desorden de terreno (tres niveles), y los operadores se consideran como bloques. Suponga ahora que debido a limitaciones de tiempo, slo pueden hacerse seis corridas por da. Por lo tanto, los das se convierten en una segunda restriccin sobre la aleatorizacin, lo cual resulta en un diseo del cuadrado latino 6 x 6, como se muestra en la tabla 5-21. En esta tabla se han usado las letras minsculas!; y gj para representar los nivelesi-simo yj-simo del tipo de filtro y del desorden de terreno, respectivamente. Es decir,fgz representa el filtro tipo 1 y un desorden de terreno intermedio. Observe que se necesitan ahora seis operadores, en lugar de los cuatro del experimento original, por lo que el nmero de combinaciones de tratamientos en el diseo factorial 3 x 2 es exactamente igual al nmero de niveles de restriccin. Adems, en este diseo cada operador se usara una sola vez en cada da. Las letras latinas A, B, C, D, E YF representan las 3 x 2 =6 combinaciones de tratamientos del diseo factorial como sigue:A =fgl,B = fgz, C = fg3,D = f'l!Sl' E :::: f'l!Sz y F = f'l!S3'
210
CAPTULO 5
Tabla 5-21 El experimento de la deteccin del radar realizado en un cuadrado latino 6 X 6 Operador 6 3 4 5 Da 2 1 F(fzg3 = 90) D(fzgl = 81) E(fzgz = 88) B(flgz = 106) C(flg3 = 108) 1 A(flgl = 90) F(fzg3 = 83) E(fzgz = 86) D(fzgl = 84) B(flgZ = 105) 2 C(flg3 = 114) A(flgl = 96) D(fzgl = 85) F(fzg3 = 95) A(flgl = 92) C(fg3 = 104) 3 B(flgZ = 102) E(fzgz = 90) B(flgz = 96) C(flg3 = 110) F(fzg3 = 91) E(fzgz = 887) D(fzg = 84) A(fg = 100) 4 E(fzgz = 80) A(flgl = 90) B(fgz = 98) F(fzg3 =93) C(flg3 = 112) D(fzg = 92) 5 C(fg3 = 98) B(flgz = 100) A(flgl = 92) D(fzgl = 86) F(fzg3 = 91) E(fzgz = 97) 6 Los cinco grados de libertad entre las seis letras latinas corresponden a los efectos principales del tipo de filtro (un grado de libertad), el desorden de terreno (dos grados de libertad) y su interaccin (dos grados de libertad). El modelo estadstico lineal de este diseo es
i. : 1, 2, ..., 6 J-1,2,3 k = 1, 2 {
Yijkl
(5-38)
1= 1, 2, ...,6
donde 'l"j YfJk son los efectos del desorden de terreno y del tipo de filtro, respectivamente, y a y el representan las restricciones sobre la aleatorizacin de los das y los operadores, respectivamente. Para calcular las sumas de cuadrados, la siguiente tabla de dos vas de los totales de los tratamientos es til: Desorden de terreno Bajo Intermedio Alto
Y..k.
Adems, los totales de los renglones y las columnas son Renglones (Y.j/d): Columnas (yijk.):
563 572 568 579 568 597 568 530 565 561 564 557
En la tabla 5-22 se resume el anlisis de varianza. Se ha agregado una columna a esta tabla que indica cmo se determina el nmero de grados de libertad de cada suma de cuadrados. Tabla 5-22 Anlisis de varianza del experimento de la deteccin en el radar realizado como un diseo factorial 3 X cuadrado latino Frmula general Fuente de Suma de para los grados Cuadrado Grados de medio Fo variacin cuadrados libertad de libertad Desorden de terreno, G a-1 285.75 28.86 571.50 2 Tipo de filtro, F 1469.44 b-1 1469.44 148.43 1 63.37 6.40 GF 126.73 2 (a -l)(b -1) Das (renglones) ab-1 0.87 4.33 5 ab-1 85.60 Operadores 428.00 5 (columnas) (ab -l)(ab - 2) 9.90 Error 198.00 20 (ab)Z-l Total 2798.00 36 2en un
. ".'i., ! \I
'.'i
5-7 PROBLEMAS
211
5~7
PROBLEMAS
Se estudia el rendimiento de un proceso qumico. Se piensa que las dos variables ms importantes son la presin y la temperatura. Se seleccionan tres niveles de cada factor y se lleva a cabo un experimento factorial con dos rplicas. Los datos del rendimiento son:
5-1.
5-2.
a) Analizar los datos y sacar conclusiones. Utilizar a = 0.05. b) Construir las grficas de los residuales apropiadas y comentar la adecuacin del modelo. e) Bajo qu condiciones debera operarse este proceso? Un ingeniero sospecha que el acabado superficial de una pieza metlica se afecta por la velocidad de alimentacin y la profundidad de corte. Selecciona tres velocidades de alimentacin y cuatro profundidades de corte. Despus realiza un experimento factorial y obtiene los siguientes datos:
0.25
0.30
0.15 74 64 60 92 86 88 99 98 102
Profundiad de corte (pulg) 0.18 0.20 0.25 79 82 99 68 88 104 73 92 96 98 99 104 104 108 110 88 95 99 104 108 114 99 110 111 95 99 107
5-3. 5-4.
a) Analizar los datos y sacar conclusiones. Utilizar a = 0.05. b) Construir las grficas de los residuales apropiadas y comentar la adecuacin del modelo. e) Obtener estimaciones puntuales del acabado superficial promedio con cada velocidad de alimentacin. d) Encontrar los valores P para las pruebas del inciso a. Para los datos del problema 5-2, calcular la estimacin de un intervalo de confianza de 95% de la diferencia media en la respuesta para velocidades de alimentacin de 0.20 y 0.25 pulg/min. En un artculo de Industrial Quality Control se describe un experimento para investigar el efecto del tipo de cristal y del tipo de fsforo sobre la brillantez de un cinescopio. La variable de respuesta es la corriente (en microamperes) necesaria para obtener un nivel de brillantez especfico. Los datos son los siguientes:
212
CAPTULO 5
Tipo de cristal
1
Tipo de fsforo 123 280 300 290 290 310 285 285 295 290 230 260 220 235 240 225 240 235 230
a)
5-5.
Existe algn indicio de que alguno de los dos factores influye en la brillantez? Utilizar a = 0.05. b) Los dos factores interactan? Utilizar a = 0.05. e) Analizar los residuales de este experimento. Johnson y Leone (Statisties and Expelimental Design in Engineeling and the Physieal Scienees, John Wiley) describen un experimento realizado para investigar la torcedura de placas de cobre. Los dos factores estudiados fueron la temperatura y el contenido de cobre de las placas. La variable de respuesta fue una medida de la cantidad de torcedura. Los datos fueron los siguientes: Contenido de cobre (%) Temperatura (OC) 50 75 100 125 40 17,20 12, 9 16, 12 21, 17 60 16,21 18,13 18,21 23,21 80 24,22 17,12 25,23 23,22 100 28,27 27,31 30,23 29,31
5-6.
a) Existe algn indicio de que alguno de los dos factores afecta la cantidad de torcedura? Hay alguna interaccin entre los factores? Utilizar a = 0.05. b) Analizar los residuales de este experimento. e) Graficar la torcedura promedio con cada nivel del contenido de cobre y compararlas con una distribucin t con la escala apropiada. Describir las diferencias en los efectos de los diversos niveles del contenido de cobre sobre la torcedura. Si es deseable una torcedura baja, qu nivel del contenido de cobre debera especificarse? d) Suponga que no es sencillo controlar la temperatura en el medio ambiente donde van a usarse las placas de cobre. Este hecho modifica la respuesta que se dio para el inciso e? Se estudian los factores que influyen en la resistencia a la ruptura de una fibra sinttica. Se eligen cuatro mquinas de produccin y tres operadores y se corre un experimento factorial utilizando fibra del mismo lote de produccin. Los resultados son los siguientes:
Mquina Operador 1 2 3 1 109 110 110 112 116 114 2 110 115 110 111 112 115 3 108 109 111 109 114 119 4 110 108 114 112 120 117
.
5-7 PROBLEMAS
213
5-7.
a) Analizar los datos y sacar conclusiones. Utilizar a = 0.05. b) Construir las grficas de los residuales apropiadas y comentar la adecuacin del modelo. Un ingeniero mecnico estudia la fuerza de empuje desarrollada por una taladradora. Sospecha que la velocidad de taladrado y la velocidad de alimentacin del material son los factores ms importantes. Selecciona cuatro velocidades de alimentacin y usa una velocidad de taladrado alta y otra baja elegidas para representar las condiciones de operacin extremas. Obtiene los siguientes resultados. Analizar los datos y sacar conclusiones. Utilizar a = 0.05.
Velocidad de alimentacin 0.015 0.030 0.045 0.060 2.70 2.60 2.45 2.75 2.78 2.49 2.72 2.86 2.83 2.85 2.86 2.94 2.88 2.86 2.80 2.87
5-8.
Se realiza un experimento para estudiar la influencia de la temperatura de operacin y tres tipos de placas de recubrimiento de cristal, en la salida luminosa de un tubo de osciloscopio. Se registraron los siguientes datos:
Tipo de cristal 1
100 580 568 570 550 530 579 546 575 599
Temperatura 125 1090 1087 1085 1070 1035 1000 1045 1053 1066
150 1392 1380 1386 1328 1312 1299 867 904 889
5-9. 5-10.
a) Utilizar a = 0.05 en el anlisis. Existe un efecto de interaccin significativo? El tipo de cristal o la temperatura afectan la respuesta? A qu conclusiones se llega? b) Ajustar un modelo apropiado que relacione la salida luminosa con el tipo de cristal y la temperatura. e) Analizar los residuales de este experimento. Comentar la adecuacin de los modelos que se hayan considerado. Considere el experimento del problema 5-1. Ajustar un modelo apropiado a los datos de la respuesta. Usar este modelo como gua para las condiciones de operacin del proceso. Usar la prueba de Tukey para determinar los niveles del factor presin que son significativamente diferentes para los datos del problema 5-1.
,
.1
214
5-11.
Se llev a cabo un experimento para determinar si la temperatura de coccin o la posicin en el horno afectaban el espesor del endurecimiento de un nodo de carbono. Los datos se presentan a continuacin: Temperatura ("C) 825 1063 1080 1043 988 1026 1004
Posicin 1
5-12.
5-13.
Suponga que se considera que no existe ninguna interaccin. Desarrollar el modelo estadstico. Realizar el anlisis de varianza y probar las hiptesis sobre los efectos principales. Qu conclusiones pueden sacarse? Comentar la adecuacin del modelo. Deducir los cuadrados medios esperados para un anlisis de varianza de dos factores con una observacin por celda, suponiendo que ambos factores son fijos. Considere los siguientes datos de un experimento factorial de dos factores. Analizar los datos y sacar conclusiones. Realizar una prueba de no aditividad. Utilizar a = 0.05. Factor de la columna 3 2 39 20 37 36 22 33
1 36 18 30
4 32 20 34
Se piensa que la resistencia al corte de un adhesivo se afecta por la presin de aplicacin y la temperatura. Se realiza un experimento factorial en el que ambos factores se suponen fijos. Analizar los datos y sacar conclusiones. Realizar una prueba de no aditividad. Temperatura ("F) 250 260 270 9.60 9.69 8.43 9.98 11.28 10.10 11.01 10.44 9.00 9.57 9.03 9.80
Yijk
Observe que hay una sola rplica. Suponiendo que los tres factores son fijos, desarrollar la tabla del anlisis de varianza, incluyendo los cuadrados medios esperados. Qu se usara como "error experimental" para probar las hiptesis?
..
5-7 PROBLEMAS
215
5-16.
El porcentaje de la concentracin de madera dur& en la pulpa bruta, la presin de la cuba y el tiempo de coccin de la pulpa se investigan en cuanto a sus efectos sobre la resistencia del papel. Se seleccionan tres niveles de la concentracin de madera dura, tres niveles de la presin y dos tiempos de coccin. Se lleva a cabo un experimento factorial con dos rplicas, obtenindose los siguientes datos:
Tiempo de coccin 3.0 horas Presin 400 196.6 196.0 198.5 197.2 197.5 196.6 500 197.7 196.0 196.0 196.9 195.6 196.2 650 199.8 199.4 198.4 197.6 197.4 198.1
Tiempo de coccin 4.0 horas Presin 400 198.4 198.6 197.5 198.1 197.6 198.4 500 199.6 200.4 198.7 198.0 197.0 197.8 650 200.6 200.9 199.6 199.0 198.5 199.8
I!
a) Analizar los datos y sacar conclusiones. Utilizar a = 0.05. b) Construir las grficas de los residuales apropiadas y comentar la adecuacin del modelo. e) B&jo qu conjunto de condiciones deber& operrse este proceso? Por qu? 5-17. _ El dep&rtamento de control de calidad de una planta de acabados textiles estudia el efecto de varios factores sobre el teido de una tela de algodn y fibr&s sintticas utilizada para fabricar camisas para caballero. Se seleccionaron tres operadores, tres duraciones del ciclo y dos temperaturas, y se tieron tres ejemplares pequeos de la tela b&jo cada conjunto de condiciones. La tela terminada se compar con un patrn, y se le asign una evaluacin numrica. Los datos se presentan enseguida. Analizar los datos y sacar conclusiones. Comentar la adecuacin del modelo.
350 3 31 32 29 33 1 24 23 28 37 39 35 26 29 25 2 38 36 35 34 38 36 36 37 34
Operador
Operador 3 34 36 39 34 36 31 28 26 24
50
34
35 26 27 25
60
5-18.
5-19.
Suponga que en el problema 5-1 quiere rechazarse la hiptesis nula con una alta probabilidad si la diferencia entre el verdadero rendimiento promedio con dos presiones cualesquiera es mayor que 0.5. Si una estim&cin previa razonable de la desviacin estndar del rendimiento es 0.1, cuntas rplicas debern correrse? Se estudia el rendimiento de un proceso qumico. Los dos factores de inters son la temperatura y la presin. Se seleccionan tres niveles de cada factor; sin embargo, slo es posible hacer nueve corridas en un da. El ex-
216
perimentador corre una rplica completa en cada da. Los datos se muestran en la tabla siguiente. Analizar los datos, suponiendo que los das son bloques.
Da 2 Presin 270 85.8 89.0 91.3 250 86.1 89.4 91.7 260 85.2 89.9 93.2 270 87.3 90.3 93.7
Considere los datos del problema 5-5. Analizar los datos, suponiendo que las rplicas son bloques. Considere los datos del problema 5-6. Analizar los datos, suponiendo que las rplicas son bloques. En un artculo de JOllrnal ofTesting and Evalllation (vol. 16, no. 2, pp. 508-515) se investigaron los efectos de la frecuencia de carga cclica y de las condiciones ambientales sobre el crecimiento de las fisuras por fatiga con un esfuerzo constante de 22 MPa para un material particular. Los datos del experimento se presentan abajo (la respuesta es el ndice de crecimiento de las fisuras por fatiga):
Medio ambiente Frecuencia Aire 2.29 2.47 2.48 2.12 2.65 2.68 2.06 2.38 2.24 2.71 2.81 2.08
10
0.1
HzO 2.06 2.05 2.23 2.03 3.20 3.18 3.96 3.64 11.00 11.00 9.06 11.30
HzO salada 1.90 1.93 1.75 2.06 3.10 3.24 3.98 3.24 9.96 10.01 9.36 10.40
5-23.
a) Analizar los datos de este experimento (utilizar a = 0.05). b) Analizar los residuales. e) Repetir los anlisis de los incisos a y b utilizando ln(y) como la respuesta. Comentar los resultados. En un artculo de IEEE Transactions on Electron Devices se describe un estudio sobre el dopado del polisilicia. El experimento que se muestra a continuacin es una variante de dicho estudio. La variable de respuesta es la corriente fundamental.
Dopado del polisilicio (iones)
1
X
lOzo
10z0
Temperatura de revenido ("C) 900 950 1000 4.60 10.15 11.01 4.40 10.20 10.58 3.20 9.38 10.81 3.50 10.02 10.60
5-7 PROBLEMAS
217
a) Existe evidencia (cona = 0.05) que indique que el nivel de dopado del polisilicio o la temperatura de fijacin afecten la corriente fundamental? b) Construir representaciones grficas como ayuda para interpretar este experimento. e) Analizar los residuales y comentar la adecuacin del modelo. d) mI modelo
'.
\~
:K
Diseo factorial 2k
,:
"
6~1
INTRODUCCIN
Los diseos factoriales se usan ampliamente en experimentos que incluyen varios factores cuando es necesario estudiar el efecto conjunto de los factores sobre una respuesta. En el captulo 5 se presentaron los mtodos generales para el anlisis de los diseos factoriales. Sin embargo, hay varios casos especiales del diseo factorial general que son importantes debido a su uso generalizado en el trabajo de investigacin y porque constituyen las bases de otros diseos de gran valor prctico. El ms importante de estos casos especiales es el de k factores, cada uno con slo dos niveles. Estos niveles pueden ser cuantitativos, como dos valores de temperatura, presin o tiempo, o bien cualitativos, como dos mquinas, dos operadores, los niveles "alto" y "bajo" de un factor, o quiz la presencia o ausencia de un factor. Una rplica completa de este diseo requiere 2 x 2 x ... x 2 = 2k observaciones y se le llama diseo factorial 2k Este captulo se enfoca en esta clase en extremo importante de diseos. A lo largo del captulo se supone que 1) los factores son fijos, 2) los diseos son completamente aleatorizados y 3) se satisfacen los supuestos de normalidad usuales. El diseo 2k es de particular utilidad en las etapas iniciales del trabajo experimental, cuando probablemente se estn investigando muchos factores. Este diseo proporciona el menor nmero de corridas con las que pueden estudiarse k factores en un diseo factorial completo. Por consiguiente, estos diseos se usan ampliamente en los experimentos de tamizado o seleccin de factores. Puesto que slo hay dos niveles para cada factor, se supone que la respuesta es aproximadamente lineal en el rango elegido para los niveles de los factores. En muchos experimentos de tamizado de factores, cuando se acaba de iniciar el estudio del proceso o sistema, este supuesto suele ser razonable. En la seccin 6-6 se presentar un mtodo simple para verificar este supuesto, y se analizarn las acciones que debern emprenderse en caso de que se viole.
218
..
I
6-2 EL DISEO 22
219
6,2
EL DISEO 22
I I
El primer diseo de la serie 2k es el que slo tiene dos factores, por ejemplo,A y B; cada uno se corre a dos niveles. A este diseo se le llama diseo factorial 22 Los niveles de los factores pueden denominarse arbitrariamente "bajo" y "alto". Como un ejemplo, considere la investigacin del efecto de la concentracin del reactivo y de la cantidad del catalizador sobre la conversin (rendimiento) de un proceso qumico. Sea la concentracin del reactivo el factor A, y sean 15 y 25 por ciento los dos niveles de inters. El catalizador es el factor B, con el nivel alto denotando el uso de 2 libras del catalizador y el nivel bajo denotando el uso de 1 libra. Se hacen tres rplicas del experimento, y los datos son los siguientes:
Factor B Rplica
1
II III
+ +
+ +
Combinacin de tratamientos A bajo, B bajo A alto, B bajo A bajo, Balto A alto, Balto
Total
28 36 18 31
25 32 19 30
27 32 23 29
80 100 60 90
Las combinaciones de los tratamientos se ilustran grficamente en la figura 6-1. Por convencin, el efecto de un factor se denota con una letra mayscula latina. Por 10 tanto, "A" se refiere al efecto del factorA, "B" al efecto del factor B, y "AB" alainteraccinAB. En el diseo 22, los niveles bajoy alto deAy B se denotan por "-" y "+", respectivamente, en los ejesA y B. Por lo tanto, - en el ejeA representa el nivel bajo de la concentracin (15%), mientras que + representa el nivel alto (25%), Y- en el eje B representa el nivel bajo del catalizador, mientras que + denota el nivel alto. Las cuatro combinaciones de tratamientos suelen representarse con letras minsculas, como se muestra en la figura 6-1. Por la figura se observa que el nivel alto de cualquiera de los factores en una combinacin de tratamientos se denota por la letra minscula correspondiente y que el nivel bajo de un factor .en una combinacin de tratamientos se denota por la ausencia de la letra respectiva. Por lo tanto, a repreb =60
Alto + (18 (2 libras)
+ 19 + 23)
ab = 90 (31 + 30 + 29)
(1) = 80 + 25 + 27)
I
Bajo (15%) Concentracin del reactivo,
+
Alto (25%)
"'1"
220
CAPTULO 6 DISEO FACTORIAL 21<
L,
senta la combinacin de tratamientos conA en el nivel alto y B en el nivel bajo, b representaA en el nivel bajo y B en el nivel alto, y ab representa ambos factores en el nivel alto. Por convencin, se usa (1) para denotar que ambos factores estn en el nivel bajo. Esta notacin se utiliza en todas las series 2k En un diseo factorial con dos niveles, el efecto promedio de un factor puede definirse como el cambio en la respuesta producido por un cambio en el nivel de ese factor promediado para los niveles del otro factor. Asimismo, los smbolos (1), a, by ab representan ahora el total de las n rplicas hechas con la combinacin de los tratamientos, como se ilustra en la figura 6-1. Ahora el efecto deA en el nivel bajo deB es [a - (1) ]/n y el efecto deA con el nivel alto de Bes [ab - b]/n.Al promediarse estas dos cantidades se obtiene el efecto principal de A:
1 A= -([ab-b]+[a-(l)]} 2n
= -[ab+a- b- (1)] 2n
1
(6-1)
El efecto principal promedio deB se encuentra a partir del efecto deB con el nivel bajo deA (es decir, [b - (l)]/n) y con el nivel alto de A (o sea, [ab - a]/n) como
1 B= -{[ab-a]+[b-(l)]} 2n
= -[ab+b- a- (1)] 2n
1
(6-2)
El efecto de la interaccinAB se define como la diferencia promedio entre el efecto deA con el nivel alto de B y el efecto de A con el nivel bajo de B. Por lo tanto,
(6-3)
De manera alternativa, AB puede definirse como la diferencia promedio entre el efecto de B con el nivel alto de A y el efecto de B con el nivel bajo de A. Esto llevar tambin a la ecuacin 6-3. Las frmulas de los efectos deA, ByAB pueden deducirse con otro mtodo. El efecto deA puede encontrarse como la diferencia en la respuesta promedio de las dos combinaciones de tratamientos situadas a la derecha del cuadrado de la figura 6-1 (a este promedio se le llamay>, porque es la respuesta promedio con las combinaciones de tratamientos donde A est en el nivel alto) y las dos combinaciones de tratamientos situadas a la izquierda del cuadrado de la figura 6-1 (o YA-). Es decir,
A= YA +
YA -
..
6-2 EL DISEO 22
221
perior del cuadrado (YB+) y el promedio de las dos combinaciones de tratamientos de la parte inferior (JB-) , o
B= YB +
YB 2n
= ab+b _ a+(l)
2n
1
= 2n[ab+b-a-(1)]
Por ltimo, el efecto de la interaccinAB es el promedio de las combinaciones de tratamientos de la diagonal de derecha a izquierda del cuadrado [ab y (1)] menos el promedio de las combinaciones de tratamientos de la diagonal de izquierda a derecha (a y b), o
AB= ab+(l) 2n
1
a+b 2n
=-[ab+(l)-a- b]
2n
resultado que es idntico a la ecuacin 6-3. Utilizando el experimento de la figura 6-1, los efectos promedio pueden estimarse como
A
1 B= 2(3)(90+60-100-80)=-5.00
AB = 2(3) (90+ 80-100- 60) = 1.67 El efecto de A (concentracin del reactivo) es positivo; esto sugiere que al incrementar A del nivel bajo (15%) al nivel alto (25%), el rendimiento se incrementar. El efecto de B (catalizador) es negativo; esto sugiere que al incrementar la cantidad del catalizador que se agrega al proceso se reducir el rendimiento. El efecto de la interaccin parece ser pequeo en comparacin con los dos efectos principales. En muchos experimentos que incluyen diseos 2\ se examinar la magnitud y la direccin de los efectos de los factores a fin de determinar las variables que son de posible importancia. En la mayora de los casos puede usarse el anlisis de varianza para confirmar esta interpretacin. Hay varios paquetes de sofware de estadstica excelentes que son tiles para establecer y analizar diseos 2k Se cuenta tambin con mtodos especiales que ahorran tiempo cuando los clculos se hacen manualmente. Considere las sumas de cuadrados deA, By AB. Observe, por la ecuacin 6-1, que se us un contraste para estimar A, a saber
Contraste A
1
, ';olr
l'
..
ID
'o
"
I
= ab+a- b- (1)
(6-4)
A este contraste suele l1amrsele el efecto total deA. A partir de las ecuaciones 6-2 y 6-3, se observa que tambin se usan contrastes para estimar B y AB. Adems, estos tres contrastes son ortogonales. La suma de cuadrados de cualquier contraste puede calcularse con la ecuacin 3-29, la cual establece que la suma de cuadrados del contraste es igual al cuadrado del contraste dividido por el nmero de observaciones en
222
cada total del contraste multiplicado por la suma de cuadrados de los coeficientes del contraste. Por Consiguiente, se tienen
ss = [ab+a-b-(1)]2
A
4n
(6-5) (6-6)
SS
B
= [ab+b-a-(1)]2
4n
_ [ab+(1)-a-b]2
4n
SAB -
(6-7)
como las sumas de cuadrados de A, B YAB. A! utilizar el experimento de la figura 6-1, las sumas de cuadrados de las ecuaciones 6-5, 6-6 Y6-7 pueden encontrarse como 4(3) (-30)2 SSB = 4(3)
A
ss
= (50)2 = 208 33
= 75.00
(6-8)
ss = (10)2 = 8.33
AB
4(3)
La suma de cuadrados total se encuentra como de costumbre, es decir, 22n 2 y'~ SST = Yijk-4
2:2:2:
i=1 j=1 k=1
(6-9)
En general, SST tiene 4n -1 grados de libertad. La suma de cuadrados del error, con 4(n -1) grados de libertad, suele calcularse por sustraccin como SS E
= SST -
SS A - SSB - SS AB
(6-10)
= t;#~
Y~k - ~'3)
y
SS E
= SST -
SS A - SSB - SS AB
al utilizar SSA' SSB y SSAB de la ecuacin 6-8. En la tabla 6-1 se resume el anlisis de varianza completo. Con base en los valores P, se concluye que los efectos principales son estadsticamente significativos y que no hay interaccin entre estos factores. Esto confirma la interpretacin de los datos que se hizo originalmente con base en las magnitudes de los efectos de los factores. Con frecuencia resulta conveniente escribir las combinaciones de los tratamientos en el orden (1), a,
6-2 EL DISEO 22
223
Tabla 6-1 Anlisis de varianza del experimento de la figura 6-1 Suma de Grados de Fuente de cuadrados libertad variacin 208.33 1 A 75.00 1 B 8.33 1 AB 31.34 8 Error 323.00 11 Total
Fo
53.15 19.13 2.13
b, abo Se hace referencia a esto como el orden estndar (u orden de Yates, por el Dr. Frank Yates). Al utilizar este orden estndar, se observa que los coeficientes de los contrastes usados para estimar los efectos son
Efectos
(1)
A:
B:
-1
-1
+1
AB:
+l -1 -1
-1
+1
-1
ab +1 +1 +1
Observe que los coeficientes de los contrastes para estimar el efecto de la interaccin son slo el producto de los coeficientes correspondientes de los dos efectos principales. El coeficiente de un contraste es siempre + 1 o -1, y puede usarse una tabla de signos positivos y negativos como la tabla 6-2 para determinar el signo correcto para cada combinacin de tratamientos. Los encabezados de las columnas de la tabla 6-2 son los efectos principales (Ay B), la interaccinAB e J, que representa el total o promedio del experimento completo. Observe que la columna que corresponde a J incluye nicamente signos positivos. Las etiquetas de los renglones son las combinaciones de los tratamientos. Para encontrar el contraste para estimar cualquier efecto, simplemente se multiplican los signos de la columna apropiada de la tabla por la combinacin de tratamientos correspondiente y se hace la suma. Por ejemplo, para estimarA, el contraste es -(1) + a - b + ab, que concuerda con la ecuacin 6-1.
El modelo de regresin
En un diseo factorial2 k es sencillo expresar los resultados del experimento en trminos de un modelo de regresin. Puesto que 2k es tan slo un diseo factorial, podra usarse un modelo de los efectos o de las medias, pero el enfoque del modelo de regresin es mucho ms natural e intuitivo. Para el experimento del proceso qumico de la figura 6-1, el modelo de regresin es
y= {Jo +{JIXI +{J2 X2 +.s
donde Xl es una variable codificada que representa la concentracin del reactivo y x 2 es una variable codificada que representa la cantidad del catalizador y las {J son los coeficientes d regresin. La ,relacin enTabla 6-2 Signos algebraicos para calcular los efectos en el diseo 22 Combinacin de tratamientos
(1) a b ab
Efecto factorial
AB
+ + + +
+ +
+ + + +
224
tre las variables naturales -la concentracin del reactivo y la cantidad de catalizador- y las variables codificadas es Concentracin - (Concentracin baa + Concentracin alta) / 2
X
1
(Concentracin alta
Concentracin baja) / 2
x2
Catalizadorbajo ) / 2
Cuando las variables naturales slo tienen dos niveles, esta codificacin producir la familiar notacin 1 para los niveles de las variables codificadas. Para ilustrar esto en el ejemplo tratado, observe que Concentracin - (15 + 25) / 2 x = 1 (25-15)/2 Concentracin - 20
Por lo tanto, si la concentracin est en el nivel alto (Concentracin = 25%), entonces Xl centracin est en el nivel bajo (Concentracin = 15%), entonces Xl = -1. Adems, Catalizador- (1 + 2) /2 X = -----~--<--2 (2-1)/2 Catalizador-1.5 0.5
= + 1; si la con-
Por lo tanto, si el catalizador est en el nivel alto (Catalizador = 2 libras), entoncesx2 = + 1; si el catalizador est en el nivel bajo (Catalizador = 1 libra), entonces X 2 = -1. El modelo de regresin ajustado es 8.33) Xl + (-5.00) y= 27.5+ (2 -2- x2 donde la ordenada al origen es el gran promedio de las 12 observaciones, y los coeficientes de regresin '/31 y '/3 2 son la mitad de las estimaciones de los efectos de los factores correspondientes. La razn de que el coeficiente de regresin sea la mitad de la estimacin del efecto es que un coeficiente de regresin mide el efecto de un cambio unitario enx sobre la media de y, y la estimacin del efecto se basa en un cambio de dos unidades (de -1 a + 1). Se demostrar ms adelante que este mtodo simple para estimar los coeficientes de regresin consiste en producir las estimaciones de mnimos cuadrados de los parmetros. Ver tambin el material suplementario de este captulo.
Residuales y adecuacin del modelo
El modelo de regresin puede usarse para obtener el valor predicho o ajustado de y en los cuatro puntos del diseo. Los residuales son las diferencias entre el valor observado y el valor ajustado de y. Por ejemplo, cuando la concentracin del reactivo est en el nivel bajo (Xl = -1) Yel catalizador est en el nivel bajo (x 2 = -1), el rendimiento predicho es 8.33) (-1)+ (-5.00) y= 27.5+ (2 - 2 - (-1)
= 25.835
6-2 EL DISEO 22
225
Los valores predichos y los residuales restantes se calculan de manera similar. Para el nivel alto de la concentracin del reactivo y el nivel bajo del catalizador,
El modelo de regresin
226
CAPTULO 6
DISEO FACTORIAL 2k
99.-......- - ; - - - - r - -.....- - , . . - - - - , . . - - - , - - , 95 90
~ 80 o 70
:c
;g 50
J!l 30
10
5
-o
c:
.t 20
2.167 1.333 -
IX
X X X
i:
/:
0.500 -
X X
EL:;
;;~;
", .:~r
.g
'00
'w " ro
-0.333 f--1.167f--2.000 -2.833
X
f-
ce
:2
....1
"-
~
20.83
23.06
25.28
27.50
29.72
31.94
34.17
Rendimiento predicho
b) Residuales contra el rendimiento predicho
Figura 6-2 Grficas de los residuales para el experimento del proceso qumico.
puede usarse para generar grficas de superficie de respuesta. Si se desea construir estas grficas en trminos de los niveles de los factores naturales, entonces simplemente las relaciones entre las variables naturales y las codificadas que se dieron anteriormente se sustituyen en el modelo de regresin, de donde se obtiene
= 18.33+ O. 8333Concentracin -
5.00Catalizador
En la figura 6-3a se presenta la grfica de superficie de respuesta tridimensional del rendimiento de este modelo, y la figura 6-3b es la grfica de contorno. Puesto que el modelo es de primer orden (es decir, contiene nicamente los efectos principales), la superficie de respuesta ajustada es un plano. Al examinar
..
6-2 EL DISEO 22
,' , 1,I
1'1
'r l,:1i!
1]
227
34.17
29.72
25.28
20.83
""
""
""
2.000 1.800
""
0.;''''''
1.600
""
CBr-'l.~'l>C
B \br-
i
1
I
1
:i
a) Superficie de respuesta
j;;
,.j~~
2.000 r - - - - - - : r - - - - - , - - - - - r - - - - - r l
1.833
(;
"O
.~
al "O "O
~
ro
:g
1.333
1.167 1.000 '--_---I.'-'-__--l.-L._ _L-_-L....l-_ _-L.L-_---l 15.00 18.33 20.00 21.67 23.33 25.00
Concentracin del reactivo
b) Grfica de contorno
Figura 6-3 Grfica de la superficie de respuesta y grfica de contorno del experimento del proceso qumico.
la grfica de contorno se observa que el rendimiento aumenta cuando la concentracin del reactivo se incrementa y la cantidad de catalizador disminuye. Frecuentemente se usa una superficie ajustada como sta para encontrar la direccin del mejoramiento potencial de un proceso. Una manera formal de hacer esto, llamada mtodo del ascenso ms pronunciado, se presentar en el captulo 11 cuando se estudien los mtodos para realizar la exploracin sistemtica de las superficies de respuesta.
228
6~3
EL DISEO 2 3
Suponga que tres factores,A, By C, cada uno con dos niveles, son de inters. Al diseo se le llama diseo factorial 23, y en este caso la representacin geomtrica de las ocho combinaciones de tratamientos puede hacerse con un cubo, como se muestra en la figura 6-4a. Utilizando la notacin" +" y "-" para representar los niveles alto y bajo de los factores, las ocho corridas del diseo 23 pueden enlistarse como en la figura 6-4b. Se le conoce en ocasiones como la matriz del diseo. Haciendo una ampliacin de la notacin de las etiquetas revisada en la seccin 6-2, las combinaciones de los tratamientos en el orden estndar se escriben como (1), a, b, ab, c, ac, bc y abc. Recuerde que estos smbolos representan tambin el total de las n observaciones hechas con esa combinacin de tratamientos particular. Existen en realidad tres notaciones diferentes para las corridas del diseo 23 que son de uso general. La primera es la notacin + y -, llamada con frecuencia notacin geomtrica. La segunda es el uso de las etiquetas en letras minsculas para identificar las combinaciones de los tratamientos. La tercera y ltima notacin utiliza 1 y Opara denotar los niveles alto y bajo, respectivamente, de los factores, en lugar de + y -. Estas diferentes notaciones se ilustran enseguida para el diseo 23 :
Corrida 1 2 3 4 5
6 A
Etiquetas
(1)
o
1 O 1 O 1 O 1
+ + + +
o
O 1 1 O O 1 1
e o
O O O 1 1 1 1
+ + + +
7 8
+ + + +
a b ab e ae be abe
Hay siete grados de libertad entre las ocho combinaciones de tratamientos del diseo 23 Tres grados de libertad se asocian con los efectos principales deA, By C. Cuatro grados de libertad se asocian con las interacciones; uno con cada una de las interacciones AB, AC y BC y uno con la interaccin ABe. Considere la estimacin de los efectos principales. Primero, considere la estimacin del efecto principalA. El efecto deA cuando B y C estn en el nivel bajo es [a - (l)]/n. De manera similar, el efecto deA
be
abe
I I
Alto
+1
ae
,,}J--//
Bajo "
(1)
~"
a
Alto Factor A
-Z
3
Factor Corrida
A
+ + + +
ab
+ Alto
~~o
1
2
- Bajo
<e
I
Bajo
3 4 5
6
+ +
7
B
+ +
+ + + +
a) Vista geomtrica
6-3 EL DISEO 23
229
cuandoB est en el nivel alto y C est en el nivel bajo es [ab -b l/no El efecto deA cuando C.est en el nivel alto y B est en el nivel bajo es [ae - el/no Por ltimo, el efecto deA cuando tanto B como C estn en el nivel alto es [abe - be]/n. Por lo tanto, el efecto promedio deA es slo el promedio de estos cuatro efectos, o
1 A= -[a-(l)+ab- b+ae- e+abe-be] 4n
(6-11)
Esta ecuacin tambin puede desarrollarse como un contraste entre las cuatro combinaciones de tratamientos de la cara derecha del cubo de la figura 6-5a (donde A est en el nivel alto) y las cuatro de la cara izquierda (dondeA est en el nivel bajo). Es decir, el efecto deA es slo el promedio de las cuatro corridas donde A est en el nivel alto (YA + ) menos el promedio de las cuatro corridas dondeA est en el nivel bajo (Y[), o A= YA + - YA -
a+ab+ae+abe 4n
(l)+b+e+be 4n
Esta ecuacin puede reescribirse como 1 A = - [a + ab + ae + abe - (1) - b - e - be] 4n que es idntica a la ecuacin 6-11.
al
Efectos principales
AB
AC
b) Interaccin de dos factores
BC
CfL
A
= corridas
O = corridas -
ABC
cl Interaccin de los tres factores
Figura 6-5 Representacin geomtrica de los contrastes que corresponden a los efectos principales y las interacciones del diseo 23 ,
230
De manera similar, el efecto de B es la diferencia en los promedios entre las cuatro combinaciones de tratamientos de la cara frontal del cubo y las cuatro de la cara posterior. Se obtiene as
B= YB +
1 4n
-
YB (6-12)
= -[b+ab+be+abe-(l)-a- e-ae]
El efecto de C es la diferencia en los promedios entre las cuatro combinaciones de tratamientos de la cara superior del cubo y las cuatro de la cara inferior, es decir,
C= Ye +
1
Yc(l) - a - b - ab]
(6-13)
=- [e + ae + be + abe 411
Los efectos de la interaccin de dos factores pueden calcularse con facilidad. Una medida de la interaccinAB es la diferencia entre los efectos promedio deA con los dos niveles de B. Por convencin, a la mitad de esta diferencia se le llama la interaccin AB. Utilizando smbolos,
B
Alto (+) Bajo (-)
2n
{(ae - e)+ [a -(1)]}
2n
Diferencia
[ abe - be + ab - b - ae + e - a + (1)]
2n
(6-14)
411
411
En esta forma, resulta fcil ver que la interaccinAB es la diferencia en los promedios entre las corridas de dos planos diagonales del cubo de la figura 6-5b. Utilizando un razonamiento lgico similar y con referencia a la figura 6-5b, las interacciones AC y BC son
1 ! AC= -[(l)-a+b-ab- e+ae-be-liabe] 4n
(6-15)
y
BC = - [(1) + a - b - ab - e - ae + be + abe] 4n
(6-16)
6-3 EL DISEO 23
231
La interaccinABC se define como la diferencia promedio entre la interaccinAB para los dos diferentes niveles de C. Por lo tanto,
1 1
=-[abc-bc-ac+c-ab+b+a-(1)]
4n
(6-17)
Como antes, la interaccinABC puede considerarse como la diferencia de dos promedios. Si se aslan las corridas de los dos promedios, stas definen los vrtices de los dos tetraedros que componen el cubo de la figura 6-Sc. En las ecuaciones 6-11 a 6-17, las cantidades entre corchetes son contrastes de las combinaciones de los tratamientos. Es posible desarrollar una tabla de signos positivos y negativos a partir de los contrastes, la cual se muestra en la tabla 6-3. Los signos de los efectos prinCipales se determinan asociando un signo positivo con el nivel alto y un signo negativo con el nivel bajo. Una vez que se han establecido los signos de los efectos principales, los signos de las columnas restantes pueden obtenerse multiplicando las columnas precedentes apropiadas, rengln por rengln. Por ejemplo, los signos de la columnaAB son el producto de los signos de la columnaA y la columna B en cada rengln. El contraste de cualquier efecto puede obtenerse fcilmente con esta tabla. La tabla 6-3 tiene varias propiedades interesantes: 1) Con excepcin de la columna J, cada una de las columnas tienen el mismo nmero de signos positivos y negativos. 2) La suma de los productos de los signos de dos columnas cualesquiera es cero. 3) La columna J multiplicada por cualquiera de las columnas deja la columna sin cambio. Es decir, J es un elemento identidad. 4) El producto de dos columnas cualesquiera produce una columna de la tabla. Por ejemplo, A x B = AB, Y
ABxB= AB 2 = A
Se observa que los exponentes de los productos se forman utilizando la aritmtica mdulo 2. (Es decir, el . exponente slo puede ser Oo 1; si es mayor que 1, se reduce con mltiplos de 2 hasta que es Oo 1.) Todas estas propiedades se derivan de la ortogonalidad de los contrastes usados para estimar los efectos. .Las sumas de cuadrados de los efectos se calculan con facilidad, ya que cada efecto tiene un contraste correspondiente con un solo grado de libertad. En el diseo 23 con n rplicas, la suma de cuadrados de cualquier efecto es
ss = (Contraste )2
8n
Signos algebraicos para calcular los efectos del diseo 23 Efecto factorial
(6-18)
Tabla 63
AB
a b ab
e
ae be abe
+ + + + + + + +
+ + + +
+ + + + + + + +
AC +
BC
ABC
+
+
+ + + + + + +
+ +
+
+ +
232
EJEMPLO 6~ 1
Recuerde el ejemplo 5-3, donde se present un estudio del efecto del porcentaje de carbonatacin, la presin de operacin y la velocidad de lnea sobre la altura de llenado de una bebida carbonatada. Suponga que slo se usan dos niveles de carbonatacin, de tal modo que el experimento es un diseo factorial 23 con dos rplicas. Los datos (es decir, las desviaciones de la altura de llenado de especificacin) se muestran en la tabla 6-4, y en la figura 6-6 se presenta la representacin geomtrica del diseo. Al utilizar los totales bajo las combinaciones de los tratamientos que se muestran en la tabla 6-4, los efectos de los factores pueden estimarse de la siguiente manera:
A= -[a-(l)+ab-b+ac-c+abc-bc] 411
= 8[24] = 3.00
B = 411 [b+ab+bc+abc- (1)- a- c- ac]
1
411
1
1 1
= -[6]= 075 8 .
Tabla 6-4 El experimento de la altura de llenado, ejemplo 61
B -1 -1 1 1 -1 -1 1 1
e
-1 -1 -1 -1 1 1 1 1
6-3 EL DISEO 23
be =2 abe =11
233
Velocidad (e)
I I I
",,,,).2:.-2..
200bpm _
11)=-4 '---l+1
-7730PSi Presin(B)
a=1~.
25 psi 12%
Figura 66 El diseo 23 para el experimento de la desviacin de la altura de llenado del ejemplo 6-1.
SS = (24)2 = 36.00 A 16 SS
B
= (18)2 = 20.25
16
e
SS
= (14)2
16
= 12.25
234
Resumen de la estimacin de los efectos del ejemplo 6-1 Estimacin del efecto 3.00 2.25 1.75 0.75 0.25 0.50 0.50 Sumas de cuadrados 36.00 20.25 12.25 2.25 0.25 1.00 1.00 5.00 78.00 Contribucin porcentual 46.1538 25.9615 15.7051 2.88462 0.320513 1.28205 1.28205 6.41026
A B C
AB AC BC ABC
Error puro Total
ss
AB
SS
AC
SS
BC
y
SS
ABC
= (4)2 = 1.00 16
La suma de cuadrados total es SST = 78.00, Ypor sustraccin, SSE = 5.00. En la tabla 6-5 se resumen las estimaciones de los efectos y las sumas de cuadrados. La columna etiquetada "contribucin porcentual" mide la contribucin porcentual de cada uno de los trminos del modelo a la suma de cuadrados total. La contribucin porcentual es con frecuencia una gua aproximada pero efectiva de la importancia relativa de cada trmino del modelo. Observe que los efectos principales dominan en realidad este proceso, explicando ms de 87% de la variabilidad total, mientras que la interaccin AB explica menos de 3%. El anlisis de varianza de la tabla 6-6 puede usarse para confirmar la magnitud de estos efectos. Por la tabla 6-6 se observa que los efectos principales son altamente significativos (todos tienen valores P muy
Tabla 6-6 Anlisis de varianza de los datos de la altura de llenado Fuente de Suma de Grados de variacin cuadrados libertad Porcentaje de carbonatacin (A) Presin (B) Velocidad de lnea (C) 36.00 20.25 12.25 2.25 0.25 1.00 1.00 5.00 78.00 1 1 1 1 1 1 1 8 15
Cuadrado medio 36.00 20.25 12.25 2.25 0.25 1.00 1.00 0.625
AB AC BC ABC
Error Total
ti
6-3 EL DISEO 23
235
pequeos). La interaccinAB es significativa con un nivel aproximado de 10%; parlo tanto, existe una ligera interaccin entre la carbonatacin y la presin. Quiz el lector quiera referirse al ejemplo 5-3 para la interpretacin prctica de este experimento. Los responsables del proceso decidieron correrlo con presin baja y velocidad de lnea alta, y reducir la variabilidad de la carbonatacin controlando con mayor precisin la temperatura. Se consigui as una reduccin sustancial en la desviacin de la altura de llenado del valor objetivo.
Hay muchos paquetes de software de estadstica que establecern y analizarn diseos factoriales con dos niveles. La salida de uno de estos programas de computadora, Design-Expelt, se muestra en la tabla 6-7. En la parte superior de la tabla se presenta el anlisis de varianza del modelo completo. El formato de esta presentacin es un tanto diferente de los resultados dados en la tabla 6-6. Observe que el primer rengln del anlisis de varianza es un resumen global del modelo completo (todos los efectos principales y las interacciones), y la suma de cuadrados del modelo es
. SSModelo
= _M_S----::.:M.::.;:od;;;.:el.:...o
MS E
/313
/323
/3123
236
4.875
1.375
-0.3750
""
30.00 29.00 28.00
,o"
""
""
12.00
27.00
26.00
"'''''61
25.00 10.00
al
La superficie de respuesta
30.00
~-~-'---or-r---r---"'-~--.-~--"
29.17
c: -o .;
a.
27.50
26.67
La grfica de contorno
Figura 6-7 Superficie de respuesta y grfica de contorno de la desviacin de la altura de llenado, con la velocidad en el nivel alto (250 bpm), ejemplo 6-1.
Tabla 6-7
Response: FiII Deviation in Height ANOVA for Selected Factorial Model Analysis of variance table [Partial sum of squares] Sum of Mean F Squares DF Square Value Source 16.69 73.00 7 10.43 Model 36.00 1 36.00 A 57.60 2~25 1 2~25 32.40 B 12.25 1 12.25 19.60 C 2.25 1 2.25 3.60 AB 0.25 1 0.25 AC 0.40 1.00 1 1.00 BC 1.60 1 1.00 1.00 1.60 ABC 5.00 8 0.63 Residual 0.000 O Lack of Fit 0.63 5.00 8 Pure Error 78.00 15 Cor Total Std.Dev. Mean C.V. PRESS Factor Intercept A-Carbonation B-Pressure C-Speed AB AC BC ABC 0.79 1.00 79.06 20.00 Coefficient Estimate 1.00 1.50 1.13 0.88 0.38 0.13 0.25 0.25 R-Squared Adj R-Squared Pred R-Squared Adeq Precision DF 1 1 1 1 1 1 1 1 Standard Error 0.20 0.20 0.20 0.20 0.20 0.20 0.20 0.20 0.9359 0.8798 0.7436 13.416
significant
950/0 Cl
95% CI
Final Equation in Terms of Coded Factors: FiII Deviation = +1.00 +1.50 *A +1.13 *8 +0.88 *C +0.38 *A *8 +0.13 *A *C +0.25 *8 *C +0.25 *A *8 *C Final Equation in Terms of Actual Factors: FiII Deviation = -225.50000 +21.00000 *Carbonation +7.80000 *Pressure + 1.08000 *Speed -0.75000 *Carbonation *Pressure -0.10500 *Carbonation *Speed -0.040000 *Pressure *Speed +4.00000E-00: *Carbonation *Pressure *Speed Reduced Model: Response: FiII Deviation in Height ANOVA for Selected Factorial Model Analysis of variance table [Partial sum of squares]
237
Tabla 6-7
(continuacin)
Source Model
A B AB
36.00 20.25
Residual
Lack ofFit Pure Error
Cor Total Std. Dev. Mean C.V. PRESS Factor Intercept A-Ca rbo natio n B-Pressure C-Speed AB
DF 4 1 1 1 1 11 3 8 15
Prob> F <0.0001
<0.0001 0.0002 0.0012 0.0917 0.3700
significant
18.59 3.41
1.20
not significant
R-Squared Adj R-Squared Pred R-Squared Adeq Precision DF 1 1 1 1 1 Standard Error 0.20 0.20 0.20 0.20 0.20
0.9071 0.8733 0.8033 15.424 95% CI Low 0.55 1.05 0.68 0.43 -0.072 95% CI High 1.45 1.95 1.57 1.32 0.82 VIF 1.00 1.00 1.00 1.00
w'
'.~';
;:1
;'~:':j1
~~:~
:~~~
Final Equation in Terms of Coded Factors: FiII Deviation = +1.00 +1.50 *A +1.13*B +0.88 *C +0.38 *A *B Final Equation in Terms of Actual Factors: FiII Deviation = +9.62500 -2.62500 *Carbonation -1.20000 *Pressure +0.035000 *Speed +0.15000 *Carbonation *Pressure Diagnostics Case Statistics Standard Actual Predicted Order Value Value -3.00 -2.13 1 -1.00 -2.13 2 0.000 3 0.12 1.00 4 0.12 -1.00 -0.63 5 -0.63 0.000 6 2.00 7 3.13 3.00 3.13 8 -1.00 -0.37 9 10 0.000 -0.37 2.00 11 1.88 1.00 12 1.88 13 1.00 1.13 1.00 14 1.13 6.00 15 4.88 16 5.00 4.88 Student Residual -1.300 1.671 -0.186 1.300 -0.557 0.928 -1.671 -0.186 -0.928 0.557 0.186 -1.300 -0.186 -0.186 1.671 0.186 Cook's Distance 0.154 0.254 0.003 0.154 0.028 0.078 0.254 0.003 0.078 0.028 0.003 0.154 0.003 0.003 0.254 0.003 Outlier t -1.347 1.845 -0.177 1.347 -0.539 0.922 -1.845 -0.177 -0.922 0.539 0.177 -1.347 -0.177 -0.177 1.845 0.177
I;~:-;:
j~:
Residual -0.88 1.13 -0.12 0.88 -0.38 0.63 -1.13 -0.13 -0.63 0.37 0.13 -0.88 -0.13 -0.13 1.13 0.13
Leverage 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313 0.313
238
"
6-3 EL DISEO 23
239
puesto que F o es grande, se concluira que al menos una de las variables tiene un efecto diferente de cero. Entonces se prueba la significacin de cada efecto factorial individual utilizando el estadstico F. Estos resultados concuerdan con la tabla 6-6. Abajo del anlisis de varianza del modelo completo se presentan varios estadsticosR2 LaR 2 ordinaria es R2 = SSModelo = 73.00 = 0.9359 SSTotal 78.00 y mide la proporcin de la variabilidad total explicada por el modelo. Un problema potencial con este estadstico es que siempre se incrementa cuando se agregan factores al modelo, incluso cuando estos factores no son significativos. El estadstico R 2 ajustada, definido como
R 2.
Ajustada
=1-
SSTotal
es un estadstico que est ajustado para el "tamao" del modelo; es decir, para el nmero de factores. La R 2 ajustada puede decrecer en realidad si se agregan trminos no significativos al modelo. El estadstico PRESS es una medida de qu tan bien predecir datos nuevos el modelo (PRESS es en realidad el acrnimo de Prediction En'or Sum ofSquares -suma de cuadrados del error de prediccin-, y se calcula a partir de los errores de prediccin obtenidos al predecir el punto i-simo de los datos con un modelo que incluye todas las observaciones, excepto la i-sima). Un modelo con un valor pequeo de PRESS indica que es posible que el modelo sea un buen predictor. El estadstico "R2 de prediccin" se calcula como R2
.. Predlcclon
78 00
Esto indica que se esperara que el modelo completo explique cerca de 74% de la variabilidad de los datos nuevos. La siguiente seccin de la salida presenta el coeficiente de regresin de cada trmino del modelo y el error estndar (se, standard error) de cada coeficiente, definido como
n2
~O.625 = 0.20
2(8)
Los intervalos de confianza de 95% para cada coeficiente de regresin se calculan a partir de
240
turales. La proporcin de la variabilidad total de l desviacin de la altura del llenado que se explica por este modelo es
R2
78.00
que es menor que laR 2 del modelo completo. Observe, sin embargo, que laR 2 ajustada del modelo reducido apenas ha cambiado ligeramente respecto de laR 2 ajustada del modelo completo, y PRESS del modelo reducido es considerablemente menor, lo cual produce un valor ms grande de R;rediccio del modelo reducido. Evidentemente, la eliminacin de los trminos no significativos del modelo completo ha producido un modelo final que posiblemente funcionar con mayor eficiencia como predictor de datos nuevos. Observe que los intervalos de confianza para los coeficientes de regresin del modelo reducido son ligeramente ms cortos que los intervalos de confianza correspondientes en el modelo completo. En la ltima seccin de la salida se presentan los residuales del modelo reducido. Design-Expel1 tambin construir todas las grficas de los residuales que se estudiaron anteriormente.
Otros mtodos para evaluar la significacin de los efectos
El anlisis de varianza es una manera formal de determinar cules son los efectos de los factores que son diferentes de cero. Existen varios mtodos ms que son tiles. A continuacin se indica cmo calcular el error estndar de los efectos y cmo usar los errores estndar para construir intervalos de confianza para los efectos. Otro mtodo, que se ilustrar en la seccin 6-5, utiliza grficas de probabilidad normal para valorar la importancia de los efectos. Es sencillo encontrar el error estndar de un efecto. Si se supone que hay n rplicas en cada una de las 2k corridas del diseo, y si Yi!' Yi2' ..., Yin son las observaciones de la corridai-sima, entonces
i
= 1, 2, ...,
2k
es una estimacin de la varianza de la corrida i-sima. Las estimaciones de la varianza del diseo 2k pueden combinarse para dar una estimacin de la varianza global: (6-19) sta es tambin la estimacin de la varianza dada por el cuadrado medio del error en el anlisis de varianza. La varianza de la estimacin de cada efecto es
V(Efecto) = V
(c:n;~~lste )
k-l
1
(n2
)-
V(Contraste)
Cada contraste es una combinacin lineal de los 2k totales de los tratamientos, y cada total consta de n observaciones. Por lo tanto, V(Contraste) = n2 k 0
2
"
6-3 EL DISEO 23
241
y la varianza de un efecto es
V(Efecto):=:
:=:
(n2
:-1 ) 2n2 a
k
1 ? -ak 2
n2 2a .Jn2 k
:=:
El error estndar estimado se encontrara sacando la raz cuadrada de esta ltima expresin y sustituyendo con su estimacin S2: . 2S se(Efecto):=:.J k. (6-20)
n2
Observe que el error estndar de un efecto es el doble del error estndar de un coeficiente de regresin estimado en el modelo de regresin del diseo 2k (ver la salida de computadora de Design-Expel1 del ejemplo 6-1). Los intervalos de confianza de 100(1 - a) por ciento para los efectos se calculan a partir de Efecto ta/2.N_pSe(Efecto), donde los grados de libertad de t son slo los grados de libertad de los residuales o del error (N - p :=: nmero total de corridas - nmero de parmetros del modelo). Para ilustrar este mtodo, considere el experimento de la desviacin de la altura de llenado del ejemplo 6-1. El cuadrado medio del error esMSE :=: 0.625. Por lo tanto, el error estndar de cada efecto es (utilizando S2 :=: MSE)
se(Efecto):=:
:=:
vn2 k
2S
2.JOJ?E
A: 3.000.92 B: 2.250.92 C: 1.750.92 AB: 0.750.92 AC: 0.250.92 BC: 0.500.92 ABC: 0.500.92
Este anlisis indica queA, By C son factores importantes, porque son las nicas estimaciones de los efectos de los factores para las que los intervalos de confianza de 95% aproximados no incluyen al cero.
Efectos de dispersin El ingeniero de proceso que trabaj en el caso del llenado tambin se interes en los efectos de dispersin; es decir, alguno de los factores afecta la variabilidad de la desviacin de la altura de llenado de una
242
CAPTULO 6
DISEO FACTORIAL 2k
R=O R= 1
R= 1
250 bpm
Velocidad (e)
+~--~I--"" I I I
,,"~
200 bpm R =_2F-"
R=ll__
-7730
+
25 psi
R=1
psi
R_=~1.... ~_,
Presin (B)
corrida a otra? Una manera de responder esta pregunta es examinando el rango de las desviaciones de la altura de llenado para cada una de las ocho corridas del diseo 23 Estos rangos se grafican en el cubo de la figura 6-8. Observe que los rangos son aproximadamente iguales para las ocho corridas del diseo. Por consiguiente, no hay evidencia slida que indique que alguna de las variables del proceso afecte directamente la variabilidad de la desviacin de la altura de llenado en el proceso.
6~4
EL DISEO GENERAL 2k
Los mtodos de anlisis que se han presentado hasta este punto pueden generalizarse para el caso de un diseo factorial2k, es decir, un diseo con k factores que tfenen dos niveles cada uno. El modelo estadstico para un diseo 2k incluira k efectos principales, (~) interacciones de dos factores, (~) interacciones de tres factores, oo., y una interaccin de k factores. Es decir, para un diseo 2k el modelo completo contendra 2k -1 efectos. Thmbin se usa aqu la notacin introducida anteriormente para las combinaciones de . los tratamientos. Por ejemplo, en un diseo 25, abd denota la combinacin de tratamientos con los factoresA, By D en el nivel alto y los factores e y E en el nivel bajo. Las combinaciones de los tratamientos pueden escribirse en orden estndar introduciendo los factores uno a la vez y combinando sucesivamente cada nuevo factor con los que lo preceden. Por ejemplo, el orden estndar de un diseo 24 es (1), a, b, ab, e, ae, be, abe, d, ad, bd, abd, ed, aed, bed y abed. El enfoque general para el anlisis estadstico del diseo 2k se resume en la tabla 6-8. Como se seal anteriormente, suele emplearse un paquete de software de computadora en este proceso de anlisis. A estas alturas, la secuencia de pasos de la tabla 6-8 debe resultar familiar. El primer paso es estimar los efectos de los factores y examinar sus signos y magnitudes. De este modo el experimentador obtiene inTabla 6-8 Procedimiento de anlisis para un diseo 2"
1. 2. 3. 4. 5. 6.
Estimar los efectos de los factores Formar el modelo inicial Realizar las pruebas estadsticas Refinar el modelo Analizar los residuales Interpretar los resultados
ti
243
formacin preliminar respecto de los factores y las interacciones que pueden ser importantes, y en qu direcciones debern ajustarse estos factores para mejonrr la respuesta. Para formar el modelo inicial del experimento, por lo general se elige el modelo completo, es decir, todos los efectos principales y las interacciones, siempre que se haya hecho una rplica de al menos uno de los puntos del diseo (en la seccin siguiente se revisa una modificacin de este paso). Despus, en el paso 3 se usa el anlisis de varianza para probar formalmente la significacin de los efectos principales y las interacciones. En la tabla 6-9 se presenta la forma general de un anlisis de varianza para un diseo factorial 2k con 11 rplicas. El paso 4, refinar el modelo, suele consistir en la eliminacin de las variables no significativas del modelo completo. El paso 5 es el anlisis residual usual para verificar la adecuacin del modelo y los supuestos. En ocasiones ocurrir una refinacin del modelo despus del anlisis residual, si se encuentra que el modelo es inadecuado o que hay violaciones serias de los supuestos. El ltimo paso consiste generalmente en el anlisis grfico: grficas de los efectos principales o las interacciones, o superficies de respuesta y grficas de contorno. Aun cuando los clculos descritos se realizan por lo general con una computadora, en ocasiones es necesario calcular manualmente la estimacin de un efecto o la suma de cuadrados de un efecto. Para estimar un efecto o calcular la suma de cuadrados de un efecto, primero debe determinarse el contraste asociado con ese efecto. Esto puede hacerse siempre utilizando una tabla de signos positivos y negativos, como la tabla 6-2 o 6-3. Sin embargo, para valores grandes de k esto resulta laborioso, y puede usarse un mtodo alternativo. En general, el contraste del efecto AB"K se determina expandiendo el miembro derecho de Contraste AB...K
= (a l)(b 1) (k 1)
Grados de libertad 1 1 1 1 1 1 1 1 1
(6-21)
Tabla 6-9 Anlisis de varianza de un diseo 2k Fuente de Suma de variacin cuadrados k efectos principales
A B K
(~ ) interacciones
de dos factores
SSAB SSAC SSJK SSABC SSABD SSIJK
AB AC JK
(Z ) = 1 interaccin de k factores
ABCK
Error Total
1
2k (n -1) n2 k -1
11'
244
Para expandir la ecuacin 6-21 se usa el lgebra ordinaria reemplazando "1" con (1) en la expresin final. El signo de cada grupo de parntesis es negativo si el factor est incluido en el efecto y es positivo si el factor no est incluido. Para ilustrar el uso de la ecuacin 6-21, considere un diseo factorial 2 3 El contraste deAB sera Contraste AB
= (a-1)(b-1)(e+1)
= abe + ab + e + (1) ae - be - a - b
Como un ejemplo ms, en un diseo 25, el contraste de ABCD sera Contraste ABCD = (a-1)(b-1)(e-1)(d-1)(e+1)
y
SS AB' ..K
= n2 k
(Contraste AB ...K
2
)
(6-23)
respectivamente, donde n denota el nmero de rplicas. Se cuenta tambin con un algoritmo tabular debido al Dr. Frank Yates que en ocasiones puede ser til para el clculo manual de las estimaciones de los efectos y las sumas de cuadrados. Referirse al material suplementario del texto de este captulo.
6~5
Incluso para un nmero moderado de factores, el nmero total de combinaciones de tratamientos en un diseo factoria12k es grande. Por ejemplo, un diseo 25 tiene 32 combinaciones de tratamientos, un diseo 2 6 tiene 64 combinaciones de tratamientos, etc. Debido a que por lo general los recursos son limitados, el nmero de rplicas que el experimentador puede emplear quizs est restringido. Con frecuencia, los recursos disponibles permiten hacer nicamente una sola rplica del diseo, a menos que el experimentador est dispuesto a omitir algunos de los factores originales. Un riesgo obvio cuando se realiza un experimento que tiene una sola corrida para cada combinacin de prueba es que el modelo puede ajustarse al ruido. Es decir, si la respuesta y es sumamente variable, pueden resultar conclusiones engaosas del experimento. La situacin se ilustra en la figura 6-9a. En esta figura, la lnea recta representa el verdadero efecto del factor. Sin embargo, debido a la variabilidad aleatoria presente en la variable de respuesta (representada por la franja sombreada), el experimentador obtiene en realidad las dos respuestas medidas representadas por los puntos negros. Por consiguiente, el efecto del factor estimado est cerca de cero y el experimentador ha llegado a una conclusin errnea respecto de este factor. Ahora bien, si hay menos variabilidad en la respuesta, la posibilidad de una conclusin errnea ser ms reducida. Otra forma de asegurarse de que se obtienen estimaciones confiables de los efectos es incrementando la distancia entre los niveles bajo (-) y alto ( +) del factor, como se ilustra en
245
+ Factor, x
al Distancia pequea entre los niveles del factor
Factor, x
bl Separacin agresiva de los niveles del factor
Figura 6-9 El impacto de la eleccin de los niveles del factor en un diseo no replicado.
la figura 6-9b. Observe que en esta figura la distancia incrementada entre los niveles bajo y alto del factor resulta en una estimacin razonable del verdadero efecto del factor. El uso de la estrategia de una sola rplica es comn en los experimentos de exploracin cuando hay un nmero relativamente grande de factores bajo consideracin. Debido a que en estos casos nunca puede tenerse la certeza absoluta de que el error experimental es pequeo, una buena prctica en este tipo de experimentos es separar los niveles de los factores de manera agresiva. Quizs el lector encuentre til releer las pautas generales para elegir los niveles de los factores del captulo 1. Una sola rplica de un diseo 2k se denomina en ocasiones diseo factorial no replicado. Con una sola rplica, no se cuenta con ninguna estimacin interna del error (o "error puro"). Una forma de abordar este anlisis de un diseo factorial no replicado consiste en suponer que algunas interacciones de orden superior son insignificantes y combinar sus cuadrados medios para estimar el error. Esto es una apelacin al principio de efectos esparcidos; es decir, la mayora de los sistemas estn dominados por algunos de los efectos principales y las interacciones de orden inferior, y la mayor parte de las interacciones de orden superior son insignificantes.
246
Cuando se analizan datos de diseos factoriales no replicados, ocasionalmente ocurren interacciones de orden superior reales. El uso de un cuadrado medio del error que se obtiene agrupando las interacciones de orden superior no es apropiado en estos casos. Un mtodo de anlisis atribuido a Daniel [35a] proporciona una forma simple de resolver este problema. Daniel sugiere examinar una grfica de probabilidad normal de las estimaciones de los efectos. Los efectos que son insignificantes siguen una distribucin normal, con media cero y varianza cT, y tendern a localizarse sobre una lnea recta en esta grfica, mientras que los efectos significativos tendrn medias diferentes de cero y no se localizarn sobre la lnea recta. Por lo tanto, el modelo preliminar se especificar de tal modo que contenga aquellos efectos que aparentemente son diferentes de cero, con base en la grfica de probabilidad normal. Los efectos aparentemente insignificantes se combinan como una estimacin del error.
EJEMPLO
6~2
lF;
11"
Nmero
de corrida
Factor
Etiqueta de la corrida
1 2 3 4 5 6 7 8 9 10
11
+ + + + + + + +
+ + + + + + + +
(1) a b ab
45
71
+ + + +
12
13
14 15 16
+ + + +
+ + + + + + + +
48 65 68 60 80 65 43 100 45 104 75 86 70 96
"
65 UNA SOLA RPLICA DEL DISEO 2k
247
r----I
ctL
A
Figura 6-10 Datos del experimento del ndice de filtracin en la planta piloto para el ejemplo 6-2.
del diseo 24 se muestra en la tabla 6-11. A partir de estos contrastes pueden estimarse 15 efectos factoriales, y las sumas de cuadrados se presentan en la tabla 6-12. En la figura 6-11 se muestra la grfica de probabilidad normal de estos efectos. Todos los efectos que caen sobre la recta son insignificantes, mientras que los efectos grandes estn apartados de ella. Los efectos importantes que surgen de este anlisis son los efectos principales de A, C y D Ylas interacciones ACyAD. Los efectos principales de A, C y D se grafican en la figura 6-12a. Los tres efectos son positivos, y si slo se consideraran estos efectos principales, los tres factores se correran en el nivel alto a fin de maximizar el ndice de filtracin. Sin embargo, siempre es necesario examinar cualquier interaccin que sea importante. Recuerde que los efectos principales no tienen mucho significado cuando estn presentes en interacciones significativas. Las interaccionesAC y AD se grafican en la figura 6-12b. Estas interacciones son la clave para resolver el problema. Observe, por la interaccinAC, que el efecto de la temperatura es muy pequeo cuando la concentracin est en el nivel alto y muy grande cuando la concentracin est en el nivel bajo, obtenindose los mejores resultados con la concentracin baja y la temperatura alta. La interaccinAD indica que la velocidad de agitacinD tiene un efecto reducido con una temperatura baja, pero un efecto positivo grande con la temperatura alta. Por lo tanto, los mejores ndices de filtracin pareceran obtenerse cuandoA y D estn en el nivel alto y C est en el nivel bajo. Esto permitira la reduccin de la concentracin de formaldehdo a un nivel ms bajo, otro de los objetivos del experimentador.
Proyeccin de un diseo
Es posible hacer otra interpretacin de los efectos de la figura 6-11. Puesto que B (presin) no es significativa y todas las interacciones en las que interviene B son insignificantes, B puede descartarse del experimento, de tal modo que el diseo se convierte en un factorial 23 enA, C y D con dos rplicas. Esto es fcil de ver examinando nicamente las columnas A, C y D en la matriz del diseo que se muestra en la tabla 6-10 y observando que esas columnas forman dos rplicas de un diseo 23 En la tabla 6-13 se resume el anlisis de varianza de los datos utilizando este supuesto de simplificacin. Las conclusiones que se sacaran de este anlisis se mantienen enesencia sin cambios respecto de las del ejemplo 6-2. Observe que al hacer la proyeccin de la rplica nica del diseo 24 en un diseo 23 con dos rplicas, se tiene ahora tanto una estimacin de la interaccinACD como una estimacin del error basada en lo que en ocasiones se denomina rplica oculta.
nfg'nr~~~n~;1(1 n~~n~\~Ll~~7.~
"~~
..:,.
00
Tabla 6-11
(1)
A
-
B
-
AB
AC
BC
+
-
+
-
a b ab
c
+
-
+ +
-
ABC -
D
-
AD
BD
ABD
-
CD
ACD
-
BCD
-
ABCD
+
-
+
-
+ +
-
+
-
+ +
-
+ +
-
+
-
+ +
-
+ +
-
+
-
+
-
+ +
-
+ +
-
+ + + +
-
+
-
+
-
+ + + +
-
+ + + + + + + +
+
-
+
-
+ +
-
+ +
-
+ +
-
+
-
+
-
+ +
-
+ + + +
-
+
-
+ + +
-
+ + + +
-
+ +
-
+
-
+
-
+ +
-
+ +
-
+
-
+ +
+ + + +
+
-
+
-
+ +
+ + + + + + + +
+
-
+ +
-
+
-
+ +
-
+
-
+ +
-
+
-
+ +
+ + + +
+
-
+ +
ti
249
Tabla 6-12 Estimaciones de los efectos de los factores y sumas de cuadrados del diseo factorial 24 del ejemplo 6-2 Trmino del modelo Estimacin del efecto 21.625 3.125 9.875 14.625 0.125 -18.125 16.625 2.375 -0.375 -1.125 1.875 4.125 -1.625 -2.625 1.375 Suma de cuadrados 1870.56 39.0625 390.062 855.563 0.0625 1314.06 1105.56 22.5625 0.5625 5.0625 14.0625 68.0625 10.5625 27.5625 7.5625 Contribucin porcentual 32.6397 0.681608 6.80626 14.9288 0.00109057 22.9293 19.2911 0.393696 0.00981515 0.0883363 0.245379 1.18763 0.184307 0.480942 0.131959
A B
C
D AB AC
AD
99 95 90
ro
1J
80 E o
c:
70
~ :;
ro
o
C AC
AO
.c
ro
50 30 20 10 5
e o.
1J
~ o
"
111
21.62
Efecto
Figura 6-11 Grfica de probabilidad normal de los efectos para el diseo factorial 24 del ejemplo 6-2.
250
~ ro 90 .9 o
CAPTULO 6
DISEO FACTORIAL 2k
90
90 80
1j 80
e o.
'0
e '13
al "C al
tJ
70
ii=
~ 60
/
A
Interaccin AC
80 70 60
/
C
70 60
/
D
'5 .E
50
SO
SO
100
C=-
100 90 80 70 60
.9 90 o
'5
al
ro
E 80
'0
e '13
~
e o.
70 60
al "C al
tJ
'5 .E
SO
40
A
SO
40
A
b) Grficas de las'interacciones
Tabla 6-13
Fuente de variacin
A C
Suma de cuadrados
1870.56 390.06 855.56 1314.06 1105.56 5.06 10.56 179.52 5730.94
Grados de libertad
1 1 1 1 1 1 1 8 15
Cuadrado medio
1870.56 390.06 855.56 1314.06 1105.56 5.06 10.56 22.44 83.36 17.38 38.13 58.56 49.27 <1 <1
Valor P
<0.0001 <0.0001 <0.0001 <0.0001 <0.0001
AC AD
cn
ACn
Error Total
"
6-5 UNA SOLA RPLICA DEL DISEO 2k
251
El concepto de proyectar un diseo factorial no replicado en un diseo factorial con rplicas en menoS factores es muy til. En general, si se tiene una sola rplica del diseo 2\ y si h (h < k) factores son insignificantes y pueden descartarse, entonces los datos originales corresponden a un diseo factorial completo con dos niveles en los k - h factores restantes con 2" rplicas.
Verificacin de diagnstico
Debern aplicarse las verificaciones de diagnstico usuales a los residuales de un diseo 2k El anlisis realizado indicaquelos nicos efectos significativos sanA = 21.625, C = 9.875,D= 14.625,AC = -18.125 YAD = 16.625. Si esto es correcto, los ndices de filtracin estimados estn dados por
donde 70.06 es la respuesta promedio y las variables codificadas Xl' X 3, X4 asumen valores entre -1 y + 1. El ndice de filtracin predicho para la corrida (1) es
y= 70.06+(21.~25)
_
(-1)+ (9.~75)(_1)+(14.~25)(-1)
= 46.22
Puesto que el valor observado es 45, el residual es e = y - y = 45 - 46.22 sentan los valores de y, y y e = y - y para las 16 observaciones.
y
(1)
y
46.22 69.39 46.22 69.39 74.23 61.14 74.23 61.14 44.22 100.65 44.22 100.65 72.23 92.40 72.23 92.40
e =y-y
-1.22 1.61 1.78 -4.39 -6.23 -1.14 5.77 3.86 -1.22 -0.65 0.78 3.35 2.77 -6.40 -2.23 3.60
a b ab
e
45 71 48 65 68 60 80 65 43 100 45 104 75 86 70 96
En la figura 6-13 se muestra la grfica de probabilidad normal de los residuales. Los puntos de esta grfica se localizan razonablemente prximos a una lnea recta, brindando apoyo a la conclusin de queA, C, D, AC yAD son los nicos efectos significativos y que se satisfacen los supuestos fundamentales del anlisis.
1'11'1
1;
252
99
ro
ro
o c:
-o
80 70
;g 50 :o ro
.n c.
-o
Q)
e
10 5
<Ji.
-6.375
-3.34375
-0.3125
Residual
2.71875
5.75
Figura 613
La superficie de respuesta Las grficas de las interacciones de la figura 6-12 se utilizaron para ofrecer una interpretacin prctica de los resultados de este experimento. En ocasiones es til emplear la superficie de respuesta para este fin. La superficie de respuesta se genera por el modelo de regresin
(18.125) -2- X IX 3
Observe que los contornos son lneas curvas porque el modelo contiene un trmino de interaccin. La figura 6-14b es la grfica de contorno de la superficie de respuesta cuando la temperatura est en el nivel alto (es decir, Xl = 1). Cuando se hace Xl = 1 en el modelo de regresin se obtiene
253
0.667
_ 1'
C..l
0.333 90.00
o()
.~ 0.000
e
Q)
8-0.333
c: "
-0.667 -1.000 l.----l_l...----ll-...J_ _L...J._ _.L...l_ _.LL_ _.....J -1.000 -0.667 -0.333 0.000 0.333 0.667 1.000 Temperatura,A (x,)
a) Grfica de contorno con la velocidad de agitacin (D), x4 = 1
1.000
1 C
'O
'13
.~
ro
el
Q)
-c
'C
il
ID
ro
-0.333
>
-0.667 -1.0001oo:::::==-_l...-_----lL....-_--1_......:::..J._ _-I-_ _.....J -1.000 -0.667 -0.333 0.000 0.333 0.667 Concentracin, (x3)
x,
= 1
Figura 6-14
Estos contornos son rectas paralelas porque el modelo contiene nicamente los efectos principales de los factores e (x3 ) y D (x 4 ). Ambas grficas de contorno indican que si se quiere maximizar el ndice de filtracin, las variables A (Xl) y D (x4) debern estar en el nivel alto y que el proceso es relativamente robusto para la concentracin C. Se obtuvieron conclusiones similares a partir de las grficas de las interacciones.
La mitad de grfica normal de los efectos
Una alternativa para la grfica de probabilidad normal de los efectos de los factores es la mitad de grfica normal. Es una grfica del valor absoluto de las estimaciones de los efectos contra sus probabilidades normales acumuladas. En la figura 6-15 se muestra la mitad de grfica normal de los efectos para el ejemplo 6-2. La lnea recta de la mitad de grfica normal siempre pasa por el origen y deber pasar tambin cerca del valor de los datos del percentil cincuenta. Muchos analistas sienten que es ms fcil interpretar la mitad de
254
99
A
97
~
ISJ
AC
95 90 85 80 70 60 40 20
D ~
~
'E
Ci ro
~
19
c.
Ci c:
:c
oC
lO
~
;g
lO
e c.
ID
'ift.
o
0.00 5.41 10.81
Efecto
16.22
21.63
Figura 6-15
Mitad de grfica normal de los efectos de los factores del ejemplo 6-2.
grfica normal, en particular si slo se cuenta con pocas estimaciones de los efectos, como cuando el experimentador ha usado un diseo de ocho corridas. Algunos paquetes de software construirn ambas grficas.
Otros mtodos para analizar diseos factoriales no replicados
El procedimiento de anlisis estndar para un diseo factorial de dos factores no replicado es la grfica normal (O mitad de grfica normal) de los efectos estimados de los factores. Sin embargo, los diseos no replicados son tan usados en la prctica que se han propuesto muchos procedimientos formales de anlisis para resolver la subjetividad de la grfica de probabilidad normal. Ramada y Balakrishnan [52] compararon algunos de estos mtodos. Encontraron que el mtodo propuesto por Lenth [70] tiene una potencia adecuada para detectar efectos significativos. Tambin es fcil de implementar y, como resultado, est empezando a aparecer en algunos paquetes de software para analizar datos de diseos factoriales no replicados. Se ofrece una breve descripcin del mtodo de Lenth. Suponga que se tienen m contrastes de inters, por ejemplo el' C2, ... , Cm' Si el diseo es un factoria12k no replicado, estos contrastes corresponden a las m = 2k -1 estimaciones de los efectos de los factores. La base del mtodo de Lenth es estimar la varianza de un contraste a partir de las estimaciones ms pequeas (en valor absoluto) de los contrastes. Sean
So
...
255
PSE denota el "pseudo error estndar", y Lenth demuestra que es un estimador razonable de la varianza del contraste cuando no hay muchos efectos activos (significativos). EIPSE se usa para juzgar la significa-
cin de los contrastes. Un contraste individual puede compararse con el margen de error (ME, margin of error)
ME= t O. 025 ,d xP8E
donde los grados de libertad se definen como d = m13. Para hacer inferencias sobre un grupo de contrastes, Lenth sugiere usar el margen de error simultneo (8ME, simultaneous margin of error)
SME=
t)',d
xPSE
donde el punto porcentual de la distribucin t que se usa es y = 1 - (1 + 0.951/m )/2. Para ilustrar el mtodo de Lenth, considere el experimento 24 del ejemplo 6-2. Los clculos dan como resultado So = 1.5 x 1-2.6251 = 3.9375 Y 2.5 x 3.9375 = 9.84375, de donde
PSE= 1.5 x 11.751 = 2.625 ME=2.571 x 2.625= 6.75 SME= 5.219 x 2.625= 13.70
Considere ahora las estimaciones de los efectos de la tabla 6-12. El criterio SME indicara que los cuatro efectos ms grandes (en magnitud) son significativos, ya que las estimaciones de sus efectos exceden SME. El efecto principal de C es significativo de acuerdo con el criterio ME, pero no con respecto al SME. Sin embargo, puesto que es evidente que la interaccinAC es importante, probablemente C se incluira en la lista de efectos significativos. Observe que en este ejemplo el mtodo de Lenth produjo la misma respuesta que la obtenida anteriormente con el examen de la grfica de probabilidad normal de los efectos. Varios autores (ver Ramada y Balakrishnan [52], Loughin [73], Loughin y Noble [74] y Larntz y Whitcomb [69]) han hecho notar que el mtodo de Lenth falla para controlar los ndices del error tipo I, y que pueden usarse mtodos de simulacin para calibrar su procedimiento. Larntz y Whitcomb [69] sugieren reemplazar los multiplicadores ME y SME con multiplicadores ajustados de la siguiente manera:
Nmero de contrastes
ME original ME ajustado SME original SME ajustado
7 3.764 2.295 9.008 4.891 15 2.571 2.140 5.219 4.163 31 2.218 2.082 4.218 4.030
Estos resultados coinciden en gran medida con los de Ye y Ramada [114]. En general, el mtodo de Lenth es un procedimiento ingenioso y til. Sin embargo, recomendamos utilizarlo como complemento de la grfica de probabilidad normal usual de los efectos, no como su sustituto. Bisgaard [10] ha proporcionado una sutil tcnica grfica, llamada carta de inferencia condicional, como ayuda para interpretar la grfica de probabilidad normal. La finalidad de esta grfica es ayudar al experimentador a juzgar los efectos significativos. Esto sera relativamente sencillo si se conociera la desviacin estndar 0, o si pudiera estimarse a partir de los datos. En diseos no replicados, no se cuenta con ninguna estimacin interna de 0, por 10 que la carta de inferencia condicional est diseada para ayudar al experimentador a evaluar la magnitud de los efectos para un rango de valores de la desviacin estndar.
256
CAPTULO 6
Bisgaard fundamenta la grfica en el resultado de que el error estndar de un efecto, en un diseo de dos niveles con N corridas (para un diseo factorial no replicado, N = 2k ), es 2a
.JN
donde a es la desviacin estndar de una observacin individual. Entonces 2 veces el error estndar de un efecto es 4a
+--
-.JN
Una vez que se estiman los efectos, se hace una grfica como la que se muestra en la figura 6-16, con las estimaciones de los efectos graficadas en el eje vertical, o eje y. En esta figura se han usado las estimaciones de los efectos del ejemplo 6-2. El eje horizontal, OX, de la figura 6-16 es la escala de la desviacin estndar (a). Las dos rectas estn en 4a 4a y=+- y y = - -
.JN
.JN
En el ejemplo tratado aqu, N = 16, por lo que las rectas estn eny = +ayy = -a. Por lo tanto, para cualquier valor dado de la desviacin estndar a, la distancia entre estas dos rectas puede leerse como un intervalo de confianza de 95% aproximado para los efectos insignificantes. En la figura 6-16 se observa que si el experimentador piensa que la desviacin estndar est entre 4 y 8, entonces los factores A, C, D y las interaccionesAC y AD son significativos. Si el experimentador piensa que la desviacin estndar tiene un valor de hasta 10, el factor C quiz no sea significativo. Es decir, para
A 22.
AD
18
D 14.
-14 -18
AC
-22
--,
D
3.24--t-3 .44
257
/1
9.97---9.07
.-/
)..ll5---=:)6.30
4.09---4.53
" 1 . 6 8 -1.98
. Figura 617
,.L _1~.-/
-5.70
2.07---2.44
"
7.L-'~.-/
-9.43
c~
A
cualquier supuesto dado acerca de la magnitud de a, el experimentador puede construir una "cinta de medir" para juzgar la significacin aproximada de los efectos. La carta tambin puede usarse en sentido inverso. Por ejemplo, suponga que estuviera en duda si el factor e es significativo o no. Entonces el experimentador podra preguntar si es razonable esperar que a pudiera ser tan grande como 10 o ms. Si es improbable que a sea tan grande como 10, entonces puede concluirse que e es significativo. Se presentan ahora tres ilustrativos ejemplos de diseos factoriales 2k no replicados.
EJEMPLO
6~3
1J:ansformacin de datos en un diseo factorial Daniel [35b] describe un diseo factorial 24 utilizado para estudiar la rapidez de avance de una perforadora como una funcin de cuatro factores: la carga de la perforadora (A), la rapidez de flujo (B), la velocidad de rotacin (C) y el tipo de lodo de perforacin usado (D). Los datos del experimento se presentan en la figura 6-17. En la figura 6-18 se muestra la grfica de probabilidad normal de las estimaciones de los efectos de este experimento. Con base en esta grfica, los factores B, e y D, junto con las interacciones Be y BD, requieren interpretacin. La figura 6-19 es la grfica de probabilidad normal de los residuales y la fi-
99
B
5
~ 10
o
95 90 80 70
o o
R:' 20
1
~
30
50 E o
c:
50 ';
;;''''
.o '" o. 90
:c
;g '" 70
"C
80
30 20 10
95
o
Estimacin del efecto
99
Figura 6-18
258
CAPTULO 6
DISEO FACTORIAL 2k
99
5
o o
95 90 80 70
o o
..... 10
x
I
;;:-. 20
S
30
ro
."
E 50
o c:
50 ';
';-'
;g '"
70
J3 80
"-
30 20 10
.a
'" e
90 95 99 -2 -1
o
Residuales
Figura 6-19
gura 6-20 es la grfica de los residuales contra la velocidad de avance predicha a partir del modelo que contiene los factores identificados. Hay problemas evidentes con la normalidad y la igualdad de la varianza. Con frecuencia se usa una transformacin de los datos para abordar estos problemas. Puesto que la variable de respuesta es una razn de cambio, la transformacin logartmica parece un candidato razonable.
Ul
."
ro :J
al
al
c::
-1
Figura 6-20 Grfica de los residuales contra la velocidad de avance predicha en el ejemplo 6-3.
259
99
B
5
95 90 80 70
o o
g ...
10 20
;:;~
~ 30
ii1
o c:
:B
E 50
50 ~
i,'"
16 70 "O
~ 90
95 99
80
30 20 10
o
0.6
Estimacin del efecto
0.9
1.2
Figura 621 Grfica de probabilidad normal de los efectos del ejemplo 6-3 despus de la transformacin logartmica.
En la figura 6-21 se presenta la grfica de probabilidad normal de las estimaciones de los efectos despus de hacer la transformacin y* = lny. Observe que al parecer ahora es posible una interpretacin mucho ms simple, ya que slo los factores B, e y D estn activos. Es decir, expresar los datos en la mtrica correcta ha simplificado su estructura hasta el punto de que las dos interacciones han dejado de requerirse en el modelo explicatorio.
.
,
I
J~ i
'
99 5
o o ... x
I
95 90 80 70
o
o
10
;:;... 20
:::: 30
ro
"O
E o
c:
50 70 80
50 ~
i,'"
:c
oC
" ;g "
30 20
~ 90
95 99 -0.2
10
5
-0.1
o
Residuales
0.1
0.2
Figura 622 Grfica de probabilidad normal de los residuales del ejemplo 6-3 despus de la transformacin logartmica.
260
0.2
0.1
Ul
ro ::;
.;;
"O
al
al
oc
-0.1
O
0.5 1.5
Figura 623 Grfica de los residuales contra la velocidad predicha para el ejemplo 6-3 despus de la transformacin logartmica.
En las figuras 6-22 y 6-23 se presentan, respectivamente, una grfica de probabilidad normal de los residuales y una grfica de los residuales contra la rapidez de avance predicha para el modelo en la escala logartmica que contiene a B, e y D. Ahora estas grficas son satisfactorias. Se concluye que el modelo y* = lny slo requiere los factores B, e y D para una interpretacin adecuada. En la tabla 6-14 se resume el anlisis de varianza de este modelo. La suma de cuadrados del modelo es SSModelo = SSB +SSc +SSD = 5.345+ 1.339 + 0.431 = 7.115 YR 2 = SSModelo/SST = 7.11517.288 = 0.98, por lo que el modelo explica cerca de 98% de la variabilidad de la rapidez de avance de la perforadora.
EJEMPLO 6~4
Efectos de localizacin y dispersin en un diseo factorial no replicado Se corri un diseo 24 en un proceso de manufactura de paneles laterales y ventanas de un avin comercial. Los paneles se hacen en una prensa, y bajo las condiciones actuales es demasiado elevado el nmero
Tabla 6-14 Anlisis de varianza del ejemplo 63 despus de la transformacin logartmica
Suma de cuadrados
5.345 1.339 0.431 0.173 7.288
Grados de libertad
1 1 1 12 15
Cuadrado medio
5.345 1.339 0.431 0.014
"
6-5 UNA SOLA RPLICA DEL DISEO 2k
Factores Bajo(-) Alto(+)
261
295
7
325
9
e = Flujo de resina
10 15
20 30
5~
)5-+7'
11
CtL:
A
Figura 624 Datos del experimento del proceso de los paneles del ejemplo 64.
promedio de defectos por panel en una operacin de prensado. (El promedio actual del proceso es 5.5 defectos por panel.) Se investigan cuatro factores utilizando una sola rplica de un diseo 2\ en el que cada rplica corresponde a una sola operacin de prensado. Los factores son la temperatura (A), el tiempo de sujecin (B), el flujo de resina (C) y el tiempo de cierre en el prensado (D). En la figura 6-24 se muestran los datos de este experimento. En la figura 6-25 se muestra la grfica de probabilidad normal de los efectos de los factores. Es evidente que los dos efectos ms grandes sanA = 5.75 YC = -4.25. Ningn efecto de los otros factores parece ser tan grande, y A YC explican cerca de 77% de la variabilidad total, por lo que se concluye que la temperatura (A) baja y el flujo de resina (C) alo reduciran la incidencia de defectos en los paneles. El anlisis residual cuidadoso es un aspecto importante de cualquier experimento. La grfica de probabilidad normal de los residuales no indic anomalas, pero cuando el experimentador grafic los resi99
eA
5 10
o
95 90 80 70 50
~ 20
;;--.30
I
S
;
50 70 80 90 95 99
Ce
E o
c:
"C
x 30 :';-'
:c
ll.
" .c " e
~
20 10 5
-10
-5
O
Efectos de los factores
10
Figura 625 Grfica de probabilidad normal de los efectos de los factores para el experimento del proceso de los paneles del ejemplo 6-4.
W!l!
I
262
5
e
e
ee
Ul
.g <ti
.~
QJ
Of - - -
e
----J. _
eee
e eee
B = Tiempo de sujecin
ce
-5
Figura 626 Grfica de los residuales contra el tiempo de sujecin para el ejemplo 6-4.
duales contra cada uno de los factoresA aD, la grfica de los residuales contraB (tiempo de sujecin) present el patrn de la figura 6-26. Este factor, que carece de importancia en lo que se refiere al nmero promedio de defectos por panel, es muy importante en su efecto sobre la variabilidad del proceso, con el tiempo de sujecin bajo dando como resultado una variabilidad menor en el nmero promedio de defectos por panel en una operacin de prensado. El efecto de dispersin del tiempo de sujecin tambin es muy evidente en la grfica de cubo de la fi gura 627, donde se grafica el nmero promedio de defectos por panel y el rango del nmero de defectos en cada punto del cubo definido por los factoresA, B y c. El rango promedio cuando B est en el nivel alto (la cara posterior del cubo de la figura 6-27) esRB + = 4.75, y cuandoB est en el nivel bajo esRB - = 1.25. Como resultado de este experimento, el ingeniero decidi operar el proceso con la temperatura baja y el flujo de resina alto para reducir el nmero promedio de defectos, con el tiempo de sujecin bajo para reducir la variabilidad en el nmero de defectos por panel, y con el tiempo de cierre en el prensado bajo (el cual no tuvo ningn efecto ni sobre la localizacin ni sobre la dispersin). El nuevo ajuste de las condiciones de operacin produjo un nuevo promedio del proceso de menos de un defecto por panel. Los residuales de un diseo 2k proporcionan mucha informacin acerca del problema bajo estudio. Puesto que los residuales pueden considerarse como los valores observados del ruido o error, con frecuencia ofrecen informacin acerca de la variabilidad del proceso. Puede hacerse el examen sistemtico de los residuales de un diseo 2k no replicado para proporcionar informacin acerca de la variabilidad del proceso.
R 20
R=O.V" 0.75 I
I I I
R=2/ 7.0
c= Flujo de resina
IR =4.5 ",?75--
R=6.5
-~12.~9
10
Figura 627 Grfica de cubo de la temperatura, el tiempo de sujecin y el flujo de resina para el ejemplo 6-4.
A
-
B
-
AB
C
-
AC
BC
ABC
-
AD
BD
ABD
CD
ACD
-
BCD
-
ABCD
Residual -0.94 -0.69 -2.44 -2.69 -1.19 0.56 -0.19 2.06 0.06 0.81 2.06 3.81 -0.69 -1.44 3.31 -2.44
+ + +
-
+
-
+ + +
-
+ +
-
+
-
+
-
+ +
-
+ +
-
+
-
+ +
-
+ +
-
+ + + +
-
+ +
-
+
-
+
-
+ + + +
-
+ +
-
+ + + +
-
+
-
+
-
+
-
+ +
-
+ +
-
+ +
-
+
-
+ + + +
-
+
-
+ +
-
+ + + +
-
+
-
+ +
-
+ + +
-
+
-
12 13 14 15 16
+
-
+ + +
2.21 1.86 0.34
+
-
+
2.25 1.85 0.39
+ +
2.72 0.83 2.37
+ + + +
1.91 2.20 -0.28
+
-
+
-
+
1.81 2.24 -0.43
+ +
1.80 2.26 -0.46
+
1.80 2.24 -0.44
+ + + + + + + +
2.24 1.55 0.74
+
-
+ +
-
+
-
+ +
-
+
-
+ +
-
+ +
-
+ +
-
+
-
+
2.05 1.93 0.12
+ +
2.28 1.61 0.70
+
1.97 2.11 -0.14
+ + + +
1.93 1.58 0.40
+
-
+
-
+
1.52 2.16 -0.70
+ +
2.09 1.89 0.28
+
1.61 2.33 -0.74
SV)
s(1-)
F*
I
0\
\,,J
264
CAPTULO 6
DISEO FACTORIAL 2k
Considere la grfica de los residuales de la figura 6-26. La desviacin estndar de los ocho residuales donde B est en el nivel bajo es S(B-) = 0.83, Yla desviacin estndar de los ocho residuales donde B est en el nivel alto es S(B+) = 2.72. El estadstico S2 F*=ln (B:) (6-24) B S2(B-) tiene una distribucin aproximadamente normal cuando las dos varianzas if(B+) y if(B-) son iguales. Para ilustrar los clculos, el valor de F; es S2(B+) F* = In ---'----'B S2(B-)
= In (2.72)2
(0.83)2
= 2.37
En la tabla 6-15 se presenta el conjunto completo de contrastes para el diseo 24 junto con los residuales para cada corrida del experimento del proceso de los paneles del ejemplo 6-4. Cada columna de esta tabla contiene el mismo nmero de signos positivos y negativos, y es posible calcular la desviacin estndar de los residuales de cada grupo de signos en cada columna, por ejemplo, SW) y Sen, i = 1,2, ;.., 15. Entonces S2 (i +) F.* = In i = 1, 2, ..., 15 (6-25) S2(i-)
1
es un estadstico que puede usarse para evaluar la magnitud de los efectos de dispersin del experimento. Si la varianza de los residuales de las corridas donde el factor i es positivo es igual a la varianza de los residuales de las corridas donde el factor i es negativo, entonces F;* tiene una distribucin aproximadamente normal. Los valores de F;* se presentan al final de cada columna de la tabla 6-15. La figura 6-28 es la grfica de probabilidad normal de los efectos de dispersin F;*. Evidentemente, B es un factor importante en lo que se refiere a la dispersin del proceso. Para un estudio ms amplio de
0.1 99.9 99
o o
~
95 80
o o
ii:;-'
I
s
ro
o
ro
E
c:
50 20 5
x
~...
"O
;g
.n
"-
:.c ro
Figura 628 Grfica de probabilidad normal de los efectos de dispersin F' del ejemplo 6-4.
ti
265
este procedimiento, ver Boxy Meyer [19] y Myers y Montgomery [85a]. Asimismo, para que los residuales del modelo ofrezcan la informacin apropiada acerca de los efectos de dispersin, es necesario especificar correctamente el modelo de localizacin. Referirse al material suplementario del texto de este captulo para mayores detalles y un ejemplo.
EJEMPLO
6~5
......................................................
e
-1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1
Espesor
S2
1 2 3 4 5 6 7 8 9
10
11
12
13
14 15 16
7 3 9 6 2 5 4 12 16 8 1 14 15 11
13
-1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1
-1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1
-1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
378 415 380 450 375 391 384 426 381 416 371 445 377 391 375 430
376 416 379 446 371 390 385 433 381 420 372 448 377 391 376 430
379 416 382 449 373 388 386 430 375 412 371 443 379 386 376 428
379 417 383 447 369 391 385 431 383 412 370 448 379 400 377 428
378 416 381 448 372 390 385 430 380 415 371 446 378 392 376 429
2 0.67 3.33 3.33 6.67 2 0.67 8.67 12.00 14.67 0.67 6 1.33 34 0.67 1.33
,rlt
266
CAPTULO 6 DISEO FACTORIAL 2k
Tabla 6-17
Estimaciones de los efectos del ejemplo 6-5, la variable de respuesta es el espesor promedio del xido
Suma de cuadrados
7439.06 1314.06 430.562 10.5625 1139.06 451.563 5.0625 60.0625 60.0625 5.0625 0.5625 33.0625 0.0625 1.5625 0.0625
Contribucin porcentual
67.9339 12.0001 3.93192 0.0964573 10.402 4.12369 0.046231 0.548494 0.548494 0.046231 0.00513678 0.301929 0.000570753 0.0142688 0.000570753
AB
AC AD
BC BD
CD ABC ABD
ACD
BCD
ABCD
xido. La figura 6-29 es una grfica de probabilidad normal de los efectos. Al examinar esta representacin, se concluira que los factores A, By C y las interaccionesAB yAC son importantes. En la tabla 6-18 se muestra el anlisis de varianza de este modelo. El modelo para predecir el espesor promedio del xido es
El anlisis residual de este modelo es satisfactorio. Los experimentadores estn interesados en obtener un espesor promedio del xido de 400 A, y las especificaciones del producto requieren que el espesor sea de entre 390y 410 A. En la figura 6-30 se presentan dos grficas de contorno del espesor promedio, una con el factor C (o x 3 ), la presin, en el nivel bajo (es decir, X 3 = -1) Yla otra con C (o x 3) en el nivel alto (es decir, X 3 = + 1). Al examinar estas grficas de contorno, es evidente que hay muchas combinaciones del tiempo y la temperatura (factores A y B) que producirn resultados aceptables. Sin embargo, si la presin se mantiene constante en el nivel bajo, la "ventana" de operacin se corre hacia el extremo izquierdo, o ms bajo, del eje del tiempo, indicando que se necesitarn duraciones del ciclo ms cortas para conseguir el espesor del xido deseado. Es interesante observar los resultados que se hubieran obtenido si las mediciones del espesor del xido de las obleas se hubieran considerado incorrectamente como rplicas. En la tabla 6-19 se presenta el anlisis de varianza del modelo completo basado en tratar el experimento como un diseo factoria12 4 con rplicas. Observe que hay muchos factores significativos en este anlisis, lo cual sugiere un modelo mucho ms complejo del que se encontr cuando se utiliz el espesor promedio del xido como la respuesta. La razn de esto es que la estimacin de la varianza del error de la tabla 6-19 es muy pequea (a z = 6.12). El cuadrado medio de los residuales de la tabla 6-19 refleja la variabilidad entre las obleas dentro de una corrida yla variabilidad entre las corridas. La estimacin del error que se obtiene en la tabla 6-18 es mucho ms grande, aZ = 17.61, Yes principalmente una medida de la variabilidad entre las corridas. sta es la mejor estimacin del error que deber usarse para juzgar la significacin de las variables del proceso que se modifican de una corrida a otra. Una pregunta lgica que podra plantearse es: qu dao causa identificar demasiados factores como importantes?, como ciertamente sera el caso en el anlisis incorrecto de la tabla 6-19. La respuesta es que
.,
6-5 UNA SOLA RPLICA DEL DISEO 2k
267
A ~
AS
29.69 Efecto
43.13
Figura 6-29 Grfica de probabilidad normal de los efectos para la respuesta del espesor promedio del xido, ejemplo 6-5. Tabla 6-18 Anlisis de varianza (de Design-Expert) para la respuesta espesor promedio del xido, ejemplo 6-5
Source
Sum of Squares
DF
Mean Square
F
Value Prob> F
10774.31 7439.06 1314.06 430.56 1139.06 451.56 176.12 10950.44 4.20 399.19 1.05 450.88
Coefficient Estimate
5 1 1 1 1 1 10 15
Factor
DF
1 1 1 1 1 1
268
CAPTULO 6
1.00,....--,---.------;;----r--....- - - - - ,
0.50
.a
~ 0.00 380 E ~
~
-0.50
1.00,...,----------,----.------,----,
0.50
'
al
:J
~ 0.00
-0.50
lb) x 3 = +1
Figura 6-30 Grficas de contorno del espesor promedio del xido con la presin (x3 ) mantenida constante.
intentar manipular u optimizar los factores que no son importantes sera un desperdiio de recursos, y podra resultar en agregar variabilidad innecesaria a otras respuestas de inters. Cuando se hacen mediciones duplicadas de la respuesta, casi siempre hay informacin til acerca de algn aspecto de la variabilidad del proceso contenida en estas observaciones. Por ejemplo, si las mediciones duplicadas son pruebas mltiples hechas con un instrumento de medicin en la misma unidad ex-
"
6-5 UNA SOLA RPLICA DEL DISEO 2k
269
Tabla 6-19 Anlisis de varianza (de Design-Expert) de la respuesta individual del espesor del xido de las obleas
Source
Surnof Squares
DF
Mean Square
F Value
Prob> F
Model A
B
C
O AB
AC
43801.75 29756.25 5256.25 1722.25 42.25 4556.25 1806.25 20.25 240.25 240.25 20.25 132.25 2.25 0.25 6.25 0.25 294.00 0.000 294.00 44095.75
15 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 48 O 48 63
2920.12 29756.25 5256.25 1722.25 42.25 4556.25 1806.25 20.25 240.25 240.25 20.25 132.25 2.25 0.25 6.25 0.25 6.12 6.13
476.75 4858.16 858.16 281.18 6.90 743.88 294.90 3.31 39.22 39.22 3.31 21.59 0.37 0.041 1.02 0.041
<0.0001 <0.0001 <0.0001 <0.0001 0.0115 <0.0001 <0.0001 0.0753 <0.0001 <0.0001 0.0753 <0.0001 0.5473 0.8407 0.3175 0.8407
perimental, entonces las mediciones duplicadas proporcionan cierta informacin acerca de la eficiencia del instrumento de medicin. Si las mediciones duplicadas se hacen en diferentes lugares dentro de una unidad experimental, pueden brindar cierta informacin acerca de la uniformidad de la variable de respuesta en esa unidad. En el ejemplo tratado aqu, ya que se tiene una observacin en cada una de cuatro unidades experimentales que se han sometido a un procesamiento conjunto, se tiene cierta informacin acerca de la variabilidad dentro de las corridas del proceso. Esta informacin se encuentra contenida en la varianza de las mediciones del espesor del xido de las cuatro obleas de cada corrida. Sera de inters determinar si alguna de las variables del proceso influye en la variabilidad al interior de las corridas. La figura 6-31 es una grfica de probabilidad normal de las estimaciones de los efectos obtenidas utilizando ln(s2) como la respuesta. Recuerde que en el captulo 3 se indic que la transformacin logartmica es por lo general apropiada para modelar la variabilidad. No hay ningn efecto individual fuerte, pero el factor A y la interaccin BD son los ms grandes. Si se incluyen tambin los efectos principales de By D para obtener un modelo jerrquico, entonces el modelo de ln(S2) es
/i-ln(s )=1.08+0Alx
El modelo explica apenas poco menos de la mitad de la variabilidad en la respuesta ln(S2), lo cual desde luego no es nada espectacular para un modelo emprico, pero con frecuencia es difcil obtener modelos excepcionalmente buenos de las varianzas. La figura 6-32 es una grfica de contorno de la varianza predicha (no del logaritmo de la varianza predicha) con la presinx3 en el nivel bajo (recuerde que con esto se minimiza la duracin del ciclo) y el flujo de gasx4 en el nivel alto. Esta eleccin del flujo de gas produce los valores mnimos de la varianza predicha en la regin de la grfica de contorno. En este caso, los experimentadores se enfocaron en seleccionar valores de las variables de diseo que dieran un espesor medio del xido dentro de las especificaciones del proceso y tan cerca de 400 como fuera posible, haciendo al mismo tiempo que la variabilidad dentro de las corridas sea pequea, por ejemplo S2 :::; 2.,
270
99
A
95 90
illJl
ro
ro
80 70 50
o c:
"C
:a ro
.n
al
:!2
e c.
"C
?f'
-1.12
-0.64
-0.15
Efecto
0.34
0.82
Figura 6-31 Grfica de probabilidad normal de los efectos utilizando In (S2) como la respuesta, ejemplo 6-5.
1.00..--------""7'---------:;;...._.
e
::l
15. 0.00
E ~
Figura 6-32 Grfica de contorno de S2 (variabilidad dentro de las corridas) con la presin en el nivel bajo y el flujo de gas en el nivel alto.
271
0.50
l!!
{!!.
e
(1)
0.00
-0.50
-1.00 -1.00
-0.50
0.00
Tiempo
0.50
Figura 633 Superposicin del espesor promedio del xido y las respuestas S2 con la presin en el nivel bajo y el flujo de gas en el nivel alto.
Una manera posible de encontrar un conjunto de condiciones adecuado es superponiendo las grficas de contorno de las figuras 6-30 y 6-32. La grfica de la superposicin se muestra en la figura 6-33, con las especificaciones del espesor medio del xido y la restriccin S2 :5 2 indicadas como contornos. En esta grfica, la presin se mantiene constante en el nivel bajo y el flujo de gas se mantiene constante en el nivel alto. La regin no sombreada cerca de la parte central izquierda de la grfica identifica una regin factible para las variables tiempo y temperatura. ste es un ejemplo simple del uso de las grficas de contorno para estudiar dos respuestas simultneamente. Este problema se analizar con mayor detalle en el captulo 11.
6~6
Una preocupacin potencial en el uso de diseos factoriales de dos niveles es el supuesto de la linealidad de los efectos de los factores. Desde luego, no es necesaria la linealidad perfecta, y el sistema 2k funcionar bastante bien incluso cuando el supuesto de linealidad sea vlido slo de manera muy aproximada. De hecho, se ha sealado ya que si se agregan los trminos de interaccin a un modelo de los efectos principales o de primer orden, de donde se obtiene
Y=f30+
L j=l
f3 j Xj +
LL <j
f3ijXX j +c
(6-26)
entonces se tiene un modelo con la capacidad de representar cierta curvatura en la funcin de respuesta. Esta curvatura, desde luego, es resultado del torcimiento del plano inducido por los trminos de interaccin f3l'iXj'
272
Habr situaciones en que la curvatura de la funcin de respuesta no est modelada adecuadamente por la ecuacin 6-26. En tales casos, un modelo lgico por considerar es
y= {30 +
2:
j=l
{3jX j
2:2:
i<j
{3ijX i X j
2:
j=l
{3jjXJ
+8
(6-27)
donde las {3jj representan efectos cuadrticos o de segundo orden puros. A la ecuacin 6-27 se le llama modelo de superficie de respuesta de segundo orden. Cuando se realiza un experimento factorial de dos niveles, por lo general se anticipa el ajuste del modelo de primer orden de la ecuacin 6-26, pero deber estarse alerta ante la posibilidad de que el modelo de segundo orden de la ecuacin 6-27 sea en realidad ms apropiado. Existe un mtodo para hacer una rplica de ciertos puntos de un diseo factorial2 k que ofrecer proteccin contra la curvatura de los efectos de segundo orden a la vez que permitir una estimacin independiente del error que va a obtenerse. El mtodo consiste en agregar puntos centrales en el diseo 2k stos consisten en n rplicas que se corren en los puntos Xi = O(i = 1, 2, oo., k). Una razn importante para agregar rplicas de las corridas en el centro del diseo es que los puntos centrales no afectan las estimaciones usuales de los efectos en un diseo 2k Cuando se agregan puntos centrales, se supone que los k factores son cuantitativos. Para ilustrar este enfoque, considere un diseo 22 con una observacin en cada uno de los puntos factoriales (-, -), (+, -), (-, +)y (+, +), yn e observaciones en el punto central (O, O). En la figura 6-34 se ilustra la situacin. Sea YF el promedio de las cuatro corridas en los cuatro puntos factoriales y sea Ye el promedio de las ne corridas en el punto central. Si la diferenciaYF - Ye es pequea, entonces los puntos centrales caen en el plano (o cerca de l) que pasa por los puntos factoriales, y no hay curvatura cuadrtica. Por otra parte, si YF - Ye es grande, entonces est presente una curvatura cuadrtica. La suma de cua drados de la curvatura cuadrtica pura con un solo grado de libertad est dada por SS Cuadrtica pura
e = ---.:...----=--'-'---'------'-=---=-n +n
F
nFn (JiF - Ye )2
e
(6-28)
donde, en general, nF es el nmero de puntos del diseo factorial. Esta cantidad puede compararse con el cuadrado medio del error para probar la curvatura cuadrtica pura. Ms especficamente, cuando se
y
-1
!Ir
I
273
agregan puntos en el centro del diseo 2\ con la prueba de la curvatura (utilizando la ecuacin 6-28) en realidad se prueban las hiptesis
H O: H1:
2.: fi
j=l
jj
=O
;z!:'0
2.: fi
j=l
jj
Adems, si los puntos factoriales del diseo no tienen rplicas, pueden usarse los He puntos centrales para construir una estimacin del error con He - 1 grados de libertad.
EJEMPLO 6~6
Un ingeniero qumico estudia el rendimiento de un proceso. Hay dos variables de inters, el tiempo de reaccin y la temperatura de reaccin. Debido a que no se tiene la seguridad sobre el supuesto de linealidad en la regin de exploracin, el ingeniero decide realizar un diseo factorial 22 (con una sola rplica de cada corrida factorial) aumentando con cinco puntos centrales. El diseo y los datos del rendimiento se muestran en la figura 6-35. En la tabla 6-20 se resume el anlisis de varianza de este experimento. El cuadrado medio del error se calcula a partir de los puntos centrales de la siguiente manera:
MS
E
SSE 12-1 e
_
(6-29)
MS
E
= -"i=""l
= 4 = 0.0430
40.0 160 41.5
0.1720
E
~
11
:J
E ~
I:l:l
c.
155
150
-1
39.3 I
-1
r'
o
I 35
I 30
I 40
Figura 6-35 El diseo 22 con cinco puntos centrales para el ejemplo 6-6.
274
Tabla 6-20 Anlisis de varianza del ejemplo 6-6 Fuente de Suma de Grados de libertad variacin cuadrados 1 A (Tiempo) 2.4025 1 B (Temperatura) 0.4225 1 AB 0.0025 1 0.0027 Cuadrtica pura 4 0.1720 Error 3.0022 8 Total
El promedio de los puntos de la parte factorial del diseo esyp = 40.425, Y el promedio de los puntos situados en el centro eSYe = 40.46. La diferenciaYp-Ye = 40.425 -40.46 = -0.035 parece ser pequea. La suma de cuadrados de la curvatura cuadrtica pura de la tabla del anlisis de varianza se calcula con la ecuacin 6-28 de la siguiente manera: SS
Cuadrtica pura
= 1lp1l e (rp 1l
p
+ 1l e
re )2
= (4)(5)(-0.035)2
4+5
= 0.0027
El anlisis de varianza indica que ambos factores tienen efectos principales significativos, que no existe interaccin, y que no hay evidencia de curvatura de segundo orden en la respuesta en la regin de exploracin. Es decir, la hiptesis nula H o: fJn + fJ22 = O no puede rechazarse.
,. ,
"
En el ejemplo 6-6 se lleg a la conclusin de que no haba indicios de efectos cuadrticos; es decir, un modelo de primer orden
.
6-6 ADICIN DE PUNTOS CENTRALES EN EL DISEO 2k
275
_-f---+---f---
X1
b ) Tres factores
Se concluye esta seccin con algunas sugerencias y observaciones adicionales tiles referentes al uso de puntos centrales. Cuando un experimento factorial se lleva a cabo en un proceso en marcha, considere utilizar las condiciones de operacin actuales (o de receta) como el punto central del diseo. Esto con frecuencia le asegura al personal de operacin que al menos una parte de las corridas del experimento van a realizarse bajo condiciones familiares, y por lo tanto es improbable que los resultados obtenidos (por lo menos para estas corridas) sean peores que los que se obtienen tpicamente. 2. Cuando el punto central de un experimento factorial corresponde con las condiciones de operacin actuales, el experimentador puede usar las respuestas observadas en el punto central para proporcionar una verificacin aproximada de si algo "inusual" ocurri durante el experimento. Es decir, las respuestas del punto central debern ser muy similares a las respuestas observadas histricamente en la operacin rutinaria del proceso. Con frecuencia el personal de operacin llevar una carta de control para monitorear el desempeo del proceso. En ocasiones las respuestas de los puntos centrales pueden graficarse directamente en la carta de control como una verificacin de la forma en que estuvo operando el proceso durante el experimento. 3. Considere correr las rplicas del punto central en orden no aleatorio. Especficamente, debern correrse uno o dos puntos centrales en o cerca del principio del experimento, uno odas cerca de la parte media, y uno o dos cerca del final. Al separar los puntos centrales en el tiempo, el experimentador tiene una verificacin aproximada de la estabilidad del proceso durante el experimento. Por ejemplo, si ha ocurrido una tendencia en la respuesta mientras se realizaba el experimento, graficar las respuestas de los puntos centrales contra el tiempo puede poner de manifiesto esta situacin. 4. En ocasiones los experimentos tienen que realizarse en situaciones en las que la informacin previa acerca de la variabilidad del proceso es escasa o nula. En estos casos, correr dos o tres puntos centrales como las primeras corridas en el experimento puede ser de suma utilidad. Estas corridas pueden proporcionar una estimacin preliminar de la variabilidad. Si la magnitud de la variabilidad parece razonable, se contina; por otra parte, si la variabilidad observada es mayor que la anticipada (io que la razonable!), habr que detenerse. Con frecuencia es muy provechoso estudiar la cuestin de por qu es tan grande la variabilidad antes de proceder con el resto del experimento. s. Generalmente, se utilizan puntos centrales cuando todos los factores del diseo son cuantitati vos. Sin embargo, en ocasiones habr una o ms variables cualitativas o categricas y varias cuan1.
~.
~,
.: . . ,.!.. .
.
'-1
'1 I
'
276
I I
CAPTULO 6
"""'----=---+-:---....-----o
I I I
I I I I I I
I I 1 I
I
I "\\e~"O
~
Eb
Tipo de catalizador
I
I
I I I
... --_
....
---~---------------
--------
titativas. Sigue siendo posible emplear los puntos centrales en estos casos. Para ilustrar este punto, considere un experimento con dos factores cuantitativos, el tiempo y la temperatura, cada uno con dos niveles, y un solo factor cualitativo, el tipo de catalizador, tambin con dos niveles (orgnico e inorgnico). En la figura 6-37 se muestra el diseo 23 para estos factores. Observe que los puntos centrales se colocan en las caras opuestas del cubo que incluyen los factores cuantitativos. En otras palabras, los puntos centrales pueden correrse con las combinaciones de los tratamientos en los niveles alto y bajo de los factores cualitativos, siempre y cuando esos subespacios incluyan nicamente factores cuantitativos.
6~7
PROBLEMAS
Un ingeniero est interesado en los efectos de la velocidad de corte (A), la geometra de la herramienta (B) y el ngulo de corte (C) sobre la vida (en horas) de una mquina herramienta. Se eligen dos niveles de cada factor y se corren tres rplicas de un diseo factorial 23 Los resultados fueron los siguientes: Combinacin de tratamientos (1) Rplica I 22 32 35 55 44 40 60 39
II
III
6-1.
+ + + +
+ + + +
a b ab
+ + + +
ae be abe
31 43 34 47 45 37 50 41
25 29 50 46 38 36 54 47
6-2.
a) Estimar los efectos de los factores. Qu efectos parecen ser grandes? b) Usar el anlisis de varianza para confirmar las conclusiones del inciso a. e) Escribir un modelo de regresin para predecir la vida de la herramienta (en horas) con base en los resultados de este experimento. d) Analizar los residuales. Hay algn problema evidente? e) Con base en el anlisis de las grficas de los efectos principales y las interacciones, cules seran los niveles de A, B Y C que se recomendara utilizar? Considere nuevamente el inciso e del problema 6-1. Utilizar el modelo de regresin para generar las grficas de la superficie de respuesta y de contorno de la respuesta, la vida de la herramienta. Interpretar estas grficas. Ofrecen alguna idea respecto de las condiciones de operacin deseables para este proceso?
\\~
11
1,
1:,
6-7 PROBLEMAS
277
6-3.
6-4.
6-5.
Encontrar el error estndar de los efectos de los factores y aproximar los lmites de confianza de 95% para los efectos de los factores en el problema 6-1. Los resultados de este anlisis concuerdan con las conclusiones del anlisis de varianza? Representar los efectos de los factores del problema 6-1 en una grfica relativa a una distribucin t escalada apropiadamente. En esta representacin grfica se identifican de manera adecuada los factores importantes? Comparar las conclusiones de esta grfica con los resultados del anlisis de varianza. Se usa una mquina para hacer ranuras de localizacin en una tarjeta de circuitos impresos. El nivel de vibracin en la superficie de la tarjeta cuando se hacen las ranuras se considera una fuente principal de variacin dimensional de las ranuras. Se piensa que dos factores influyen en la vibracin: el tamao de las ranuras (A) Y la velocidad de corte (E). Se seleccionan dos tamaos de las ranuras (kyt de pulgada) y dos velocidades (40 Y 90 rpm), y se hacen ranuras en cuatro tarjetas con cada conjunto de condiciones que se muestran abajo. La variable de respuesta es la vibracin medida como el vector resultante de tres acelermetros (x, y yz) en cada tarjeta de prueba. Combinacin de tratamientos (1) Rplica I 18.2 27.2 15.9 41.0
II III
+ +
+ +
a b ab
6-6.
6-7.
a) Analizar los datos de este experimento. b) Construir una grfica de probabilidad normal de los residuales, y graficar los residuales contra el nivel de vibracin predicho. Interpretar estas grficas. e) Hacer la grfica de la interaccinAE. Interpretar esta grfica. Qu niveles del tamao de las ranuras y la velocidad se recomendaran para la operacin rutinaria? Considere nuevamente el experimento descrito en el problema 6-1. Suponga que el experimentador efectu nicamente ocho ensayos de la rplica 1. Adems, corri cuatro puntos centrales y obtuvo los siguientes valores de la respuesta: 36, 40, 43, 45. a) Estimar los efectos de los factores. Qu efectos son grandes? b) Efectuar un anlisis de varianza, incluyendo una verificacin de la curvatura cuadrtica pura. A qu conclusiones se llega? e) Escribir un modelo apropiado para predecir la vida de la herramienta, con base en los resultados de este experimento. Este modelo difiere en alguna forma sustancial del modelo del problema 6-1, inciso e? d) Analizar los residuales. e) A qu conclusiones se llegara acerca de las condiciones de operacin apropiadas para este proceso? Se llev a cabo un experimento para mejorar el rendimiento de un proceso qumico. Se seleccionaron cuatro factores y se corrieron dos rplicas de un experimento completamente aleatorizado. Los resultados se presentan en la tabla siguiente:
Rplica I II 90 74 81 83 77 81 88 73 93 78 85 80 78 80 82 70
Combinacin de tratamientos
Rplica I 98 72 87 85 99 79 87 80
II
a b ab
e
ae be abe
95 76 83 86 90 75 84 80
278
CAPTULO 6
DISEO FACTORIAL2k
6-8.
a) Estimar los efectos de los factores. b) Construir la tabla del anlisis de varianza y determinar cules factores son importantes para explicar el rendimiento. e) Escribir un modelo de regresin para predecir el rendimiento, suponiendo que los cuatrc factores se hicieron variar en el rango de -1 a +1 (en unidades codificadas). d) Graficar los residuales contra el rendimiento predicho y en una escala de probabilidad normal. El anlisis residual parece ser satisfactorio? e) Dos interacciones de tres factores,ABCyABD, aparentemente tienen efectos grandes. Trazar una grfica de cubo en los factores A, By C con los rendimientos promedio indicados en cada vrtice. Repetir lo anterior utilizando los factores A, B y D. Estas dos grficas ayudan en la interpretacin de los datos? Dnde se recomendara que se corriera el proceso con respecto a las cuatro variables? Un bacterilogo est interesado en los efectos de dos medios de cultivo diferentes y dos tiempos diferentes sobre el crecimiento de un virus particular. Realiza seis rplicas de un diseo 22, haciendo las corridas de manera aleatoria. Analizar los datos del crecimiento viral que se presentan enseguida y sacar las conclusiones apropiadas. Analizar los residuales y comentar la adecuacin del modelo.
Tiempo, h 12 21 23 20 37 38 35
Medio de cultivo 2 22 28 26 39 38 36 25 24 29 31 29 30 26 25 27 34 33 35
18
6-9.
Un ingeniero industrial empleado por una compaa refresquera est interesado en los efectos de dos diferentes tipos de botellas de 32 onzas sobre el tiempo de entrega de cajas de 12 botellas del producto. Los dos tipos de botellas son de vidrio y de plstico. Se usan dos empleados para realizar una tarea que consiste en mover 40 cajas del producto 50 pies en una plataforma de carga estndar y acomodarlas en un estante de venta. Se hacen cuatro rplicas de un diseo factorial 22 y los tiempos observados se enlistan en la siguiente tabla. Analizar los datos y sacar las conclusiones apropiadas. Analizar los residuales y comentar la adecuacin del modelo.
Empleado Tipo de botella Vidrio Plstico 1 5.12 4.98 4.95 4.27 4.89 5.00 4.95 4.25 6.65 5.49 5.28 4.75 2 6.24 5.55 4.91 4.71
6-10.
En el problema 6-9, el ingeniero tambin estuvo interesado en las diferencias en la fatiga potencial que resulta de los tipos de botellas. Como una medida de la cantidad de esfuerzo requerido, midi el aumento del ritmo cardiaco (pulso) inducido por la tarea. Los resultados se presentan a continuacin. Analizar los datos y sacar conclusiones. Analizar los residuales y comentar la adecuacin del modelo.
6-7 PROBLEMAS
279
10 15
6-11. 6-12.
Calcular los lmites de confianza aproximados para los efectos de los factores del problema 6-10. Los resultados de este anlisis concuerdan con el anlisis de varianza realizado en el problema 6-10? En un artculo deAT&T Technical Joumal (vol. 65, pp. 39-50) se describe la aplicacin de diseos factoriales de dos niveles en la fabricacin de circuitos integrados. Un paso bsico del procesamiento es hacer crecer una capa epitaxial sobre obleas de silicio pulidas. Las obleas se montan en un susceptor, se colocan en el interior de una campana de cristal y se introducen vapores qumicos. El susceptor se hace girar y se aplica calor hasta que la capa epitaxial tiene el espesor suficiente. Se corri un experimento utilizando dos factores: rapidez de flujo de arsnico (A) y tiempo de deposicin (B). Se corrieron cuatro rplicas y se midi el espesor de la capa epitaxial (en !lm). Los datos se muestran a continuacin:
Rplica
Niveles de factores
III
II
IV
+ +
+ +
A
B
6-13.
6-14.
6-15.
a) Estimar los efectos de los factores. b) Conducir un anlisis de varianza. Qu factores son importantes? e) Escribir una ecuacin de regresin que podra usarse para predecir el espesor de la capa epitaxial en la regin de la velocidad de flujo del arsnico y el tiempo de deposicin utilizado en este experimento. d) Analizar los residuales. Se observa algn residual que debiera causar preocupacin? e) Comentar la forma en que se podra resolver el punto atpico potencial encontrado en el inciso d. Continuacin del problema 6-12. Usar el modelo de regresin del inciso e del problema 6-12 para generar una grfica de contorno de la superficie de respuesta para el espesor epitaxial. Suponga que es de importancia crtica obtener un espesor de la capa de 14.5!lm. Qu ajustes de la velocidad de flujo del arsnico y del tiempo de deposicin se recomendaran? Continuacin del problema 6-13. En qu forma cambiara la respuesta dada en el problema 6-13 si la velocidad de flujo del arsnico fuera ms difcil de controlar en el proceso que el tiempo de deposicin? Se utiliza una aleacin de nquel y titanio para fabricar componentes de los motores de turbina de aviones. La formacin de fisuras es un problema potencialmente serio de las piezas terminadas, ya que pueden provocar fallas irreversibles. Se realiza una prueba de las piezas para determinar el efecto de cuatro factores sobre las fisuras. Los cuatro factores son la temperatura de vaciado (A),el contenido de titanio (B), el mtodo de tratamiento trmico (C) y la cantidad de refinador de grano usada (D). Se hacen dos rplicas de un diseo 24 y se mide la longitud de las fisuras (en mm x 10-2) inducidas en un ejemplar de prueba de muestra sometido a una prueba estndar. Los datos se muestran en la siguiente tabla:
ffW'I'
,
I
'1
\"~
':\!,
280
CAPTULO 6
DISEO FACTORIAL 2k
A
+ + + + + + + +
Combinacin de tratamientos
(1)
Rplica I
7.037 14.707 11.635 17.273 10.403 4.368 9.360 13.440 8.561 16.867 13.876 19.824 11.846 6.125 11.190 15.653
II
+ + + + + + + + + + + + + + + + + + + + + + + +
a b ab
e
6.376 15.219 12.089 17.815 10.151 4.098 9.253 12.923 8.951 17.052 13.658 19.639 12.337 5.904 10.935 15.053
a) Estimar los efectos de los factores. Qu efectos de los factores parecen ser grandes? b) Conducir un anlisis de varianza. Alguno de los factores afecta la formacin de fisuras? Utilizar a =
0.05. Escribir un modelo de regresin que pueda usarse para predecir la longitud de las fisuras como una funcin de los efectos principales y las interacciones significativas que se han identificado en el inciso b. d) Analizar los residuales de este experimento. e) Hay algn indicio de que alguno de los factores afecte la variabilidad de la formacin de fisuras? f) Qu recomendaciones se haran respecto de las operaciones del proceso? Utilizar grficas de las interacciones y/o de los efectos principales como ayuda para sacar conclusiones. . Continuacin del problema 6-15. Una de las variables del experimento descrito en el problema 6-15, el mtodo de tratamiento trmico (C), es una variable categrica. Suponga que los dems factores son continuos. a) Escribir dos modelos de regresin para predecir la longitud de las fisuras, uno para cada nivel de la variable mtodo de tratamiento trmico. Qu diferencias, en caso de haberlas, se observan en estas dos ecuaciones? b) Generar las grficas de contorno apropiadas de la superficie de respuesta para los dos modelos de re,gresin del inciso a. . e) Qu conjunto de condiciones se recomendara para los factoresA, By D si se utiliza el mtodo de tratamiento trmico C = +? d) Repetir el inciso e suponiendo que quiere usarse el mtodo de tratamiento trmico C = -. Un experimentador corre una sola rplica de un diseo 24 Se calcularon las siguientes estimaciones de los efectos:
e)
6-16.
6-17.
a) Construir una grfica de probabilidad normal de estos efectos. b) Identificar un modelo tentativo, con base en la grfica de los efectos del inciso a.
"
6-7 PROBLEMAS
281
6-18.
En un artculo de Solid State Technology ("Diseo ortogonal para optimizacin de procesos y su aplicacin en el grabado qumico con plasma") se describe la aplicacin de diseos factoriales en el desarrollo de un proceso de grabado qumico con nitruros en un dispositivo de grabado qumico con plasma para una sola oblea. El proceso usa ~F6 como gas de reaccin. Cuatro factores son de inters: el entrehierro nodo-ctodo (A), la presin en la cmara del reactor (B), el flujo del gas C 2F 6 (C) y la potencia aplicada al ctodo (D). La respuesta de inters es la rapidez de grabado para el nitruro de silicio. Se corre una sola rplica de un diseo 24 ; los datos se muestran enseguida:
+ +
+
+ +
+
+
+
+
+
+ + + + + + + +
11
12 13 14 15 16
+
+ + + + +
11
2 7 6
+
+ + + +
Rapidez de grabado Niveles de los factores Bajo (-) Alto (+) (lrnin) 550 0.80 1.20 A (cm) 669 B (mTorr) 450 550 604 C (SCCM) 125 200 650 275 325 D(W) 633 642 601 635 1037 749 1052 868 1075 860 1063 729
a) Estimar los efectos de los factores. Considere una grfica de probabilidad normal de los efectos de los
factores. Qu efectos parecen ser grandes? b) Efectuar un anlisis de varianza para confirmar los resultados obtenidos en el inciso a. e) Cul es el.modelo de regresin que relaciona la rapidez de grabado con las variables significativas del proceso? d) Analizar los residuales de este experimento. Comentar la adecuacin del modelo. e) Si no todos los factores son importantes, hacer la proyeccin del diseo 24 en un diseo 2k con le < 4 y conducir el anlisis de varianza. f) Trazar grficas para interpretar cualquier interaccin significativa. g) Graficar los residuales contra el orden real de las corridas. Qu problemas podran ponerse de manifiesto en esta grfica? Continuacin del problema 6-18. Considere el modelo de regresin obtenido en el inciso e del problema 6-18. a) Construir las grficas de contorno de la rapidez de grabado utilizando este modelo. b) Suponga que fuera necesario operar este proceso con una rapidez de 800 lmin. Cules seran los ajustes de las variables del proceso que se recomendaran? Considere la rplica nica del diseo 24 del ejemplo 6-2. Suponga que se decidi arbitrariamente analizar los datos suponiendo que las interacciones de tres y cuatro factores eran insignificantes. Conducir este anlisis y comparar los resultados con los que se obtuvieron en el ejemplo. Piensa el lector que es una buena idea suponer de manera arbitraria que las interacciones son insignificantes incluso cuando sean de orden relativamente alto? Se realiz un experimento en una fbrica de semiconductores en un esfuerzo para incrementar el rendimiento. Se estudiaron cinco factores, cada uno con dos niveles. Los factores (y los niveles) fueron: A = ajuste de apertura (pequea, grande), B = tiempo de exposicin (20% abajo del nominal, 20% arriba del nominal),
6-19.
6-20.
6-21.
282
e = tiempo de desarrollo (30 s, 45 s),D = tamao de la mscara (pequea, grande) y E = tiempo de grabado
(14.5 min, 15.5 min). Se corri el diseo 25 no replicado que se muestra a continuacin. (1) = 7 a=9 b = 34 ab = 55 e = 16 ac = 20 be = 40 abe =60
d=8 ad = 10 bd = 32 abd = 50 cd = 18 aed = 21 bed = 44 abed = 61 e=8 ae = 12 be = 35 abe = 52 ce = 15 aee = 22 bee = 45 abee = 65 de = 6 ade = 10 bde = 30 abde = 53 cde = 15 aede = 20 bede = 41 abcde= 63
a) Construir una grfica de probabilidad normal de las estimaciones de los efectos. Qu efectos parecen ser grandes? b) Efectuar un anlisis de varianza para confirmar los resultados obtenidos en el inciso a. e) Escribir el modelo de regresin que relacione el rendimiento con las variables significativas del proceso. d) Graficar los residuales en papel probabilidad normal. La grfica es satisfactoria? e) Graficar los residuales contra los rendimientos predichos y contra cada uno de los cinco factores. Comentar las grficas. 1) Interpretar cualquier interaccin significativa. g) Qu recomendaciones se haran respecto de las condiciones de operacin del proceso? 11) Hacer la proyeccin del diseo 25 de este problema en un diseo 2k en los factores importantes. Esquematizar el diseo e indicar el promedio y el rango de los rendimientos en cada corrida. Es de ayuda este esquema para interpretar los resultados de este experimento? 6-22. Continuacin delproblema 6-21. Suponga que el experimentador corri cuatro puntos centrales adems de los 32 ensayos del experimento original. Los rendimientos obtenidos en las corridas de los puntos centrales fueron 68, 74, 76 y 70. a) Analizar de nuevo el experimento, incluyendo una prueba para la curvatura cuadrtica pura. b) Comentar cul sera el siguiente paso. 6-23. Se estudiaron cuatro factores, cada uno con dos niveles, en un estudio del rendimiento de un proceso: el tiempo (A), la concentracin (B), la presin (C) y la temperatura (D). Se corri una sola rplica de un diseo 24 y los datos obtenidos se muestran en la siguiente tabla:
Rendimiento (lbs)
12 18 13 16 17 15 20 15 10 25 13 24 19 21 17 23
Alto (+)
3 18 80 250
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+
+
ti
6-7 PROBLEMAS
283
6-24.
6-25.
a) Construir una gr~fica de probabilidad normal de las estimaciones de los efectos. Qu factores parecen tener efectos grandes? b) Efectuar un anlisis de varianza utilizando la grfica de probabilidad normal del inciso a como gua para formar el trmino del error. A qu conclusiones se llega? e) Escribir un modelo de regresin que relacione el rendimiento con las variables importantes del proceso. d) Analizar los residuales de este experimento. El anlisis indica algn problema potencial? e) Es posible plegar este diseo a un diseo 23 con dos rplicas? De ser as, esquematizar el diseo con el promedio y el rango del rendimiento indicados en cada punto del cubo. Interpretar los resultados. Continuacin del problema 6-23. Usar el modelo de regresin del inciso e del problema 6-23 para generar una grfica de contorno de la superficie de respuesta del rendimiento. Analizar el valor prctico de esta grfica de superficie de respuesta. El experimento del brownie (pastelito) exquisito. El autor es un ingeniero hecho en la prctica y un firme creyente de aprender haciendo las cosas. Durante muchos aos ha impartido el curso de diseo experimental a una amplia variedad de audiencias y siempre asigna la planeacin, realizacin y anlisis de un experimento real a los participantes de la clase. Los participantes parecen disfrutar esta experiencia prctica y siempre aprenden mucho de ella. En este problema se utilizan los resultados de un experimento realizado por Gretchen Krueger en la Universidad Estatal de Arizona. Existen muchas formas diferentes de hornear brownies. El propsito de este experimento fue determinar la forma en que el material del molde, la marca de la harina para brownies y el mtodo de batido afectan la exquisitez de los brownies. Los niveles de los factores fueron:
Factor A :=: material del molde B :=: mtodo de batido e :=: marca de la harina
La variable de respuesta fue la exquisitez, una medida subjetiva derivada de un cuestionario aplicado a los sujetos que hicieron el muestreo de cada lote de brownies. (Este cuestionario inclua aspectos como el sabor, la apariencia, la consistencia, el aroma, etc.) Un panel de prueba integrado por ocho personas hizo el muestreo de cada lote y llen el cuestionario. La matriz del diseo y los datos de la respuesta se presentan a continuacin:
Lote de brownies 1 2 3 4 5 6 7 8
1
11 15 9 16 10 12 10 15
2
9 10 12 17 11 13 12 12
3 10 16 11 15 15 14 13 15
4
10 14 11 12 8 13 10 13
5
11 12 11 13 6 9 7 12
+ + + +
+ + + +
+ + + +
6 109 11 13 8 13 7 12
7 8 6 11 11 9 14 17 9
8
9 15 12 11 14 9 13 14
a) Analizar los datos de este experimento como si se tratara de ocho rplicas de un diseo 23 Comentar los resultados.
284
b)
626.
El anlisis del inciso a es el enfoque correcto? Hay nicamente ocho lotes; se tienen en realidad ocho rplicas de un diseo factorial 23 ? e) Analizar el promedio y la desviacin estndar del puntaje de la exquisitez. Comentar los resultados. Este anlisis es ms apropiado que el del inciso a? Por qu s o no? Se condujo un experimento en un proceso qumico para producir un polmero. Los cuatro factores estudiados fueron la temperatura (A), la concentracin del catalizador (B), el tiempo (C) y la presin (D). Se observaron dos respuestas, el peso molecular y la viscosidad. La matriz del diseo y los datos de la respuesta se presentan a continuacin:
~!~~~
jl::: ~!~
".";1'
~:~:'::;l
J~!~~:
JI,:..
~::.:'
ji:;::
l::
:1n.
::~!'
::: ji;
:3
Peso molecular 2400 2410 2315 2510 2615 2625 2400 2750 2400 2390 2300 2520 2625 2630 2500 2710 2515 2500 2400 2475
Niveles de los factores Viscosidad 1400 1500 1520 1630 1380 1525 1500 1620 1400 1525 1500 1500 1420 1490 1500 1600 1500 1460 1525 1500 Bajo (-) A (oC) 100 4 B (%) 20 C (min) 60 D (psi) Alto (+) 120 8 30 75
+ + + + + + + + + + + + + +
O O O O
+ +
+ + + + + +
O O O O
+ +
O O O O
6-27.
a) Considere nicamente la respuesta del peso molecular. Graficar las estimaciones de los efectos en una escala de probabilidad normal. Qu efectos parecen ser importantes? b) Usar un anlisis de varianza para confirmar los resultados del inciso a. Hay algn indicio de curvatura? e) Escribir un modelo de regresin para predecir el peso molecular como una funcin de las variables importantes. d) Analizar los residuos y comentar la adecuacin del modelo. e) Repetir los incisos a-d utilizando la respuesta de la viscosidad. Continuacin del problema 6-26. Utilizar los modelos de regresin del peso molecular y la viscosidad para res ponder las preguntas siguientes. a) Construir una grfica de contorno de la superficie de respuesta para el peso molecular. En qu direccin se ajustaran las variables del proceso a fin de incrementar el peso molecular? b) Construir una grfica de contorno de la superficie de respuesta para la viscosidad. En qu direccin se ajustaran las variables del proceso para disminuir la viscosidad?
6-7 PROBLEMAS
285
6-28.
6-29.
e) Qu condiciones de operacin se recomendaran si fuera necesario producir un producto con peso molecular entre 2400 y 2500, Y con la viscosidad ms baja posible? Considere una sola rplica del diseo 24 del ejemplo 6-2. Suponga que se hicieron cinco corridas de puntos en el centro (O, O, O, O) Yque se observaron las respuestas siguientes: 73, 75, 71, 69 Y76. Probar la curvatura en este experimento. Interpretar los resultados. Un valorfaltallte ellll1l diseofactoria12 k No es raro encontrar que falta una de las observaciones de un diseo 2k debido a un equipo de medicin defectuoso, una prueba fallida, o alguna otra razn. Si el diseo se hace con n rplicas (n > 1), puede emplearse alguna de las tcnicas estudiadas en el captulo 5. Sin embargo, para un diseo factorial sin rplicas (n = 1) debe usarse otro mtodo. Un enfoque lgico es estimar el valor faltante con un nmero que haga cero el contraste de la interaccin de orden ms alto. Aplicar esta tcnica al experimento del ejemplo 6-2, suponiendo que falta la corrida abo Compare los resultados obtenidos con los del ejemplo 6-2. Un ingeniero realiz un experimento para estudiar el efecto de cuatro factores sobre la aspereza superficial de una pieza maquinada. Los factores (y sus niveles) sanA = ngulo de la herramienta (12, 15), B = viscosidad del fluido de corte (300, 400), e = velocidad de alimentacin (10, 15 pulg/min) y D = enfriador del fluido de corte usado (no, s). Los datos de este experimento (con los factores codificados en los niveles usuales -1, + 1) se muestran a continuacin.
Corrida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Rugosidad superficial 0.00340 0.00362 0.00301 0.00182 0.00280 0.00290 0.00252 0.00160 0.00336 0.00344 0.00308 0.00184 0.00269 0.00284 0.00253 0.00163
+ + + + + + + +
+ + + + + + + +
+ + + +
11
1ft ,.
:(
I~
, I~
i
+ + + +
+ + + + + + + +
.!$
1.4 ,
"~ji
6-31.
a) Estimar los efectos de los factores. Representar las efectos de los factores en una grfica de probabilidad normal y seleccionar un modelo tentativo. b) Ajustar el modelo identificado en el inciso a y analizar los residuales. Hay algn indicio de que el modelo no sea adecuado? e) Repetir el anlisis de los incisos a y b utilizando l/y como la variable de respuesta. Hay algn indicio de que la transformacin ha sido til? d) Ajustar un modelo en trminos de las variables codificadas que pueda usarse para predecir la rugosidad superficial. Convertir esta ecuacin de prediccin en un modelo en las variables naturales. La resistividad de una oblea de silicio est influida por varios factores. Los resultados de un experimento factorial 24 realizado durante un paso crtico del procesamiento se muestran en la tabla ~iguiente:
~
1
286
CAPTULO 6
DISEO FACTORIAL 2k
Corrida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
+ + + + + + + +
+ + + + + + + +
+ + + +
+ + + +
+ + + + + + + +
Resistividad 1.92 11.28 1.09 5.75 2.13 9.53 1.03 5.35 1.60 11.73 1.16 4.68 2.16 9.11 1.07 5.30
6-32.
6-33.
6-34.
a) Estimar los efectos de los factores. Representar las efectos de los factores en una grfica de probabilidad normal y seleccionar un modelo tentativo. b) Ajustar el modelo identificado en el inciso a y analizar los residuales. Hay algn indicio de que el modelo no sea adecuado? e) Repetir el anlisis de los incisos a y b utilizando In (y) como la variable de respuesta. Hay algn indicio de que la transformacin haya sido til? d) Ajustar un modelo en trminos de las variables codificadas que pueda usarse para predecir la resistividad. Continuacin del problema 6-31. Suponga que el experimentador corri tambin cuatro puntos centrales junto con las 16 corridas del problema 6-31. Las mediciones de la resistividad en los puntos centrales son: 8.15, 7.63, 8.95 y 6.48. Analizar de nuevo el experimento incorporando los puntos centrales. Qu conclusiones pueden sacarse ahora? Es frecuente usar el modelo de regresin ajustado de un diseo factoria12 k para hacer predicciones en puntos de inters del espacio del diseo. a) Encontrar la varianza de la respuesta predicha y en un punto Xl' Xz, . , Xk del espacio del diseo. Sugerencia: recuerde que lasx estn codificadas, y suponga un diseo 2k con el mismo nmero de rplicas n en cada punto del diseo, de tal modo que la varianza de un coeficiente de regresin /3 sea aZ/(n2k ) y que la covarianza entre cualquier par de coeficientes de regresin sea cero. b) Usar el resultado del inciso a para encontrar la ecuacin de un intervalo de confianza de 100(1- a) por ciento para la verdadera respuesta media en el punto Xl' Xz, . , Xk del espacio del diseo. Modelosjerrquicos. Se ha usado varias veces el principio de jerarqua para seleccionar un modelo; es decir, se han incluido trminos de orden inferior no significativos en un modelo porque eran factores que estaban incluidos en trminos de orden superior significativos. Ciertamente, la jerarqua no es un principio absoluto que deba seguirse en todos los casos. Para ilustrar esto, considere el modelo que result en el problema 6-1, el cual requiri que se incluyera un efecto principal no significativo para respetar la jerarqua. Utilizar los datos del problema 6-1. a) Ajustar el modelo jerrquico y el modelo no jerrquico. b) Calcular el estadstico PRESS, la RZ ajustada y el cuadrado medio del error para ambos modelos. e) Encontrar un intervalo de confianza de 95 % para la estimacin de la respuesta media en el vrtice de un cubo (Xl = X z = x 3 = 1). Sugerencia: usar los resultados del problema 6-33. d) Con base en los anlisis que se han realizado, qu modelo preferira el lector?
7,1
INTRODUCCIN
Hay mltiples situaciones en las que es imposible efectuar todas las corridas de un experimento factorial 2k bajo condiciones homogneas. Por ejemplo, un lote de materia prima podra no ser suficiente para hacer todas las corridas requeridas. En otros casos, podra ser conveniente modificar deliberadamente las condiciones experimentales para asegurar que los tratamientos tengan la misma efectividad (es decir, que sean robustos) en diversas situaciones que es posible encontrar en la prctica. Por ejemplo, un ingeniero qumico puede correr un experimento en una planta piloto con varios lotes de materia prima porque sabe que en el proceso real a gran escala posiblemente se usarn diferentes lotes de materia prima con diversos grados de calidad. La tcnica de diseo utilizada en estas situaciones es la formacin de bloques. Este captulo se enfoca en algunas tcnicas especiales para separar en bloques un diseo factorial 2k
7,2
Suponga que se han corrido n rplicas del diseo factoria12k Esta situacin es idntica a la que se estudi en el captulo 5, donde se indic cmo correr un diseo factorial general en bloques. Si hay n rplicas, entonces cada conjunto de condiciones no homogneas define un bloque, y cada rplica se corre en uno de los bloques. Las corridas de cada bloque (o rplica) se haran de manera aleatoria. El anlisis del diseo
Tabla 7-1
Bloque 2
Bloque 3 (1) a b ab
= 27 = 32 = 23 = 29
(1) = 25
a = 32 b = 19 ab = 30
B l = 113
B 2 = 106
B 3 = 111
287
288
Tabla 7-2
Grados de libertad 2 1 1 1 6 11
es similar al de cualquier experimento factorial separado en bloques; por ejemplo, vase la revisin de la seccin 5-6.
EJEMPLO 7 ~ 1
Considere el experimento del proceso qumico que se describi en la seccin 6-2. Suponga que slo pueden hacerse cuatro ensayos experimentales con un solo lote de materia prima. Por lo tanto, se necesitarn tres lotes de materia prima para correr las tres rplicas de este diseo. En la tabla 7-1 se muestra el diseo donde cada lote de materia prima corresponde a un bloque. En la tabla 7-2 se muestra el anlisis de varianza de este diseo separado en bloques. Todas las sumas de cuadrados se calculan exactamente igual que en un diseo 2k estndar sin formacin de bloques. La suma de cuadrados de los bloques se calcula a partir de los totales de los bloques. Sea que Bl> B 2 YB 3 representen los totales de los bloques (ver la tabla 7-1). Entonces SS Bloques
= L 4-12
1=1
B2
y.~
(330)2 12
= 6.50
Hay dos grados de libertad entre los tres bloques. La tabla 7-2 indica que las conclusiones de este anlisis, si el diseo se hubiera corrido en bloques, son idnticas a las de la seccin 6-2 y que el efecto de los bloques es relativamente pequeo.
7~3
Hay muchos problemas en los que es imposible realizar una rplica completa de un diseo factorial en un bloque. La confusin (o mezclado) es una tcnica de diseo mediante la cual un experimento factorial completo se distribuye en bloques, donde el tamao del bloque es menor que el nmero de combinaciones de los tratamientos de una rplica. La tcnica hace que la informacin acerca de ciertos efectos de los tratamientos (por lo general las interacciones de orden superior) sea indistinguible de los bloques o est confundida con los bloques. En este captulo la atencin se centra en los sistemas de confusin (o mezclado) para el diseo factorial 2k Observe que aun cuando los diseos que se presentan son diseos de bloques incompletos, ya que cada bloque no contiene todos los tratamientos o las combinaciones de los tratamientos, la estructura especial del sistema factorial2 k permite un mtodo de anlisis simplificado. Se considera la construccin y el anlisis del diseo factorial 2k en 2P bloques incompletos, donde p < k. Por consiguiente, estos diseos pueden correrse en dos bloques, en cuatro bloques, en ocho bloques, etctera.
289
AB= Hab+(l)-a-b]
Puesto que las dos combinaciones de tratamientos con signo positivo [ab y (1)] estn en el bloque 1 y las dos con signo negativo (a y b) estn en el bloque 2, el efecto de los bloques y la interaccinAB son idnticos. Es decir, AB est confundido (o mezclado) con los bloques. La razn de esto es evidente en la tabla de signos positivos y negativos del diseo 22 Se present originalmente en la tabla 6-2, pero por conveniencia se repite como la tabla 7-3. A partir de esta tabla se observa que todas las combinaciones de tratamientos que tienen signo positivo para AB se asignan al bloque 1,
+0------.
~ ~
i!
Corrida en el bloque 1 Corrida en el bloque 2
B
O
A
a) Vista geomtrica Bloque 1 Bloque 2
rml
L:J
[JJ
290
Tabla 7-3
Combinacin de tratamientos
(1)
AB
a b ab
+ + + +
+ +
+ + + +
mientras que todas las combinaciones de tratamientos que tienen signo negativo para AB se asignan al bloque 2. Este enfoque puede usarse para confundir o mezclar cualquier efecto (A, B o AB) con los bloques. Por ejemplo, si (1) Yb se hubieran asignado al bloque 1 ya yab al bloque 2, el efecto principal deA se habra confundido con los bloques. La prctica usual es confundir la interaccin de orden ms alto con los bloques. Este esquema puede usarse para confundir o mezclar cualquier diseo 2k en dos bloques. Como un segundo ejemplo, considere un diseo 23 que se corre en dos bloques. Suponga que se quiere confundir la interaccin de los tres factoresABC con los bloques. Por la formacin de signos positivos y negativos de la tabla 7-4, las combinaciones de tratamientos que son negativas paraABC se asignan al bloque 1 y las que son positivas paraABC al bloque 2. El diseo resultante se muestra en la figura 7-2. De nueva cuenta se resalta que las combinaciones de tratamientos dentro de un bloque se corren de manera aleatoria.
Otros mtodos para construir bloques
Se cuenta con otro mtodo para construir estos diseos. El mtodo utiliza la combinacin lineal (7-1) dondex es el nivel del factor i-simo que aparece en una combinacin de tratamientos particular y a es el exponente que aparece en el factor i-simo para el efecto que va a confundirse. Para el sistema 2\ se tiene a= O01 yx = O(nivel bajo) ox = 1 (nivel alto). Ala ecuacin 7-1 se le llama la definicin de contrastes. Las combinaciones de tratamientos que producen el mismo valor de L (mod 2) se colocarn en el mismo bloque. Puesto que los nicos valores posibles deL (mod 2) son Oy 1, con esto las 2k combinaciones de tratamientos se asignarn a exactamente dos bloques.
Tabla 7-4 Tabla de signos positivos y negativos para el diseo 23 Combinacin de tratamientos
(1)
Efecto factorial
AB
AC
BC
ABC
a b ab
e
ae be abe
+ + + + + + + +
+ + + +
+ + + + + + + +
+ + + + + + + +
+ +
+ + +
+ +
"
7-4 CONFUSIN DEL DISEO FACTORIAL 2k EN DOS BLOQUES
= Corrida en el bloque 1 O = Corrida en el bloque 2
291
I I I
/ / /
el
A
Bloque 2
al Vista
a b e abe
ab ae be
Para ilustrar este enfoque, considere un diseo 23 conABC confundido con los bloques. En este caso, Xl corresponde aA,x z aB,x3 a Cy al = a z = a 3 = 1. Por lo tanto, la definicin del contraste correspondiente aABC es \ I L= Xl +x z +x3 La combinacin de tratamientos (1) se escribe 000 en la notacin (O, 1); por lo tanto,
L= 1(0)+1(0)+1(0)= 0= O (mod 2)
Por lo tanto, (1) ya se correran en bloques diferentes. Para el resto de las combinaciones de tratamientos se tiene b: L= 1(0)+1(1)+1(0)= 1= 1 (mod 2) ab: L= 1(1)+1(1)+1(0)= 2= O (mod 2) e: L= 1(0)+1(0)+1(1) = 1 = 1 (mod 2) ae: L= 1(1)+1(0)+1(1)= 2= O (mod 2). be: L= 1(0)+1(1)+1(1)= 2= O (mod 2) abe: L= 1(1)+1(1)+1(1)= 3= 1 (mod 2) Por lo tanto, (1), ab, ae y be se corren en el bloque 1 ya, b, e yabe se corren en el bloque 2. Se trata del mismo diseo que se ilustr en la figura 7-2, el cual se gener con la tabla de signos positivos y negativos. Puede usarse otro mtodo para construir estos diseos. Al bloque que contiene la combinacin de tratamientos (1) se le llama el bloque principal. Las combinaciones de los tratamientos incluidas en este bloque poseen una til propiedad de la teora de grupos; a saber, forman un grupo con respecto a la mu1ti-
I
1
292
plicacin mdulo 2. Esto implica que cualquier elemento [con excepcin de (1)] del bloque principal pue. de generarse multiplicando otros dos elementos del bloque principal mdulo 2. Por ejemplo, considere el bloque principal del diseo 23 conABC confundido, como se muestra en la figura 7-2. Observe que
= ab
Las combinaciones de tratamientos del otro bloque (o bloques) pueden generarse multiplicando uno de los elementos del nuevo bloque por cada uno de los elementos del bloque principal mdulo 2. Para el di sea 23 conABC confundido, puesto que el bloque principal es (1), ab, ae y be, se sabe que b est en el otro bloque. Por lo tanto, los elementos de este segundo bloque son
=b
=a
= abe
b'be=b e=e
Estos resultados concuerdan con los que se obtuvieron anteriormente. Estimacin del error Cuando el nmero de variables es pequeo, por ejemplo k = 2 o 3, por lo general es necesario hacer rplicas del experimento a fin de obtener una estimacin del error. Por ejemplo, suponga que un diseo factorial 23 debe correrse en dos bloques con ABC confundido, y el experimentador decide hacer cuatro rplicas del diseo. El diseo resultante podra verse como el de la figura 7-3. Observe queABC est confundido en cada rplica. En la tabla 7-S se muestra el anlisis de varianza de este diseo. Hay 32 observaciones y 31 grados de libertad. Adems, puesto que hay ocho bloques, siete grados de libertad deben asociarse con estos bloques. En la tabla 7-S se presenta la descomposicin de esos siete grados de libertad. La suma de cuadrados del error se compone en realidad de las interacciones de dos factores entre las rplicas, y cada uno de los efectos (A, B, C, AB, AC, BC). Por lo general es seguro considerar que las interacciones son cero y tratar el cuadrado medio resultante como una estimacin del error. Los efectos principales y las interacciones de dos factores se prueban contra el cuadrado medio del error. Cochran y COX [2Sb] hacen notar que el cuadrado medio del bloque oABC podra compararse con el error del cuadrado medioABC, que es en realidad rplicas x bloques. Esta prueba suele tener una sensibilidad muy baja. Si se cuenta con recursos suficientes para hacer rplicas de un diseo confundido, por lo general es mejor usar un mtodo ligeramente diferente para disear los bloques en cada rplica. Este enfoque consiste en confundir un efecto diferente en cada rplica para obtener cierta informacin sobre todos los
Rplica [ Rplica 1I Rplica [[[ Rplica IV
Bloque 1
(1)
Bloque 2
Bloque 1
(1)
Bloque 2
Bloque 1
(1)
Bloque 2
Bloque 1
(1)
Bloque 2
abe a b
abe a b
e
abe a b
e
abe a b
e
ae ab be
ae ab be
ae ab be
ae ab be
Figura 7-3
293
Tabla 7-5
Anlisis de varianza de cuatro rplicas de un diseo 23 con ABe confundido Grados de libertad
3 1
3 1 1 1 1 1 1 18
C
AB
AC
BC
Error (o rplicas x efectos) Total
31
efectos. A este procedimiento se le llama confusin (o mezclado) parcial, y se estudia en la seccin 7-7. Si k es moderadamente grande, por ejemplo k ;:: 4, con frecuencia slo es posible hacer una rplica. El experimentador suele suponer que las interacciones de rdenes superiores son insignificantes y combina sus sumas de cuadrados como el error. La grfica de probabilidad normal de los efectos de los factores puede ser muy til a este respecto.
EJEMPLO 7,2
Considere la situacin descrita en el ejemplo 6-2. Recuerde que se estudian cuatro factores-la temperatura (A), la presin (B), la concentracin de formaldehdo (C) y la velocidad de agitacin (D)- en una planta piloto para determinar su efecto sobre el ndice de filtracin del producto. Se usar este experimento para ilustrar las ideas de la formacin de bloques y la confusin en un diseo no replicado. Se introducirn dos modificaciones al experimento original. Primera, suponga que no es posible correr las 24 = 16 combinaciones de tratamientos utilizando un solo lote de materia prima. El experimentador puede correr ocho combinaciones de los tratamientos con un solo lote de material, por lo que un diseo 24 confundido en dos bloques parece apropiado. Es lgico confundir la interaccin de orden ms alto ABCD con los bloques. La definicin del contraste es .
rt
j 1, li
I
I
1.'-
y es sencillo verificar que el diseo es como el que se ilustra en la figura 7-4. De manera alternativa, puede examinarse la tabla 6-12 y observar que las combinaciones de los tratamientos que son + en la columna ABCD se asignan al bloque 1 y que las que son - en la columna ABCD, estn en el bloque 2. La segunda modificacin que se har es introducir un efecto de los bloques para que pueda demostrarse la utilidad de la formacin de bloques. Suponga que cuando se seleccionan los dos lotes de materia prima que se necesitan para correr el experimento, uno de ellos es de calidad mucho ms baja y, como resultado, todas las respuestas sern 20 unidades menores en este lote de material que en el otro. El lote de calidad menor se convierte en el bloque 1y el lote de buena calidad se convierte en el bloque 2 (no es relevante a cul de los dos lotes se le llama bloque 1 o bloque 2). Entonces todas las pruebas del bloque 1 se realizan primero (las ocho corridas del bloque se hacen, desde luego, de manera aleatoria), pero las respuestas son 20 unidades ms bajas que las que se habran obtenido si se hubiera usado el material de buena calidad. En la figura 7-4b se muestran las respuestas resultantes; observe que stas se han encontrado
. . ..
r~
'.:'
. . . r
294
CAPTULO 7 FORMACIN DE BLOQUES Y CONFUSIN EN EL DISEO FACTORIAL 21<
D
"
= Corridas en el bloque 1
o = Corridas en el bloque 2
eL
A
a) Vista geomtrica
Bloque 1 (1) = 25 Bloque 2
restando el efecto del bloque de las observaciones originales dadas en el ejemplo 6-2. Es decir, la respuesta original de la combinacin de tratamientos (1) fue 45, Yen la figura 7-4b se consigna como (1) == 25 (== 45 - 20). Las dems respuestas de este bloque se obtienen de manera similar. Despus de que se realizan las pruebas del bloque 1, se prosigue con las ocho pruebas del bloque 2. No hay ningn problema con la materia prima de este lote, por lo que las respuestas son exactamente como fueron originalmente en el ejemplo 6-2. En la tabla 7-6 se muestran las estimaciones de los efectos para esta versin "modificada" del ejemplo 6-2. Observe que las estimaciones de los cuatro efectos principales, de las seis interacciones de dos factores y de las cuatro interacciones de tres factores son idnticas a las estimaciones de los efectos obtenidas en el ejemplo 6-2, donde no hubo ningn efecto de bloques. Cuando se construye una grfica de probabilidad normal de estas estimaciones de los efectos, los factoresA, C, D y las interaccionesAC y AD aparecen como los efectos importantes, justo como en el experimento original. (El lector deber verificar esto.) Qu puede decirse del efecto de la interaccinABCD? La estimacin de este efecto en el experimento original (ejemplo 6-2) fueABCD == 1.375. En el presente ejemplo, la estimacin del efecto de la interaccinABCD esABCD == -18.625. Puesto queABCD est confundido con los bloques, la interaccin ABCD estima el efecto de la interaccin original (1.375) ms el efecto de bloque (-20), de dondeABCD == 1.375 + (-20) == -18.625. (Puede el lector ver por qu el efecto del bloque es -20?) El efecto del bloque
"
7-4 CONFUSIN DEL DISEO FACTORIAL 2k EN DOS BLOQUES
295
Tabla 7-6
Estimaciones de los efectos para el diseo ejemplo 7-2 Coeficiente de regresin 10.81 1.56 4.94 7.31 0.062 -9.06 8.31 1.19 -0.19 -0.56 0.94 2.06 -0.81 -1.31 Estimacin del efecto 21.625 3.125 9.875 14.625 0.125 -18.125 16.625 2.375 -0.375 -1.125 1.875 4.125 -1.625 -2.625 -18.625
24 separado en bloques
del
Suma de cuadrados 1870.5625 39.0625 390.0625 855.5625 0.0625 1314.0625 1105.5625 22.5625 0.5625 5.0625 14.0625 68.0625 10.5625 27.5625 1387.5625
Contribucin porcentual 26.30 0.55 5.49 12.03 <0.01 18.48 15.55 0.32 <0.01 0.07 0.20 0.96 0.15 0.39 19.51
A B C D AB AC
AD
BC BD CD ABC ABD ACD BCD Bloques (ABCD)
tambin puede calcularse directamente como la diferencia en la respuesta promedio entre los dos bloques, o Efecto del bloque = YBloque 1 - YBloque 2 406 555
--8 8
-149 8 = -18.625
Desde luego, este efecto es en realidad la estimacin de Bloques + ABCD. En la tabla 7-7 se resume el anlisis de varianza de este experimento. Los efectos que tienen estimaciones grandes estn incluidos en el modelo, y la suma de cuadrados de los bloques es
ss
Bloques
= (406)2 +(555)2
8
(961)2 16
= 1387.5625
Tabla 7-7
Anlisis de varianza del ejemplo 7-2 Suma de cuadrados 1387.5625 1870.5625 390.0625 855.5625 1314.0625 1105.5625 187.5625 7111.4375 Grados de libertad 1 1 1 1 1 1 9 15 Cuadrado medio 1870.5625 390.0625 855.5625 1314.0625 1105.5625 20.8403
Fo
89.76 18.72 41.05 63.05 53.05
AD
Error Total
~T
I
. . ~. , . ....
..
,' ,
;".1
.\
296
Las conclusiones de este experimento coinciden exactamente con las del ejemplo 6-2, donde no estuvo presente ningn efecto de bloques. Observe que si el experimento no se hubiera corrido en bloques, y si un efecto de magnitud -20 hubiera afectado los 8 primeros ensayos (los cuales se habran seleccionado de manera aleatoria, ya que los 16 ensayos se habran corrido en orden aleatorio en un diseo sin formacin de bloques), los resultados pudieron haber sido muy diferentes.
........................................................................ .
CONFUSIN DEL DISEO FACTORIAL 2" EN CUATRO BLOQUES
7~5
Es posible construir diseos factoriales 2k confundidos en cuatro bloques con 2k - z observaciones cada uno. Estos diseos son particularmente tiles en situaciones en las que el nmero de factores es moderadamente grande, por ejemplo k 2: 4, Y el tamao de los bloques es relativamente pequeo. Como un ejemplo, considere el diseo 2s . Si cada bloque incluir nicamente ocho corridas, entonces debern usarse cuatro bloques. La construccin de este diseo es relativamente directa. Se seleccionan dos efectos para confundirlos con los bloques, por ejemploADE y BCE. Estos efectos tienen las dos definiciones de contrastes L = x +x 4 +x s
L z = X z +x 3 +x s
asociadas con ellos. Entonces cada combinacin de tratamientos producir un par particular de valores deL (mod 2) yL z (mod 2), es decir,.cualquiera de (L, L z) = (O, O), (O, 1), (1, O) o bien (1,1). Las combinaciones de tratamientos que producen los mismos valores de (L, L z) se asignan al mismo bloque. En el ejemplo tratado aqu se encuentra
L
.L.J
= O, Lz = O
=1' Z L =0
para
= O, Lz = 1 L = 1, L z = 1
L
(1), ad, be, abed, abe, aee,! ede, bde para a,d,abe, bed,be,abde, ee,aede para b,abd,e,aed,ae, de, abee, bede para e,ade, bee, abede, ab,bd,ae, ed
Estas combinaciones de tratamientos se asignaran a bloques diferentes. En la figura 7-5 se muestra el diseo completo. Con un poco de reflexin, nos damos cuenta de que otro efecto adems deADE y BCE debe confundirse con los bloques. Puesto que hay cuatro bloques con tres grados de libertad entre ellos, y puesto que ADE y BCE tienen un solo grado de libertad cada una, es evidente la necesidad de confundir un efecto adicional con un grado de libertad. Este efecto es la interaccin generalizada deADE y BCE, la cual se
Bloque 1 Bloque 2 Bloque 3 Bloque 4
L, =0 L 2 =O
(1)
L = 1. L 2 =O
L, L2
=O =1
abee ae bede de
L, L2
=1 =1
abe
ace
a d abe
be abde ce
b abd e aed
ad be
ede
abed bde
bed aede
297
define como el producto deADE y BCE mdulo 2. Por lo tanto, en el ejemplo tratado aqu la interaccin generalizada (ADE)(BCE) =ABCDE2 =ABCD tambin est confundido con los bloques. Es sencillo verificar esto refirindose a la tabla de signos positivos y negativos del diseo 25, como en Davies [36]. La inspeccin de esta tabla revela que las combinaciones de los tratamientos se asignan a los bloques de la siguiente manera:
Combinaciones de los tratamientos en el Bloque 1 Bloque 2 Bloque 3 Bloque 4
SignodeADE
Signo de BCE
Signo deABCD
+ +
+ +
Observe que el producto de los signos de dos efectos cualesquiera de un bloque particular (por ejemplo ADE y BCE) produce el signo del otro efecto de ese bloque (en este caso, ABCD). Por lo tanto, ADE, BCE y ABCD estn confundidos con los bloques. Las propiedades de la teora de grupos del bloque principal mencionadas en la seccin 7-4 siguen siendo vlidas. Por ejemplo, se observa que el producto de dos combinaciones de tratamientos del bloque principal produce otro elemento del bloque principal. Es decir,
ad . be = abed
y abe' bde = ab 2 de 2
= ad
etctera. Para construir otro bloque se selecciona una combinacin de tratamientos que no est en el bloque principal (por ejemplo b), Yb se multiplica por todas las combinaciones de tratamientos del bloque principal. Se obtiene as
b (1)= b b'ad= abd b 'abed = ab 2 ed = aed
etctera, lo que producir las ocho combinaciones de tratamientos del bloque 3. En la prctica, el bloque principal puede obtenerse a partir de la definicin de contrastes y de la propiedad de la teora de grupos, y los dems bloques pueden determinarse a partir de estas combinaciones de los tratamientos aplicando el mtodo que se present anteriormente. El procedimiento general para construir un diseo 2k confundido en cuatro bloques consiste en elegir dos efectos para generar los bloques, confundindose automticamente un tercer efecto que es la interaccin generalizada de las dos primeras. Despus se construye el diseo utilizando las dos definiciones de contrastes (L 1, L 2 ) Ylas propiedades de la teora de grupos del bloque principal. Al seleccionar los efectos que van a confundirse con los bloques, debe tenerse cuidado de obtener un diseo en el que no estn confundidos efectos que pueden ser de inters. Por ejemplo, en un diseo 25 podra elegirse confundir ABCDE y ABD, con lo cual se confunde automticamente CE, un efecto que es de posible inters. Una mejor eleccin es confundir ADE y BCE, con lo cual se confunde automticamenteABCD. Es preferible sacrificar informacin en las interacciones de tres factoresADE y BCE en lugar de la interaccin de dos factores CE.
76
Los mtodos descritos antes pueden extenderse a la construccin de un diseo factoria12k confundido (o mezclado) en 2P bloques (p < k), donde cada bloque contiene exactamente 2k- p corridas. Se seleccionan p efectos independientes que van a confundirse, donde por "independientes" se entiende que ninguno de los efectos elegidos es la interaccin generalizada de los dems. Los bloques pueden generarse mediante
- -H;:;
M~) ~ ~
'!"'l:;
---------
...~
C1J
\O
Disposiciones de los bloques sugeridas para el diseo factorial 21< Nmero de bloques,2P 2 Tamao del bloque, 2k-p Efectos elegidos para generar los bloques ABC AB,AC ABCD ABC,ACD AB, Be, CD ABCDE ABC, CDE ABE, BCE, CDE AB, AC, CD, DE ABCDEF ABCF, CDEF ABEF, ABCD, ACE ABF, ACF, BDF, DEF AB, Be, CD, DE, EF ABCDEFG ABCFG, CDEFG ABC, DEF, AFG ABCD, EFG, CDE, ADG ABG, BCG, CDG, DEG, EFG ABC AB,AC,BC ABCD ABC,ACD,BD AB, BC, CD, AC, BD, AD, ABCD ABCDE ABC, CDE, ABDE ABE, BCE, CDE, AC, ABCD, BD, ADE Todas las interacciones de dos y cuatro factores (15 efectos) ABCDEF ABCF, CDEF, ABDE ABEF, ABCD, ACE, BCF, BDE, CDEF, ADF ABE, ACF, BDF, DEF, BC, ABCD, ABDE, AD, ACDE, CE, BDF, BCDEF, ABCEF, AEF, BE Todas las interacciones de dos, cuatro y seis factores (31 efectos) ABCDEFG ABCFG, CDEFG, ABDE ABC, DEF, AFG, ABCDEF, BCFG, ADEG, BCDEG ABCD, EFG, CDE, ADG, ABCDEFG, ABE, BCG, CDFG, ADEF, ACEG, ABFG, BCEF, BDEG, ACF, BDF ABG, BCG, CDG, DEG, EFG, AC, BD, CE, DF, AE, BE, ABCD, ABDE, ABEF, BCDE, BCEF, CDEF, ABCDEFG, ADG, ACDEG, ACEFG, ABDFG, ABCEG, BEG, BDEFG, CFG, ADEF, ACDF, ABCF,AFG Todas las interacciones de dos, cuatro y seis factores (63 efectos) Interacciones confundidas con los bloques
4
2
4 4
2
4
8 5
2
4
2
16
8
4
8
4
2 32
16 6
2
4
8
16
8
16
32
4
2
64
32
4
8
16
8
16
32
64
299
el uso de las p definiciones de contrastes L 1, L 2 , , L p asociadas con estos efectos. Asimismo, se confundi.rn otros 2P - P -1 efectos con los bloques, siendo stos las interacciones generalizadas de los p efectos independientes elegidos inicialmente. Deber tenerse cuidado al seleccionar los efectos que van a confundirse para que no se sacrifique informacin sobre los efectos que pueden ser de inters potencial. El anlisis estadstico de estos diseos es directo. Las sumas de cuadrados de todos los efectos se calculan como si no se hubiera hecho la formacin de bloques. Despus, la suma de cuadrados de los bloques se encuentra sumando las sumas de cuadrados de todos los efectos confundidos con los bloques. Obviamente, la eleccin de los p efectos usados para generar el bloque es crtica, ya que la estructura de la confusin (o mezclado) del diseo depende directamente de ellos. En la tabla 7-8 se presenta una lista de diseos tiles. Para ilustrar el uso de esta tabla, suponga que quiere construirse un diseo 26 confundido en 23 = 8 bloques con 23 = 8 corridas cada uno. La tabla 7-8 indica que se elegiranABEF, ABCD . yACE como los p = 3 efectos independientes para generar los bloques. Los 2f' - p -1 = 23 - 3 -1 = 4 efectos restantes que estn confundidos son las interacciones generalizadas de estos tres; es decir,
(ABEF)(ABCD) (ABEF)(ACE) (ABCD)(ACE) (ABEF)(ABCD)(ACE)
= A 2 B 2 CDEF= CDEF
= A 2 BCE 2 F= BCF
= A 2 BC 2 ED= BDE
= A 3 B 2 C 2 DE 2 F= ADF
En el problema 7-11 se le pide al lector que genere los ocho bloques de este diseo.
7.7
CONFUSIN PARCIAL
En la seccin 7-4 se subray que, a menos que los experimentadores cuenten con una estimacin previa del error o que estn dispuestos a suponer que ciertas interacciones son insignificantes, deben hacer rplicas del diseo para obtener una estimacin del error. En la figura 7-3 se muestra un diseo factorial 23 en dos bloques conABC confundido, con cuatro rplicas. Por el anlisis de varianza de este diseo, el cual se presenta en la tabla 7-5, se observa que no puede sacarse informacin acerca de la interaccillABC debido a queABC est confundido con los bloques en todas las rplicas. Se dice que este diseo est completamente confundido (o mezclado). Considere la alternativa que se presenta en la figura 7-6. De nueva cuenta hay cuatro rplicas del diseo 23, pero en cada rplica se ha confundido una interaccin diferente. Es decir,ABC est confundido en la rplica I,AB est confundido en la rplica n, BC est confundido en la rplica nI yAC est confundido en la rplica IV: Como resultado puede obtenerse informacin deABC a partir de los datos de las rplicas n, In y IV; informacin deAB puede obtenerse de las rplicas I, nI y IV; informacin deAC puede obteRplica ID
BC Confundido
(1)
Rplica I
ABe Confundido
(1)
Rplica U
Rplica IV
AC Confundido
(1 )
AB Confundido
(1 )
a b
a b
a
e
ab be
ab
e
ab abe
a
be abe
e
ab ae
b ae abe
ae
be
e
abe
ae
be
Figura 76
IIn
~l' .1
300
CAPTULO 7 FORMACIN DE BLOQUES Y CONFUSIN EN EL DISEO FACTORIAL 2"
Fuente de variacin Rplicas Bloques dentro de rplicas [oABC (rp. 1) + BC (rp. III) + AC (rp. IV)]
Grados de libertad 3
+ AB (rp. II)
4 1 1 1 1 1 1 1 17 31
A
B C
AB (de las rplicas 1, III YIV)
Error Total
::?!' ;
~:
1"
;.
r.:.
:5
nerse de las rplicas I, II Y III; e informacin de BC puede obtenerse de las rplicas I, II Y IV. Se dice que pueden obtenerse tres cuartas partes de la informacin de las interacciones porque no estn confundidas en slo tres rplicas. Yates [l13b] llama a la relacin 3/4 la informacin relativa de los efectos confundi dos. Se dice que este diseo est parcialmente confundido ( o mezclado). En la tabla 7-9 se muestra el anlisis de varianza de este diseo. Para calcular las sumas de cuadrados de las interacciones, slo se usan los datos de las rplicas en las que no est confundida una interaccin. La suma de cuadrados del error consta de las sumas de cuadrados de rplicas x sumas de cuadrados de efecto principal, ms las sumas de cuadrados de rplicas x sumas de cuadrados de interaccin para cada rplica en la que esa interaccin no est confundida (por ejemplo, rplicas x ABC para las rplicas II, III Y IV). Adems, hay siete grados de libertad entre los ocho bloques. Es comn hacer la particin de tres grados de libertad para las rplicas y cuatro grados de libertad para los bloques dentro de las rplicas. La composicin de la suma de cuadrados de los bloques se muestra en la tabla 7-9 y se sigue directamente de la eleccin del ef~cto confundido en cada rplica. EJEMPLO 7,3
3
Un diseo 2 con confusin parcial Considere el ejemplo 6-1, en el que se realiz un estudio para determinar el efecto del porcentaje de carbonatacin (A), la presin de operacin (B) y la velocidad de lnea (C) sobre la altura de llenado de una bebida carbonatada. Suponga que cada lote de jarabe alcanza slo para probar cuatro combinaciones de tratamientos. Por lo tanto, cada rplica del diseo 23 debe correrse en dos bloques. Se corren dos rplicas, con ABC confundido en la rplica I y AB confundido en la rplica II. Los datos son los siguientes:
Rplica 1
ABC confundido
(1) = -3 ab = 2 ae = 2 be = 1
Rplica II
AB confundido
(1) = -1
a= O b =-1 e = -1 abe = 6
a = 1
e= ab = abe =
O
3 5
b=O
ae ="l be = 1
"
7-8 PROBLEMAS
\1'
301
Tabla 7-10 Anlisis de varianza del ejemplo 7-3 Fuente de Suma de variacin cuadrados Rplicas Bloques dentro de las rplicas
A B C AB (slo en la rplica 1) AC BC ABC (slo en la rplica 11)
Grados de libertad 1 2 1 1 1 1 1 1 1 5 15
Cuadrado medio 1.00 1.25 36.00 20.25 12.25 0.50 0.25 1.00 0.50 0.75
Fa
Valor P
Error . 'Ibtal
1.00 2.50 36.00 20.25 12.25 0.50 0.25 1.00 0.50 3.75 78.00
Las sumas de cuadrados deA, B, C, AC y BC pueden calcularse de la manera usual, utilizando las 16 observaciones. Sin embargo, SSABC debe encontrarse utilizando nicamente los datos de la rplica n y SSAB utilizando nicamente los datos de la rplica 1 de la siguiente manera: [a+b+c+abc- ab- ac- bc-(1)]2 SSABC = k n2
= [(l)+abc-ac+c-a-b+ab-bcf
n2k
="
h=l
(16)2 = 16
foo
donde R h es el total de las observaciones en la rplica h-sima. La suma de cuadrados de los bloques es la suma de SSABC de la rplica 1 y SSAB de la rplica n, o SSBloques = 2.50. En la tabla 7-10 se resume el anlisis de varianza. Los tres efectos principales son importantes.
7.8
7-1. 7-2. 7-3.
PROBLEMAS
Considere el experimento descrito en el problema 6-1. Analizar este experimento suponiendo que cada rplica representa un bloque de un solo turno de produccin. Considere el experimento descrito en el problema 6-5. Analizar este experimento suponiendo que cada una de las cuatro rplicas representa un bloque. Considere el experimento de la formacin de fisuras en la aleacin de nquel y titanio descrito en el problema 6-15. Suponga que slo pudieron hacerse 16 corridas en un solo da, por lo que cada rplica se trat como un bloque. Analizar el experimento y sacar conclusiones.
302
7-4.
7-5. 7-6.
7-7.
7-8.
7-9.
7-10.
7-11.
7-12.
7-13.
Considere los datos de la primera rplica del problema 6-1. Suponga que no fue posible correr todas estas ob. servaciones utilizando barras del mismo lote. Establecer un diseo para correr estas observaciones en dos bloques de cuatro observaciones cada uno con ABC confundido. Analizar los datos. Considere los datos de la primera rplica del problema 6-7. Construir un diseo con dos bloques de ocho ob. servaciones cada uno con ABCD confundido. Analizar los datos. Repetir el problema 7-5 suponiendo que se requieren cuatro bloques. Confundir ABD y ABC (y por consiguiente CD) con los bloques. Utilizando los datos del diseo 25 del problema 6-21, construir y analizar un diseo en dos bloques con ABCDE confundido con los bloques. Repetir el problema 7-7 suponiendo que se necesitan cuatro bloques. Sugerir un esquema de confusin (o mezclado) razonable. Considere los datos del diseo 25 del problema 6-21. Suponga que fue necesario correr este diseo en cuatro bloques con ACDE y BCD (y por consiguiente ABE) confundidos. Analizar los datos de este diseo. Disear un experimento para confundir un diseo factorial 26 en cuatro bloques. Sugerir un esquema de confusin apropiado, diferente del que se ilustr en la tabla 7-8. Considere el diseo 26 en ocho bloques con ocho corridas cada uno conABCD, ACE y ABEF como los efectos independientes elegidos para confundirlos con los bloques. Generar el diseo. Encontrar los dems efectos confundidos con los bloques. Considere el diseo 22 en dos bloques conAB confundido. Hacer la demostracin algebraica de que SSAB =
SSmoques'
7-14. 7-15.
7-16. 7-17.
Considere los datos del ejemplo 7-2. Suponga que todas las observaciones del bloque 2 se incrementan en 20. Analizar los datos que resultaran. Estimar el efecto de bloque. Puede el lector explicar su magnitud? Los bloques parecen ser ahora un factor importante? Hay otras estimaciones de los efectos que sufran el impacto de este cambio hecho en los datos? Suponga que en el problema 6-1 se confundiABC en la rplica I,AB en la rplica 11 y BC en la rplica 111. Calcular las estimaciones de los efectos. Construir la tabla del anlisis de varianza. Repetir el problema 6-1 suponiendo que ABC se confundi con los bloques en todas las rplicas. Suponga que en el problema 6-7 ABCD se confundi en la rplica I yABC se confundi en la rplica 11. Realizar el anlisis estadstico de este diseo. Construir un diseo 23 conABC confundido en las dos primeras rplicas y BC confundido en la tercera rplica. Delinear el anlisis de varianza y comentar la informacin obtenida.
"
8.1
INTRODUCCIN
Cuando el nmero de factores de un diseo factorial 2k se incrementa, el nmero de corridas necesarias para realizar una rplica completa del diseo rebasa con rapidez los recursos de la mayora de los experimentadores. Por ejemplo, una rplica completa de un diseo 26 requiere 64 corridas. En este diseo, slo 6 de los 63 grados de libertad corresponden a los efectos principales, y slo 15 a las interacciones de dos factores. Los 42 grados de libertad restantes se asocian con las interacciones de tres o ms factores. Si el experimentador puede suponer razonablemente que ciertas interacciones de orden superior son insignificantes, es posible obtener informacin de los efectos principales y las interacciones de orden inferior corriendo nicamente una fraccin del experimento factorial completo. Estos diseos factoriales fraccionados se encuentran entre los tipos de diseos de uso ms generalizado en el diseo de productos y procesos y en el mejoramiento de procesos. Una de las principales aplicaciones de los diseos factoriales fraccionados es en los experimentos de tamizado o exploracin. Se trata de experimentos en los que se consideran muchos factores y el objetivo es identificar aquellos factores (en caso de haberlos) que tienen efectos grandes. Los experimentos de tamizado suelen realizarse en las etapas iniciales de un proyecto, cuando es posible que muchos de los factores considerados en un principio tengan un efecto reducido o nulo sobre la respuesta. Entonces los factores que se identifican como importantes se investigan con mayor detalle en experimentos subsecuentes. El uso exitoso de los diseos factoriales fraccionados se basa en tres ideas clave:
1. Elprincipio de efectos esparcidos o escasez de efectos. Cuando hay varias variables, es posible que el sistema o proceso est dominado principalmente por algunos de los efectos principales y las interacciones de orden inferior. 2. La propiedad de proyeccin. Los diseos factoriales fraccionados pueden proyectarse en diseos ms fuertes (ms grandes) en el subconjunto de los factores significativos. 3. Experimentacin.secuencial. Es posible combinar las corridas de dos (o ms) diseos factoriales fraccionados para ensamblar secuencialmente un diseo ms grande para estimar los efectos de los' factores y las interacciones de inters.
ro
1:'
~:
r:
t,~
JI
303
304
CAPTULO 8
Este captulo se enfoca en estos principios, los cuales se ilustran con varios ejemplos.
8~2
Considere una situacin en la que tres factores, cada uno con dos niveles, son de inters, pero los experimentadores no estn en posicin de correr las 23 = 8 combinaciones de tratamientos. Sin embargo, pueden llevar a cabo cuatro corridas. Esto sugiere una fraccin un medio de un diseo 23 Puesto que el diseo contiene 23- 1 = 4 combinaciones de tratamientos, es comn llamar diseo 23 -1 a una fraccin un medio del diseo 23 En la tabla 8-1 se muestra la agrupacin de signos positivos y negativos del diseo 23 Suponga que se seleccionan las cuatro combinaciones de tratamientos a, b, e yabe como la fraccin un medio con la que se trabajar. Estas corridas se muestran en la parte superior de la tabla 8-1 y en la figura 8-1a. Observe que el diseo 23- 1 se forma seleccionando slo las combinaciones de tratamientos que tienen signo positivo en la columnaABC. Por lo tanto, aABC se le llama el generador de esta fraccin particular. En ocasiones se har referencia a un generador, por ejemploABC, como una palabra. Adems, la columna identidad 1 tambin es siempre positiva, por lo que a
I=ABC
se le llama la relacin de definicin del diseo. En general, la relacin de definicin de un diseo factorial fraccionado ser siempre el conjunto de todas las columnas que son iguales a la columna identidad!. Las combinaciones de tratamientos del diseo 23- 1 producen tres grados de libertad que pueden usarse para estimar los efectos principales. Con referencia a la tabla 8-1, se observa que las combinaciones lineales de las observaciones usadas para estimar los efectos principales de A, B Y C son
fc
= H-a- b+e+abe)
Tambin es sencillo verificar que las combinaciones lineales de las observaciones usadas para estimar las interacciones de dos factores son
Tabla 8-1
Combinacin de tratamientos
AB
AC
BC
ABC
a b
C
abc ab ae be
(1)
+ + + + + + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
305
I I I
./ ./
. J~-a
./
be
./ ./ ./
ab
(1)
Por lo tanto, R Bo R A =R B= R AC YR c = RAE; por consiguiente, es imposible diferenciar entre A y BC, entreB,Y AC y entre C y AB. De hecho, cuando se estimanA, By C, se estn estimando en realidadA + BC, B + AC y C + AB. A dos o ms efectos que tienen esta propiedad se les llama alias. En el ejemplo tratado aqu,A y BC son alias,ByAC son aliasyCyAB son alias. Esto se indica con la notacin eA ~A + BC, R B ~ B + ACy R ~ C +AB. c La estructura de los alias para este diseo puede determinarse con facilidad utilizando la relacin de definicin J = ABC. Al multiplicar cualquier columna (o efecto) por la relacin de definicin se obtienen los alias de esa columna (o efecto). En el ejemplo tratado aqu se encuentra que el alias de A es A' J = A ABC = A 2 BC o, puesto que el cuadrado de cualquier columna es la identidad J,
A=BC
A esta fraccin un medio, con J = +ABC, suele llamrsele la fraccin principal. Suponga ahora que se eligi la otra fraccin un medio, es decir, las combinaciones de tratamientos de la tabla 8-1 asociadas con los signos negativos de la columnaABC. Esta fraccin un medio alterna o com-
306
CAPTULO 8
plementaria (la cual se compone de las corridas (1), ab, ae y be) se ilustra en la figura 8-1b. La relacin de definicin de este diseo es
I=-ABC
De la combinacin lineal de las observaciones, por ejemplo J!'A' P' BY J!' CJ de la fraccin alterna se obtiene P~ ...;.A-BC P~ ...;.B-AC
e~...;.c-AB
Por lo tanto, cuando se estiman A, B YC con esta fraccin particular, en realidad se estn estimando A-BC, B-AC y C-AB. En la prctica, no importa cul de las fracciones se usa. Ambas fracciones pertenecen a la misma fa. milia; es decir, las dos fracciones un medio forman un diseo 23 completo. Esto puede observarse con facilidad con referencia a los incisos a y b de la figura 8-1. Suponga que despus de correr una de las fracciones un medio del diseo 23, tambin se corri la otra. Por lo tanto, se cuenta ahora con las ocho corridas asociadas con el diseo 23 completo. Pueden obtenerse entonces las estimaciones sin alias de todos los efectos analizando las ocho corridas como un diseo 23 completo en dos bloques de cuatro corridas cada uno. Esto tambin podra hacerse sumando y restando la combinacin lineal de los efectos de las dos fracciones individuales. Por ejemplo, considere P A ...;. A + BC y J!'A ...;. A - Be. Esto implica que
tUA +P~)=hA+BC+A-BC)...;.A
y que
A B
A B
Ae
AB
Be
Al diseo 23- 1 precedente se le llama diseo de resolucin ill. En este diseo, los efectos principales son alias de las interacciones de dos factores. Un diseo es de resolucin R cuando ningn efecto del factor p es alias de otro efecto que contiene menos de R - P factores. Por ~ se emplea un subndice con un numeral romano para denotar la resolucin del diseo; por lo tanto, la fraccin un medio del diseo 23 con la relacin de definicin 1 = ABC (o 1 = -ABC) es un diseo 2~1. Los diseos de resolucin 111, IV YV son particularmente importantes. A continuacin se presentan las definiciones de estos diseos y un ejemplo de cada uno: 1. Diseos de resolucin JI!. Se trata de diseos en los que ninguno de los efectos principales es alias de ningn otro efecto principal, pero los efectos principales son alias de las interacciones de dos factores, y algunas de las interacciones de dos factores pueden ser alias entre s. El diseo 23- 1 de la tabla 8-1 es un diseo de resolucin 111 (2~1). 2. Diseos de resolucin Iv. Se trata de diseos en los que ninguno de los efectos principales es alias de ningn otro efecto principal ni de las interacciones de dos factores, pero las interacciones de
307
3. Diseos de resolucin V. Se trata de diseos en los que ninguno de los efectos principales ni de las interacciones de dos factores son alias de otro efecto principal o interaccin de dos factores, pero las interacciones de dos factores son alias de las interacciones de tres factores. Un diseo 25- 1con 1 = ABCDE es un diseo de resolucin V (2~-1).
En general, la resolucin de un diseo factorial fraccionado de dos niveles es igual al menor nmero de letras en cualquier palabra de la relacin de definicin. Por consiguiente, los diseos precedentes podran denominarse diseos de tres, cuatro y cinco letras, respectivamente. Por lo comn, es preferible emplear diseos fraccionados que tengan la resolucin ms alta posible que sea consistente con el grado de fraccionamiento requerido. Entre ms alta sea la resolucin, menos restrictivos sern los supuestos que se requieren respecto de cules de las interacciones son insignificantes para obtener una interpretacin nica de los datos.
Construccin de fracciones un medio Una fraccin un medio del diseo 2k de la resolucin ms alta puede construirse apuntando el diseo bsico, que consta de las corridas de un diseo factorial2k- 1completo, y agregndole despus el factor k-si-
mo identificando sus niveles positivo y negativo con los signos positivo y negativo de la interaccinABC (K -1) del orden ms alto. Por lo tanto, el diseo factorial fraccionado 2~1 se obtiene apuntando el diseo 22 completo como diseo bsico e igualando despus el factor C con la interaccinAB. La fraccin alterna se obtendra igualando el factor C con la interaccin -AB. Este enfoque se ilustra en la tabla 8-2. Observe que el diseo bsico siempre tiene el nmero correcto de corridas (renglones), pero le falta una columna. El generador 1 = ABC ... K se resuelve entonces para la columna faltante (K), de tal modo que K =ABC ... (K -1) define el producto de los signos positivos y negativos que deber usarse en cada rengln para producir los niveles del factor k-simo. Observe que podra usarse cualquier efecto de interaccin para generar la columna del factor k-simo. Sin embargo, al utilizarse cualquier efecto que no seaABC ... (K - 1), no se producir el diseo con la _________ resolucin ms alta posible. Otra forma de visualizar la construccin de una fraccin un medio es mediante la particin de las corridas en dos bloques con la interaccin de orden ms altoABC ... K confundida. Cada bloque es un diseo factorial fraccionado 2k - 1 con la resolucin ms alta.
o
Cualquier diseo factorial fraccionado de resolucin R contiene diseos factoriales completos (posiblemente diseos factoriales con rplicas) en cualquier subconjunto de R -1 factores. ste es un concepto importante y til. Por ejemplo, si un experimentador tiene varios factores de inters potencial pero piensa
Tabla 8-2 Las dos fracciones un medio del diseo 23 Diseo factorial 22 completo (diseo bsico) Corrida
2~1,I=ABC
2~\I=-ABC
C=AB
C=-AB
1 2 3 4
+ +
+ +
+
+
+
+ + +
+ +
+ +
+ +
308
CAPTULO 8
~B
~
/
-.----1/ ---7-/ / /
-----1-
I I I I I
/
/
/ /
/
/
/
b / -/j I
/
/'
1-
--7--
-7r-e I I I I
abe I"/L..1
I / / __ ..J_ /
/a
I I I I
;?C
_V~~V
que slo R - 1 de ellos tienen efectos importantes, entonces un diseo factorial fraccionado de resolucin R es la eleccin de diseo apropiada. Si el experimentador est en lo correcto, el diseo factorial fraccionado de resolucin R se proyectar en un diseo factorial completo en los R - 1 factores significativos. Este proceso se ilustra en la figura 8-2 para el diseo 2::;;1, el cual se proyecta en un diseo 22 en cada subconjunto de dos factores. . ~ Puesto que la mxima resolucin posible de una fraccin un medio del diseo 2k es R = k, todos los diseos ~-1 se proyectarn en un factorial completo en (k -1) cualq iera de los k factores originales. Adems, un diseo 2k- 1 puede proyectarse en dos rplicas de un factorial ca. pleto en cualquier subconjunto de le - 2 factores, cuatro rplicas de un factorial completo en cualquier subconjunto de k - 3 factores, etctera.
EJEMPLO
8~1
Considere el experimento del ndice de filtracin del ejemplo 6-2. El diseo original, ilustrado en la tabla 6-10, es una sola rplica del diseo 24 En ese ejemplo se encontr que los efectos principales deA, C y D Y las interaccionesAC y AD eran diferentes de cero. Se retoma ahora este experimento y se simula lo que habra ocurrido si se hubiera corrido una fraccin un medio del diseo 24 en vez del diseo factorial completo. Se usar el diseo 24-1 con! =ABCD, ya que esta eleccin del generador dar como resultado un diseo con la resolucin ms alta posible (IV). Para construir el diseo, primero se apunta el diseo bsico, el cual es un diseo 23, como se muestra en las tres primeras columnas de la tabla 8-3. Este diseo bsico tiene el nmero necesario de corridas (ocho) pero slo tres columnas (factores). Para encontrar los niveles del cuarto factor, se resuelve! =ABCD paraD, oD =ABC. Por lo tanto, el nivel deD de cada corrida
Tabla 8-3 Corrida El diseo 2;':;1 con la relacin de definicin I=ABCD Diseo bsico
D=ABC
Combinacin de tratamientos
ndice de filtracin
1
2 3
+ + + +
4 5 6 7 8
+ + + +
+ + + + + + + +
(1) ad bd ab ed ae be abed
45 100 45 65 75 60 80 96
309
be = 80 ed =75 ,L----"1r-----.;,ae = 60
abed = 96
I I I I
./ ./ ./
I I I
ab = 65 bd = 45,L.... __
./ ./
./
./
(1)
=45
ad
100
Figura 8-3
El diseo 2~1 para el experimento del ndice de filtracin del ejemplo 8-1.
es el producto de los signos positivos y negativos de las columnas A, By C. El proceso se ilustra en la tabla 8-3. Puesto que el generadorABCD es positivo, este diseo 2~1 es la fraccin principal. El diseo se ilustra grficamente en la figura 8-3. Utilizando la relacin de definicin, se observa que cada uno de los efectos principales es alias de una interaccin de tres factores; es decir,A =A 2BCD = BCD,B =AB 2CD =ACD, C =ABC2D =ABDyD = ABCD 2 = ABC. Adems, cada interaccin de dos factores es alias de otra interaccin de dos factores. Estas relaciones de los alias sonAB = CD,AC = BD YBC = AD. Los cuatro efectos principales ms los tres pares de alias de interacciones de dos factores representan los siete grados de libertad del diseo. En este punto, normalmente se aleatorizaran las ocho corridas y se llevara a cabo el experimento. Puesto que se ha corrido ya el diseo 24 completo, simplemente se seleccionan los ocho ndices de filtracin observados del ejemplo 6-2 que corresponden a las corridas del diseo 2~1. Estas observaciones se muestran en la ltima columna de la tabla 8-3, as como en la figura 8-3. En la tabla 8-4 se muestran las estimaciones de los efectos obtenidas de este diseo 2~1 . Para ilustrar los clculos, la combinacin lineal de las observaciones asociadas con el efecto de A es
f!. A = t(-45+100- 45+65-75+60- 80+96)= 19.00 ...... A+BCD
Por la inspeccin de la informacin de la tabla 8-4, no es irrazonable concluir que los efectos principales deA, C y D son grandes. Adems, siA, C y D son los efectos principales importantes, entonces es lgico concluir que las dos cadenas de alias de interaccionesAC + BD y AD + BC tienen efectos grandes, ya que
Tabla 8-4
f!c f!D AB
f!AC f!,w
19.00 f!A 1.50 f!B 14.00e c 16.50 f!D -1.00 f! AB = -18.50 f!AC = 19.00 f!AD
r
I~("
i
310
CAPTULO 8
75
80 Alta
I I I I
60
c '0
U
'13
10 l!l
o 2
\J
/ /
c:
/ /
/
.-*-----
I 1 45
100
/' / /
Baja
~ Ud~v:gitacin)
Baja
-7~'O:::aad
45,
~-------..y
/65
Baja
A (temperatura)
Alta
Figura 8-4 Proyeccin del diseo 2::~;J en un diseo 23 enA, y D para el ejemplo 8-1.
las interaccionesAC y AD tambin son significativas. En otras palabras, siA, C y D son significativos, entonces lo ms posible es que las interacciones significativas seanAC y AD. Se trata de una aplicacin de la navaja de Ockham (en honor de Guillermo de Ockham), un principio cientfico que establece que cuando uno se confronta con varias interpretaciones posibles de un fenmeno, la interpretacin ms simple suele ser la correcta. Observe que esta interpretacin concuerda con las conclusiones del anlisis del diseo 24 completo del ejemplo 6-2. Puesto que el factor B no es significativo, puede sacarse de consideracin. Por consiguiente, este diseo 2::; puede proyectarse en una sola rplica del diseo 23 en los factores A, Cy D, como se muestra en la figura 8-4. El examen visual de esta grfica de cubo nos hace sentirnos ms cmodos con las conclusiones a las que se lleg antes. Observe que si la temperatura (A) est en el nivel bajo, la concentracin (C) tiene un efecto positivo grande, mientras que si la temperatura est en el nivel alto, la concentracin tiene un efecto muy pequeo. Esto se debe probablemente a una interaccinAC. Adems, si la temperatura est en el nivel bajo, el efecto de la velocidad de agitacin (D) es insignificante, mientras que si la temperatura est en el nivel alto, la velocidad de agitacin tiene un efecto positivo grande. Esto se debe probablemente a la interaccin AD que se identific de manera tentativa unos prrafos antes. Con base en el anlisis anterior, puede obtenerse ahora un modelo para predecir el ndice de filtracin en la regin experimentaL Este modelo es
Recuerde que la ordenada al origen lJ o es el promedio de todas las respuestas en las ocho corridas del diseo. Este modelo es muy similar al que result del diseo factorial 2k completo del ejemplo 6-2.
311
EJEMPLO
8~2
....................
Un diseo 25- 1 usado para mejorar un proceso Se investigaron cinco factores en un proceso de manufactura de un circuito integrado en un diseo 25- 1 con el objetivo de mejorar el rendimiento del proceso. Los cinco factores fueron A = ajuste de apertura (pequea, grande), B = tiempo de exposicin (20% abajo del nominal, 20% arriba del nominal), C = tiempo de desarrollo (30 s, 45 s), D = tamao de la mscara (pequea, grande) y E = tiempo de grabado (14.5 min, 15.5 min). En la tabla 8-5 se muestra la construccin del diseo 25- 1 Observe que el diseo se construy apuntando el diseo bsico que tiene 16 corridas (un diseo 24 enA, B, C y D), seleccionando ABCDE como generador, y ajustando despus los niveles del quinto factor E = ABCD. En la figura 8-5 se presenta una representacin geomtrica del diseo. La relacin de definicin del diseo es 1 = ABCDE. Por consiguiente, todos los efectos principales son alias de una interaccin de cuatro factores (por ejemplo, eA . .,. . A + BCDE), y cada una de las interacciones de dos factores son alias de una interaccin de tres factores (por ejemplo, i!AB ...,... AB + CDE). Por lo tanto, el diseo es de res'olucin V Se esperara que este diseo 25- 1 proporcionara excelente informacin respecto de los efectos principales y las interacciones de dos factores. La tabla 8-6 contiene las estimaciones de los efectos, las sumas de cuadrados y los coeficientes del modelo de regresin para los 15 efectos de este experimento. En la figura 8-6 se presenta la grfica de probabilidad normal de las estimaciones de los efectos de este experimento. Los efectos principales deA, By C y la interaccinAB son grandes. Recuerde que, debido a los alias, estos efectos son en realidad A + BeDE, B + ACDE, C + ABDE y AB + CDE. Sin embargo, puesto que parece plausible que las interacciones de tres factores y de rdenes superiores sean insignificantes, uno siente seguridad en concluir que slo A, B, C YAB son los efectos importantes. En la tabla 8-7 se resume el anlisis de varianza de este experimento. La suma de cuadrados del modelo es SS Modelo = SSA + SSB + SSc + SSAB = 5747.25, Yesto explica ms de 99% de la variabilidad total del rendimiento. En la figura 8-7 se presenta la grfica de probabilidad normal de los residuales
,.
1I
"
E=ABCD
Combinacin de tratamientos
Rendimiento 8 9
1 2 3 4 5 6 7
8 9
+ +
+ + + + + + + + + + + + + + + + + +
e a b abe
e
+
+ + + + +
I
+ +
+ + + +
+ + + +
10
11
12
13!
14 15 16
+ + + +
aee bee abe d ade bde abd ede aed bed abede
34 52 16 22 45 60 6
10
30 50 15 21 44 63
312
CAPTULO 8
bce
45
+
./
I I I
./ ./
abe = 52
./ ./
./ ./bde = 30
~-ade = 10
e=8
E
abe = 60 beb = 44
I I I
b=34~
./ ./
./ ./
__
./ ./ ./
abd = 50
a=9
d=6
cB
A
2~-1
Variable A B C
D E
Nombre Apertura Tiempo de desarrollo Tiempo de exposicin Thmao de la mscara Tiempo de grabado Coeficiente de regresin
30.3125 5.5625 16.9375 5.4375 -0.4375 0.3125 3.4375 0.1875 0.5625 0.5625 0.3125 -0.0625 -0.0625 0.4375 0.1875 -0.6875
Nivel-1
-1.000 -1.000 -1.000 -1.000 -1.000
Nivel +1
1.000 1.000 1.000 1.000 1.000
Efecto estimado
11.1250 33.8750 10.8750 -0.8750 0.6250 6.8750 0.3750 1.1250 1.1250 0.6250 -0.1250 -0.1250 0.8750 0.3750 -1.3750
Suma de cuadrados
495.062 4590.062 473.062 3.063 1.563 189.063 0.563 5.063 5.063 1.563 0.063 0.063 3.063 0.563 7.563
AC
AD AE BC BD
BE
CD
CE
DE
99
B
95 90 80 70
o o
~..,
.... 10
x
I
Cl Cl
2"~
20 30 50
S ij
E o
c:
50 : 30 20 10 5
-o ro 70 :g
.c
"-
80 :5 ro
90 95 99
10
15
20
25
30
Figura 8-6 Grfica de probabilidad normal de los efectos del ejemplo 8-2. Tabla 8-7 Anlisis de varianza del ejemplo 8-2
Fuente de variacin
Grados de libertad
1 1 1. 1 11 15
Cuadrado medio
495.0625 4590.0625 473.0625 189.0625 2.5625
Fo
193.20 1791.24 184.61 73.78
ValorP
<0.0001 <0.0001 <0.0001 <0.0001
"
" !
H'
99
o o
~
5 10 20
95 90 80 70
o o
~..,
;;-...
I
S 30
ro
"C
E o
c:
ro
50
50 : 30 20 10 5
;g 70 80 :o ro
.c
"-
90 95 99 -3 -2
-1
o
Residuales
Figura 8-7
313
Ir'"
!':"I
~
314
2
CAPTULO 8
"O .;
ro ::J
a:
al
al
Ul
el
-1
-2
-3
10
20
30
40
50
60
Rendimiento predicho
Figura 8-8 Grfica de los residuales contra el rendimiento predicho para el ejemplo 8-2.
y la figura 8-8 es una grfica de los residuales contra los valores predichos. Ambas grficas son satisfactorias. Los tres factoresA, B ye tienen efectos positivos grandes. La interaccin apertura-tiempo de exposicin oAB se grafica en la figura 8-9. Esta grfica confirma que el rendimiento es ms alto cuando tanto A como B estn en el nivel alto.
63
~ al 'E
15
c:
al
B+
a:
.. B-
B-6
Bajo
A
Alto
315
61.5
+ ~.~--J...I---'-51.0
L-,~----- ~
.. 9.5
/(------7/'
r.;
115.5
I I
21.5
Figura 8-10 Proyeccin del diseo 2~-1 del -ejemplo 8-2 en dos rplicas de un diseo 23 en los factores A, B Y C.
El diseo 25- 1 se reducir a dos rplicas de un diseo 23 en tres cualesquiera de los cinco factores originales. (Observar la figura 8-5 ayuda a visualizar esto.) La figura 8-10 es una grfica de cubo en los factores A, By C con los rendimientos promedio superpuestos en los ocho vrtices. Es evidente por la inspeccin de la grfica de cubo que los rendimientos ms altos se consiguen conA, By C en el nivel alto. Los factores D y E tienen un efecto pequeo sobre el rendimiento promedio del proceso y pueden ajustarse en los valores que optimicen otros objetivos (como el costo).
El uso de los diseos factoriales fraccionados lleva con frecuencia a una gran economa y eficiencia en la experimentacin, en particular si las corridas pueden hacerse secuencialmente. Por ejemplo, suponga que se estn investigando k = 4 factores (24 = 16 corridas). Casi siempre es preferible correr un diseo fraccionado 2~1 (ocho corridas), analizar los resultados y despus decidir cul es la mejor serie de corridas que deber correrse despus. Si es necesario resolver ambigedades, siempre puede correrse la fraccin alterna y completar el diseo 24 Cuando se usa este mtodo para completar el diseo, ambas fracciones un medio representan bloques del diseo completo con las interacciones de orden superior confundidas con los bloques (en este casoABCD estara confundida). Por lo tanto, la experimentacin secuencial tiene como resultado la prdida de informacin slo en la interaccin de orden ms alto. Su ven- . taja es que en muchos casos se saca informacin suficiente de la fraccin un medio para proceder a la siguiente etapa de la experimentacin, lo cual podra implicar la incorporacin o eliminacin de factores, el cambio de las respuestas, o la variacin de algunos de los factores en nuevos rangos. Algunas de estas posibilidades se ilustran grficamente en la figura 8-11.
EJEMPLO 8~3
Considere nuevamente el experimento del ejemplo 8-1. Se ha usado un diseo 2~1 y se ha hecho la identificacin tentativa de los tres efectos principales grandes: A, Cy D. Hay dos efectos grandes asociados con interacciones de dos factores,AC + BD yAD + BC. En el ejemplo 8-2 se utiliz el hecho de que el efecto principal de B era insignificante para concluir de manera tentativa que las interacciones importantes eran
316
I I
I
/ /
)---a) Moverse a una nueva localizacin para explorar una tendencia aparente a la respuesta
b) Agregar otra fraccin
Diseo inicial
-o -;
~
t
e
/ /
c..
}------cl Reescalar algunos factores porque pueden haberse hecho variar en los rangos inapropiados
.)~~-Q.
e) Hacer una rplica para mejorar las estimaciones de los efectos o porque algunas corridas se hicieron incorrectamente
t
-o -;
c..
~
I I I
)----
/ S-<f "-----.,~~
Temperatura
~
d) Eliminar y agregar factores porque el factor original correspondiente a la velocidad de alimentacin del cstalizador es insignificante
Figura 8-11 Posibilidades para el seguimiento de la experimentacin despus de un experimento factoria! fraccionado [adaptado de Box ("Sequential Experimentation and Sequential Assembly of Designs") con permiso del editor]_
AC yAD. En ocasiones el experimentador tendr que procesar conocimientos que puedan ayudarle a discriminar entre las interacciones que probablC?mente sean importantes. Sin embargo, siempre es posible aislar la interaccin significativa corriendo la fraccin alterna, dada por I = -ABCD. Es directa la demostracin de que el diseo y las respuestas son los siguientes:
Diseo bsico Corrida
A
D =-ABC
Combinacin de tratamientos
ndice de filtracin
1
2
3 4 5 6 7 8
+ + + +
+ + + + + + + +
d a b abd
e
43
71
+ + + +
48 104 68 86 70 65
317
Las combinaciones lineales de las observaciones obtenidas a partir de esta fraccin alterna son
.e~ .e~ .e~
.e~
.e~
= 14.25
:estas estimaciones pueden combinarse con las que se obtuvieron de la fraccin un medio original para obtener las siguientes estimaciones de los efectos:
A B
D AB Ae AD
~A
~B
~BeD ~AeD
~ABD
~ABe
~
eD
~BD ~Be
Estas estimaciones concuerdan exactamente con las del anlisis original de los datos como una sola rplica de un diseo factorial 2\ como se consigna en el ejemplo 6-2. Evidentemente, son las interaccionesAC y AD las que son grandes.
Agregar la fraccin alterna a la fraccin principal puede considerarse como un tipo de experimento de confirmacin, por cuanto proporciona informacin que permitir fortalecer las conclusiones iniciales acerca de los efectos de la interaccin de dos factores. En la seccin 8-5 se investigarn otros aspectos de la combinacin de diseos factoriales fraccionados para aislar las interacciones. En ocasiones un experimento de confirmacin no es tan elaborado como ste. Por ejemplo, podra usarse la ecuacin del modelo para predecir la respuesta en un punto de inters dentro del espacio del diseo (no uno de los puntos del diseo actual), correr despus realmente ese ensayo (quiz varias veces) y usar la comparacin entre la respuesta predicha y la observada para confirmar los resultados.
8~3
Para un nmero moderadamente grande de factores, con frecuencia son tiles fracciones menores del diseo 2k Considere una fraccin un cuarto del diseo 2k Este diseo contiene 2k- 2 corridas y es comn llamarlo diseo factorial fraccionado 2k - 2 El diseo 2k - 2 puede construirse apuntando primero un diseo bsico compuesto por las corridas asociadas con un diseo factorial completo en k - 2 factores y asociando despus las dos columnas adicionales' con las interacciones elegidas apropiadamente que incluyan los primeros k - 2 factores. Por lo tanto,
318
CAPTULO 8
una fraccin un cuarto del diseo 2k tiene dos generadores. Si P YQ representan los generadores escogi_ dos, entonces a I = P e I = Q se les llama las relaciones generadoras del diseo. Los signos de P y Q ( + o -) determinan cul de las fracciones un cuarto se produce. Las cuatro fracciones asociadas con la eleccin de los generadores Py Q pertenecen a la misma familia. La fraccin para la que tanto P como Q son positivas es la fraccin principal. La relacin de definicin completa del diseo est compuesta por todas las columnas que son iguales a la columna identidadI. stas constarn de P, Q y su interaccin generalizadaPQ; es decir, la relacin de definicin es I = P = Q = PQ. A los elementos P, Q y PQ de la relacin de definicin se les denomina pa. labras. Los alias de cualquier efecto se obtienen mediante la multiplicacin de la columna de ese efecto por cada palabra de la relacin de definicin. Evidentemente, cada efecto tiene tres alias. El experimentador deber estar atento al elegir los generadores para que los efectos potencialmente importantes no sean alias entre s. Como un ejemplo, considere el diseo 26- 2 Suponga que se escogen I = ABCE e I = BCDF como los generadores del diseo. Entonces la interaccin generalizada de los generadores ABCE y BCDF es ADEF; por lo tanto, la relacin de definicin completa de este diseo es
I = ABCE = BCDF = ADEF
Por consiguiente, se trata de un diseo de resolucin IV. Para encontrar los alias de cualquier efecto (por ejemplo deA), se multiplica ese efecto por cada palabra de la relacin de definicin. ParaA, esto produce
"
8-3 LA FRACCIN UN CUARTO DEL DISEO 2k
319
Tabla 8-9
E=ABC
F=BCD
1 2
3
+ + + + + + + +
4 5 6 7
8 9
+ + + + + + + +
+ + + + + + + + + + + +
+ + + + + +
11
13
10 12
14 15 16
+ + + +
+ + + + + + + +
+ +
Hay, desde luego, tres fracciones alternas de este diseo 2~2 particular. Se trata de las fracciones con las relaciones generadoras 1 = ABCE e 1 = -BCDF; 1 = -ABCE el = BCDF; el = -ABCE el = -BCDF. Es sencillo construir estas fracciones con el mtodo que se muestra en la tabla 8-9. Por ejemplo, si quiere encontrarse la fraccin para la que 1 = ABCE el = -BCDF, entonces en la ltima columna de la tabla 8-9 se hace F = -BCD, Yla columna de los niveles del factor F queda como
++----++--++++-La relacin de definicin completa de esta fraccin alterna es 1 = ABCE = -BCDF = -ADEF. Ahora ciertos signos en la estructura de los alias de la tabla 8-9 se han cambiado; por ejemplo, los alias deA son A = BCE = -DEF = -ABCDF. Por lo tanto, la combinacin lineal de las observaciones eA estima en realidad A + BCE - DEF - ABCDF. Por ltimo, observe que el diseo factorial fraccionado 2~2 se proyectar en una sola rplica de un diseo 24 en cualquier subconjunto de cuatro factores que no sea una palabra de la relacin de definicin. Tambin se pliega en una fraccin un medio con una rplica de un diseo 24 en cualquier subconjunto de cuatro factores que sea una palabra de la relacin de definicin. Por lo tanto, el diseo de la tabla 8-9 se convierte en dos rplicas de un diseo 24-1 en los factoresABCE, BCDF y ADEF, porque stas son las palabras de la relacin de definicin. Hay otras 12 combinaciones de los seis factores, comoABCD,ABCF, etc., para las que el diseo se proyecta en una sola rplica del diseo 24 Este diseo tambin se pliega en dos rplicas de un diseo 23 en cualquier subconjunto de tres de los seis factores o en cuatro rplicas de un diseo 22 en cualquier subconjunto de dos factores. En general, cualquier diseo factorial fraccionado 2k- 2 puede plegarse en un diseo factorial completo o bien en un diseo factorial fraccionado en algn subconjunto de r :5. k - 2 de los factores originales. Estos subconjuntos de variables que forman diseos factoriales completos no son palabras de la relacin de definicin completa.
EJEMPLO 8~4
Las piezas fabricadas en un proceso de moldeo por inyeccin estn presentando una contraccin excesiva. Esto est ocasionando problemas en las operaciones de ensamblaje que se realizan despus del moldeo por inyeccin. Un equipo de mejoramiento de calidad ha deeidido llevar a cabo un experimento
320
CAPTULO 8
diseado para estudiar el proceso de moldeo por inyeccin a fin de poder reducir la contraccin. El equipo decide investigar seis factores -la temperatura de moldeo (A), la velocidad del enroscado (B), el tiempo de retencin (C), la duracin del ciclo (D), el tamao del vaciadero (E) y la presin de la retencin (F)- con dos niveles cada uno, con el fin de saber cmo se afecta la contraccin debido a cada factor, as como para obtener informacin preliminar acerca de la forma en que los factores interactan. El equipo decide usar el diseo factorial fraccionado de 16 corridas con dos niveles de la tabla 8-9. El diseo se muestra de nuevo en la tabla 8-10, junto con la contraccin observada (x 10) en la pieza de prueba producida en cada una de las 16 corridas del diseo. En la tabla 8-11 se muestran las estimaciones de los efectos, las sumas de cuadrados y los coeficientes de regresin de este experimento. En la figura 8-12 se presenta la grfica de probabilidad normal de las estimaciones de los efectos de este experimento. Los nicos efectos grandes sanA (temperatura de moldeo), B (velocidad del enroscado) y la interaccinAB. A la luz de las relaciones de los alias de la tabla 8-8, parece razonable adoptar estas conclusiones de manera tentativa. La grfica de la interaccin AB de la figura 8-13 indica que el proceso muestra una alta insensibilidad a la temperatura si la velocidad del enroscado est en el nivel bajo, pero que es muy sensible a la temperatura si la velocidad del enroscado est en el nivel alto. Con la velocidad del enroscado en el nivel bajo, el proceso deber producir una contraccin promedio de alrededor de 10%, independientemente del nivel de temperatura elegido. Con base en este anlisis inicial, el equipo decide hacer el ajuste de la temperatura de moldeo y la velocidad del enroscado en el nivel bajo. Este conjunto de condiciones reducir la contraccin media de las piezas en alrededor de 10%. Sin embargo, la variabilidad de la contraccin de una pieza a otra sigue siendo un problema potencial. De hecho, la contraccin media puede reducirse adecuadamente mediante las modificaciones anteriores; sin embargo, la variabilidad de la contraccin de una pieza a otra en una corrida de produccin podra seguir causando problemas en el ensamblaje. Una manera de abordar esta cuestin es investigando si alguno de los factores del proceso afecta la variabilidad de la contraccin de las piezas. En la figura 8-14 se presenta la grfica de probabilidad normal de los residuales. Esta grfica parece ser satisfactoria. Se construyeron despus las grficas de los residuales contra cada factor. En la figura
~
Tabla 8-10 Un diseo 2~';z para el experimento del moldeo por inyeccin del ejemplo 8-4 Diseo bsico Corrida
E=ABC
F=BCD
1 2 3
4
+ + + + + + + +
5 6 7
8 9
+ + + + + + + +
+ + + + + + + + + + + +
+ + + + + +
6 10 32 60 4 15 26 60
8
10
11
12 13 14 15 16
+ + + +
+ + + + + + + +
+ +
12 34 60 16 5 37 52
1
1
321
Tabla 8-11
Variable A B C
D E
F
Variable" 'Promedio global
A B C D E F AB+CE AC+BE AD+EF AE+BC+DF AF+DE BD+CF BF+CD
ABD
ABF
Nombre temperatura_moldeo velocidad enroscado duracin retencin duracin-ciclo tamao_vaciadero presinJetencin Coeficiente de regresin 27.3125 6.9375 17.8125 -0.4375 0.6875 0.1875 0.1875 5.9375 -0.8125 -2.6875 -0.9375 0.3125 -0.0625 -0.0625 0.0625 -2.4375
Nivel-1 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 Efecto estimado 13.8750 35.6250 -0.8750 1.3750 0.3750 0.3750 11.8750 -1.6250 -5.3750 -1.8750 0.6250 -0.1250 -0.1250 0.1250 --4.8750
Nivel +1 1.000 1.000 1.000 1.000 1.000 1.000 Suma de cuadrados 770.062 5076.562 3.063 7.563 0.563 0.563 564.063 10.562 115.562 14.063 1.563 0.063 0.063 0.063 95.063
99
5
o o
~
95 90 80 70
o o
A
AB
10 20 30
Z..,
I
ro
E 50 o
c:
50 ';
R.,-'
:a ro
J:l
~ 70
80
30 20 10 5
a. 90
95
99
-5
Figura 8-12
10
15
20
25
30
35
40
r
I
l
322
60
5"
~
'0
'13
"
u
~
U
B+
o "
.. B"
_---------... B-
Figura 813 Grfica de la interaccinAB (temperatura de moldeo-velocidad del enroscado) para el ejemplo 8-4.
1: l'
8-15 se muestra una de estas grficas, la de los residuales contra el factor e (tiempo de retencin). La grfica revela que hay una dispersin sensiblemente menor en los residuales con el tiempo de retencin bajo que con el tiempo de retencin alto. Estos residuales se obtuvieron de la manera usual a partir del modelo de la contraccin predicha:
X2 y= Po +P1 X l +P2 X 2+P12 X1
e:
r
~,
JI
95 90 80 70
o o
~..,
;:.., 20
I
~
... x
o o
10
30
ro
E 50
"tl
80 :c ro
.n
c..
;g
o " ro 70
e
90 95
50 ';; 30 20 10
-6
-3
99
o
Residuales
Figura 8-14
323
01----------------,-----2
Baja
Tiempo de retencin (e)
-4
Alta
Figura 8-15 Residuales contra el tiempo de retencin (e) para el ejemplo 8-4.
donde Xl' X 2 YX IX 2 son las variables codificadas que corresponden a los factores A y B Ya la interaccinAB. Entonces los residuales son
e=
y-y
El modelo de regresin usado para producir los residuales elimina, en esencia, los efectos de localizacin deA, ByAB de los datos; por lo tanto, los residuales contienen informacin acerca de la variabilidad no explicada. La figura 8-15 indica que existe un patrn en la variabilidad y que la variabilidad de la contraccin de las piezas puede ser menor cuando el tiempo de retencin est en el nivel bajo (recuerde que en el captulo 6 se seal que los residuales slo transmiten informacin acerca de los efectos de dispersin cuando es correcto el modelo de localizacin o la media). Lo anterior se observa con mayor claridad en el anlisis de los residuales que se presenta en la tabla 8-12. En esta tabla, los residuales se ordenan en los niveles bajo (-) y alto ( +) de cada factor, y se ha calculado la desviacin estndar de los residuales en los niveles bajo y alto de cada factor. Observe que la desviacin estndar de los residuales con C en el nivel bajo [S(C-) = 1.63] es considerablemente menor que la desviacin estndar de los residuales con C en el nivel alto [S(C+) = 5.70]. En el ltimo rengln de la tabla 8-12 se presenta el estadstico S2('+ ) F.*=1n l S2(i-)
1
I!
!'
Recuerde que si las varianzas de los residuales en los niveles alto ( +) y bajo (-) del factor i son iguales, entonces este cociente sigue una distribucin aproximadamente normal con media cero, y puede usarse para evaluar la diferencia en la variabilidad de la respuesta en los dos niveles del factor i. Puesto que el cociente F~ es relativamente grande, se concluira que la aparente dispersin o efecto de variabilidad observado en la figura 8-15 es real. Por lo tanto, ajustar el tiempo de retencin en su nivel bajo contribuira a reducir la variabilidad de una pieza a otra durante una corrida de produccin. En la figura 8-16 se presen-
- ."-"" __----"<. . _
- -~~!':~~ !-~"':.!~=~=-
-.'o..j:~~j~I;f~\~~
..~~
-=
W N
Tabla 8-12 Clculo de los efectos de dispersin del ejemplo 8-4 Corrida A B AB=CE C AC=BE AE=BC=DF E D AD=EF BD=CE ABD 1 + + + + + 2 + + + + + 3 + + + + + 4 + + + 5 + + + + + 6 + + + + + 7 + + + + + 8 + + + + + + + 9 + + + + + 10 + + + + + 11 + + + + + 12 + + + + + + + 13 + + + + + 14 + + + + + 15 + + + + + 16 + + + + + + + + + + + 4.33 5.70 3.85 4.17 4.64 3.39 4.01 3.68 4.72 S(i+) 3.80 4.01 S(i-) 4.60 4.41 1.63 4.25 3.59 4.10 4.53 4.33 2.75 4.41 3.51 F' -0.38 -0.19 0.11 2.50 -0.42 -0.23 -0.04 0.51 0.42 -0.19 0.59
I
BF=CD
+ + + +
-
ACD -
+ + + +
4.71 3.65 0.51
AF = DE Residual -2.50 + -0.50 + -0.25 + 2.00 + + + -4.50 + + 4.50 + + -6.25 + + 2.00 -0.50 + + 1.50 + + 1.75 + + 2.00 7.50 + -5.50 + 4.75 + -6.00 + + + 3.50 3.88 4.87 3.12 4.52 3.40 0.23 -0.31 0.72
F -
325
" ~
I
c.
5
20
95
;:;~
so
o o
~
. E 50
o
-g
c:
50
20
5
:,~
"C
0.1
0.6
1.1
1.6
2.1
2.6
r
Figura 8-16
Grfica de probabilidad normal de los efectos de dispersin F'- del ejemplo 84.
ta una grfica de probabilidad normal de los valores F* de la tabla 8-12; sta tambin indica que el factor En la figura 8-17 se muestran los datos de este experimento proyectados en un cubo en los factoresA,
By C. La contraccin promedio observada y el rango de la contraccin observada se indican en cada vrtice del cubo. Por la inspeccin de la figura se observa que correr el proceso con la velocidad del enroscado
(B) en el nivel bajo es la clave para reducir la contraccin promedio de las piezas. SiB est en el nivel bajo, virtualmente cualquier combinacin de la temperatura (A) Yel tiempo de retencin (C) resultar en valores bajos de la contraccin promedio de las piezas. Sin embargo, al examinar los rangos de los valores de la contraccin en cada vrtice del cubo, es claro de inmediato que ajustar el tiempo de retencin (C) en el nivel bajo es la nica eleccin razonable si se quiere mantener baja la variabilidad de la contraccin de .una pieza a otra en una corrida de produccin.
......- - - - - - - - - - , e y ~ 56.0
I R I I
1:Ji~31.5 ~ 11
R~S
08+
:Ji
60.0
"C
e c: " ~
o "
1l Ul
R~O
:E
]
:Ji ~ 10.0 R ~ 11
rtl
y
~:'Od' ""0016"
A, temperatura de moldeo
Figura 817 Contraccin promedio y rango de la contraccin en los factores A, B Y e para el ejemplo 84.
326
CAPTULO 8
8..4
::
.
'
<::
1"" ",
>
A un diseo factorial fraccionado 2k que contiene 2k - p corridas se le llama fraccin 1/2! del diseo 2k o, de manera ms simple, diseo factorial fraccionado 2k-p. En estos diseos deben seleccionarse p generadores independientes. La relacin de definicin de este diseo se compone de los p generadores elegidos inicialmente y sus 2! -p -1 interacciones generalizadas. En la presente seccin se estudia la construccin y el anlisis de estos diseos. La estructura de los alias puede encontrarse multiplicando la columna de cada efecto por la relacin de definicin. Deber prestarse atencin al elegir los generadores para que los efectos de inters potencial no sean alias entre s. Cada efecto tiene 2P -1 alias. Para valores moderadamente grandes de k, es comn suponer que las interacciones de rdenes superiores (por ejemplo, de tercero y cuarto orden y superiores) son insignificantes, con lo cual se simplifica en gran medida la estructura de los alias. Es importante seleccionar los p generadores de un dise~o factorial fraccionado 2k- p de tal modo que se obtengan las mejores relaciones de los alias posibles. Un criterio razonable es seleccionar los generadores para que el diseo 2k- p resultante tenga la resolucin ms alta posible. Para ilustrar, considere el diseo 2C;:;2 de la tabla 8-9, donde se usaron los generadores E =ABCyF = BCD, con lo cual se produce un diseo de resolucin IV ste es el diseo con la resolucin ms alta. Si se hubieran seleccionado E == ABC y F = ABCD, la relacin de definicin completa hubiera sido 1 = ABCE = ABCDF = DEF, Yel diseo habra sido de resolucin III. Se trata, evidentemente, de una eleccin inferior porque sacrifica de manera innecesaria informacin acerca de las interacciones. En ocasiones la resolucin por s sola no es suficiente para distinguir entre los diseos. Por ejemplo, considere los tres diseos 2~2 de la tabla 8-13. Todos estos diseos son de resolucin IV, pero tienen estructuras de los alias muy diferentes (se ha supuesto que las interacciones de tres factores y las de rdenes superiores son insignificantes) con respecto a las interacciones de dos factores. Evidentemente, el diseo A es el que tiene ms alias y el diseo C el que tiene menos, por lo que el diseo C sera una buena eleccin para un diseo 2~2 . Las tres palabras del diseoA tienen longitud 4; es decir, el patrn de la longitud de las palabras es {4, 4, 4}. Para el diseo B es {4, 4, 6} Ypara el diseo C es {4, 5, 5}. Observe que la relacin de definicin del diseo C tiene una sola palabra de cuatro letras, mientras que los dems diseos tienen dos o tres. Por lo tanto, el diseo C minimiza el nmero de palabras de la relacin de definicin que son de longitud mnima. A un diseo como ste se le llama diseo de aberracin mnima. Minimizar la aberracin en un diseo de resolucinR asegura que el diseo tiene el nmero mnimo de efectos principales que son alias de
Tabla,8-13
Generadores del diseoA: F ==ABC, G == BCD 1 == ABCF == BCDG == ADFG Alias (interacciones de dos factores)
AB==CF AC=BF AD==FG AG=DF BD=CG BG=CD AF=BC=DG
zk-P GENERAL
327
interacciones de orden R -1, el nmero mnimo de interacciones de dos factores que son alias de interac'dones de orden R - 2, etctera. Referirse a Fries y Hunter [46] para mayores detalles. En la tabla 8-14 se presenta una seleccin de diseos factoriales fraccionados 2k- p para k :5 15 factores y hasta n :5 128 corridas. Los generadores sugeridos en esta tabla resultarn en un diseo con la resolucin ms alta posible. Son tambin los diseos con aberracin mnima. Las relaciones de los alias para todos los diseos de la tabla 8-14 para los que n :5 64 se presentan en la tabla XII(a-w) del apndice. Las relaciones de los alias incluidas en esta tabla se enfocan en los efectos principales Ylas interacciones de dos y tres factores. Se da la relacin de definicin completa para cada diseo. Esta tabla del apndice hace muy sencillo seleccionar un diseo con la resolucin suficiente para asegurar que cualesquiera interacciones de inters potencial puedan estimarse.
EJEMPLO 8~5
Para ilustrar el uso de la tabla 8-14, suponga que se tienen siete factores y que el inters se encuentra en estimar los siete efectos principales y hacerse una idea aproximada de las interacciones de dos factores. Estamos dispuestos a suponer que las interacciones de tres factores y de rdenes superiores son insignificantes. Esta informacin sugiere que un diseo de resolucin IV sera apropiado. La tabla 8-14 muestra que se cuenta con dos fracciones de resolucin IV: la 2~2 con 32 corridas y la 2~3 con 16 corridas. La tabla XII del apndice contiene las relaciones de los alias completas para estos dos diseos. Los alias para el diseo 2~3 de 16 corridas se encuentran en la tabla XII(i) del apndice. Observe que los siete efectos principales son alias de interacciones de tres factores. Las interacciones de dos factores son alias en grupos de tres. Por lo tanto, este diseo satisfar los objetivos del problema; es decir, permitir la estimacin de los efectos principales y dar cierta idea respecto de las interacciones de dos factores. No es necesario correr el diseo 2~2, el cual requerira 32 corridas. La tabla XII(j) del apndice indica que este diseo permitira la estimacin de los siete efectos principales y que 15 de las 21 interacciones de dos factores tambin podran estimarse de manera nica. (Recuerde que las interacciones de tres factores y de rdenes superiores son insignificantes.) sta es ms de la informacin necesaria acerca de las interacciones. El diseo completo se muestra en la tabla 8-15. Observe que se construy empezando con la corrida 16 del diseo 24 enA, B, C y D como el diseo bsico y agregando despus las tres columnas E = ABC, F = BCD YG = ACD. Los generadores son 1 = ABCE,I = BCDF e 1 = ACDG (tabla 8-14). La relacin de definicincompletaesI=ABCE = BCDF =ADEF =ACDG =BDEG = CEFG = ABFG.
Hay varios programas de computadora que pueden usarse para analizar el diseo factorial fraccionado 2k- p Por ejemplo, el programa Design-Expel1 ilustrado en el captulo 6 tiene esta capacidad. El diseo tambin puede analizarse recurriendo a los principios bsicos; el efecto i-simo se estima con
J!
donde el Contraste se encuentra utilizando los signos positivos y negativos de la columna i y donde N = 2k- p es el nmero total de observaciones. El diseo 2k- p slo permite la estimacin de 2k- p -1 efectos (y sus alias).
f,r
e,
~t
,1
21<-1'
Nmero de corridas 4 8 16 8 32 16 8
-1 27 VII 7 - 2 2 IV
64 32 16
7- 3 2 ID
7- 4 2 ID
:ir
U~
'.
~:!
2 8- 2
V
64 32
2 8- 3
It
1"
IV
<: ..
" ji
r" t.:
2 8- 4
IV
16
29 -2 VI
-3 29 IV
128 64
2 9- 4
IV
32
9- 5 2 ID
16
10
2 10 -3 V
128
328
11
Tabla 8-14
Nmero de factores, k
210- 5
N
32
210- 6
III
16
11
211 - 5 N
64
1'1
I
~
",/!t
,I!."
II,,~
::4~i
211 -6 N
32
,:?~
'rr
,I.j
"1'"
:~.l:~ W:::i
::1,;[:
~I .. ,,~
211- 7
III
16
-I"'-j
~~:-;
1['~
m:;;w
"
r~
ll~
'ji I
i !
12
212 - 8 III
16
13
213 - 9 III
16
329
r
330
CAPTULO 8 DISEOS FACTORIALES FRACCIONADOS DE DOS NIVELES
Tabla 8-14
Nmero de factores, k
14
214 - 10 111
16
15
~:
215- 11
111
16
:ir
f,' :
'.
lt
l'
<: -.
r' l."
"~
L= AC M=AD N=BC E= ABC F= ABD G= ACD H= BCD J= ABCD K= AB L= AC M=AD N= BC 0= BD E= ABC F= ABD G = ACD H= BCD J= ABCD K= AB L= AC M=AD N= BC 0= BD p= CD
"o
j
Tabla 8-15 Corrida 1 2 3 4 5 6 Un diseo factorial fraccionado ziv 3 Diseo bsico
E=ABC
F=BCD
G=ACD
+ + + + + + + +
+ + + + + + + +
+ + + + + + + + + + + +
+ + + + + +
+ + + + + + + +
7 8 9
10 11 12 13 14 15 16
+ + + +
+ + + + + + + +
+ +
z"-P GENERAL
331
El diseo 2k- p se reduce a un factorial completo o bien a un factorial fraccionado en cualquier subconjunto de r :::; k - p de los factores originales. Esos subconjuntos de factores que producen diseos factoriales fraccionados son subconjuntos que aparecen como palabras en la relacin de definicin completa. Esto resulta de particular utilidad en los experimentos de tamizado cuando se sospecha desde el principio del experimento que la mayora de los factores originales tendrn efectos pequeos. El diseo factorial fraccionado 2k- p puede proyectarse entonces en un factorial completo, por ejemplo, en los factores de mayor inters. Las conclusiones a que se llegue con diseos de este tipo debern considerarse tentativas y someterse a anlisis adicional. Por lo general es posible encontrar explicaciones alternativas de los datos que intervienen en interacciones de rdenes superiores. Como un ejemplo, considere el diseo 2~3 del ejemplo 8-5. Se trata de un diseo con 16 corridas en el que intervienen siete factores. Se proyectar en un factorial completo en cuatro cualesquiera de los siete factores originales que no sean una palabra de la relacin de definicin. Hay 35 subconjuntos de cuatro factores, siete de los cuales aparecen en la relacin de definicin completa (ver la tabla 8-15). Por lo tanto, hay 28 subconjuntos de cuatro factores que formaran diseos 24 Una combinacin que es obvia al inspeccionar la tabla 8-15 es A, B, C Y D. Para ilustrar apropiadamente la utilidad de esta proyeccin, suponga que se realiza un experimento para mejorar la eficiencia de un molino de bolas y los siete factores son los siguientes:
1. 2. 3. 4. 5. 6. 7.
Velocidad del motor Muesca Modo de alimentacin Tamao de la alimentacin Tipo de material ngulo de la criba Nivel de vibracin de la criba
Se tiene una certeza razonable de que la velocidad del motor, el tamao de la alimentacin y el tipo de material afectarn la eficiencia y que adems estos factores pueden interactuar. Se sabe menos del papel de los otros tres factores, pero es probable que sean insignificantes. Una estrategia razonable sera asignar la velocidad del motor, el modo de alimentacin, el tamao de la alimentacin y el tipo de material a las columnas A, B, Cy D, respectivamente, de la tabla 8-15. La muesca, el ngulo de la criba y el nivel de vibracin de la criba se asignaran a las columnas E, F YG, respectivamente. Si se est en lo correcto y las "variables menores" E, Fy G son insignificantes, quedar un diseo 24 completo en las variables clave del proceso.
Separacin en bloques de diseos factoriales fraccionados
Ocasionalmente, un diseo factorial fraccionado requiere tantas corridas que no es posible realizarlas todas bajo condiciones homogneas. En estas situaciones, los diseos factoriales fraccionados pueden confundirse o mezclarse en bloques. La tabla XII del apndice contiene los arreglos recomendados para la separacin en bloques de varios de los diseos factoriales fraccionados de la tabla 8-14. El tamao mnimo de los bloques para estos diseos es de ocho corridas. Para ilustrar el procedimiento general, considere el diseo factorial fraccionado 2~2 con la relacin de definicin! =ABCE = BCDF =ADEF que se muestra en la tabla 8-10. Este diseo fraccionado contiene 16 combinaciones de tratamientos. Suponga que quiere correrse este diseo en dos bloques con ocho combinaciones de tratamientos cada uno. Al seleccionar una interaccin para confundirla con los bloques, se observa por el examen de la estructura de los alias de la tabla XII(f) del apndice que hay dos
,n
rnI
I I
I
332
Bloque 1
(1 )
CAPTULO 8
Bloque 2
/
series de alias que incluyen nicamente interacciones de tres factores. La tabla sugiere seleccionar ABD (y sus alias) para confundirla con los bloques. Se obtendran as los dos bloques que se muestran en la figura 8-18. Observe que el bloque principal contiene las combinaciones de tratamientos que tienen un nmero igual de letras en comn conABD. Son tambin las combinaciones de tratamientos para las que L = Xl + X 2 + X 4 = O (mod 2).
Factor
A = desviacin en el ejex (0.001 pulg) B = desviacin en el eje y (0.001 pulg) e = desviacin en el eje z (0.001 pulg) D = fabricante de la herramienta E = desviacin del eje a (0.001 grados) F = velocidad del aremetro (%) G = altura de la plantilla sujetadora (0.001 pulg) H = velocidad de alimentacin (%)
o
O O 1 O
15 15 15
90
O
lio
15
2 30
90
110
Se selecciona un labe de prueba en cada pieza para inspeccionarlo. La desviacin del perfil se mide utilizando una mquina de medicin coordenada, y la desviacin estndar de la diferencia entre el perfil real y el perfil especificado se usa como la variable de respuesta. La mquina tiene cuatro aremetros. Puesto que puede haber diferencias en los aremetros, los ingenieros del proceso piensan que stos debern tratarse como bloques. Los ingenieros se sienten confiados de que las interacciones de tres o ms factores no son muy importantes, pero estn renuentes a ignorar las interacciones de dos factores. Por la tabla 8-14, inicialmente dos
Zk-p
GENERAL
333
,diseos parecen ser apropiados: el diseo 2~4 con 16 corridas y el diseo 2~3 con 32 corridas. La tabla Xn(l) del apndice indica que si se usa el diseo con 16 corridas, habr un nmero considerable de alias con interacciones de dos factores. Adems, este diseo no puede correrse en cuatro bloques sin confundir cuatro interacciones de dos factores con los bloques. Por lo tanto, los experimentadores deciden usar el diseo 2~3 en cuatro bloques. En este diseo se confunden con los bloques una cadena de alias de interacciones de tres factores y una interaccin de dos factores (EH) y sus alias de interacciones de tres factores. La interaccin EH es la interaccin entre la desviacin del eje a y la velocidad de alimentacin, y los ingenieros consideran que una interaccin entre estas dos variables es altamente improbable. La tabla 8-16 contiene el diseo y las respuestas resultantes en trminos de desviacin estndar x 103 pulg. Puesto que la variable de respuesta es una desviacin estndar, con frecuencia es mejor efectuar el anlisis despus de una transformacin logartmica. En la tabla 8-17 se muestran las estimaciones de los .efectos. La figura 8-19 es una grfica de probabilidad normal de las estimaciones de los efectos, utilizando In (desviacin estndar x 103) como la variable de respuesta. Los nicos efectos grandes sonA == desviacin del ejex, E == desviacin del eje y, y la cadena de alias que incluyeAD + EG. Ahora bien,AD es la in-
28-3
.
Orden real Desviacin estndar Bloque de las corridas (x 103 pulg) 3 2 4 1 1 4 2 3 1 4 2 3 3 2 4 1 2 3 1 4 4 1 3 2 4 1 3 2 2 3 1 4 18 16 29 4 6 26 14 22 8 32 15 19 24 11 27 3 10 21 7 28 30 2 17 13 25 1 23 12 9 20 5 31 2.76 6.18 2.43 4.01 2.48 5.91 2.39 3.35 4.40 4.10 3.22 3.78 5.32 3.87 3.03 2.95 2.64 5.50 2.24 4.28 2.57 5.37 2.11 4.18 3.96 3.27 3.41 4.30 4.44 3.65 4.41 3.40
1
Diseo bsico
ji:
,~,
:: 1 I,'-~
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + +
+ +
;~
II,"
~:;~
1 ..~
"
.,,,
..
r.r
.:S
jJ!=
17
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
+ + + +
+ + + + + + + +
+ + + + + +
1::~
," r:~
11
11i I~
+ + + +
+ + + +
+ + + + + + + +
+ + + + + + + + + + + + + + + +
+ + + + + +
+ +
334
CAPTULO 8
Tabla 8-17 Estimaciones de los efectos, coeficientes de regresin y sumas de cuadrados del ejemplo 8-6 Variable Nombre Nivel-1 Nivel + 1 A Desviacin del eje x O 15 B Desviacin del eje y O 15 C Desviacin del eje z O 15 D Fabricante de la herramienta 1 2 E Desviacin del eje a O 30 F Velocidad del aremetro 90 110 G Altura de la plantilla sujetadora O 15 H Velocidad de alimentacin 90 110 Variable" Coeficiente de regresin Efecto estimado Suma de cuadrad; Promedio global 1.28007 A 0.14513 0.29026 0.674020 B -0.10027 -0.20054 0.321729 C -0.01288 -0.02576 0.005310 D 0.05407 0.10813 0.093540 E -2.531E-04 -5.063E-04 2.050E-06 F -0.01936 -0.03871 0.011988 G 0.05804 0.11608 0.107799 H 0.00708 0.01417 0.001606 AB + CF + DG -0.00294 -0.00588 2.767E-04 -0.06206 AC + BF -0.03103 0.030815 AD + BG -0.18706 -0.37412 1.119705 AE 0.00402 0.00804 5.170E-04 -0.04502 AF + BC -0.02251 0.016214 AG + BD 0.02644 0.05288 0.022370 AH -0.02521 -0.05042 0.020339 BE 0.04925 0.09851 0.077627 BH 0.00654 0.01309 0.001371 CD + FG 0.01726 0.03452 0.009535 0.01991 CE 0.03982 0.012685 CG + DF -0.00733 -0.01467 0.001721 CH 0.03040 0.06080 0.029568 DE 0.00854 0.01708 0.002334 DH 0.00784 0.001969 0.01569 EF -0.00904 -0.01808 0.002616 EG -0.02685 0.023078 -0.05371 EH -0.01767 -0.03534 0.009993 FH -0.01404 -0.02808 0.006308 GH 0.00245 1.914E-04 0.00489 ABE 0.01665 0.008874 0.03331 ABH -0.00631 -0.01261 0.001273 ACD -0.02717 0.023617 -0.05433 "Slo los efectos principales y las interacciones de dos factores.
z"-P GENERAL
335
99
95 90 80 70
10
50 E o
"C
lU
o o
~....
50 '; 30 20 10 5
AD
"
.lU
:a
J:J
[1.
"C
70 80 90 95 99
-040
-.30
-.20
-.10
.10
.20
.30
Figura 8-19 Grfica de probabilidad normal de las estimaciones de los efectos del ejemplo 8-6.
'il
'~~l'
~
teraccin desviacin del eje x-fabricante de la herramienta, y BG es la interaccin desviacin del eje y-altura de la plantilla sujetadora, y como estas dos interacciones son alias es imposible separarlas con base en los datos del experimento en curso. Puesto que ambas interacciones incluyen un efecto principal grande, tambin es difcil aplicar cualquier simplificacin lgica "obvia" en esta situacin. Si se contara con algn conocimiento de ingeniera o del proceso que arrojara luz sobre la situacin, entonces quiz podra hacerse una eleccin entre las dos interacciones; en caso contrario, se necesitarn ms datos para separar estos dos efectos (el problema de agregar corridas en un diseo factorial fraccionado para separar los alias de las interacciones, se estudia en la seccin 8-5 y en el material suplementario de este captulo). Suponga que el conocimiento del proceso sugiere que posiblemente la interaccin apropiada seaAD. La tabla 8-18 es el anlisis de varianza resultante para el modelo con los factores A, B, D yAD (el factor D se incluy para preservar el principio de jerarqua). Observe que el efecto del bloque es pequeo, lo cual sugiere que los aremetros de la mquina no son muy diferentes. La figura 820 es una grfica de probabilidad normal de los residuales de este experimento. Esta grfica sugiere la presencia de colas ligeramente ms gruesas que las normales, por lo que posiblemente deTabla 8.18 Anlisis de varianza del ejemplo 8-6 Fuente de variacin Suma de cuadrados Grados de libertad Cuadrado medio
..
',1
Fo
39.42 18.81 5.47 65.48
Valor P
B
D
AD
Bloques Error Thtal
1 1 1 1 3 24 31
336
CAPTULO 8
5
o o
99 95 90 80 70
o o
..;~
10 20 30 50
x
o::~
1
ro
ro
E o
c:
50 ';; 30 20 10
5
"D
..D
;g 70 80 :c ro
a.. 90
95 99 -0.25
o
Residuales
0.25
Figura 820
1.825
" 'E
~'E
ro
ro
.2
c: 'ro i c:
';
'O
"D
Ol
ro
"
ro
.~
o "
D-
0.75
Baja Desviacin del eje x (Al Alta
Figura 8-21
337
I
Desviacin del eje
y,B
/~:;::'--'~~5-~;::;~~~D
I O
Desviacin del eje x,
I 11.504
1.3"10
I +15
Figura 8-22 El diseo 2~3 del ejemplo 8-6 proyectado en cuatro rplicas de un diseo 23 en los factores A, B Y D.
ban considerarse otras transformaciones. La grfica de la interaccinAD se presenta en la figura 8-21. Observe que el fabricante de la herramienta (D) y la magnitud de la desviacin del ejex (A) tienen un impacto profundo en la variabilidad, del perfil del labe, de las especificaciones de diseo. CarrerA en el nivel bajo (O desviacin) y comprar las herramientas al fabricante 1 produce los mejores resultados. En la figura 8-22 se muestra la proyeccin de este diseo 2~3 en cuatro rplicas de un diseo 23 en los factores A, By D. La mejor combinacin de las condiciones de operacin esA en el nivel bajo (O desviacin), B en el nivel alto (0.015 en desviacin) y D en el nivel bajo (fabricante de herramientas 1).
8~5
Como se seal anteriormente, el uso secuencial de los diseos factoriales fraccionados es muy til, llevando con frecuencia a una gran economa y eficiencia de la experimentacin. Se ilustran ahora estas ideas utilizando la clase de los diseos de resolucin lIl. Es posible construir diseos de resolucin III para investigar hasta le = N - 1 factores en slo N corridas, donde N es un mltiplo de 4. Con frecuencia estos diseos son tiles en la experimentacin industrial. Los diseos en los que N es una potencia de 2 pueden construirse con los mtodos presentados anteriormente en este captulo, y stos se presentan primero. De particular importancia son los diseos que requieren 4 corridas para hasta 3 factores, 8 corridas para hasta 7 factores y 16 corridas para hasta 15 factores. Si le = N - 1, se dice que el diseo factorial fraccionado est saturado. Un diseo para analizar hasta tres factores en cuatro corridas es el diseo 2:;;1, el cual se present en la seccin 8-2. Otro diseo factorial fraccionado saturado muy til es el diseo para estudiar siete factores en ocho corridas, es decir, el diseo 2i;4 . Este diseo es una fraccin un dieciseisavo del diseo 27 Puede construirse apuntando primero los niveles positivos y negativos de un diseo 23 completo en A, B Y C como el diseo bsico, y asociando despus los niveles de cuatro factores adicionales con las interacciones de los tres factores originales de la siguiente manera: D = AB, E = AC, F = BC YG = ABC. Por lo tanto, los generadores de este diseo sonl =ABD,I =ACE,I = BCF el =ABCG. El diseo se muestra en la ta. bla 8-19.
rr
r .:
i
1
338
CAPTULO 8
Tabla 8-19 El diseo 2~-4 con los generadores 1 = ABD, 1 = ACE, 1 = BCF e 1 = ABCG Diseo bsico Corrida
D=AB
E=AC
F=BC
G=ABC
1 2 3 4 5 6 7 8
+ + + +
+ + + + + + + +
+ + + +
+ +
+ + +
+ + + +
+ +
La relacin de definicin completa de este diseo se obtiene multiplicando entre s los cuatro generadoresABD, ACE, BCFyABCG de dos en dos, de tres en tres y los cuatro a la vez, de donde se obtiene I= ABD= ACE= BCF= ABCG= BCDE= ACDF= CDG = ABEF= BEG= AFG= DEF= ADEG= CEFG= BDFG= ABCDEFG Para encontrar los alias de cualquier efecto, simplemente se multiplica el efecto por cada palabra de la re"-- -- . lacin de definicin. Por ejemplo, los alias de B son
B= AD= ABCE= CF= ACG= CDE= ABCDF= BCDG= AEF= EG = ABFG= BDEF = ABDEG= BCEFG= DFG= ACDEFG
Este diseo es una fraccin un dieciseisavo, y como los signos elegidos para los generadores son positivos, se trata de la fraccin principal. Es tambin de resolucin III porque el nmero menor de letras de cualquier palabra de la definicin de contraste es tres. Cualquiera de los 16 diferentes diseos 2;;4 de esta familia podra construirse utilizando los generadores con 1 de los 16 arreglos posibles de los signos en I = ABD, I = ACE, I = BCF, I = ABCG. Los siete grados de libertad de este diseo pueden usarse para estimar los siete efectos principales. Cada uno de estos efectos tiene 15 alias; sin embargo, si se supone que las interacciones de tres o ms factores son insignificantes, se consigue entonces una simplificacin considerable en la estructura de los alias. Estableciendo este supuesto, cada una de las combinaciones lineales asociadas con los siete efectos principales de este diseo es en realidad una estimacin del efecto principal y las tres interacciones de dos factores:
RA -;. A + BD+ CE + FG RE -;. B+AD+CF+EG ee -;. C + AE + BF + DG Rn -;. D+AB+CG+EF RE -;. E+AC+BG+DF RF -;.F+BC+AG+DE RG -;. G+CD+BE+AF
(8-1)
Estos alias se encuentran en la tabla XII(h) del apndice, ignorando las interacciones de tres factores y de rdenes superiores.
339
El diseo saturado 2;;4 de la tabla 8-19 puede usarse para obtener diseos de resolucin nI para estudiar menos de siete factores en ocho corridas. Por ejemplo, para generar un diseo para seis factores en ocho corridas, simplemente se elimina cualquiera de las columnas de la tabla 8-19, digamos la G. Se obtiene as el diseo que se muestra en la tabla 8-20. Es sencillo verificar que este diseo es tambin de resolucin In; de hecho es un diseo 2~;3 , o una fraccin un octavo, del diseo 26 La relacin de definicin del diseo 2~Ii3 es igual a la relacin de definicin del diseo 2;ri 4 original, con las palabras que incluyen la letra G eliminadas. Por lo tanto, la relacin de definicin del nuevo diseo ei5/ .
1 = ABD = ACE = BCF = BCDE = ACDF = ABEF = DEF
.En general, cuando se eliminan d factores para producir un nuevo diseo, la nueva relacin de definicin se obtiene de las palabras de la relacin de definicin original que no contienen ninguna de las letras eliminadas. Cuando se construyen diseos con este mtodo, deber prestarse atencin para obtener el mejor arreglo posible. Si se eliminan las columnas B, D, F YG de la tabla 8-19, se obtiene un diseo para tres factores en ocho corridas, no obstante que las combinaciones de tratamientos corresponden a dos rplicas de un diseo 23 . Probablemente el experimentador preferira correr un diseo 23 completo enA, C y E. Tambin es posible obtener un diseo de resolucin In para estudiar hasta 15 factores en 16 corridas. Este diseo 2~~-1l saturado puede generarse apuntando primero las 16 combinaciones de tratamientos asociadas con un diseo 24 enA,B, Cy D e igualando despus 11 nuevos factores con las interacciones de dos, tres y cuatro factores de los cuatro factores originales. En este diseo, cada uno de los 15 efectos principales es alias de siete interacciones de dos factores. Puede usarse un procedimiento similar para el diseo 2i~-26, lo cual permite el estudio de hasta 31 factores en 32 corridas.
Mediante la combinacin de diseos factoriales fraccionados en los que se han intercambiado ciertos signos, es posible aislar de manera sistemtica los efectos de inters potencial. A este tipo de experimento secuencial se le llama doblez O plegado ifold over) del diseo original. La estructura de los alias de cualquier fraccin con los signos de uno o ms de los factores invertidos se obtiene haciendo el cambio de signo apropiado en los factores de la estructura de los alias de la fraccin original.
::1
111
Tabla 8-20 El diseo 2;3 con los generadores 1 = ABD, 1 = ACE e 1 = BCF Diseo bsico Corrida
D=AB
E=AC
F=BC
1 2 3 4
+ + + +
+ + + + + + + +
+ + + +
+ +
5 6
7 8
+ + + +
+ +
~'
340
CAPTULO 8 DISEOS FACTORIALES FRACCIONADOS DE DOS NIVELES
Considere el diseo 2iI~4 de la tabla 8-19. Suponga que junto con esta fraccin principal se corre tambin un segundo diseo fraccionado con los signos invertidos en la columna del factor D. Es decir, la columna de D de la segunda fraccin es
-++--++Los efectos que pueden estimarse a partir de la primera fraccin se muestran en la ecuacin 8-1, y a partir de la segunda fraccin se obtiene
J!~ ~A-BD+CE+FG e~ ~B-AD+CF+EG J!~ ~C+AE+BF-DG
es decir,
J!~ ~D-AB-CG-EF
(8-2)
suponiendo que no son significativas las interacciones de tres factores y de rdenes superiores. Ahora bien, a partir de las dos combinaciones lineales de los efectos t( J! + J!' ) y t( J! - J!' ) se obtiene
,. li
l'
.5:,
(:;
" " ~]
n,
l."'
A B C D E F G
Det(( -.e;) BD
AD
DG AB + CG+EF DF DE CD
.r;
Por lo tanto, se ha aislado el efecto principal de D y todas sus interacciones de dos factores. En general, si a un diseo fraccionado de resolucin III o mayor se le agrega una fraccin adicional con los signos de un solo factor invertidos, entonces el diseo combinado producir las estimaciones del efecto principal de ese factor y sus interacciones de dos factores. Suponga ahora que a un diseo fraccionado de resolucin III se le agrega una segunda fraccin en la que los signos de todos los factores estn inveltidos. Este tipo de doblez (llamado en ocasiones doblez como pleto o reflexin) rompe los vnculos de alias entre los efectos principales y las interacciones de dos factores. Es decir, puede usarse el diseo combinado para estimar todos los efectos principales quitados de todas las interacciones de dos factores. En el siguiente ejemplo se ilustra la tcnica.
EJEMPLO
8~7
.........................................................
Un analista de desempeo humano conduce un experimento para estudiar el tiempo de enfoque del ojo y ha construido un aparato en el que pueden controlarse varios factores durante la prueba. Los factores que considera importantes inicialmente son la agudeza o claridad visual (A), la distancia del objetivo al ojo (B), la forma del objetivo (C), el nivel de iluminacin (D), el tamao del objetivo (E), la densidad del objetivo (F) y el sujeto (G). Se consideran dos niveles de c;ada factor. El analista sospecha que slo algunos de estos siete factores son de importancia principal y que pueden omitirse las interacciones de rde-
341
Diseo 2{11 4 para el experimento del tiempo de enfoque del ojo Diseo bsico
D=AB
E=AC
F=BC
G=ABC
Tiempo
+ + + +
+ + + + + + + +
+ + + +
+ +
+ + +
+ + + +
+ +
nes superiores entre los factores. Con base en este supuesto, el analista decide correr un experimento de tamizado para identificar los factores ms importantes para despus enfocar el estudio en los mismos. Para explorar estos siete factores, el experimentador corre las combinaciones de tratamientos del diseo 2i;4 de la tabla 8-19 de manera aleatoria, obteniendo los tiempos de enfoque en milisegundos, como se muestra en la tabla 8-21. A partir de estos datos pueden estimarse siete efectos principales y sus alias. Por la ecuacin 8-1 se observa que los efectos y sus alias son
== fE == fe == f n == fE == f F == ea ==
fA
~A+BD+CE+FG
~B+AD+CF+EG ~
Por ejemplo,
fA
Los tres efectos ms grandes son fA' fE yen' La interpretacin ms simple de los datos es que los efectos principales deA, B y D son todos significativos. Sin embargo, esta interpretacin no es nica, ya que otra conclusin lgica sera queA, B y la interaccinAB, o quizB, D y la interaccin BD, o tal vezA, D y la interaccin AD son los verdaderos efectos. Observe queABD es una palabra en la relacin de definicin de este diseo. Por lo tanto, este diseo 2i;4 no se proyecta en un factorial 23 enABD; en cambio, se proyecta en dos rplicas de un diseo 23-1, como se ilustra en la figura 8-23. Puesto que el diseo 23- 1 es de resolucin III,A ser alias de BD, B ser alias deAD y D ser alias deAB, por lo que no es posible separar las interacciones de los efectos principales. En este caso, quiz el analista haya tenido mala suerte. Si hubiera asignado el nivel de iluminacin a C en lugar de aD, el diseo se habra proyectado en un diseo 23 completo, y la interpretacin podra haber sido ms sencilla. Para separar los efectos principales y las interacciones de dos factores, se corre una segunda fraccin con todos los signos invertidos. Este doblez del diseo se muestra en la tabla 8-22, junto con las respuestas observadas. Note que cuando se hace el doblez de un diseo de resolucin III de esta manera, de hecho se
342
CAPTULO 8
+ r- . I " - - - - - r - - - - ( '
//---- 0<
A
+
I I I I
Figura 8-23 El diseo 2i,~4 proyectado en dos rplicas de un diseo 2;;;' enA,B y D.
cambian los signos de los generadores que tienen un nmero impar de letras. Los efectos estimados por esta fraccin son
e~ =-17.68 -?oA-BD-CE-FG
e~
37.73 -?oB-AD-CF-EG
-?o -?o -?o -?o -?o
C- AE- BF- DG
D- AB- CG- EF
E- AC- BG- DF F- BC- AG- DE
"'. ",
E~
E/o
= =
1.63 2.68
G- CD- BE- AF
1""
(~: ,'1' ,
Al combinar esta segunda fraccin con la original se obtienen las siguientes estimaciones de los efectos:
.....
B
C D E F G
BD + CE +FG = 19.15 AD + CF + EG = 0.33 AE + BF + DG = 1.53 AB + CG +EF = -0.50 AC + BG + DF = -0.40 BC +AG +DE =-1.53 CD + BE + AF = -2.55
Tabla 8-22 Un doblez del diseo 2;4 en el experimento del tiempo de enfoque del ojo Diseo bsico Corrida
D=-AB
E=-AC
F=-BC
G=ABC
Tiempo
1 2 3 4 5 6 7 8
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + + + + + +
r'l'l
343
Los dos efectos ms grandes son By D. Adems, el tercer efecto ms grande es BD + CE + FG, por lo que parece razonable atribuir esto a la interaccinBD. El analista us los dos factores, distancia (B) y nivel de iluminacin (D), en experimentos subsecuentes con los dems factores A, C, E y F en ajustes estndar, y verific los resultados obtenidos aqu. Decidi usar los sujetos como bloques en estos nuevos experimentos en lugar de ignorar el efecto potencial del sujeto debido a que fue necesario utilizar varios sujetos diferentes para completar el experimento.
........................................................................ .
La relacin de definicin para un diseo de doblez La combinacin de diseos factoriales fraccionados por medio de un doblez, como la que se hizo en el ejemplo 8-7, es una tcnica muy til. Con frecuencia es de inters conocer la relacin de definicin del diseo combinado. Puede determinarse con facilidad. Cada fraccin separada tendr L + U palabras usadas como generadores: L palabras con el mismo signo y U palabras con signos diferentes. En el diseo combinado se usarnL + U -1 palabras como generadores. stas sern lasL palabras con el mismo signo y las U -1 palabras que constan de productos pares independientes de las palabras que tienen signos diferentes. (Los productos pares son las palabras tomadas de dos en dos, de cuatro en cuatro, etctera.) Para ilustrar este procedimiento, considere el diseo del ejemplo 8-7. Para la primera fraccin, los generadores son
I=ABD,
y para la segunda fraccin son
I=-AB~
I=ACE,
I=BCF
I=ABCG
I=-AC~
I=-BCF
I=ABCG
Observe que en la segunda fraccin se han intercambiado los signos de los generadores con un nmero impar de letras. Asimismo, observe queL + U = 1 + 3 = 4. El diseo combinado tendrI =ABCG (la palabra con el mismo signo) como generador y dos palabras que son productos pares independientes de las palabras con signos diferentes. Por ejemplo, tmese I = ABD e I = ACE; entonces I = (ABD)(ACE) = BCDE es un generador del diseo combinado. Asimismo, tmese I = ABD e I = BCF; entonces I = (ABD)(BCF) = ACDF es un generador del diseo combinado. La relacin de definicin completa para el diseo combinado es
Estos diseos, atribuidos a Plackett y Burman, son diseos factoriales fraccionados de dos niveles para estudiar k = N -1 variables enN corridas, donde N es un mltiplo de 4. SiN es una potencia de 2, estos diseos son idnticos a los que se presentaron anteriormente en esta seccin. Sin embargo, para N = 12, 20, 24,28 Y36, los diseos de Plackett-Burman en ocasiones son de inters. Puesto que estos diseos no pueden representarse como cubos, en ocasiones se les llama diseos no geomtricos. En la mitad superior de la tabla 8-23 se presentan los renglones de signos positivos y negativos que se usan para construir los diseos de Plackett-Burman paraN = 12,20,24 Y36, mientras que en la mitad inferior de la tabla se presentan los bloques de signos positivos y negativos para construir el diseo paraN = 28. Los diseos para N = 12, 20, 24 Y36 se obtienen escribiendo el rengln apropiado de la tabla 8-23 como una columna (o rengln). Entonces se genera una segunda columna (o rengln) a partir de la primera moviendo los elementos de la columna (o rengln) hacia abajo (o hacia la derecha) una posicin y colocando el ltimo elemento en la primera posicin. Una tercera columna (o rengln) se produce a partir de la segunda de manera similar, y el proceso se contina hasta que se genera la columna (o rengln) k.
1
344
CAPTULO 8
Tabla 8-23 Signos positivos y negativos para los diseos de Plackett-Burman le =11, N =12 ++ -+++ ---+le =19, N =20++--++++-+-+ ----++le = 23, N = 24+++++ -+ -++ --++ --+ -+ ---le = 35, N = 36 -+ -+++ ---+++++ -+++ --+ ----+ -+ -++ --+le =27, N=28 -+---+--+ +-++++----++--+-++ -+++ --+---+--+-+++++----+-+---+ ---+-++++ ---++~+++ +----++-----+++++ -+-+---++++---+-+ --+--+-++++ ---+++--+----+ +++----++ -+--+-+--
Despus se agrega un rengln de signos negativos, completndose as el diseo. ParaN = 28, los tres bloques X; Y YZ se apuntan en el orden
I
"111
'"
'.
l'"
l,
'" . :'
"" ". r::
1::'
)1
1"
e
+ + + + + +
1 2
3
+ + + + +
+ + + + + + + + + + + + + + + + + + + +
+ + + + +
+ +
4
5 6 7 8
+ + +
+ + + + + + +
+ + + + + + + + + + + + + + + +
9 10 11 12
+ +
345
I I I
././~-./
.
+
I I I
./ ./
~-./
./
./
./
Figura 8-24 Proyeccin del diseo de PlackeU-Burman de 12 corridas en diseos de tres y cuatro factores.
Las propiedades proyectivas de los diseos no geomtricos de Plackett-Burman no son avasalladoramente atractivas. Por ejemplo, considere el diseo de 12 corridas de la tabla 8-24. Este diseo se proyectar en tres rplicas de un diseo 22 completo en dos cualesquiera de los 11 factores originales. Sin embargo, en tres factores, el diseo proyectado es un diseo 23 completo ms un factorial fraccionado 2~ (ver la figura 8-24a). Por lo tanto, el diseo de Plackett-Burman de resolucin III tiene proyectividad 3, lo cual significa que se plegar en un diseo factorial completo en cualquier subconjunto de tres factores. El diseo 2;P slo tiene proyectividad 2. Las proyecciones de cuatro dimensiones se muestran en la figura 8-24b. Observe que estas proyecciones de tres y cuatro factores no son diseos balanceados.
EJEMPLO
8~8
Se ilustrarn algunas de las dificultades potenciales asociadas con los diseos de Plackett-Burman utilizando el diseo de 11 variables con 12 corridas y un conjunto de datos simulados. Se supondr que el proceso tiene tres efectos principales significativos (A, B, D) Ydos interacciones significativas de dos factores (AB y AD). El modelo es
346
Tabla 8-25 Corrida
CAPTULO 8 DISEOS FACTORIALES FRACCIONADOS DE DOS NIVELES Diseo de Plackett-Burman para el ejemplo S-S
e
+ + +
Respu;sta
1 2 3 4 5 6 7 8 9 10
+ +
+ + +
+ + + +
+ + + + +
+ + + + + +
+ + + + + +
+ + + + + + + + + + + + +
+ + + +
+ + +
+ + + + +
11
12
+ + +
+ + + + +
+ +
231 207 230 217 175 176 183 185 181 220 229 168
gln de signos para k = 11, N = 12 de la tabla 8-23 como rengln. En la tabla 8-26 se muestran las estimaciones de los efectos. Observe que hay siete efectos grandes: A, B, C, D, E, J YK (y, desde luego, sus alias). No es evidente de inmediato que algunos de estos efectos podran ser interacciones. Parte de esta ambigedad podra resolverse haciendo el doblez del diseo. Con esto por 10 general se resolvern los efectos principales, pero con frecuencia sigue dejando al experimentador con la incertidumbre acerca de los efectos de las interacciones.
La dificultad para interpretar un diseo de Plackett-Burman, ilustrada en el ejemplo anterior, ocurre con mucha frecuencia en la prctica. Si la eleccin est entre un diseo geomtrico 2~i~7 con 16 corridas o un diseo de Plackett-Burman con 12 corridas que quiz tenga que doblarse (para 10 cual se requeriran 24 corridas), el diseo geomtrico puede resultar una mejor eleccin. Para mayores detalles ver Montgomery, Borrar y Stanley [81]. Bajo ciertas condiciones, los alias de un diseo no geomtrico de Plac-
Tabla 8-26 Estimaciones de los efectos, coeficientes de regresin y sumas de cuadrados del ejemplo 8-S Variable" Promedio global Coeficiente de regresin Efecto estimado Suma de cuadrados
12.667 13.333 e 6.833 12.667 34.000 D 17.000 13.667 E 6.833 F 0.500 1.000 -2.333 G -1.167 3.000 H 1.500 J -6.333 -12.667 K -5.833 -11.667 -0.333 L -0.167 aTados los efectos principales son alias parciales de 45 interacciones de dos factores.
A B
200.167 6.333
6.667
481.333 533.333 560.333 3468.000 560.333 3.000 16.333 27.000 481.333 408.333 0.333
347
kett-Burman pueden desenredarse utilizando tcnicas de construccin de modelos de regresin. Esto se analiza en Hamada y Wu [53].
8-6
DISEOS DE RESOLUCIN IV Y V
Un diseo factorial fraccionado 2k- p es de resolucin IV si los efectos principales estn separados de las interacciones de dos factores y algunas interacciones de dos factores son alias entre s. Por lo tanto, si se suprimen las interacciones de tres factores y de rdenes superiores, los efectos principales pueden estimarse directamente en un diseo 2~p. Un ejemplo es el diseo 2~2 de la tabla 8-10. Adems, las dos fracciones combinadas del diseo 2~4 del ejemplo 8-7 producen un diseo 2~3 . Cualquier diseo 2~ P debe incluir al menos 2k corridas. A los diseos de resolucin IV que contienen exactamente 2k corridas se les llama diseos mnimos. Los diseos de resolucin IV pueden obtenerse a partir de diseos de resolucin III por el proceso de doblado. Recuerde que para hacer el doblez de un diseo 2~?, simplemente se agrega a la fraccin original una segunda fraccin con todos los signos invertidos. Entonces los signos positivos en la columna identidad 1 de la primera fraccin podran intercambiarse en la segunda fraccin, y el factor (k + 1)-simo podra asociarse con esta columna. El resultado es un diseo factorial fraccionado 2~1-P. El proceso se muestra en la tabla 8-27 para el diseo 2~1. Es sencillo verificar que el diseo resultante es un diseo 2~1 con la relacin de definicin 1 =ABCD. Tambin es posible hacer el doblez de diseos de resolucin IV para separar las interacciones de dos factores que son alias entre s. Montgomery y Runger [83c] hacen notar que un experimentador puede tener varios objetivos al hacer el doblez de un diseo de resolucin IV, como 1) romper tantas cadenas de alias de interacciones de dos factores como sea posible, 2) romper las interacciones de dos factores en una cadena de alias especfica, o 3) romper las interacciones de dos factores que incluyen un factor especfico. Una manera de hacer el doblez de un diseo de resolucin IV es corriendo una segunda fraccin en la que se invierte el signo de todos los generadores del diseo que tienen un nmero impar de letras. Para ilustrar, considere el diseo 2~2 usado en el experimento del moldeo por inyeccin del ejemplo 8-4. Los generadores del diseo de la tabla 8-10 son 1 = ABCE el = BCDF. La segunda fraccin usara los
e
+
+ +
+
+ + +
+
+ + +
+ +
+
348
CAPTULO 8
generadores I = -ABCE e I = -BCDF, y el generador nico para el diseo combinado sera I = ADEF. Por lo tanto, el diseo combinado sigue siendo un diseo factorial fraccionado de resolucin N. Sin embargo, las relaciones de los alias sern mucho ms sencillas que en el diseo 2~2 original. De hecho, las nicas interacciones de dos factores que tendrnalias sonAD = EF, AE = DFyAF = DE. Todas las dems interacciones de dos factores pueden estimarse a partir del diseo combinado. Como otro ejemplo, considere el diseo 2~3 con 32 corridas. La tabla 8-14 indica que el mejor con. junto de generadores para este diseo es I = ABCF, I = ABDG e I = BCDEH. En la tabla XII (m) del apndice se muestran los alias para este diseo. Observe que hay seis pares de interacciones de dos factores y un grupo de tres interacciones de dos factores que son alias. Si se hace el doblez de este diseo, la segunda fraccin tendra los generadoresI = -ABCF, I = -ABDG e I = BCDEH. El diseo combinado tiene los generadores I = CDFG e I = BCDEH, y la relacin de definicin completa es
I
= CDFG= BCDEH =
BEFGH
'1
~
,,'
I~
,'~
El diseo combinado es de resolucin IV, pero las nicas interacciones de dos factores que siguen teniendo alias son CD = FG, CF = DG YCG = DF. Se trata de una simplificacin considerable de los alias de la fraccin original. Observe que cuando se empieza con un diseo de resolucin III, el procedimiento de doblez garantiza que el diseo combinado ser de resolucin Iv, con lo cual se asegura que todos los efectos principales pueden separarse de sus alias en interacciones de dos factores. Cuando se hace el doblez de un diseo de resolucin IV, no necesariamente se separarn todas las interacciones de dos factores. De hecho, si la fraccin original tiene una estructura de los alias con ms de dos interacciones de dos factores en cualquier cadena de alias, el doblez no separar completamente todas las interacciones de dos factores. Ambos ejemplos anteriores, e12~2 y el2~3, tienen al menos una de tales cadenas de alias de interacciones de dos factores. Montgomeryy Runger [83c] dan una tabla de diseos hechos doblez recomendados para fracciones de resolucin N con 6 :5 le :5 10 factores. Los diseos de resolucin V son factoriales fraccionados en los que los efectos principales y las interacciones de dos factores no tienen como alias otros efectos principales u otras interacciones de dos factores. Estos diseos son muy poderosos, permitiendo la estimacin nica de todos los efectos principales y las interacciones de dos factores, siempre que todas las interacciones de tres factores y de rdenes superiores sean insignificantes. La palabra ms pequea de la relacin de definicin de tal diseo debe tener cinco letras. El diseo 25- 1 con la relacin de definicin I =ABCDE es de resolucin v: Otro ejemplo es el diseo 2~-2 con las relaciones de definicin I = ABCDG e I = ABEFH. Ejemplos adicionales de estos diseos se presentan en Box y Hunter [17c]. Debido a que los diseos estndar de resolucin V son diseos grandes cuando el nmero de factores es moderadamente grande, existe cierto inters prctico en los diseos factoriales fraccionados irregulares de resolucin V. Se cuenta con diseos tiles para 4:5 1e:5 9 factores. El diseo de 24 corridas para le = 5 factores se muestra en la tabla 8-28. Puesto que se trata de un diseo de resolucin V; es posible estimar los cinco efectos principales y las 10 interacciones de dos factores, suponiendo que las interacciones de tres factores y rdenes superiores son insignificantes. El diseo para le = 4 factores tiene 12 corridas y se comenta en el problema 8-22. Para le = 6, 7 Y8, estos diseos tienen 48 corridas, y el diseo de nueve factores tiene 96 corridas. El paquete de software Design-Expert contiene todos estos diseos. Por ltimo, cabe sealar que un doblez completo de un diseo de resolucin IV o V suele ser innecesario. En general, slo hay una o dos (o muy pocas) interacciones con alias que son de inters potencial. Los alias de estas interacciones pueden por lo general separarse agregando un nmero pequeo de corri-
;)
das a la fraccin original. Esta tcnica se denomina en ocasiones doblez parcial. Para formarse una idea de cmo se hace esto, referirse al ejemplo 10-5 y al material suplementario del texto de este captulo,
:ji..
~~
il
8~7
I_!
RESUMEN
[!,
l'
!
1
En este captulo se introdujo el diseo factorial fraccionado 2k- p Se ha hecho hincapi en el uso de estos diseos en experimentos de tamizado para identificar de manera rpida y eficaz el subconjunto de factores que estn activos, as como para proporcionar cierta informacin sobre las interacciones, La propiedad de proyeccin de estos diseos hace posible en muchos casos examinar los factores activos con mayor detalle. El ensamblaje secuencial de estos diseos por medio de un doblez es una manera muy eficaz de obtener informacin adicional acerca de las interacciones que pueden identificarse como de posible importancia en un experimento inicial. En la prctica, los diseos factoriales fraccionados 2k-p con N = 4, 8, 16 Y32 corridas son muy tiles. En la tabla 8-29 se resumen estos diseos, identificando cuntos factores pueden usarse con cada diseo para obtener diferentes tipos de experimentos de tamizado. Por ejemplo, el diseo de 16 corridas es un factorial completo para 4 factores, una fraccin un medio para 5 factores, una fraccin de resolucin IV para 6 u 8 factores y una fraccin de resolucin III para 9 a 15 factores. Todos estos diseos pueden cons~ truirse utilizando los mtodos explicados en este captulo, y muchas de sus estructuras de los alias se muestran en la tabla XII del apndice. -
I
Ir
350
CAPTULO 8
Tabla 8-29 Diseos factoriales y factoriales fraccionados tiles del sistema 2h-p, Los nmeros en las celdas son el nmero de' factores del experimento
Nmero de corridas Tipo de diseo Factorial completo Fraccin un medio Fraccin de resolucin IV Fraccin de resolucin III
4 2 3 3 8 3 4 4 5-7 16 4 5 6-8 9-15 32 5 6 7-16 17-31
8~8
PROBLEMAS
Suponga que en el experimento del desarrollo del proceso qumico descrito en el problema 6-7 slo pudo correrse una fraccin un medio del diseo 24 Construir el diseo y llevar a cabo el anlisis estadstico utilizando los datos de la rplica I. Suponga que en el problema 6-15 slo pudo correrse una fraccin un medio del diseo 24 Construir el diseo y llevar a cabo el anlisis utilizando los datos de la rplica I. Considere el experimento del grabado con plasma del problema 6-18. Suponga que slo pudo correrse una fraccin un medio del diseo. Establecer el diseo y analizar los datos. En el problema 6-21 se describe el estudio para mejorar un proceso durante la manufactura de un circuito integrado. Suponga que slo pudieron hacerse ocho corridas de este proceso. Establecer un diseo 25- 2 apropiado y encontrar la estructura de los alias. Utilizar las observaciones apropiadas del problema 6-21 como las observaciones de este diseo y estimar los efectos de los factores. Qu conclusiones pueden sacarse? Continuacin del problema 8-4. Suponga que ha hecho las ocho corridas del diseo 25- 2 del problema 8-4. Qu corridas adicionales se necesitaran para identificar los efectos de los factores que son de inters? Cules son las relaciones de los alias en el diseo combinado? R.D. Snee ("Experimentacin con un nmero grande de variables", en Experiments in Industry: Design, Analysis and Intepretation 01Results, de R.D. Snee, L.B. Rare y J.B. Trout, editores, ASQC) describe un experimento en el que se us un diseo 25- 1 con 1 = ABCDE para investigar los efectos de cinco factores sobre el color de un producto qumico. Los factores sanA = solvente/reactivo, B = catalizador/reactivo, C = temperatura, D = pureza del reactivo y E = pH del reactivo. Los resultados obterJdos fueron los siguientes:
8-1.
8-2. 8-3.
li
1:
8-4.
",'
~:
8-5.
8-6.
e = -0.63
a= abe =
d = 6.79 ade = 5.47 bde = 3.45 abd = 5.68 ede = 5.22 aed = 4.38 bed = 4.30 abede = 4.05
b = -2.68
e=
aee = abe =
1.22 1.93
bee = -2.09
8-7.
a) Construir una grfica de probabilidad normal de los efectos. Qu efectos parecen estar activos? b) Calcular los residuales. Construir una grfica de probabilidad normal de los residuales y graficar los residuales contra los valores ajustados. Comentar las grficas. e) Si algunos de los factores son insignificantes, plegar el diseo 25- 1 aun diseo factorial completo en los factores activos. Comentar el diseo resultante e interpretar los resultados. En un artculo de 1.1. Pignatiello, Jr. y J.S. Ramberg delJoumal 01Quality Teehnology (vol. 17, pp. 198-206) se describe el uso de un diseo factorial fraccionado con rplicas para investigar el efecto de cinco factores sobre la altura libre de los resortes de hojas utilizados en una aplicacin automotriz. Los factores sanA = tem-
liI
1\
8-8 PROBLEMAS
351
peratura del horno, B = tiempo de calentamiento, C = tiempo de transferencia, D = tiempo de retencin y = temperatura del aceite de templado. Los datos se presentan a continuacin:
A
B
Altura libre 7.78 8.15 7.50 7.59 7.54 7.69 7.56 7.56 7.50 7.88 7.50 7.63 7.32 7.56 7.18 7.81 7.78 8.18 7.56 7.56 8.00 8.09 7.52 7.81 7.25 7.88 7.56 7.75 7.44 7.69 7.18 7.50 7.81 7.88 7.50 7.75 7.88 8.06 7.44 7.69 7.12 7.44 7.50 7.56 7.44 7.62 7.25 7.59
+ + + + + + + +
+ + + + + + + +
+ + + + + + + + + + + + + + + +
+ + + + + + + +
8-8.
a) Escribir la estructura de los alias de este diseo. Qu resolucin tiene este diseo? b) Analizar los datos. Qu factores influyen en la altura libre promedio? e) Calcular el rango y la desviacin estndar de la altura libre para cada corrida. Hay algn indicio de que cualquiera de estos factores afecta la variabilidad de la altura libre? d) Analizar los residuales de este experimento y comentar los resultados. e) Este diseo es el mejor posible para cinco factores en 16 corridas? Especficamente, es posible encontrar un diseo fraccionado para cinco factores en 16 corridas con una resolucin ms alta que la de este diseo? En un artculo de Industrial and Engineering Chemistry ("Informacin adicional acerca de la planeacin de experimentos para aumentar la eficiencia de la investigacin") se utiliza un diseo 25- 2 para investigar el efecto deA = temperatura de condensacin, B = cantidad del material 1, C = volumen del solvente, D = tiempo de condensacin y E = cantidad del material 2 sobre el rendimiento. Los resultados obtenidos son los siguientes:
e = 23.2
ab =15.5
ad =16.9 be =16.2
= ACE e I = BDE.
usarlas como error. e) Graficar los residuales contra los valores ajustados. Construir tambin la grfica de probabilidad normal de los residuales. Comentar los resultados. 8-9. Considere el experimento con el resorte de hojas del problema 8-7. Suponga que el factor E (temperatura del aceite de templado) es muy difcil de controlar durante la manufactura. Cul sera el ajuste de los factores A, B, C YD para reducir la variabilidad de la altura libre tanto como sea posible, independientemente de la temperatura del aceite de templado usada? 8-10. Construir un diseo 27- 2 seleccionando dos interacciones de dos factores como los generadores independientes. Apuntar la estructura de los alias completa de este diseo. Delinear la tabla del anlisis de varianza. Cul es la resolucin de este diseo?
~
1,,:
'1
352
8-11.
I .
i/
I I
I
l:
'11,
;1
:!(.'
ji:
I,~,
~~ll
r"
",
l""
r",:1
',. ...
'Ir' ~"I
1'1
-: .. .. ,,
~ii
::11
Considere el diseo 25 del problema 6-21. Suponga que slo pudo correrse una fraccin un medio. Adems se requirieron dos das para hacer las 16 observaciones, y fue necesario confundir el diseo 25- 1 en dos bloques. Construir el diseo y analizar los datos. 8-12. Analizar los datos del problema 6-23 como si provinieran de un diseo 2~1 conI =ABCD. Proyectar el diseo en un factorial completo en el subconjunto de los cuatro factores originales que parecen ser significativos. 8-l3. Repetir el problema 8-12 utilizando I = -ABCD. El uso de la fraccin alterna modifica la interpretacin de los datos? 8-14. Proyectar el diseo 2~1 del ejemplo 8-1 en dos rplicas de un diseo 22 en los factores A y B. Analizar los datos y sacar conclusiones. 8-15. Construir un diseo 2~3. Determinar los efectos que pueden estimarse si se corre una segunda fraccin de este diseo con todos los signos invertidos. 8-16. Considere el diseo 2~3 qel problema 8-15. Determinar los efectos que pueden estimarse si se corre una segunda fraccin de este diseo con los signos del factor A invertidos. 8-17. Hacer el doblez del diseo 2~4 de la tabla 8-19 para producir un diseo de ocho factores. Verificar que el diseo resultante sea 2~4. Se trata de un diseo mnimo? 8-18. Hacer el doblez de un diseo 2i;? para producir un diseo de seis factores. Verificar que el diseo resultante sea 2~2. Comparar este diseo con el diseo 2~2 de la tabla 8-10. 8-19. Un ingeniero industrial realiza un experimento utilizando un modelo de simulacin Montecarlo de un sistema de inventario. Las variables independientes de su modelo son la cantidad del pedido (A), el punto de un nuevo pedido (B), el costo de organizacin (C), el costo del refrendo de pedidos (D) y la tarifa de transportacin (E). La variable de respuesta es el costo anual promedio. Para ahorrar tiempo de computadora, el ingeniero decide investigar estos factores utilizando un diseo 2;;;2 con I = ABD e I =.BCE. Los resultados que obtiene son de = 95, ae = 134, b = 158, abd = 190, ed = 92, ae = 187, bee = 155 Y abede = 185. a) Verificar que las combinaciones de tratamientos dadas sean correctas. Estimar los efectos suponiendo que las interacciones de tres factores y de rdenes superiores son insignificantes. b) Suponga que se agrega una segunda fraccin a la primera, por ejemplo, ade = 136, e = 93, ab = 187, bd = 153, aed = 139, e = 99, abee= 191 Ybede = 150. Cmo se obtuvo esta segunda fraccin? Incorporar estos datos a la fraccin original y estimar los efectos. e) Suponga que se corri la fraccin abe = 189, ce = 96, bed = 154, aede = 135, abe = 193, bde = 152, ad = 137 Y(1) = 98. Cmo se obtuvo esta fraccin? Incorporar estos datos en la fraccin original y estimar los efectos. 8-20. Construir un diseo 25- 1 Indicar cmo puede correrse el diseo en dos bloques de ocho observaciones cada uno. Alguno de los efectos principales o de las interacciones de dos factores estn confundidos con los bloques? 8-21. Construir un diseo 27- 2 Indicar cmo puede correrse el diseo en cuatro bloques de ocho observaciones cada uno. Alguno de los efectos principales o de las interacciones de dos factores estn confundidos con los bloques? 8-22. Fracciones irregulares del diseo 2k (John [61dJ). Considere un diseo 24 Tienen que estimarse los cuatro efectos principales y las seis interacciones de dos factores, pero no puede correrse el factorial 24 completo. El tamao del bloque ms grande posible contiene 12 corridas. Estas 12 corridas pueden obtenerse de las cuatro rplicas un cuarto definidas por I = AB = ACD = BCD omitiendo la fraccin principal. Indicar cmo pueden combinarse las tres fracciones 24-2 restantes para estimar los efectos requeridos, suponiendo que las interacciones de tres factores y de rdenes superiores son insignificantes. Este diseo podra considerarse como una fraccin tres cuartos. 8-23. Los nodos de carbono utilizados en un proceso de fundicin se fabrican en un horno anular. Se corre un experimento en el horno para determinar cules son los factores que influyen en el peso del material de empaque que se adhiere a los nodos despus de la coccin. Seis variables son de inters, cada una con dos niveles: A = relacin paso/finos (0.45, 0.55), B = tipo de material de empaque (1, 2), C = temperatura del material de empaque (ambiente, 325C), D = localizacin de la chimenea (adentro, afuera), E = temperatura del foso (ambiente, 195C) y F = tiempo de retraso antes del empaque (cero, 24 horas). Se corre un diseo 26- 3 y se
8-8 PROBLEMAS
353
8-24.
obtienen tres rplicas en cada uno de los puntos del diseo. El peso del material de empaque adherido a los nodos se mide en gramos. Los datos en el orden de las corridas son los siguientes: abd = (984, 826, 936); abedef= (1275,976,1457); be = (1217,1201,890); af= (1474, 1164, 1541); def= (1320,1156,913); ed = (765,705,821); aee = (1338, 1254, 1294) Ybef = (1325, 1299, 1253). Se desea minimizar la cantidad de material de empaque adherido. a) Verificar que las ocho corridas correspondan a un diseo 2~3. Cul es la estructura" de los alias? b) Usar el peso promedio como respuesta. Qu factores parecen tener influencia? e) Usar el rango de los pesos como respuesta. Qu factores parecen tener influencia? d) Qu recomendaciones podran hacerse a los ingenieros del proceso? Se corri un experimento de 16 corridas en una planta de manufactura de semiconductores para estudiar los efectos de seis factores sobre la curvatura o combadura de los dispositivos del sustrato producidos. Las seis variables y sus niveles se presentan a continuacin:
CC)
55 75 55 75 55 75 55 75 55 75 55 75 55 75 55 75
Thmperatura de coccin
(oC)
1580 1580 1580 1580 1580 1580 1580 1580 1620 1620 1620 1620 1620 1620 1620 1620
Duracin del ciclo de coccin (h) 17.5 29 29 17.5 29 17.5 17.5 29 17.5 29 29 17.5 29 17.5 17.5 29
CC)
20 26 20 26 26 20 26 20 26 20 26 20 20 26 20 26
~ :::
" "".
~~t,
-1""
m, -,
;t"T'
1;:;
::1
)1
'~I ";l1
61
io'
rjlh
I
1,
Se hicieron cuatro rplicas de cada corrida, y se hizo una medicin de la combadura del sustrato. Los datos se presentan enseguida:
Combadura por rplica (pulg/pulg) Corrida 1 2 3 4 5 6 7 8 9 10 1 0.0167 0.0062 0.0041 0.0073 0.0047 0.0219 0.0121 0.0255 0.0032 0.0078 2 0.0128 0.0066 0.0043 0.0081 0.0047 0.0258 0.0090 0.0250 0.0023 0.0158 3 0.0149 0.0044 0.0042 0.0039 0.0040 0.0147 0.0092 0.0226 0.0077 0.0060 4 0.0185 0.0020 0.0050 0.0030 0.0089 0.0296 0.0086 0.0169 0.0069 0.0045
Total (10-4 pulg/pulg) 629 192 176 223 223 920 389 900 201 341
Media (10-4 pulg/pulg) 157.25 48.00 44.00 55.75 55.75 230.00 97.25 225.00 50.25 85.25
Desviacin estndar 24.418 20.976 4.083 25.025 22.410 63.639 16.029 39.42 26.725 50.341
",.,.
','"
354
CAPTULO 8
1
'~'i
L'
;.j
Combadura por rplica (pulg/pulg) Corrida 11 12 13 14 15 16 1 0.0043 0.0186 0.0110 0.0065 0.0155 0.0093 2 0.0027 0.0137 0.0086 0.0109 0.0158 0.0124 3 0.0028 0.0158 0.0101 0.0126 0.0145 0.0110 4 0.0028 0.0159 0.0158 0.0071 0.0145 0.0133
1~
:j
Ij
a) b) e) d)
Qu tipo de diseo utilizaron los experimentadores? Cules son las relaciones de los alias en este diseo? Alguna de las variables del proceso afecta la combadura promedio? Alguna de las variables del proceso afecta la variabilidad de las mediciones de la combadura?
Tabla 8-30 Datos para el problema 8-25 B F A e D E Espesor del recubrimiento protector Corrida Volumen Lote Tiempo, s Velocidad Aceleracin Cubierta Izq. Centro DeI. Prom. Rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 5 5 3 3 3 5 3 5 5 3 3 3 5 3 5 5 3 3 5 3 5 3 5 3 5 3 3 5 5 5 5 3 Lote 2 Lote 1 Lote 1 Lote 2 Lote 1 Lote 1 Lote 1 Lote 2 Lote 1 Lote 1 Lote 2 Lote 1 Lote 1 Lote 1 Lote 2 Lote 2 Lote 2 Lote 1 Lote 2 Lote 2 Lote 1 Lote 2 Lote 1 Lote 2 Lote 1 Lote 2 Lote 1 Lote 2 Lote 1 Lote 2 Lote 2 . Lote 2 14 6 6 14 14 6 6 14 14 14 14 6 6 6 14 6 14 14 6 6 14 6 14 6 14 6 14 6 6 6 14 14 7350 7350 6650 7350 7350 6650 7350 6650 6650 6650 6650 7350 6650 6650 7350 7350 7350 6650 7350 7350 6650 6650 7350 7350 7350 6650 7350 6650 7350 6650 6650 6650 5 5 5 20 5 20 5 20 5 5 20 20 5 20 20 5 5 20 20 5 20 5 20 20 5 20 20 5 20 20 5 5 Sin Sin Sin Sin . Sin Sin Con Sin Sin Con Con Sin Con Con Con Con Con Sin Sin Sin Con Con Sin Con Con Sin Con Sin Con Con Con Sin 4531 4446 4452 4316 4307 4470 4496 4542 4621 4653 4480 4221 4620 4455 4255 4490 4514 4494 4293 4534 4460 4650 4231 4225 4381 4533 4194 4666 4180 4465 4653 4683 4531 4464 4490 4328 4295 4492 4502 4547 4643 4670 4486 4233 4641 4480 4288 4534 4551 4503 4306 4545 4457 4688 4244 4228 4391 4521 4230 4695 4213 4496 4685 4712 4515 4428 4452 4308 4289 4495 4482 4538 4613 4645 4470 4217 4619 4466 4243 4523 4540 4496 4302 4512 4436 4656 4230 4208 4376 4511 4172 4672 4197 4463 4665 4677 4525.7 4446 4464.7 4317.3 4297 4485.7 4493.3 4542.3 4625.7 4656 4478.7 4223.7 4626.7 4467 4262 4515.7 4535 4497.7 4300.3 4530.3 4451 4664.7 4235 4220.3 4382.7 4521.7 4198.7 4677.7 4196.7 4474.7 4667.7 4690.7 16 36 38 20 18 25 20 9 30 25 16 16 22 25 45 44 37 9 13 33 24 38 14 20 15 22 58 29 33 33 32 35
1I~
1:
~"
e:,
~~II
".
~:::
~~~:
~:!!,
;:;
)!:
1::'
;11'
8-8 PROBLEMAS
355
8-25.
e) Si es importante reducir la combadura tanto como sea posible, qu recomendaciones se haran? Se usa un revestimiento por centrifugado para aplicar un recubrimiento fotoprotector en una oblea de silicio natural. Esta operacin suele hacerse en las fases iniciales del proceso de fabricacin de semiconductores, y el espesor promedio del recubrimiento protector y la variabilidad del espesor del mismo tienen un impacto importante en los pasos subsecuentes de manufactura. Seis variables se usan en el experimento. Las variables y sus niveles alto y bajo se presentan a continuacin:
Factor Velocidad de centrifugado final ndice de aceleracin Volumen de recubrimiento protector aplicado Tiempo del centrifugado Variacin del lote del recubrimiento protector Presin de descarga
5
3 cc 14 s Lote 1 Sin cubierta
8-26.
El experimentador decide usar un diseo 26-1 y hacer tres lecturas del espesor del recubrimiento protector en cada oblea de prueba. Los datos se muestran en la tabla 8-30. a) Verificar que se trata de un diseo 26- 1. Discutir las relaciones de los alias de este diseo. b) Qu factores parecen afectar el espesor promedio del recubrimiento protector? e) Considerando que el volumen del recubrimiento protector aplicado tiene un efecto reducido sobre el espesor promedio, tiene esto alguna implicacin prctica im~ortante para los ingenieros del proceso? d) Proyectar este diseo en un diseo menor que incluya nicamente los factores significativos. Presentar los resultados grficamente. Ayuda esto en la interpretacin? e) Usar el rango del espesor del recubrimiento protector como variable de respuesta. Hay algn indicio de que alguno de estos factores afecte la variabilidad del espesor del recubrimiento protector? f) Dnde se recomendara que corrieran el proceso los ingenieros? Harry y Judy Peterson-Nedry (dos amigos del autor) son propietarios de un viedo y una fbrica vincola en Newberg, Oregon. Cultivan varias variedades de uvas y fabrican vino. Harry y Judy han usado diseos factoriales para el desarrollo de procesos y productos en el segmento de fabricacin vincola de su negocio. Este problema describe el experimento realizado para su Pinot Noir 1985. Originalmente se estudiaron ocho variables, las cuales se muestran en este experimento:
Variable A = Clan de Pinot Noir B = Tipo de roble e = Edad de la barrica D = Levadura/contacto con la piel E = Vapores F = Tostado de las barricas G = Racimos completos H = Temperatura de fermentacin
Nivel bajo (-) Pornmard Allier Vieja Champagne Ninguno Ligero Ninguno Baja (75F mx.)
Nivel alto ( +) Wadenswil Tron<;;ais Nueva Montrachet Todos Medio 10% Alta (92F mx.)
Harry y Judy decidieron usar un diseo 2~4 con 16 corridas. El vino fue catado por un panel de expertos e18 de marzo de 1986. Cada experto calific las 16 muestras de vino catadas, siendo la calificacin lla mejor. El diseo y los resultados del panel de catadores se muestra en la tabla 8-31. a) Cules son las relaciones de los alias en el diseo seleccionado por Harry y Judy? b) Usar las calificaciones promedio 6i) como variable de respuesta. Analizar los datos y sacar conclusiones. Se encontrar til examinar una grfica de probabilidad normal de las estimaciones de los efectos.
,---~~; -=:~-
..
\,jJ
\J1
0\
+
-
B -
e
-
+ + + + + +
-
+ +
-
E -
F
.
H
-
HPN
12 10 14 9 8 16 6 15 1 7 13 3 2 4 5 11
JPN
6 7 13 9 8 12 5 16 2 11 3 1 10 4 15 14
CAL DCM
Ji
9.6 10.8 12.6 9.2 9.0 15.0 5.0 15.2 2.2 7.0 8.8 2.8 9.6 2.4 9.2 12.6
+ +
-
+ + + +
-
+ + + +
-
+
-
+ +
-
+ +
-
+ +
+ +
-
+ +
+ +
+ + + +
+ + + + + + + +
+ +
-
+ + +
+
-
+ + +
+ +
+
-
+ +
13 14 10 7 11 15 6 16 3 4 8 5 2 1 9 12
10 14 11 9 8 16 5 15 3 7 12 1 4 2 6 13
3.05 3.11 2.07 1.79 1.41 1.73 1.22 0.84 0.84 2.55 3.96 1.79 3.29 1.52 4.02 1.14
In
8-8 PROBLEMAS
357
Usar la desviacin estndar de las calificaciones (o alguna transformacin apropiada tal como lag s) como variable de respuesta. Qu conclusiones pueden sacarse acerca de los efectos de las ocho variables sobre la variabilidad de la calidad del vino? d) Despus de mirar los resultados, Harry y Judy coincidieron en que uno de los miembros del panel (DCM) saba ms de cerveza que de vino, por lo que decidieron eliminar su calificacin. Qu efecto tendra esto en los resultados y las conclusiones de los incisos b y c? e) Suponga que justo antes de empezar el experimento, Harry y Judy se enteraron de que las ocho nuevas barricas que ordenaron de Francia para usarlas en el experimento no llegaran a tiempo, y que las 16 corridas tendran que hacerse con las barricas viejas. Si Harry y Judy simplemente eliminan la columna C de su diseo, qu ocurre con las relaciones de los alias? Es necesario que empiecen de nuevo y construyan otro diseo? f) Harryy Judy saben por experiencia que es improbable que algunas de las combinaciones de tratamientos produzcan buenos resultados. Por ejemplo, la corrida con las ocho variables en el nivel alto generalmente resulta en un vino con una calificacin baja. Esto se confirm e18 de marzo de 1986 en la prueba del vino. Quieren establecer un nuevo diseo para su Pinot Noir 1986 utilizando estas mismas ocho variables, pero no quieren correr el experimento con los ocho factores en el nivel alto. Qu diseo sugerira el lector? 8-27. En un artculo de Quality Engineering ("Una aplicacin de los diseos experimentales factoriales fraccionados", vol. 1, pp. 19-23) M.B. Kilgo describe un experimento para determinar el efecto de la presin del COz (A), la temperatura del COz (B), la humedad del cacahuate (C), la velocidad de flujo del COz (D) Yel tamao de las partculas de cacahuate (E) sobre el rendimiento total del aceite por lote de cacahuates (y). Los niveles que us para estos factores son los siguientes:
A, presin (bar) B, temperatura
c)
Nivel codificado -1 1
CC)
25 95
415 550
D, flujo (litros/min) 40 60
1.28 4.05
Kilgo realiz el experimento factorial fraccionado con 16 corridas que se muestra a continuacin.
C
5 5 5 5 15 15 15 15 5 5 5 5 15 15 15 15
415 550 415 550 415 550 415 550 415 550 415 550 415 550 415 550
25 25 95 95 25 25 95 95 25 25 95 95 25 25 95 95
40 40 40 40 40 40 40 40 60 60 60 60 60 60 60 60
1.28 4.05 4.05 1.28 4.05 1.28 1.28 4.05 4.05 1.28 1.28 4.05 1.28 4.05 4.05 1.28
Y 63 21 36 99 24 66 71 54 23 74 80 33 63 21 44 96
358
8-28.
a) Qu tipo de diseo se ha utilizado? Identificar la relacin de definicin y las relaciones de los alias. b) Estimar los efectos de los factores y usar una grfica de probabilidad normal para hacer la identificacin tentativa de los factores importantes. e) Efectuar el anlisis estadstico apropiado para probar las hiptesis de que los factores identificados en el inciso b anterior tienen un efecto significativo sobre el rendimiento del aceite de cacahuate. d) Ajustar un modelo que pueda usarse para predecir el rendimiento del aceite de cacahuate en trminos de los factores que se han identificado como importantes. e) Analizar los residuales de este experimento y comentar la adecuacin del modelo. Los ingenieros de la planta EssexAluminum de Ford Motor Company llevaron a cabo un experimento factorial fraccionado en 10 factores con 16 corridas para el vaciado en arena de tubos mltiples para motor, el cual se describe en el artculo "Estudio del proceso de vaciado evaporativo para mltiples de admisin de 3.0 litros 'Poor Sandfill"', de D. Becknell (FoUlth Symposium Oll Taguchi Methods, American Supplier Institute,. Dearborn, MI, pp. 120-130). El objetivo fue determinar cules de los 10 factores tienen un efecto sobre la proporcin de vaciados defectuosos. El diseo y la proporcin resultante de vaciados no defectuosos p que se observaron en cada corrida se presentan enseguida. Se trata de una fraccin de resolucin 111 con generadores E = CD,F =BD, G =BC, H=AC,J=AByK=ABC. Suponga que el nmero de vaciados hechos en cada corrida del diseo es 1000.
Modificacin deF&T 1.363 1.555 1.417 1.076 1.363 1.363 1.123 1.259 0.968 1.083 1.556 1.242 1.363 1.130 1.160 1.356
: Ir
("
Corrida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
P
0.958 1.000 0.977 0.775 0.958 0.958 0.813 0.906 0.679 0.781 1.000 0.896 0.958 0.818 0.841 0.955
arcsenJP 1.364 1.571 1.419 1.077 1.364 1.364 1.124 1.259 0.969 1.081 1.571 1.241 1.364 1.130 1.161 1.357
!~::
t:;
.. ~;I
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
!"j
11;:]1; 1":"
l::::
+ + + +
+ + + +
+ +
+ +
+ + + + +
.~:~:~
+
+ + +
+ + + + + + + + + + + + + + + + +
r"\1'"
~~~il
~~:~~
(" .. "r 1'"
.(;11/
+ + + + + + + +
+ +
a) Encontrar la relacin de definicin y las relaciones de los alias de este diseo. b) Estimar los efectos de los factores y usar una grfica de probabilidad normal para hacer la identificacin tentativa de los factores importantes. e) Ajustar el modelo apropiado utilizando los factores identificados en el inciso b anterior. d) Graficar los residuales de este modelo contra la proporcin predicha de vaciados no defectuosos. Construir tambin una grfica de probabilidad normal de los residuales. Comentar la adecuacin de estas grficas. e) El lector habr notado en el inciso d un indicio de que la varianza de la respuesta no es constante (consi.derando que la respuesta es una proporcin, esto debera haberse anticipado). La tabla anterior tambin muestra una transformacin de p, arcsen de la raz cuadrada de p, que es de uso generalizado como tralls!onnacill para estabilizar la vmiallza de los datos de la proporcin (referirse a la discusin de las transformaciones para estabilizar la varianza del captulo 3). Repetir los incisos a al d anteriores utilizan-
s-s
PROBLEMAS
359
f)
do la respuesta transformada y comentar los resultados. Especficamente, son mejores ahora las grficas de los residuales? Hay una modificacin de la transformacin arcsen de la raz cuadrada, propuesta por Freeman y Tukey ("Transformaciones relacionadas con ngulos y la raz cuadrada", Annals ofMathematical Statistics, vol. 21, pp. 607-611) que mejora su desempeo en las colas. La modificacin de F&T es:
8-29.
Corrida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + +
+ + + + + + + + + + + + + +
+ +
+ +
+ +
e 56 17 2 4 3 4 50 2 1
O 3 12 3 4 O O
..fC
7.48 4.12 1.41 2.00 1.73 2.00 7.07 1.41 1.00 0.00 1.73 3.46 1.73 2.00 0.00 0.00
Modificacin deF&T 7.52 4.18 1.57 2.12 1.87 2.12 7.12 1.57 1.21 0.50 1.87 3.54 1.87 2.12 0.50 0.50
+ +
+ + + + + + + +
+ +
a) Encontrar la relacin de definicin y las relaciones de los alias de este diseo. b) Estimar los efectos de los factores y usar una grfica de probabilidad normal para hacer la identificacin tentativa de los factores importantes. e) Ajustar un' modelo apropiado utilizando los factores identificados en el inciso b anterior. d) Graficar los residuales de este modelo contra el nmero predicho de defectos. Asimismo, construir una grfica de probabilidad normal de los residuales. Comentar la adecuacin de estas grficas.
360
e)
f)
El lector habr notado en el inciso d un indicio de que la varianza de larespuesta no es constante (considerando que la respuesta es un conteo, esto debera haberse anticipado). La tabla anterior tambin incluye una transformacin de c, la raz cuadrada, que es una transfonnacin para estabilizar la varianza de uso generalizado con datos de conteos (referirse a la exposicin de las transformaciones para estabilizar la varianza del captulo 3). Repetir los incisos a al d utilizando la respuesta transformada y comentar los resultados. Especficamente, han mejorado ahora las grficas de los residuales? Hay una modificacin de la transformacin de la raz cuadrada, propuesta por Freeman y Tukey. ("Transformaciones relacionadas con ngulos y raz cuadrada", Annals ofMathematical Statistics, vol. 21, pp. 607-611) que mejora su desempeo. La modificacin de F&T de la transformacin de la raz cuadrada es:
8-30.
Resolver de nuevo los incisos a al d utilizando esta transformacin y comentar los resultados. (Para una interesante discusin y anlisis de este experimento, referirse a '1\nlisis de experimentos factoriales con defectos o partes defectuosas como respuesta", de S. Bisgaard y H.T. Puller, Quality Engineering, vol. 7, pp. 429-443.) Se corre un experimento en una fbrica de semiconductores para investigar el efecto de seis factores sobre la amplificacin del transistor. El diseo seleccionado es el 2~2 que se muestra a continuacin:
1','"
1~1I1
I'~~
::::1
1"".,
"1,
::1, 1'1
.,
2 8 5 9 3 14 11 10 15
13
+ + +
+ + + + + + + +
-
+ + + - + + + + + + + + + + + +
- + + + +
1 6
12
4 7 16
- + + +
14 15 16
+ + - + + + + +
- + + +
Amplificacin 1455 1511 1487 1596 1430 1481 1458 1549 1454 1517 1487 1596 1446 1473 1461 1563
8-31.
Usar una grfica normal de los efectos para identificar los factores significativos. Conducir las pruebas estadsticas apropiadas para el modelo identificado en el inciso a. Analizar los residuales y comentar los resultados. Es posible encontrar un conjunto de condiciones de operacin que produzca una amplificacin de 1500 25? El tratamiento trmico es de uso comn para carbonizar piezas metlicas, como engranes. El espesor de la capa carbonizada es una variable de salida crtica de este proceso, y suele medirse realizando un anlisis de carbono del paso del engrane (la cara superior del diente del engrane). Se estudiaron seis factores en un diseo 2~2:A = temperatura del horno, B = duracin del ciclo, e = concentracin de carbono,D = duracin del
a) b) c) d)
11
8-8 PROBLEMAS
361
ciclo de carbonizacin, E = concentracin de carbono del ciclo difuso y F = duracin del ciclo difuso. El exp'erimento se presenta a continuacin:
Orden estndar 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
+ + + +
+ + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + +
+ + + +
+ + + + + + +
Paso 74 190 133 127 115 101 54 144 121 188 135 170 126 175 126 193
8-32.
a) Estimar los efectos de los factores y representarlos en una grfica de probabilidad normal. Seleccionar un modelo tentativo. b) Efectuar las pruebas estadsticas apropiadas en el modelo. e) Analizar los residuales y comentar la adecuacin del modelo. d) Interpretar los resultados de este experimento. Suponer que es deseable un espesor de la capa de entre 140 y 160. Se estudian cinco factores en el diseo factorial fraccionado irregular de resolucin V mostrado enseguida:
l11i
~.
I~
I
I
Orden Orden de estndar las corridas 1 1 2 10 5 3 4 4 15 5 19 6 16 7 8 7 8 9 10 3 11 13 12 11 12 13 20 14 15 9
A
+ +
+ + + + + + + + + + + + + + +
+ + + + + +
+ + + + + + +
16.33 18.43 27.07 16.95 14.58 19.12 18.96 23.56 29.15 15.74 20.73 21.52 15.58 21.03 26.78
~
.".'
362
CAPTULO 8
e
+ + +
+ + + + + + + + +
+ + +
+ + + + + +
+ + + + + + + + +
a) Analizar los datos de este experimento. Qu factores influyen en la respuesta y? b) Analizar los residuales. Comentar la adecuacin del modelo.
r.::,:!:::
"'"'''' :;:JI;::
'11-.""
..' .... '1
"1"""
1'~" ~~ ~"I.
"I''f','
~::i; r.;/!I'l,.
....."'1
"
Diseos factoriales.y factoriales fraccionados con tres niveles y con niveles mixtos
Las series con dos niveles de los diseos factoriales y factoriales fraccionados que se comentaron en los captulos 6, 7 Y8 son de uso generalizado en la investigacin y el desarrollo industrial. Hay algunas extensiones y variantes de estos diseos que en ocasiones son tiles, como los diseos para los casos en que todos los factores estn presentes con tres niveles. Estos diseos 3k se analizan en este captulo. Se consideran tambin los casos en que algunos de los factores tienen dos niveles y otros factores tienen ya sea tres o cuatro niveles.
m~~ ~i ::i!'
>"
Se estudia ahora el diseo factorial 3k ; es decir, un arreglo factorial de k factores que tienen tres nivelfff. K~ cada uno. Se usarn letras maysculas para denotar los factores y las interacciones. Se har referencia ~) los tres niveles de los factores como bajo, intermedio y alto. Hay varias notaciones diferentes que se usaJ? ~ , para representar estos niveles de los factores; una posibilidad es representar los niveles de los factores con los dgitos O(bajo), 1 (intermedio) y 2 (alto). Cada combinacin de tratamientos del diseo 3k se denotar por k dgitos, donde el primer dgito indica el nivel del factor A, el segundo dgito indica el nivel del factor B, oo., y el dgito k-simo indica el nivel del factor K. Por ejemplo, en un diseo 32, 00 denota la combinacin de tratamientos correspondiente aA y B ambos en el nivel bajo, y 01 denota la combinacin de tratamientos correspondiente aA en el nivel bajo y B en el nivel intermedio. En las figuras 9-1 y 9-2 se muestra la representacin geomtrica de los diseos 32 y 33, respectivamente, utilizando esta notacin. Este sistema de notacin pudo haberse usado en los diseos 2k presentados anteriormente, utilizando Oy 1 en lugar del 1 negativo y el1 positivo, respectivamente. En el diseo 2k se prefiri la notacin 1 porque facilita la vista geomtrica del diseo y porque puede aplicarse directamente al modelado de regresin, la separacin en bloques y la construccin de factoriales fraccionados. En el sistema de los diseos 3\ cuando los factores son cuantitativos, es comn denotar los niveles bajo, intermedio y alto con -1, OY + 1, respectivamente. Con esto se facilita el ajuste de un modelo de re
~t';1
%l
363
364
02
12
22
'Q
B u
uro
01
11
21
00
10
20
Factor A
Combinaciones de tratamientos en un
gresin que relaciona la respuesta con los niveles de los factores. Por ejemplo, considere el diseo 32 de la figura 9-1, y sea que Xl represente al factorA y quex2 represente al factor B. Un modelo de regresin que relaciona la respuesta y con Xl y X 2 que se basa en este diseo es (9-1) Observe que la adicin de un tercer nivel de los factores permite que la relacin entre la respuesta y los factores del diseo se modele como un modelo cuadrtico. El diseo 3k es ciertamente una eleccin posible para un experimentador que se preocupa por la curvatura en la funcin de respuesta. Sin embargo, es necesario tomar en consideracin dos puntos: 1. El diseo 3k no es la forma ms eficiente de modelar una relacin cuadrtica; los diseos de superficie de respuesta que se exponen en el captulo 11 son alternativas superiores.
222
...----~':"::"::----::;o'220
O
Figura 9-2
1
Factor A
365
2. El diseo 2k aumentado con los puntos centrales, como se analiz en el captulo 6, es una forma excelente de obtener una indicacin de la curvatura. Permite conservar reducido el tamao y la complejidad del diseo y al mismo tiempo permite obtener cierta proteccin contra la curvatura. Entonces, si la curvatura es importante, el diseo de dos niveles puede aumentarse con corridas axiales para obtener un diseo central compuesto, como se ilustra en la figura 6-36. Esta estrategia secuencial de experimentacin es ms eficiente, por mucho, que correr un diseo factoria13 k con factores cuantitativos.
9,1.2
El diseo 3 2
El diseo ms simple del sistema 3k es el diseo 32, el cual tiene dos factores, cada uno con tres niveles. Las combinaciones de tratamientos de este diseo se mostraron en la figura 9-1. Puesto que estn presentes 32 = 9 combinaciones de tratamientos, hay ocho grados de libertad entre estas combinaciones de tratamientos. Los efectos principales deA y B tienen dos grados de libertad cada uno, y la interaccinAB tiene cuatro grados de libertad. Si hay n rplicas, habr n3 2 -1 grados de libertad totales y 32(n -1) grados de libertad del error. Las sumas de cuadrados de A, B YAB pueden calcularse mediante los mtodos usuales para los diseos factoriales analizados en el captulo S. Cada efecto principal puede representarse con un componente lineal y uno cuadrtico, cada uno con un solo grado de libertad, como se observa en la ecuacin 9-1. Desde luego, esto slo tiene sentido si el factor es cuantitativo. La particin de la interaccin de dos factores AB puede hacerse de dos maneras. El primer mtodo consiste en subdividir AB en los cuatro componentes con un solo grado de libertad que corresponden a ABL x UABL x Q,ABQ x L YABQ x Q' Esto puede hacerse ajustando los trminos /3l'iXX2' /312iXIX~, /3112XX2y f31122X x~, respectivamente, como se indic en el ejemplo S-S. Para los datos de la vida de la herramienta de ese ejemplo se obtiene SSABL xL = 8.00,SSABL xQ = 42.67,SSABQXL = 2.67y SSABQxQ = 8.00. Puesto que se trata de una particin ortogonal deAB, observe que SSAB = SSABL xL + SSABL x Q + SSABQ xL + SSABQXQ = 61.34. El segundo mtodo se basa en los cuadrados latinos ortogonales. Considere los totales de las combinaciones de los tratamientos para los datos del ejemplo S-S. Estos totales se muestran en la figura 9-3 como los nmeros encerrados en crculos dentro de los cuadrados. Los dos factoresA yB corresponden a los renglones y las columnas, respectivamente, de un cuadrado latino 3 x 3. En la figura 9-3 se muestran dos cuadrados latinos 3 x 3 particulares, superpuestos en los totales de las celdas. Estos dos cuadrados latinos son ortogonales; es decir, si uno de los cuadrados se superpone en el otro, cada letra del primer cuadrado aparecer exactamente una vez con cada letra del segundo cuadrado. Los totales de las letras en el cuadrado a son Q = 18, R = -2 YS = 8, Yla suma de cuadrados entre estos totales
Factor B Factor B
2
o o
Q
R
2
o
o
Q
S
2
G G 0 0 8 G 8 G G
R S S
G G 0 0 8 G G G 8
R S
Q
S
a)
b)
Figura 9-3 Totales de las combinaciones de los tratamientos del ejemplo 5-5 con dos cuadrados latinos superpuestos.
366
es [18 2 + (_2)2 + 82]/(3)(2) - [242/(9)(2)] = 33.34, con dos grados de libertad. De manera similar, los totales de las letras en el cuadrado b son Q = O, R = 6 YS = 18, Yla suma de cuadrados entre estos totales es [0 2 + 62 + 182]/(3)(2) - [242 /(9)(2)] = 28.00, con dos grados de libertad. Observe que la suma de estos dos componentes es
33.34+ 28.00 = 61.34 = SS B
con 2 + 2 = 4 grados de libertad. En general, a la suma de cuadrados calculada con el cuadrado a se le llama el componenteAB de la in teraccin, y a la suma de cuadrados calculada con el cuadrado b se le llama el componenteAB 2 de la inte raccin. Cada uno de los componentes AB y AB2 tiene dos grados de libertad. Se usa esta terminologa porque si los niveles (O, 1, 2) deA y B se denotan por Xl y X 2, respectivamente, entonces se encuentra que las letras ocupan celdas de acuerdo con el siguiente patrn:
Cuadrado a Q: Xl + X 2 = O(mad 3)
R:xl +x 2 =1 (mad3)
S:
Xl
+ x 2 = 2 (mad 3)
Por ejemplo, en el cuadrado b se observa que la celda de en medio corresponde aXI = 1 YX 2 = 1; por lo tanto,x l + 2x2 = 1 + (2)(1) = 3 = O(mod 3), y Q ocupara la celda de en medio. Cuando se consideran expresiones de la formaAPBq, se establece la convencin de que el nico exponente permitido en la primera letra es 1. Si el exponente de la primera letra no es 1, la expresin completa se eleva al cuadrado y los exponentes se reducen al mdulo 3. Por ejemplo, A 2B es lo mismo que AB 2 porque
Los componentesAB y AB 2 de la interaccinAB no tienen significado real y por lo general no se incluyen en la tabla del anlisis de varianza. Sin embargo, esta particin en gran medida arbitraria de la interaccinAB en dos componentes ortogonales con dos grados de libertad es muy til para construir diseos ms complicados. Adems, no hay relacin entre los componentesAB y AB 2 de la interaccin y las sumas de cuadrados de ABL x Lo ABL x Q' ABQ x L YABQ x Q' Los componentesAB yAB 2 de la interaccin pueden calcularse de otra manera. Considere los totales de las combinaciones de los tratamientos en cualquiera de los cuadrados de la figura 9-3. Si se hace la suma de los datos en las diagonales hacia abajo de izquierda a derecha, se obtienen los totales -3 + 4 -1 = O, -3 + 10 -1 = 6 Y5 + 11 + 2 = 18. La suma de cuadrados entre estos totales es 28.00 (AB 2 ). En forma similar, los totales de la diagonal hacia abajo de derecha a izquierda son 5 + 4-1 = 8, -3 + 2-1 = -2 Y-3 + 11 + 10 = 18. La suma de cuadrados entre estos totales es 33.34 (AB). Yates llam a estos componentes de la interaccin los componentes 1 y J de la interaccin, respectivamente. Se usarn aqu indistintamente las dos notaciones; es decir,
I(AB) = AB 2 J(AB) = AB
367
9~ 1.3
El diseo 3 3
Suponga ahora que hay tres factores (A, B YC) bajo estudio, y que cada factor tiene tres niveles dispuestos en un experimento factorial. Se trata de un diseo factorial 33, y la disposicin experimental y la notacin de las combinaciones de los tratamientos se presentaron anteriormente en la figura 9-2. Las 27 combinaciones de tratamientos tienen 26 grados de libertad. Cada efecto principal tiene 2 grados de libertad, cada interaccin de dos factores tiene 4 grados de libertad y la interaccin de tres factores tiene 8 grados de libertad. Si se hacen 11 rplicas, hay 113 3 -1 grados de libertad totales y 33 (11 -1) grados de libertad del error. Las sumas de cuadrados pueden calcularse utilizando los mtodos estndares para los diseos factoriales. Adems, si los factores son cuantitativos, es posible hacer la particin de los efectos principales en un componente lineal y uno cuadrtico, cada uno con un solo grado de libertad. Las interacciones de dos factores pueden descomponerse en efectos lineal x lineal, lineal x cuadrtico, cuadrtico x lineal y cuadrtico x cuadrtico. Por ltimo, puede hacerse la particin de la interaccin de tres factoresABC en ocho componentes con un solo grado de libertad que corresponden a lineal x lineal x lineal, lineal x lineal x cuadrtico, etctera. Esta descomposicin de la interaccin de tres factores no es por lo general de gran utilidad. Tambin es posible hacer la particin de las interacciones de dos factores en sus componentes 1 y J. stos se designaran AB, AB 2, AC, AC2, BC YBC2, y cada componente tendra dos grados de libertad. Como en el diseo 32, estos componentes no tienen significacin fsica. Es posible hacer la particin de la interaccin de tres factoresABC en cuatro componentes ortogonales con dos grados de libertad, a los que suele denominarse los componentes :,v, X; y y Z de la interaccin. Thmbin se hace referencia a ellos como los componentes AB 2C2 , AB 2C, ABC2 YABC de la interaccin ABC, respectivamente. Las dos notaciones se usan indistintamente; es decir,
W(ABC) = AB 2 C 2 X(ABC) = AB C Y(ABC) = ABC Z(ABC)=ABC
2
2
Observe que ninguna de las primeras letras puede tener un exponente diferente de 1. Al igual que los componentes 1 y J, los componentes :,v, X; y y Z no tienen ninguna interpretacin prctica. Sin embargo, son tiles para construir diseos ms complejos.
EJEMPLO
9~
Se usa una mquina para llenar contenedores metlicos de 5 galones con jarabe para una bebida gaseosa. La vari.able de inters es la cantidad de jarabe perdida debido al espumeo. Se piensa que tres factores influyen en el espumeo: el diseo de la boquilla (A), la velocidad del llenado (B) y la presin de operacin (C). Se seleccionan tres boquillas, tres velocidades de llenado y tres presiones, y se corren dos rplicas de un experimento factorial 33 En la tabla 9-1 se muestran los datos codificados. El anlisis de varianza de los datos de la prdida de jarabe se muestra en la tabla 9-2. Las sumas de cuadrados se calcularon con los mtodos usuales. Se observa que la velocidad de llenado y la presin de operacin son estadsticamente significativas. Las tres interacciones de dos factores tambin son significativas. En la figura 9-4 se analizan grficamente las interacciones de dos factores. El nivel intermedio de la velocidad produce el mejor desempeo, mientras que las boquillas tipo 2 y 3, y la presin baja (10 psi) o bien alta (20 psi) parecen ser las ms efectivas para reducir la prdida de jarabe.
. .. . ...................................................... ...............
f' '.
i:
' . ! .:
1 .
" I
368
Tabla 9-1
Datos de la prdida de jarabe del ejemplo 9-1 (las unidades son centmetros cbicos - 70)
3 120 -55 -67 -28 -26 -61 -52 140 15 -30 110 135 54 4
-64
-62
-5
~::::
'~
.,..
El ejemplo 9-1 ilustra una situacin en la que el diseo de tres niveles suele encontrar cierta aplicacin; uno o ms de los factores es cualitativo, asumiendo desde luego tres niveles, y los dems factores son cuantitativos. En este ejemplo, suponga que slo hay tres diseos de la boquilla que son de inters. Se trata evidentemente, entonces, de un factor cualitativo que requiere tres niveles. La velocidad de llenado y la presin de operacin son factores cuantitativos. Por lo tanto, podra ajustarse un modelo cuadrtico como el de la ecuacin 9-1 en los dos factores, velocidad y presin, con cada nivel del factor boquilla. En la tabla 9-3 se muestran estos modelos de regresin cuadrticos. Las f3 de estos modelos se estimaron usando un programa de computadora de regresin lineal estndar. (En el captulo 10 se analizar con mayor detalle la regresin de mnimos cuadrados.) En estos modelos, las variables Xl YX2 estn codificadas en los niveles -1,0, + 1, como se estudi anteriormente, y se supusieron los siguientes niveles naturales para la presin y la velocidad:
Nivel codificado
-1
Velocidad (rpm)
100 120 140
Presin (psi)
10 15 20
O
+1
En la tabla 9-3 se presentan estos modelos tanto en trminos de estas variables codificadas como en trminos de los niveles naturales de la velocidad y la presin.
AC
EC ABC Error Total
Suma de cuadrados 993.77 61,190.33 69,105.33 6,300.90 7,513.90 12,854.34 4,628.76 11,515.50 174,102.83
Grados de libertad
2 2 2 4 4 4 8 27 53
Cuadrado medio 496.89 30,595.17 34,552.67 1,575.22 1,878.47 3,213.58 578.60 426.50
r I
369
400
O
400
~C=15
~
i(J
200
~B=140
B = 100
x
~
'"C
200
i
.rg
"C
"C
en ro
~8_12C
al
! ~-200 ~C=10
O '"
Qi
A.
C=20
-400 I-.l:---:--....L----
Tipo de boquilla
b)
(Al
600
e = 15
400
O
CQ
'"C
200
en ro
.rg
'"C
Qi u
C=20
C= 10
" jJ
-200
el
Figura 9-4
Tabla 9-3
Tipo de boquilla
1
2 3
y = 22.1 + 3.5x + 16.3x2+ 51.7x2 -71.8x~ + 2.9xx2 y = 1217.3 -31.256S+ 86.017P+ O.12917S 2 -2.8733p2+ O.02875SP y = 25.6 - 22.8x -12.3x2+ 14.1x2 - 56.9x~ - O.7xx 2 y =180.1-9.475S+ 66.75P+ Q.035S 2 -2.2767p 2 -O.0075SP y = 15.1 + 20.3x + 5.9x 2+ 75.8x2 - 94.9x~ + 10.sxx2 y = 194Q.1-40.058S+ 102.48P+ Q.18958S 2 -3.7967p 2+ 0.105SP
r
370
CAPTULO 9 DISEOS FACTORIALES Y FACTORIALES FRACCIONADOS CON TRES NNELES
!e
" .,'
En la figura 9-5 se muestran las grficas de contorno de las superficies de respuesta de la prdida de jarabe constnte, como una funcin de la velocidad y la presin para cada tipo de boquilla. Estas grficas revelan informacin de considerable utilidad acerca del desempeo de este sistema de llenado. Puesto que el objetivo es minimizar la prdida de jarabe, se preferira la boquilla tipo 3, ya que los contornos observados ms pequeos (-60) slo aparecen en esta grfica. Debern usarse la velocidad de llenado cerca del nivel intermedio de 120 rpm y el nivel de presin ya sea bajo o alto. Cuando se construyen grficas de contorno para un experimento que tiene una mezcla de factores cuantitativos y cualitativos, no es raro encontrar que las formas de las superficies de respuesta de los factores cuantitativos son muy diferentes en cada nivel de los factores cualitativos. Esto puede observarse en cierta medida en la figura 9-5, donde la forma de la superficie para la boquilla tipo 2 es considerablemente alargada en comparacin con las superficies de las boquillas tipo 1 y 3. Cuando esto ocurre, implica que las condiciones de operacin ptimas (y otras conclusiones importantes) en trminos de los factores cuantitativos son muy diferentes en cada nivel de los factores cualitativos. Es sencillo mostrar la particin numrica de la interaccinABC en sus cuatro componentes ortogonales con dos grados de libertad utilizando los datos del ejemplo 9-1. El procedimiento general ha sido descrito por Cochran y Cox [26] y Davies [36]. Primero se seleccionan dos cualesquiera de los tres factores, por ejemplo AB, y se calculan los totales I y J de la interaccinAB en cada nivel del tercer factor C. Estos clculos se presentan a continuacin:
.'
A
Totales
I
,.'
.,
10 15 20
2 3 41 -74 -123 -122 24 -15 175 203 -99 -54 154 245 -28 -85 -126 -113 -51 58
Despus, los totales I(AB) y J(AB) se arreglan en una tabla de dos vas con el factor C, y se calculan los totales de las diagonales I y J de esta nueva disposicin:
Thtales
Totales
e
10 15 20 -198 331 -59
I(AE)
e
10 15 20 -222 238 -144
J(AE)
41 19 105
63 62 40
138 4 23
Los totales de las diagonales I y J calculados arriba son en realidad los totales que representan las cantidades I[I(AB) X C] = AB2C2 , 1[I(AB) X C] = AB2C, I[J(AB) x C] = ABC2 y 1[J(AB) x C] = ABC, o los componentes U{ X, Yy Z deABC. Las sumas de cuadrados se encuentran de la manera usual; es decir,
371
c:
'i
al
1:
106.7
al
Boquilla tipo 1
c:
'i
a..
e:
20.00
126.7
133.3
140.0
'0
c:
'i
a..
e:
Contornos de la prdida de jarabe constante (unidades: cc - 70) como una funcin de la velocidad y la presin para las boquillas tipo 1, 2 Y3, ejemplo 9-1.
Figura 9-5
372
I[I(AB)xC]= AB 2 C 2
= W(ABC)
(165)2 54
_ (-149)2 +(212)2 +(102)2 18 J[I(AB)xC]= AB 2 C= X(ABC) (41)2 +(19)2 +(105)2 18 2 I[J(AB)xC]= ABC = Y(ABC)
= 3804.11
= 221. 77
= 18.77
= 584.11
Aun cuando se trata de una particin ortogonal de SSABC' se seala de nuevo que no se acostumbra presentarla en la tabla del anlisis de varianza. En secciones subsecuentes se analiza la necesidad ocasional de calcular uno o ms de estos componentes.
9..1.4
El diseo general 3 k
;ii
''''1
.,
7"
".,
,,,
i:J
Los conceptos utilizados en los diseos 32 y 33 pueden extenderse de inmediato al caso de k factores, cada uno con tres niveles, es decir, a un diseo factoria13 k Se emplea la notacin digital usual para las combinaciones de tratamientos, por lo que 0120 representa una combinacin de tratamientos en un diseo 34 conA y D en los niveles bajos, B en el nivel intermedio y C en el nivel alto. Hay 3k combinaciones de tratamientos, con 3k - 1 grados de libertad entre ellas. Estas combinaciones de tratamientos permiten determinar las sumas de cuadrados de k efectos principales, cada uno con dos grados de libertad; (;) interacciones de dos factores, cada una con cuatro grados de libertad; ...; y una interaccin de k factores con 2k grados de libertad. En general, una interaccin de h factores tiene 2/z grados de libertad. Si se hacen n rplicas, hay n3 k - 1 grados de libertad totales y 3k (n - 1) grados de libertad del error. Las sumas de cuadrados de los efectos y las interacciones se calculan con los mtodos usuales para los diseos factoriales. De manera tpica, no se hace ninguna descomposicin adicional de las interacciones de tres factores y de rdenes superiores. Sin embargo, cualquier interaccin de h factores tiene 2/z-1componentes ortogonales con dos grados de libertad. Por ejemplo, la interaccin de cuatro factores ABCD tiene 24-1 = 8 componentes ortogonales con dos grados de libertad, denotados por ABCD2 , ABCD, AB 2CD, ABCD, ABC2D 2 , AB2C2D, AB2CD 2 y AB 2C2D 2 Al escribirse estos componentes, observe que el nico exponente permitido en la primera letra es 1. Si el exponente de la primera letra no es 1, entonces la expresin completa debe elevarse al cuadrado y los exponentes deben reducirse al mdulo 3. Para ilustrar lo anterior, considere
Estos componentes de la interaccin no tienen ninguna interpretacin fsica, pero son tiles para construir diseos ms complejos. El tamao del diseo se incrementa rpidamente con k. Por ejemplo, un diseo 33 tiene 27 combinaciones de tratamientos por rplica, un diseo 34 tiene 81, un diseo 35 tiene 243, etctera. Por lo tanto, con frecuencia slo se considera una sola rplica del diseo 3\ y las interacciones de rdenes superiores se combinan para proporcionar una estimacin del error. Como una ilustracin, si las interacciones de tres
FI
373
factores Yde rdenes superiores son insignificantes, entonces una sola rplica del diseo 33 proporciona 8 grados de libertad del error, y una sola rplica del diseo 34 proporciona 48 grados de libertad del error. Estos diseos siguen siendo grandes para k ~ 3 y, por consiguiente, son de escasa utilidad.
9-2
Incluso cuando se considera una sola rplica del diseo 3\ sta requiere tantas corridas que es improbable que puedan hacerse las 3k corridas bajo condiciones uniformes. Por lo tanto, con frecuencia es necesario hacer la confusin (o mezclado) en bloques. El diseo 3k puede confundirse en Y' bloques incompletos, donde p < k. Por lo tanto, estos diseos pueden confundirse en tres bloques, nueve bloques, etctera.
9-2.1
Suponga que se quiere confundir el diseo 3k en tres bloques incompletos. Estos tres bloques tienen dos grados de libertad entre ellos; por lo tanto, debe haber dos grados de libertad confundidos con los bloques. Recuerde que en la serie factorial 3k cada efecto principal tiene dos grados de libertad. Adems, cada interaccin de dos factores tiene cuatro grados de libertad y puede descomponerse en dos componentes de la interaccin (por ejemplo, AB y AB2 ), cada uno con dos grados de libertad; cada interaccin de tres factores tiene ocho grados de libertad y puede descomponerse en cuatro componentes de la interaccin (por ejemplo, ABC, ABC2, AB 2C y AB 2C2 ), cada uno con dos grados de libertad; y as sucesivamente. Por lo tanto, es conveniente confundir un componente de interaccin con los bloques. El procedimiento general consiste en construir una definicin de contrastes
;I
,l'
~I
(9-2)
donde a representa el exponente del factor i-simo en el efecto que va a confundirse y X es el nivel del factor i-simo en una combinacin de tratamientos particular. Para la serie 3k se tiene a = O, 1 o 2, donde la primera a diferente de cero es la unidad, y x = O(nivel bajo), 1 (nivel intermedio) o 2 (nivel alto). Las combinaciones de tratamientos del diseo 3k se asignan a los bloques con base en el valor de L (mod 3). Puesto que L (mod 3) slo puede asumir los valores O, 1 o 2, tres bloques estn definidos de manera nica. Las combinaciones de tratamientos que satisfacen L = O(mod 3) constituyen el bloque principal. Este bloque incluir siempre la combinacin de tratamientos 00 ...0. Por ejemplo, suponga que quiere construirse un diseo factorial 32 en tres bloques. Cualquiera de los componentes de la interaccinAB,AB oAB2 , puede confundirse con los bloques. Al elegir arbitrariamente AB 2, se obtiene la definicin de contrastes
11
j'
374
CAPTULO 9
Bloque 1
Bloque 2
888
~
L:J L:J
12 22
02
ex:
B 1 u
Ll..
ro
01
11
21
= Bloque 1
O = Bloque 2
() = Bloque 3
00 10 20
O
Factor A
b) Vista geomtrica
. '. 1"
I..,
." :J
Los elementos del bloque principal forman un grupo con respecto a la adicin mdulo 3. Con referencia a la figura 9-6, se observa que 11 + 11 == 22 Y11 + 22 == OO. Las combinaciones de tratamientos de los otros dos bloques pueden generarse sumando, en mdulo 3, cualquier elemento del nuevo bloque con los elementos del bloque principal. Por lo tanto, para el bloque 2 se usa 10 para obtener 10+00==10 10+11==21 Y 10+22==02 Para generar el bloque 3, al utilizar 01, se encuentra 01 + 00 == 01 01 + 11 == 12 Y 01 + 22 == 20
EJEMPLO
9~2
.........................................................
El anlisis estadstico del diseo 32 confundido en tres bloques se ilustra empleando los datos siguientes, los cuales provienen de la rplica nica del diseo 32 que se muestra en la figura 9-6.
Bloque 1 00= 4 Bloque 2 10=-2 Bloque 3 01 = 5
11 =-4 22 = O
Totales de los bloques = O
21 = 1 02 = 8 7
12 =-5 20= O
Al aplicar los mtodos convencionales para el anlisis de factoriales, se encuentra que SSA == 131.56 Y SSB == 0.22.
375
Tabla 9-4 Anlisis de varianza de los datos del ejemplo 9-2 Fuente de Suma de Grados de variacin cuadrados libertad Bloques (AE") A B AE Total
10.89 131.56 0.22 2.89 2 2 2 2 8
145.56
ss
Sin embargo, SSBloques es exactamente igual al componenteAB 2 de la interaccin. Para ver esto, las observaciones se escriben de la siguiente manera:
Factor B
Factor A
O 1 2
O 4 -2 O
2
1 5
2 8 -5 O
;Ji
11
11 1
-4
1
Recuerde, por la seccin 9-1.2, que el componente! oAB de la interaccinAB puede encontrarse calculando la suma de cuadrados entre los totales de la diagonal de izquierda a derecha de la representacin anterior. Se obtiene as
SS AB 2
(7)2
= 10 89
.
valor que es idntico a SSBloques. El anlisis de varianza se presenta en la tabla 9-4. Puesto que hay una sola rplica, no puede hacerse una prueba formal. No es una buena idea utilizar el componenteAB de la interaccin como una estimacin del error. Se considera ahora un diseo un poco ms complicado; un diseo factorial 33 confundido en tres bloques con nueve corridas cada uno. El componenteAB 2C2 de la interaccin de tres factores se confundir con los bloques. La definicin de contrastes es
Es sencillo verificar que las combinaciones de tratamientos 000, 012 Y101 se encuentran en el bloque principal. Las corridas restantes del bloque principal se generan de la siguiente manera: (1) 000 (4) 101 + 101 = 202 (2)012 (5) 012 + 012 = 021 (3) 101 (6) 101+012= 110 (7) 101 + 021 = 122 (8) 012+202= 211 (9) 021+202= 220
376
CAPTULO 9
Para encontrar las corridas de otro bloque se observa que la combinacin de tratamientos 200 no est en el bloque principal. Por lo tanto, los elementos del bloque 2 son (1) 200+000= 200 (2) 200+012= 212 (3) 200+ 101 = 001 (4) 200+202= 102 (5) 200+021 = 221 (6) 200+110= 010 (7) 200+ 122 = 022 (8) 200+211 = 111 (9) 200+220= 120
Observe que todas estas corridas satisfacenL = 2 (mod 3). El ltimo bloque se encuentra observando que 100 no pertenece al bloque 1 ni al bloque 2. Al usar 100 como arriba, se obtiene (1) 100+000= 100 (2) 100+012= 112 (3) 100+101 = 201 Los bloques se ilustran en la figura 9-7.
Bloque 1 Bloque 2 Bloque 3
(7) 100+122= 222 (8) 100+211 = 011 (9) 100+ 220 = 020
I:
",r.
ri ,,,,,
"
122
222
2
C,)
~
221
u.
~ ca
0111 1 201
0'",,-o
O
O
~'>
220
100 1
Factor A
b)
200
Vista geomtrica
Figura 97 El diseo
33
377
l'
Tabla 9-5
Grados de libertad 2 2 2 2 4 4 4
6
AC BC
Error (ABC
Total
+ AB2C +ABC2)
26
En la tabla 9-5 se presenta el anlisis de varianza de este diseo. Al utilizar este esquema de confusin (o mezclado), se cuenta con informacin acerca de todos los efectos principales y las interacciones de dos factores. Los componentes restantes de la interaccin de tres factores (ABC, ABzC y ABCz) se combinan como una estimacin del error. La suma de cuadrados de esos tres componentes podra obtenerse por sustraccin. En general, para el diseo 3k en tres bloques se seleccionara siempre un componente de la interaccin de orden ms alto para confundirlo con los bloques. Los dems componentes de esta interaccin que no estn confundidos pueden obtenerse calculando la interaccin de k factores de la manera usual y restando de esta cantidad la suma de cuadrados de los bloques.
9~2.2
En algunas situaciones experimentales puede ser necesario confundir el diseo 3k en nueve bloques. Por lo tanto, ocho grados de libertad se confundirn con los bloques. Para construir estos diseos se eligen dos componentes de interaccin y, como resultado, dos ms se confundirn automticamente, produciendo los ocho grados de libertad requeridos. Estos dos son las interacciones generalizadas de los dos efectos elegidos originalmente. En el sistema 3\ las interacciones generalizadas de dos efectos (es decir, Py Q) se definen como PQ y PQz (o pZQ). Los dos componentes de interaccin elegidos inicialmente producen dos definiciones de contrastes L = a1x1+azx z + L z = f3 1X 1+f3 zx z +
(9-3)
donde {a} y {f3j} son los exponentes de la primera y la segunda interacciones generalizadas, respectivamente, con la convencin de que las primeras a y f3j diferentes de cero son la unidad. Las definiciones de contrastes de la ecuacin 9-3 implican nueve ecuaciones simultneas especificadas por el par de valores paraL 1 y L z. Las combinaciones de tratamientos que tienen el mismo par de valores para (L1,L z) se asignan al mismo bloque. El bloque principal consta de las combinaciones de tratamientos que satisfacenL 1 = L z = (mod 3). Los elementos de este bloque forman un grupo con respecto a la adicin mdulo 3; por lo tanto, el esquema presentado en la seccin 9-2.1 puede usarse para generar los bloques.
378
CAPTULO 9
Como un ejemplo, considere el diseo factorial 34 confundido en nueve bloques con nueve corridas cada uno. Suponga que se elige confundir ABC y AB2 D 2. Sus interacciones generalizadas
2 (ABC)(AB 2D 2 ) = A 2B 3 CD 2 = (A 2B 3 CD 2 )2 = AC D (ABC)(AB 2D 2 )2 =A 3 B 5 CD 4 =B 2CD=(B 2CD)2 =BC 2D 2 D 2 son tambin estn confundidas con los bloques. Las definiciones de contrastes de ABC y AB 2
Ll = Xl +X 2 +X 3 L 2 = Xl +2x 2 +2x 4
(9-4)
Los nueve bloques pueden construirse utilizando las definiciones de contrastes (ecuacin 9-4) Yla propiedad de la teora de grupos del bloque principal. El diseo se muestra en la figura 9-8. Para el diseo 3k en nueve bloques habr cuatro componentes de interaccin confundidos. Los dems componentes de estas interacciones que no estn confundidos pueden determinarse restando la suma de cuadrados del componente confundido de la suma de cuadrados de la interaccin completa. El mtodo descrito en la seccin 9-1.3 puede ser til para calcular los componentes de interaccin.
9~2.3
El diseo factorial 3k puede confundirse en Y' bloques con 3k- p observaciones cada uno, donde p < k. El procedimiento consiste en seleccionar p efectos independientes que habrn de confundirse con los bloques. Como resultado, exactamente otros (Y' - 2p - 1)/2 efectos se confunden de manera automtica. Estos efectos son las interacciones generalizadas de los efectos elegidos originalmente. Como una ilustracin, considere un diseo 37 que va a confundirse en 27 bloques. Puesto que p = 3, se seleccionaran tres componentes de interaccin independientes y se confundiran automticamente otros [3 3 - 2(3) -1]/2 = 10. Suponga que se eligenABC2DG, BCE 2F 2G y BDEFG. A partir de estos efectos pue-
Bloque 1 0000 0122 0211 1021 1110 1202 2012 2101 2220
(L" L z) = (0,0)
Bloque2 0001 0120 0212 1022 1111 1200 2010 2012 2221 (0,1)
Bloque 3 2000 2122 2211 0021 0110 0202 1012 1101 1220 (2,2)
Bloque 4 0200 0022 0111 0221 1010 1102 2212 2001 2120 (2,0)
Bloque 5 0020 0112 0201 1011 1100 1222 2002 2121 2210 (2,1)
Bloque 6 0010 0102 0221 1001 1120 1212 2022 2111 2200 (1,2)
Bloque 7 1000 1122 1211 2021 2110 2202 0012 0101 0220 (1,1)
Bloque 8 0100 0222 0011 1121 1210 1002 2112 2201 2020 (1,0)
Bloque 9 0002 0121 0210 1020 1112 1201 2011 2100 2222 (0,2)
Figura 9-8
379
den construirse tres definiciones de contrastes, y los 27 bloques pueden generarse con los mtodos descritos anteriormente. Los otros 10 efectos confundidos con los bloques son
(ABC 2DG)(BCE 2F 2G)= AB 2DE 2F 2G 2 (ABC 2DG)(BCE 2F 2G)2 = AB 3 C 4 DE 4 F 4 G 3 = ACDEF (ABC 2DG)(BDEFG) = AB 2C 2D 2EFG 2 (ABC 2DG)(BDEFG) 2 = AB 3 C 2D 3 E 2F 2G 3 = Ac 2E 2F 2 (BCE 2F 2G)(BDEFG) = B 2CDE 3 F 3 G 2 = BC 2D 2G (BCE 2F 2G)(BDEFG)2 = B 3 CD 2E 4 F 4 G 3 = CD 2EF (ABC 2DG)(BCE 2F 2G)(BDEFG) = AB 3 C 3 D 2E 3 F 3 G 3
= AD 2
(ABC 2DG)2(BCE 2F 2 G)(BDEFG) = A 2B 4 C 5 D 3 G 4 = AB 2CG 2 (ABC 2DG)(BCE 2 F 2G)2(BDEFG) = ABCD 2E 2F 2G (ABC 2DG)(BCE 2F 2G)(BDEFG)2
= ABC 3 D 3 E 4 F 4 G 4 = ABEFG
Se trata de un diseo enorme que requiere 37 = 2187 observaciones dispuestas en 27 bloques con 81 observaciones cada uno.
9-3
El concepto de rplica fraccionada puede extenderse a los diseos factoriales 3k Debido a que una rplica completa del diseo 3k puede requerir un nmero bastante grande de corridas incluso para valores moderados de k, las rplicas fraccionadas de estos diseos son de inters. Sin embargo, como se ver ms adelante, algunos de estos diseos tienen estructuras de alias complicadas.
9-3.1
La fraccin ms grande del diseo 3k es la fraccin un tercio que contiene 3k- 1 corridas. Por consiguiente, se hace referencia a l como el diseo factorial fraccionado 3k- 1 Para construir un diseo factorial fraccionado 3k- 1 se selecciona un componente de interaccin con dos grados de libertad (generalmente, la interaccin de orden ms alto) y se hace la particin del diseo 3k completo en tres bloques. Cada uno de los tres bloques resultantes es un diseo fraccionado 3k - 1 y puede seleccionarse cualquiera de los bloques para usarlo. Si AB a Ca, ... Kak es el componente de interaccin utilizado para definir los bloques, entonces al = AB a ca, '" Kak se le llama la relacin de definicin del diseo factorial fraccionado. Cada efecto principal o componente de interaccin estimado a partir del diseo 3k - 1 tiene dos alias, los cuales pueden encontrarse multiplicando el efecto tanto por 1 como por P mdulo 3. Como un ejemplo, considere una fraccin un tercio del diseo 33 Puede seleccionarse cualquiera de C,ABC2oAB2C2 Por los componentes de la interaccinABC para construir el diseo, es decir,ABC,AB 2 3 lo tanto, hay en realidad 12 fracciones un tercio diferentes del diseo 3 definidas por
2 2
Xl
+a 2 x 2 +a 3 x 3 = u (mod 3)
donde a = 10 2 y u = O, 10 2. Suponga que se selecciona el componente deAB 2C2 Cada fraccin del diseo 33- 1 resultante contendr exactamente 32 = 9 combinaciones de tratamientos que deben satisfacer
380
donde u = 0, 1 o 2. Es sencillo verificar que las tres fracciones un tercio son las que se muestran en la figura 9-9. Si se corre cualquiera de los diseos 33- 1 de la figura 9-9, la estructura de los alias resultante es A=A(AB2C2)=A2B2C2 =ABC A=A(AB 2C 2 )2 =A 3 B 4 C 4 =BC B= B(AB 2C 2 )= AB 3 C 2 = AC 2 B=B(AB 2C 2 )2 =A 2B 5 C 4 =ABC 2 C=C(AB 2C 2 )=AB 2 C 3 =AB 2 C=C(AB 2 C 2 )2 =A 2 B 4 C 5 =AB 2C AB= AB(AB 2 C 2 )= A 2B 3 C 2 = AC AB= AB(AB 2C 2 )2 = A 3 B 5 C 4 = BC 2 Por consiguiente, los cuatro efectos que en realidad se estiman a partir de los ocho grados de libertad del diseo sanA + BC + ABC, B + AC2 + ABC2, C + AB2 + AB2C y AB + AC + BC2 Este diseo slo tendra valor prctico si todas las interacciones fueran pequeas en comparacin con los efectos principales. Puesto que los efectos principales son alias de las interacciones de dos factores, se trata de un diseo de resolucin lII. Observe lo complejas que son las relaciones de los alias en este diseo. Cada efecto principal es alias de un componente de interaccin. Si, por ejemplo, la interaccin de dos factores BC es grande, esto distorsionar potencialmente la estimacin del efecto principal de A y har que sea muy complicada la interpretacin del efecto deAB + AC + BC2 Es muy dificil ver cmo este diseo podra ser de utilidad, a menos que se suponga que todas las interacciones son insignificantes.
Diseo 1 Diseo 1 Diseo 1
u=o
000 012 101 202 021 110 122
211
u=1
100 112 201 002 121 210 222 011 020
u=2
200 212 001 102 221 010 022
111
220
120
al Combinaciones de tratamientos
~A
)----
'"
'" '"
".---
)---
u=o
'"
'" '"
u=1
'"
e'
'"
u=2
b) Vista geomtrica
Figura 9-9 Las tres fracciones un tercio del diseo 33 con la relacin de definicin 1 = AB 2 C2
ir
1\
l'
381
Antes de dejar el diseo 3~1, observe que para el diseo con u = O(ver la figura 9-9), si se hace queA denote el rengln y B la columna, entonces el diseo puede escribirse como 000 202 012 211 021 220
que es un cuadrado latino 3 x 3. El supuesto de las interacciones insignificantes requerido para la interpretacin nica del diseo 3t~1 tiene su paralelo en el diseo del cuadrado latino. Sin embargo, los dos diseos surgen por motivos diferentes, uno como consecuencia de la rplica fraccionada y el otro de las restricciones sobre la aleatorizacin. Por la tabla 4-13 se observa que slo hay 3 x 3 cuadrados latinos y . que cada uno corresponde a uno de los doce diferentes diseos factoriales fraccionados 33-1. Las combinaciones de tratamientos en un diso 3k - 1 con la relacin de definicin 1 = AB a2 Ca, ... Kak pueden construirse utilizando un mtodo similar al que se emple en la serie 2k- p Primero se escriben las 3k - 1 corridas para un diseo factorial de tres niveles completo en k - 1 factores, con la notacin comn O, 1, 2. ste es el diseo bsico en la terminologa del captulo 8. Despus se introduce el factor k-simo igualando sus Xk niveles con el componente apropiado de la interaccin de orden ms alto, por ejemplo AB a2 Ca, (K- l tk - 1 , mediante la relacin (9-5) donde/3 = (3-ak)a (mod 3) para 1:5 i :5 k-l. Se obtiene as un diseo con la resolucin ms alta posible. Como una ilustracin, se usa este mtodo para generar el diseo 3~1 con la relacin de definicin 1 = AB2CD que se muestra en la tabla 9-6. Es sencillo verificar que los tres primeros dgitos de cada combinacin de tratamientos de esta tabla son las 27 corridas de un diseo 33completo. Se trata del diseo bsico. ParaAB2CD se tiene al = a 3 = a 4 = 1 ya 2 = 2. Esto implica que /31 = (3 -1 )a1 (mod 3) = (3 -1)(1) = 2,/32 = (3-1)a 2 (mod3) = (3 -1)(2) = 4 = 1 (mod3) Y/33 = (3 -1)a 3 (mod3) = (3 -1)(1) = 2. Parlo tanto, la ecuacin 9-5 queda como (9-6) Los niveles del cuarto factor satisfacen la ecuacin 9-6. Por ejemplo, se tiene 2(0) + 1(0) + 2(0) = 0,2(0) + 1(1) + 2(0) = 1, 2(1) + 1(1) + 2(0) = 3 = O, etctera. El diseo 3~1 resultante tiene 26 grados de libertad que pueden usarse para calcular las sumas de cuadrados de los 13 efectos principales y los componentes de las interacciones (y sus alias). Los alias
l ..."
1 """ 1"'
:,:~
:J "
I=AB 2CD
382
CAPTULO 9
de cualquier efecto se encuentran de la manera usual; por ejemplo, los alias de A son A (AB 2CD) == ABC2 D 2y A(AB 2CD)2 = BC2 D 2. Puede verificarse que los cuatro efectos principales estn separados de cualquier componente de interacciones de dos factores, pero que algunos componentes de interacciones de dos factores son alias entre s. Una vez ms se observa la complejidad de la estructura de los alias. Si cualquiera de las interacciones de dos factores es grande, probablemente ser muy difcil aislarla con este diseo. El anlisis estadstico de un diseo 3k- se lleva a cabo con los procedimientos usuales del anlisis de varianza para experimentos factoriales. Las sumas de cuadrados de los componentes de interacciones pueden calcularse como en la seccin 9-1. Cuando interprete los resultados, recuerde que los componentes de las interacciones no tienen ninguna interpretacin prctica.
9~3.2
j'!,
;:, :)
Para moderar los valores grandes de k, es deseable un fraccionamiento todava mayor del diseo 3k En general, puede construirse una fraccin (ir del diseo 3k parap < k, donde la fraccin contiene 3k- p corridas. A este diseo se le llama el diseo factorial fraccionado 3k - p Por lo tanto, un diseo 3k- 2 es una fraccin un noveno, un diseo 3k- 3 es una fraccin un veintisieteavo, etctera. El procedimiento para construir un diseo factorial fraccionado 3k-p consiste en seleccionar p componentes de interacciones y usar estos efectos para hacer la particin de las 3k combinaciones de tratamientos en Y bloques. Entonces cada bloque es un diseo factorial fraccionado 3k- p La relacin de definicinI de cualquier fraccin consta de los p efectos elegidos inicialmente y sus (Y - 2p - 1)/2 interacciones generalizadas. El alias de cualquier efecto principal o componente de interaccin se obtiene con la multiplicacin mdulo 3 del efecto por I e P. Las corridas que definen un diseo factorial fraccionado 3k- p tambin pueden generarse anotando primero las combinaciones de tratamientos de un diseo factorial3 k-p completo e introduciendo despus los p factores adicionales igualndolos con los componentes de las interacciones, como se hizo en la seccin 9-3.1. El procedimiento se ilustrar construyendo un diseo 34-2, es decir, una fraccin un noveno del diseo 34 SeanAB 2C y BCD los dos componentes de interacciones elegidos para construir el diseo. Sus inD y (AB 2C)(BCD)2 = ABD2. Por lo tanto, la relacin teracciones generalizadas son (AB 2C)(BCD) = AC2 2 D = ABD2, Yel diseo es de resolucin lII. Las de definicin de este diseo es I = AB C = BCD = AC2 nueve combinaciones de tratamientos del diseo se encuentran apuntando un diseo 32en los factores A y B, Y agregando despus dos nuevos factores haciendo
X3
X4
= 2x +X 2
= 2x 2 +2x 3
Tabla 9-7
383
Tabla 9-8
Efecto
!
ABCD ACD
2 2
1.2
AB D ABCD AB
2 2
A B
BC AB
AB C D CD BD BC
CD 2 AB 2C 2D ACD AC 2
BD 2 AD 2 ABC 2D 2 ABD
AC AB C
2
BC 2 D 2 ABC 2 D AB 2 D 2 BC D
2
ABC
2
C
D
AD AC 2D 2
AB 2CD BCD 2
AB 2CD 2
Esto es equivalente a usar AB 2C y BCD para hacer la particin del diseo 34 completo en nueve bloques y luego seleccionar uno de estos bloques como la fraccin deseada. El diseo completo se muestra en la tabla 9-7. Este diseo tiene ocho grados de libertad que pueden usarse para estimar cuatro efectos principales y sus alias. Los alias de cualquier efecto pueden encontrarse multiplicando el efecto mdulo 3 por AB 2C, BCD,AC2D,ABD 2 y sus cuadrados. En la tabla 9-8 se presenta la estructura de los alias completa del diseo. Por la estructura de los alias se observa que este diseo slo es til en ausencia de interacciones. Adems, siA denota los renglones y B las columnas, entonces al examinar la tabla 9-7 se observa que el diseo 3~~2 tambin es un cuadrado grecolatino. El escrito de Connory Zelen [28] contiene una extensa seleccin de diseos para 4:5 k :5 10. Este escrito se elabor para la National Bureau of Standards y es la tabla ms completa disponible de los planes 3k- p En esta seccin se ha hecho notar en varias ocasiones la complejidad de las relaciones de los alias de los diseos factoriales fraccionados 3k- p En general, si k es moderadamente grande, por ejemplo k ~ 4 o 5, el tamao del diseo 3k llevar a muchos experimentadores a considerar fracciones bastante pequeas. Desafortunadamente, estos diseos tienen relaciones de alias que incluyen alias parciales de componentes de interacciones con dos grados de libertad. Esto, a su vez, resulta en un diseo cuya interpretacin ser difcil, si no imposible, si las interacciones no son insignificantes. Adems, no hay esquemas de aumento simples (como el doblez) que puedan usarse para combinar dos o ms fracciones a fin de aislar las interacciones significativas. El uso del diseo 3k suele sugerirse cuando hay curvatura presente. Sin embargo, hay alternativas ms eficientgs (ver el captulo 11). Por estas razones, se puede concluir que los diseos factoriales fraccionados 3k- p son soluciones que causan problemas; no son, en general, buenos diseos.
9,4
Se han resaltado los diseos factoriales y factoriales fraccionados en los que todos los factores tienen el mismo nmero de niveles. El sistema con dos niveles revisado en los captulos 6, 7 y 8 es de particular utilidad. El sistema de tres niveles presentado en este captulo es de utilidad mucho menor debido a que los diseos son relativamente grandes incluso para un nmero modesto de factores, y la mayora de las fracciones pequeas tienen relaciones de alias complejas que requeriran supuestos muy restrictivos respecto de las interacciones para ser tiles. Estamos convencidos de que los diseos factoriales y factoriales fraccionados de dos niveles debern ser la piedra angular de la experimentacin industrial para el desarrollo de productos y procesos, deteccin de defectos y mejoramiento. Sin embargo, existen situaciones en las que es necesario incluir un fac~ tor (o algunos factores) que tiene ms de dos niveles. Esto suele ocurrir cuando hay factores tanto cuantitativos como cualitativos en el experimento, y el factor cualitativo tiene (por ejemplo) tres niveles.
1:
11
,1
I1
ii
I1
11
:I
, I
l'
11
Ii
11
I[
384
CAPTULO 9
Tabla 9-9
Uso de factores con dos niveles para formar un factor con tres niveles Factores con tres niveles
+
+
+ +
Si todos los factores son cuantitativos, entonces debern usarse diseos de dos niveles con puntos centrales. En esta seccin se indica cmo pueden incorporarse factores con tres y cuatro niveles en un diseo 2k
9~4.1
~"
'1
Los diseos en los que algunos factores tienen dos niveles y otros tres niveles pueden derivarse de la tabla de signos positivos y negativos del diseo 2k usual. El procedimiento general se ilustra mejor con un ejemplo. Suponga que se tienen dos variables, dondeA tiene dos niveles y X tres. Considere la tabla de signos positivos y negativos del diseo 23 usual con ocho corridas. Los signos de las columnas B y e tienen el patrn que se muestra en el lado izquierdo de la tabla 9-9. Sea que los niveles deX estn representados por Xl' X 2 Yx 3 En el lado derecho de la tabla 9-9 se muestra cmo se combinan los patrones de los signos de 13 y e para formar los niveles del factor con tres niveles. Entonces el factor X tiene dos grados de libertad, y si el factor es cuantitativo, es posible hacer su particin en un componente lineal y uno cuadrtico, con cada componente teniendo un grado de libertad. En la tabla 9-10 se muestra un diseo 23 con las columnas rotuladas para indicar los efectos reales que estiman, donde XL y X Q denotan los efectos lineal y cuadrtico, respectivamente, deX. Observe que el efecto lineal deX es la suma de las estimaciones de los dos efectos calculadas a partir de las columnas asociadas generalmente conB y e, y que el efecto deA slo puede calcularse a partir de las corridas donde X est en el nivel bajo o bien en el alto, es decir, las corridas 1, 2, 7 Y8. De manera similar, el efecto A x XL es la suma de los dos efectos que se habran calculado a partir de las columnas rotuladas generalmente AB y
Tabla 9-10 Un factor con dos niveles y un factor con tres niveles en un diseo 23
A
Corrida
XL
XL
A xXL AB
A xXL AC
XQ
A xXQ ABC
BC
A
Bajo Alto Bajo Alto Bajo Alto Bajo Alto
1 2 3 4 5 6 7 8
+ + + +
+ + + + + + + +
+ + + +
+ +
+ + +
+ + + +
+ +
385
Tabla 9-11
Anlisis de varianza del diseo de la tabla 9-10 Fuente de Suma de Grados de Cuadrado variacin cuadrados libertad medio
1 2 2
2
AC. Adems, observe que las corridas 3 y 5 son rplicas. Por 10 tanto, puede hacerse una estimacin del
error con un grado de libertad del error utilizando estas dos corridas. De manera similar, las corridas 4 y 6 son rplicas, y esto llevara a una segunda estimacin del error con un grado de libertad. La varianza promedio de estos dos pares de corridas podra usarse como cuadrado medio del error con dos grados de libertad. En la tabla 9-11 se resume el anlisis de varianza completo. Si se est dispuesto a suponer que las interacciones de dos factores y de rdenes superiores son insignificantes, el diseo de la tabla 9-10 puede convertirse en una fraccin de resolucin III con hasta cuatro factores con dos niveles y un solo factor con tres niveles. Esto se conseguira asociando los factores de dos niveles con las columnasA,AB,AC y ABe. La columnaBC no puede usarse para un factor de dos niveles porque contiene el efecto cuadrtico del factor X de tres niveles. Puede aplicarse el mismo procedimiento en los diseos 2k de 16, 32 Y64 corridas. Para 16 corridas es posible construir factoriales fraccionados de resolucin V con dos factores de dos niveles y con dos o tres factores de tres niveles. Tambin puede obtenerse una fraccin con 16 corridas de resolucin V con 3 factores de dos niveles y un factor de tres niveles. Si se incluyen cuatro factores de dos niveles y un solo factor de tres niveles en 16 corridas, el diseo ser de resolucin III. Los diseos de 32 y 64 corridas permiten arreglos similares. Para un estudio adicional de algunos de estos diseos, ver Addleman [lb].
9~4.2
Es muy sencillo incorporar un factor con cuatro niveles en un diseo 2k El procedimiento para hacerlo implica el uso de dos factores con dos niveles para representar el factor con cuatro niveles. Por ejemplo, suponga queA es un factor de cuatro niveles con los niveles al' az, a3ya 4. Considere dos columnas de la tabla usual de signos positivos y negativos, por ejemplo las columnas P y Q. El patrn de los signos de estas dos columnas se muestra en el lado izquierdo de la tabla 9-12. El lado derecho de esta tabla muestra cmo estos cuatro patrones de signos corresponderan con los cuatro niveles del factorA. Los efectos represen-
Tabla 9-12 El factor A con cuatro niveles expresado como dos factores con dos niveles
1 2 3 4
+ +
+ +
az
a3 a4
..
_._~~::!II
00 0\
Tabla 9-13 Un factor con cuatro niveles y 2 factores con dos niveles en 16 corridas AB Corrida C D AC BC =x (A B) 1 Xl + + + 2 Xz + + X3 3 + + 4 x4 + + + 5 Xl + + 6 Xz + + + 7 x3 + + + 8 x4 + + + + + + 9 Xl + + + + 10 Xz + + + 11 x3 + + + 12 X4 + + + + 13 Xl + + + 14 Xz + + + + 15 X3 + + + +
16
ABC
AD
BD
ABD
CD
ACD
-
BCD ABCD
-
+ +
-
+
-
+
-
+ +
-
+ +
-
+
-
+
-
+
-
+
-
+ +
-
+ + + +
-
+
-
+ + + + + + + +
+ + +
-
+ +
-
+ +
-
+ + + + + +
-
+ +
-
+
-
+
-
+
-
+ +
-
+ +
+ +
-
+
-
X4
+ +
+ + + +
+
-
+ +
9-5 PROBLEMAS
387
tados por las columnasPy Q y la interaccinPQ son mutuamente ortogonales y corresponden al efecto de
= SSA +SSB +SSAB SSc = SSc SSD = SSD SSCD = SSCD SS xc = SS AC +SSBC +SSABC
SSx
SS XD SS XCD
= SS AD +SSBD +SSABD
= SS ACD + SSBCD + SS ABCD
(3 grados de libertad) (1 grado de libertad) (1 grado de libertad) (1 grado de libertad) (3 grados de libertad) (3 grados de libertad) (3 grados de libertad)
A este diseo podra llamrsele 4 x 22 Si uno est dispuesto a ignorar las interacciones de dos factores, pueden asociarse hasta nueve factores adicionales de dos niveles con la columna de la interaccin de dos factores (exceptoAB), la columna de la interaccin de tres factores y la columna de la interaccin de cuatro factores.
9-5
9-1.
PROBLEMAS
Se estudian los efectos de la fuerza del revelador (A) Yel tiempo de revelado (B) sobre la densidad de la pelcula de placa fotogrfica. Se usan tres fuerzas y tres tiempos, y se corren cuatro rplicas de un experimento factorial 32 Los datos de este experimento se presentan a continuacin. Analizar los datos utilizando los mtodos estndares para experimentos factoriales. Tiempo de revelado (minutos) Fuerza del revelador 1 2 3 10 14 2 4 1 4 3 2 8 7 10 7 2 4 9 8 12 9 18
O 5 4
7 7 8
5 6
10
6 5
10 7
6
7 10 8
5
10 8
9-2. 9-3.
Calcular los componentes 1 y J de la interaccin de dos factores del problema 9-1. Se llev a cabo un experimento para estudiar el efecto de tres tipos diferentes de botellas de 32 onzas (A) y tres tipos diferentes de aparadores de venta (B) -anaqueles permanentes lisos, aparadores al final del pasillo con anaqueles emejados y refrigeradores para refrescos- sobre el tiempo que toma acomodar diez cajas de 12 botellas en los aparadores. Se usaron tres empleados (factor C) en el experimento, y se corrieron dos rplicas de un diseo factorial 33 Los datos del tiempo observado se muestran en la tabla siguiente. Analizar los datos y sacar conclusiones.
"'l.
~n
388
CAPTULO 9
Empleado 1
Tipo de botella Plstico Vidrio de 28 mm Vidrio de 38 mm Plstico Vidrio de 28 mm Vidrio de 38 mm Plstico Vidrio de 28 mm Vidrio de 38 mm
Rplica II Rplica 1 Final del Final del pasillo Refrigerador Permanente Permanente pasillo Refrigerador 4.14 3.36 3.45 5.80 4.19 5.23 3.52 4.07 4.38 5.48 4.26 4.85 4.20 4.26 5.67 3.68 4.37 5.58 6.21 5.22 4.40 4.80 4.70 5.88 6.25 4.44 4.52 5.15 4.65 6.20 4.96 5.17 6.03 4.39 4.75 6.38 4.08 3.94 5.14 3.65 4.08 4.49 4.30 4.53 4.99 4.04 4.08 4.59 4.17 4.86 4.85 3.88 4.48 4.90
9-4.
Un investigador mdico estudia el efecto de la lidocana sobre el nivel de enzimas en el msculo cardiaco de perros beagle. En el experimento se usan tres marcas comerciales de lidocana (A), tres dosis (B) y tres perros (C), y se corren dos rplicas de un diseo factorial 33 Los niveles de enzimas observados se presentan a continuacin. Analizar los datos de este experimento. Rplica 1 Marca de lidocana 1 Fuerza de la dosis 1 2 3 1 2 3 1 2 3 Perro 1 96 94 101 85 95 108 84 95 105 2 84 99 106 84 98 114 83 97 100 3 85 98 98 86 97 109 81 93 106 1 84 95 105 80 93 110 83 92 102 Rplica II Perro 2 85 97 104 82 99 102 80 96 111 3 86 90 103 84 95 100 79 93 108
9-5. 9-6.
Calcular los componentes 1 y J de las interacciones de dos factores del ejemplo 10-1. Se realiza un experimento en un proceso qumico utilizando un diseo factorial 32 Los factores del diseo son la temperatura y la presin, y la variable de respuesta es el rendimiento. Los datos que resultan de este experimento se presentan a continuacin: Presin, psig Temperatura, oC 80 90 100 100 47.58, 48.77 51.86, 82.43 71.18, 92.77 120 64.97, 69.22 88.47, 84.23 96.57, 88.72 140 80.92, 72.60 93.95, 88.54 76.58, 83.04
a) Analizar los datos de este experimento conduciendo un anlisis de varianza. Qu conclusiones pueden
sacarse? b) Analizar grficamente los residuales. Hay algn motivo de preocupacin respecto de los supuestos subyacentes o de la adecuacin del modelo?
l ir l'
9-5 PROBLEMAS
389
e) Verificar que si se hace que los niveles bajo, intermedio y alto de ambos factores de este diseo asuman los niveles -1, OY + 1, entonces un ajuste de mnimos cuadrados de un modelo de segundo orden del rendimiento es
d)
Confirmar que el modelo del inciso e puede escribirse en trminos de las variables naturales -la temperatura (T) y la presin (P)- como
y= -1335.63+18.56T+8.59P- .nT 2 e)
.196p 2
.384TP
9-7.
9-8. 9-9.
9-10. 9-11.
9-12.
9-13.
9-14. 9-15. 9-16. 9-17. 9-18. 9-19. 9-20.
9-21.
9-22.
Construir una grfica de contorno del rendimiento como una funcin de la presin y la temperatura. Con base en el examen de esta grfica, dnde se recomendara operar este proceso? a) Confundir un diseo 33 en tres bloques utilizando el componenteABC2 de la interaccin de tres factores. Comparar los resultados obtenidos con el diseo de la figura 9-7. b) Confundir un diseo 33 en tres bloques utilizando el componenteAB2C de la interaccin de tres factores. Comparar los resultados con el diseo de la figura 9-7. e) Confundir un diseo 33 en tres bloques utilizando el componenteABC de la interaccin de tres factores. Comparar los resultados obtenidos con el diseo de la figura 9-7. d) Despus de observar los diseos de los incisos a, b y e y la figura 9-7, qu conclusiones pueden sacarse? Confundir un diseo 34 en tres bloques utilizando el componenteAB2CD de la interaccin de cuatro factores. Considere los datos de la primera rplica del problema 9-3. Suponiendo que no fue posible hacer las 27 observaciones el mismo da, establecer un diseo para conducir el experimento en tres das conAB2C confundida con los bloques. Analizar los datos. Delinear la tabla del anlisis de varianza del diseo 34 en nueve bloques. Se trata de un diseo prctico? Considere los datos del problema 9-3. SiABC est confundida en la rplica 1 y ABC2 est confundida en la rplica II, realizar el anlisis de varianza. Considere los datos de la rplica 1 del problema 9-3. Suponga que slo se corre una fraccin un tercio de este diseo con l = ABe. Construir el diseo, determinar la estructura de los alias y analizar los datos. Por el examen de la figura 9-9, qu tipo de diseo quedara si despus de completar las nueve primeras corridas pudiera eliminarse uno de los tres factores? Construir un diseo 3i;;1 con l = ABCD. Escribir la estructura de los alias de este diseo. Verificar que el diseo del problema 9-14 es un diseo de resolucin IV Construir un diseo 35- 2 conl =ABC el = CDE. Escribir la estructura de los alias de este diseo. Cul es la resolucin de este diseo? Construir un diseo 39- 6 y verificar que es un diseo de resolucin III. Construir un diseo 4 x 23 confundido en dos bloques con16 observaciones cada uno. Delinear el anlisis de varianza de este diseo. Delinear la tabla del anlisis de varianza de un diseo factorial 2232 Comentar la manera en que este diseo puede confundirse en bloques. Empezando con un diseo 24 de 16 corridas, indicar cmo pueden incorporarse dos factores de tres niveles en este experimento. Cuntos factores de dos niveles pueden incluirse si se quiere cierta informacin sobre las interacciones de dos factores? Empezando con un diseo 24 de 16 corridas, indicar cmo pueden incorporarse un factor con tres niveles y tres factores con dos niveles, de tal modo que siga siendo posible la estimacin de las interacciones de dos factores. En el problema 8-26 el lector conoci a Harry y Judy Peterson-Nedry, dos amigos del autor que son propietarios de un viedo y una fbrica vincola en Newberg, Oregon. En ese problema se describi la aplicacin de diseos factoriales fraccionados de dos niveles en su producto Pinot Noir 1985. En 1987 quisieron conducir otro experimento Pinot Noir. Las variables de este experimento fueron
~'
1
390
CAPTULO 9
Harry y Judy decidieron usar un diseo factorial fraccionado de dos niveles con 16 corridas, tratando los cuatro niveles de la temperatura de fermentacin como dos variables de dos niveles. Como en el problema 8-26, utilizaron las calificaciones de un panel de catadores como variable de respuesta. El diseo y las calificaciones promedio resultantes se presentan enseguida: Corrida Clan
q"1.1iI1
Tamao de la uva
Tipo de levadura
Tipo de roble
Calificacin promedio 4 10 6 9 11 1 15 5 12 2 16 3 8 14 7 13
{""l'~
ni"
'
;::~,:
''''',
~:''':::
..
"
,::.::::1
.~~::~~'
'''~''''''
Sil
.
~.
111
"~I
::~.
li":l
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
+ + + + + + + +
+ + + + + + + +
+ + + +
+ + + + + + + + + + + + + +
+ + + + + + + +
+ + + + + + + +
+ + + + + + + +
+ + + +
+ +
9-23.
a) Describir los alias de este diseo. b) Analizar los datos y sacar conclusiones. e) Qu comparaciones pueden hacerse entre este experimento y el experimento del Pinot Noir 1985 del problema 8-26? En un artculo de WD. Baten publicado en el volumen de 1956 de Industlial Quality Contl'Ol se describe un experimento para estudiar el efecto de tres factores sobre la longitud de unas barras de acero. Cada barra se someti a uno de dos procesos de tratamiento trmico y se cort en una de cuatro mquinas en una de tres horas durante el da (8 a.m., 11 a.m. o 3 p.m.). Los datos de la longitud codificada son los siguientes:
Mquina 1 6 1 4 9 3 6 1 2 3 9 5 5 4 1 4 2 4 6 7 4 5 6 3 5 4
Hora del da
7 5
6 3
O
-1
8 a.m.
O
1
.,
9-5 PROBLEMAS
391
Hora del da
Mquina
1
6
2
3 -1 8 4
6
3 7 8
4 3
1
11 a.m.
1
3 1 5 9
6 3
2 1
1 -2
4 6
1 10
6
11 4 7
3 p.m.
O
7
8 10
2 O 2 O -1 1 -1 2 6 1 O -2 4 -4
3 1
7 11
9 6 10 4
4 7
9 6
4 3
5 8 3
a) Analizar los datos de este experimento suponiendo que las cuatro observaciones de cada celda son rplicas. b) Analizar los residuales de este experimento. Existe algn indicio de que hay un punto atpico en una de las celdas? Si se encuentra un punto atpico, eliminarlo y repetir el anlisis del inciso a. A qu conclusiones se llega? e) Suponga que las observaciones de las celdas son las longitudes (codificadas) de barras que se procesaron conjuntamente en el tratamiento trmico y despus se cortaron secuencialmente (es decir, en orden) en las cuatro mquinas. Analizar los datos y determinar los efectos de los tres factores sobre la longitud promedio. d) Calcular la varianza logartmica de las observaciones de cada celda. Analizar esta respuesta. Qu conclusiones pueden sacarse? e) Suponga que la hora en que se corta una barra en realidad no puede controlarse durante la produccin rutinaria. Analizar la longitud promedio y la varianza logartmica de la longitud de cada una de las 12 barras cortadas en cada combinacin mquina/proceso de tratamiento trmico. Qu conclusiones pueden sacarse?
10~1
INTRODUCCIN
En muchos problemas hay dos o ms variables relacionadas, y el inters se centra en modelar y explorar esta relacin. Por ejemplo, en un proceso qumico el rendimiento del producto est relacionado con la temperatura de operacin. Quiz el ingeniero qumico quiera construir un modelo que relacione el rendimiento con la temperatura para usarlo despus como herramienta de prediccin o bien de optimizacin o control del proceso. En general, suponga que hay una sola variable dependiente o de respuesta y que depende de k variables independientes o regresores, por ejemplo, Xl' X 2, , X k La relacin que existe entre estas variables se caracteriza por un modelo matemtico llamado modelo de regresin. Dicho modelo se ajusta a un conjunto de datos muestrales. En ocasiones el experimentador conoce la forma exacta de la verdadera relacin funcional entreyyx x 2, .. ,Xk , por ejemplo y = r/J(X I ,X2, ,xk ). Sin embargo, en la mayora de los casos no se conoce la verdadera relacin funcional, y el experimentador elige una funcin apropiada para aproximar r/J. Los modelos polinomiales de orden inferior son de uso generalizado como funciones de aproximacin. Existe una fuerte relacin recproca entre el diseo de experimentos y el anlisis de regresin. A lo largo de este libro se ha destacado la importancia de expresar cuantitativamente los resultados de un experimento, en trminos del modelo emprico, a fin de facilitar su comprensin, interpretacin e implementacin. Los modelos de regresin constituyen la base para conseguirlo. Se ha presentado en mltiples ocasiones el modelo de regresin que representaba los resultados de un experimento. En este captulo se presentan algunos aspectos del ajuste de estos modelos. Presentaciones ms completas de la regresin se encuentran en Montgomery y Peck [82] y Myers [84]. Los mtodos de regresin se utilizan con frecuencia para analizar datos de experimentos no planeados, como podra ser el caso de la observacin de fenmenos no controlados o de registros histricos. Los mtodos de regresin tambin son muy tiles en experimentos diseados cuando algo "sali mal". En este captulo se ilustran algunas de estas situaciones.
392
393
10-2
La atencin se centrar en el ajuste de modelos de regresin lineal. Para ilustrar, suponga que quiere desarrollarse un modelo emprico que relacione la viscosidad de un polmero con la temperatura y la velocidad de alimentacin del catalizador. Un modelo que podra describir esta relacin es
(10-1)
donde y representa la viscosidad, Xl la temperatura y X 2 la velocidad de alimentacin del catalizador. Se trata de un modelo de regresin lineal mltiple con dos variables independientes. Es comn llamar a las variables independientes variables predictoras o regresores (variables de regresin). Se utiliza el trmino lineal porque la ecuacin 10-1 es una funcin lineal de los parmetros desconocidos /30' /31 y /32' El modelo describe un plano en el espacio bidimensional Xl' X 2. El parmetro /30 define la interseccin del plano con el eje de las ordenadas. En ocasiones /31 y /32 se denominan los coeficientes de regresin parcial, porque (31 mide el cambio esperado en y para cada cambio unitario de Xl cuando X 2 se mantiene constante, y /32 mide el cambio esperado en y para cada cambio unitario de X 2 cuando Xl se mantiene constante. En general, la variable de respuesta y puede relacionarse con k regresares. Al modelo
(10-2)
se le llama modelo de regresin lineal mltiple con k regresares. A los parmetros /3j,j = O, 1, ..., k se les llama los coeficientes de regresin. Este modelo describe un hiperplano en el espacio de k dimensiones de los regresares {xj }. El parmetro /3j representa el cambio esperado en la respuesta y para un cambio unitario en xj cuando las variables independientes restantes Xi (i :t:- j) se mantienen constantes. Con frecuencia los modelos cuya apariencia es ms compleja que la ecuacin 10-2 pueden tambin analizarse mediante tcnicas de regresin lineal mltiple. Por ejemplo, considere la incorporacin de un trmino de interaccin en el modelo de primer orden en dos variables, por ejemplo
(10-3)
Si se hace
X3
(10-4)
que es un modelo de regresin lineal mltiple estndar con tres regresares. Recuerde que en algunos ejemplos de los captulos 6, 7 Y8 se presentaron varios modelos empricos similares a las ecuaciones 10-2 y 10-4 para expresar cuantitativamente los resultados de un diseo factorial de dos niveles. Como otro ejemplo, considere el modelo de superficie de respuesta de segundo orden en dos variables:
y=
(10-5)
Si se hacex3= x; 'X4 = x~ ,Xs =X1X 2,/33 = /3u,/34 = /322Y/3s = /312' entonces esta expresin queda como
(10-6)
que es un modeio de regresin lineal. Este modelo se ha visto tambin en ejemplos anteriores de este libro. En general, cualquier modelo de regresin que es lineal en los parmetros (los valores /3) es un modelo de regresin lineal, independientemente de la forma de la superficie de respuesta que genera. En este captulo se resumirn los mtodos para estimar los parmetros de los modelos de regresin lineal mltiple. A este procedimiento suele llamrsele el ajuste del modelo. Se analizarn tambin los mtodos para probar hiptesis y para construir intervalos de confianza para estos modelos, as como para
394
verificar la adecuacin del ajuste del modelo. La atencin se centra en los aspectos del anlisis de regresin que son tiles en los experimentos diseados. Para presentaciones ms completas de la regresin, referirse a Montgomery y Peck [82] y Myers [84].
10~3
El mtodo de mnimos cuadrados se usa de manera tpica para estimar los coeficientes de regresin de un modelo de regresin lineal mltiple. Suponga que se cuenta con n > k observaciones de la variable de respuesta, por ejemplo, YI, Yz, ... ,Yn- Junto con cada respuesta observaday se tendr una observacin de cada uno de los regresares, y sea quexij denote la observacin o nivel i-simo de la variablexj . Los datos aparecern como en la tabla 10-1. Se supone que el trmino del error e del modelo tiene E( e) = OYV( e) = ,j2 y que las {e} son variables aleatorias no correlacionadas. La ecuacin del modelo (ecuacin 10-2) puede escribirse en trminos de las observaciones de la tabla 10-1 como
Y
:II..
(10-7)
i=1,2, ...,n
=f3o+Lf3jXij+e
j=l
iJ
..."
''''1
ji"
El mtodo de mnimos cuadrados consiste en elegir las f3 de la ecuacin 10-7 de tal modo que la suma de cuadrados de los errores, e, se minimice. La funcin de mnimos cuadrados es
,,'
'H
"U
L=! e~
=l
(10-8)
La funcin L debe minimizarse con respecto a f3o, f31, ejemplo ~o' ~1' ... , ~k' deben satisfacer
y
(10-%)
Tabla 10-1
y
YI Y2
X2 X12
X 22
Xk Xlk X 2k
X 21
YtI
XIII
X Il2
X llk
395
n~o +~I~
;=1
Xil
+~2~ X2
;=1
n
+ ... +~kL
i=1
Xk
i=1
+ ~2
L
;=1
X il X i2
+ ... + ~ k
L
;=1
XilX ik
L
;=1
XilY
(10-10)
Estas ecuaciones se denominan ecuaciones normales de mnimos cuadrados. Observe que hay p = k + 1 ecuaciones normales, una para cada uno de los coeficientes de regresin desconocidos. La solucin de las ecuaciones normales sern los estimadores de mnimos cuadrados de los coeficientes de regresin
y=
donde
YI Y2 ]
Xp + e
. [11
ll
2I
12 22
",x
.. , X
Ik ] 2k
y= [
;n '
y
X= . : . :. :
: . '
1 x nI x n2
x nk
En general, y es un vector (n X 1) de las observaciones, X es una matriz (n X p) de los niveles de las variables independientes, p es un vector (p xl) de los coeficientes de regresin, ye es un vector (n Xl) de los errores aleatorios. Quiere encontrarse el vector de los estimadores de mnimos cuadrado~, jJ, que minimice
L=
~
;=1
s; =e'e=(y-Xp)'(y-xP)
(10-11)
= y'y- 2P'X'y+P'X'XP
ya quep'X'y es una matriz (1 x 1), o un escalar, y su transpuesta (/J'X'y)' estimadores de mnimos cuadrados deben satisfacer
396
ap 3
cuya simplificacin es
X'xjJ= X'y (10-12) La ecuacin 10-12 es la forma matricial de las ecuaciones normales de mnimos cuadrados. Es idntica a la ecuacin 10-10. Para resolver las ecuaciones normales, ambos miembros de la ecuacin 10-12 se multiplican por la inversa de X'X. Por lo tanto, el estimador de mnimos cuadrados de p es (X'Xr I X'y (10-13)
p=
Es sencillo ver que la forma matricial de las ecuaciones normales es idntica a la forma escalar. Al desarrollar en detalle la ecuacin 10-12, se obtiene
n
n
n
L
;=1
Xil
L 2:
;=1
Xil
Xi;
i=l
L L
i=1
X i2
X il X i2
i=1
L L
i=1
X ik
{Jo
X iI X ik
{JI
;=1
L = L
;=1
XilY
;=1
L
;=1
Xk
L
;=1
XikX il
L
i=1
X ik X i2
L
i=1
X ik {Jk
L
;=1
XikY
::;1'
I"H
;:
:.1
Si se efecta la multiplicacin matricial indicada, se obtendr la forma escalar de las ecuaciones normales (es decir, la ecuacin 10-10). En esta forma es sencillo ver que X'X es una matriz simtrica (p X p) y que X'y es un vector columna (p X 1). Observe la estructura especial de la matriz X'X. Los elementos de la diagonal de X'X son las sumas de cuadrados de los elementos de las columnas de X, y los elementos que no estn en la diagonal son las sumas de los productos cruzados de los elementos de las columnas de X. Adems, observe que los elementos de X/y son las sumas de los productos cruzados de las columnas de X y las observaciones {y}. El modelo de regresin ajustado es (10-14) y= xjJ En notacin escalar, el modelo ajustado es
Ji
= {Jo + L
;=1
{JjXij
i = 1, 2, .oo, n
Ji
ei
La diferencia entre la observacin real Yi y el valor ajustado correspondiente = Yi - Ji' El vector (n X 1) de los residuales se denota por
e
=y - y
Estimacin de a2
Por lo general tambin es necesario estimar rT. Para desarrollar un estimador de este parmetro, considere la suma de cuadrados de los residuales, por ejemplo SSE
I =I
(Yi - Ji )2
i=1
e2
;=1
= e'e
397
Al sustituir e = y - y = y -
Xp, se tiene
SS E
= (y - xjJ)(y - xjJ)
= y'y- P'X'y
(10-16)
A la ecuacin 10-16 se le llama la suma de cuadrados residual o del error, y tiene n - p grados de libertad asociados con ella. Puede demostrarse que
SSE
n-p
(10-17)
Propiedades de los estimadores El mtodo de mnimos cuadrados produce un estimador insesgado del parmetro p del modelo de regresin lineal. Esto puede demostrarse fcilmente tomando el valor esperado de de la siguiente manera:
=p
ya que E(s) = O Y (X'xtIX'X = l. Por lo tanto, es un estimador insesgado de p. La propiedad de la varianza de se expresa en la matriz de covarianza:
(10-18)
que es una matriz simtrica cuyo elemento i-simo de la diagonal principal es la varianza del coeficiente de regresip individual Ycuyo elemento (ij)-simo es la covarianza entre Y j La matriz de covarianza de p es
Pi'
Pi p
(10-19)
MI'I,' 'I!
398
Tabla 10-2 Datos de la viscosidad del ejemplo 10-1 (viscosidad en centistokes @ 100C) Temperatura Velocidad de alimentacin del catalizador (x z, lb/h) Viscosidad (Xl' oC) Observacin 8 2256 1 80 9 2340 2 93 10 2426 3 100 12 2293 4 82 11 2330 5 90 8 2368 6 99 8 2250 7 81 10 2409 8 96 12 2364 9 94 11 2379 10 93 11 97 13 2440 12 95 11 2364 13 100 8 2404 12 2317 14 85 15 86 9 2309 12 2328 16 87
11Ih"
::II~:
'rll,,-' 111""-
'ji"'
"'''41
''':j'
:~::
,,'
::::lr ';1'
"11
:!'
1 80 8 1 93 9 1 100 10 1 82 12 1 90 11 1 99 8 1 81 8 1 96 10 X= 1 94 12 1 93 11 1 97 13 1 95 11 1 100 8 1 85 12 1 86 9 1 87 12
La matriz X'X es
2256 2340 2426 2293 2330 2368 2250 2409 y= 2364 2379 2440 2364 2404 2317 2309 2328
x'x~H
1 93 9
1 87 12
80 93 87
l~j
399
=[1458
164
16
y el vector X'y es
1 [2256] 87] 12 2328
2~40
= 3,429,550
[ 385,562
La estimacin de mnimos cuadrados de P es
37,577]
lJ =
r
=[
14.176004 -0.129746 -0.223453 ][ 37,577] -0.129746 1.429184x10- 3 -4.763947x10- 5 3,429,550 385,562 2.222381x10- 2 -0.223453 -4.763947x10- 5 1566.07777] 7.62129 8.58485
El ajuste de mnimos cuadrados, con los coeficientes de regresin expresados con dos cifras decimales, es
Tabla 10-3 Valores predichos, residuales y otros diagnsticos del ejemplo 10-1 Observacin Valor predicho Residual i e hu Yi Ji 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2256 2340 2426 2293 2330 2368 . 2250 2409 2364 2379 2440 2364 2404 2317 2309 2328 2244.5 2352.1 2414.1 2294.0 2346.4 2389.3 2252.1 2383.6 2385.5 2369.3 2416.9 2384.5 2396.9 2316.9 2298.8 2332.1 11.5 -12.1 11.9 -1.0 -16.4 -21.3 -2.1 25.4 -21.5 9.7 23.1 -20.5 7.1 0.1 10.2 -4.1 0.350 0.102 0.177 0.251 0.077 0.265 0.319 0.098 0.142 0.080 0.278 0.096 0.289 0.185 0.134 0.156
Residual studentizado 0.87 -0.78 0.80 -0.07 -1.05 -1.52 -0.15 1.64 -1.42 0.62 1.66 -1.32 0.52 0.01 0.67 -0.28
Di
0.137 0.023 0.046 0.001 0.030 0.277 0.004 0.097 0.111 0.011 0.354 0.062 0.036 0.000 0.023 0.005
R-student 0.87 -0.77 0.79 -0.07 -1.05 -1.61 -0.15 1.76 -1.48 0.60 1.80 -1.36 0.50 <0.01 0.66 -0.27
~
'j
i
400
99 _ 95
390
'o" 80 e
ro
c.
70
5 50 e
e5
10
ll..
:B ro
~ 30
20
::1I;
'd t1
En las tres primeras columnas de la tabla 10-3 se presentan las observaciones reales Yi' los valores predichos o ajustados Yi y los residuales. La figura 10-1 es una grfica de probabilidad normal de los residuales. Las grficas de los residuales contra los valores predichos Ji y contra las dos variables Xl y X 2 se muestran en las figuras 10-2, 10-3 Y10-4, respectivamente. Como en los experimentos diseados, la graficacin de los residuales forma parte integral de la construccin de modelos de regresin. Estas grficas indican que en la varianza de la viscosidad observada existe una tendencia a incrementarse con la magnitud de la viscosidad. La figura 10-3 sugiere que la variabilidad de la viscosidad aumenta cuando se incrementa la temperatura.
25.43
-'
+1
1-
+
-
17.61 9.79 -
+ +
ro '" ;;;
"C
'ji
Ul
1.97 -
cr:
'"
-5.85 -13.68 -
+ + + +
-21.50
-,
2244
,
2302
1ft
2388
,2417
2273
2331
2359
Figura 10-2 Grfica de los residuales contra la viscosidad predicha, ejemplo 10-1.
401
P
f-
+1 +
+ + +
f-
'" ro
Ql
+
1.97 f-
.~
'O
"
a:
++
-5.85 f-
+ + + + 1
83.3
I
+ 1
96.7
-13.68
f-
-21.50 h 80.0
1+
93.3
+ 1100.0
86.7
x"
90.0
temperatura
Uso de la computadora El ajuste de los modelos de regresin casi siempre se hace por medio de un paquete de software de estadstica. En la tabla 10-4 se muestra la salida obtenida cuando se usa el programa Minitab para ajustar el modelo de regresin de la viscosidad del ejemplo 10-1. Muchas de las cantidades de esta salida debern ser familiares, ya. que sus significados son similares a las cantidades de las salidas de computadora para el anlisis de datos de experimentos diseados. Se han visto ya muchas salidas de computadora como sta en este libro. En secciones subsecuentes se revisar en detalle el anlisis de varianza y la informacin de la prueba t de la tabla 10-4 y se indicar de manera pormenorizada cmo se calcularon estas cantidades.
25.43 17.61
1-1
f-
1-
9.79
f-
" .;
'O
Ql
ro
'"
Ql
+
1.97
f-
el:
+
-5.85 f-
:\:
+ + + +
-13.68 f-21.50
f-t
8.00
+1
1-
10.50 11.33 12.17 13.00 8.83 9.67 x2' velocidad de alimentacin del catalizador
Figura 104 Grfica de los residuales contra X 2 (velocidad de alimentacin), ejemplo 10-1.
402
Tabla 10-4
CAPTULO 10
Anlisis de regresin
The regress;on equat;on ;s V;scos;ty = 1566 + 7.62 Temp + 8.58 Feed Rate Pred;ctor Constant Temp Feed Rat
S = 16.36
R-Sq = 92.7%
R-Sq<adj) = 91 .6%
Analys;s of Var;ance Source Regress;on Res;dual Error Total Source Temp Feed Rat DF 1 1 DF 2 13 15 Seq SS 40841 3316 SS 44157 3479 47636 MS 22079 268
F P
82.50
0.000
57
68
36
I
I
32
""
I .... ,," 57
46
Variables del proceso Corrida Temperatura (OC) Presin (psigi Concentracin (gil)
x,
-1 1 -1 1 -1 1 -1 1 O O O O
x,
-1 -1 1 1 -1 -1 1 1 O O O O
x,
-1 -1 -1 -1 1 1 1 1 O O O O
y 32 46 57 65 36 48 57 68 50 44 53 56
1 2 3 4 5 6 7 8 9 10 11 12
120 160 120 160 120 160 120 160 140 140 140 140
40 40 80 80 40 40 80 80 60 60 60 60
x,=
x,=
Concentracin- 225
7.5
403
Se ha usado con frecuencia un modelo de regresin para presentar los resultados de un experimento diseado en una forma cuantitativa. Se ofrece ahora un ejemplo completo donde se indica cmo se hace esto. Se presentan enseguida otros tres ejemplos breves que ilustran otras aplicaciones tiles del anlisis de regresin en los experimentos diseados.
EJEMPLO 10-2
. Anlisis de regresin de un diseo factorial 23 Un ingeniero qumico est investigando el rendimiento de un proceso. Tres de las variables del proceso son de inters: la temperatura, la presin y la concentracin del catalizador. Cada variable puede correrse en un nivel bajo y uno alto, y el ingeniero decide correr un diseo 23 con cuatro puntos centrales. En la figura 10-5 se muestra el diseo y los rendimientos resultantes, donde se presentan tanto los niveles naturales del diseo como la notacin de variables codificadas + 1, -1 que se utiliza normalmente en los diseos factoriales 2k para representar los niveles de los factores. Suponga que el ingeniero decide ajustar un modelo que slo incluye los efectos principales, por ejemplo y=
Para este modelo, la matriz X y el vector y son 1 -1 -1-1 1 1 -1-1 1 -1 1-1 1 1 1-1 1 -1 -1 1 1 1 -1 1 X= 1 -1 1 1 1 1 1 1 1 O O O 1 O O O 1 O O O 1 O O O Es sencillo demostrar que
36
48 y= 57 68 50 44 53 56
12 O X'X- O 8 - [ O O O O
O O 8 O
O] O O 8
X'y=
612] [
Puesto que X'X es diagonal, el inverso que se requiere tambin es diagonal, y las estimaciones de mnimos cuadrados de los coeficientes de regresin son 1/12 O 45 [51.000] 5.625 O O O] [612] 1 (X'Xr X'y= ~ 1/ ~ 1/8 O 85 = 10.625 [ 9 1.125 O 1/8
p=
404
Como se ha hecho uso de ellos en muchas ocasiones, los coeficientes de regresin guardan una estrecha relacin con las estimaciones de los efectos que se obtendran por el anlisis usual de un diseo 23 Por ejemplo, el efecto de la temperatura es (referirse a la figura 10-5)
T=)ir -)ir
= 5.625
Es decir, el coeficiente de regresin es exactamente la mitad de la estimacin usual del efecto. Esto siempre se cumplir para un diseo 2k Como se seal antes, en los captulos 6 al 8 se emple este resultado para producir modelos de regresin, valores ajustados y residuales en varios experimentos de dos niveles. Este ejemplo demuestra que las estimaciones de los efectos de un diseo 2k son estimaciones de mnimos cuadrados.
.........................................................................
En el ejemplo 10-2 es sencillo obtener la matriz inversa porque X'X es diagonal. Intuitivamente, esto parece ofrecer ventajas, no slo porque los clculos se simplifican sino tambin porque los estimadores de todos los coeficientes de regresin no estn correlacionados, es decir, COV(~i' ~j) = O. Si los niveles de las variables X pueden elegirse antes de recabar los datos, quiz sea deseable disear el experimento de tal modo que resulte una X'X diagonal. En la prctica puede ser relativamente sencillo conseguir esto. Se sabe que los elementos de X'X que estn fuera de la diagonal son las sumas de los productos cruzados de las columnas en X. Por lo tanto, es necesario hacer que el producto interior de las columnas deX sean iguales a cero; es decir, estas columnas deben ser ortogonales. A los diseos experimentales que poseen esta propiedad para ajustar un modelo de regresin se les llama diseos ortogonales. En general, el diseo factorial 2k es un diseo ortogonal para ajustar el modelo de regresin lineal mltiple. Los mtodos de regresin son en extremo tiles cuando algo "sale mal" en un experimento diseado. Esto se ilustra en los dos ejemplos siguientes.
EJEMPLO
10~3
405
1 1 1 1 1 X= 1 1 1 1 1 1
-1 1 -1 1 -1 1 -1 O O O O
-1 -1 1 1 -1 -1 1 O O O O
-1 -1 -1 -1 1 1 1 O O O O
y=
32 46 57 65 36 48 57 50 44 53 56
X'X= -1
11 -1
[-1
y entonces
~~ =~ =:1
-1 -1 7
X'y=
r =~ j
-59
Z
jJ = (X'X) -1 X'y
9.61538X 10-z 1.92307 XlO- z 1.92307 XlO- z 1.92307x10-z 0.15385 2.88462 XlO- z = [ 1.92307 XlO- z 2.88462 x lO- z 0.15385 1.92307 XlO- z 2.88462x10- z 2.88462xlO- z 1.92307XlO- z ] [544] -23 2.88462xlO2.88462x10- z 17 0.15385 -59
[:~:;~]
1.25
)1= 51.25+ 5. 75x 1 +10.75x z +1.25x 3
Compare este modelo con el que se obtuvo en el ejemplo 10-2, donde se usaron las 12 observaciones. Los coeficientes de regresin son muy similares. Debido a la estrecha relacin entre los coeficientes de regresin y los efectos de los factores, las conclusiones no sufriran una alteracin sustancial por la observacin faltante. Sin embargo, observe que las estimaciones de los efectos han dejado de ser ortogonales, ya que (X'X) y su inversa ya no son diagonales.
e_e
EJEMPLO 1O~4
406
Tabla lO-S
Diseo experimental del ejemplo 10-4 Variables del proceso Concentracin Temperatura Presin (g/l) (psig) CC) Variables codificadas
X X2 X3
Corrida
Rendimiento y
1 2 3 4 5 6 7 8 9 10 11 12
125 158 121 160 118 163 122 165 140 140 140 140
41 40 82 80 39 40 80 83 60 60 60 60
-1.133 -1 -1 -1 1.14 1 1 1
O O O O
32 46 57 65 36 48 57 68 50 44 53 56
experimento diseado cuando el experimentador no ha podido obtener los niveles requeridos de los factores. Para ilustrar, el experimento de la tabla 10-5 presenta una variacin del diseo 23 del ejemplo 10-2, donde muchas de las combinaciones de prueba no son exactamente las que se especifican en el diseo. Las dificultades parecen haber ocurrido sobre todo con la variable temperatura. Se ajustar el modelo de los efectos principales
Y= f30 +f3x +f32 x 2 +f33 x 3+8
La matriz X y el vector y son 1 1 1 1 1 1 X= 1 1 1 1 1 1 -0.75 0.90 -0.95 1 -1.10 1.15 -0.90 1.25 O O O O -0.95 -1 1.1 1 -1.05 -1 1 1.15 O O O O -1.133 -1 -1 -1 1.4 1 1 1 O O O O 32 46 57 65 36 48 y= 57 68 . 50 44 53 56
Para estimar los parmetros del modelo se necesitan 12 0.60 0.25 0.2670] 0.31 -0.1403 X'X - 0.60 8.18 - [ 0.25 0.31 8.5375 -0.3437 0.2670 -0.1403 -0.3437 9.2437
Xy= 161.50
407
Entonces
El modelo de regresin ajustado, con los coeficientes reportados con dos cifras decimales, es
.........................................................................
.
EJEMPLO 10-5
408
dondex,x2,x3yx4son las variables codificadas que representan aA,B, Cy D. Utilizando el diseo de la tabla 8-3, la matriz X de este modelo es X X2 X3 X4 XX2
X~4
1 1 1 1 X== 1 1 1 1
-1 1 -1 1 -1 1 -1 1
-1 -1 1 1 -1 -1 1 1
-1 -1 -1 -1 1 1 1 1
-1 1 1 -1 1 -1 -1 1
1 -1 -1 1 1 -1 -1 1
1
-1
-1 1 1 -1 -1 1
donde se han anotado las variables arriba de las columnas a fin de facilitar la comprensin, Observe que la
columnaxx 2 es idntica a la columnax~4 (como se anticipaba, ya queAB oxx 2 es alias de CD OX~4)'
lo cual implica una dependencia lineal en las columnas de X. Por lo tanto, no pueden estimarse tanto (32 como (334 en el modelo. Sin embargo, suponga que se agrega la corrida nicax == -1,x2 == -1,x3 == -1 Yx 4 == 1 de la fraccin alterna a las ocho corridas originales. Entonces la matriz X del modelo queda como
::u:
"~;""I
IT.,,"-
,",,,,O'
x2
x3
x 4 X1X2
X~4
''''~, "':jl
!\~
~ll
:::lo
'H 1
1 1 1 1 X== 1 1 1 1 1
-1 1 -1 1 -1 1 -1 1 -1
-1 -1 1 1 -1 -1 1 1 -1
-1 -1 -1 -1 1 1 1 1 -1
-1 1 1 -1 1 -1 -1 1 1
1 -1 -1 1 1 -1 -1 1 1
1 -1 -1 1 1 -1 -1 1 -1
Observe que ahora las columnas xx2 YX~4 ya no son idnticas, y el modelo puede ajustarse incluyendo a las dos interaccionesxx2 (AE) y X~4 (CD). Las magnitudes de los coeficientes de regresin brindarn informacin respecto a cules son las interacciones importantes. Aun cuando al agregar una sola corrida se separarn los alias de las interaccionesAE y CD, este enfoque tiene una desventaja. Suponga que existe un efecto de tiempo (o un efecto de bloque) entre las ocho primeras corridas y la ltima corrida que se agreg arriba. Al agregarse una columna a la matriz X para los bloques, se obtiene lo siguiente:
X X2 X3 X4 XX2 X~4 bloques
1 1 1 1 X== 1 1 1 1 1
-1 1 -1 1 -1 1 -1 1 -1
-1 -1 1 1 -1 -1 1 1 -1
-1 -1 -1 -1 1 1 1 1 -1
-1 1 1 -1 1 -1 -1 1 1
1 -1 -1 1 1 -1 -1 1 1
1 -1 -1 1 1 -1 -1 1 -1
-1 -1 -1 -1 -1 -1 -1 -1 1
409
Se ha supuesto que el factor del bloque estaba en el nivel bajo o "-" durante las ocho primeras corridas, y en el nivel alto o "+" durante la novena corrida. Es sencillo ver que la suma de los productos cruzados de cada columna con la columna del bloque no es cero, lo cual significa que los bloques han dejado de ser ortogonales para los tratamientos, o que el efecto del bloque afecta ahora a las estimaciones de los coeficientes de regresin del modelo. Para conseguir la ortogonalidad de los bloques, debe agregarse un nmero par de corridas. Por ejemplo, con las cuatro corridas
X X2 X3 X4
-1 1 -1 1
-1 -1 1 1
-1 -1 1 1
1 -1 1 -1
se separarn los alias deAB de CD y permitirn que los bloques sean ortogonales (esto puede verse desarrollando la matriz X como se hizo anteriormente). En general, suele ser directo el examen de la matriz X del modelo reducido que se obtiene de un diseo factorial fraccionado, as como la determinacin de cules son las corridas que habrn de aumentarse en el diseo original para separar los alias de las interacciones de inters potencial. Adems, el impacto de las estrategias especficas para aumentar el diseo puede evaluarse utilizando los resultados generales de los modelos de regresin que se presentan ms adelante en este captulo. Se cuenta tambin con mtodos basados en computadora para construir diseos que pueden ser tiles en el aumento del diseo para separar los alias de los efectos. Estos diseos generados por computadora se revisarn en el captulo siguiente.
10..4
En los problemas de regresin lineal mltiple, ciertas pruebas de hiptesis acerca de los parmetros del modelo son una ayuda para medir la utilidad del modelo. En esta seccin se describen varios procedimientos de prueba de hiptesis importantes. Estos procedimientos requieren que los errores 8 i del modelo sigan una distribucin normal e independiente con media cero y varianza er, lo cual se abrevia 8 - NID(O, er). Como resultado de este supuesto, las observaciones Yi tienen una distribucin normal e independiente con media /30 + 2:.~=/3jX;j y varianza er.
10..4.1
La prueba de significacin de la regresin es un procedimiento para determinar si existe una relacin lineal entre la variable de respuesta y y un subconjunto de los regresores Xl' X 2, . , X k Las hiptesis apropiadas son
H o :/3 =/32 H : /3 j :;z!: O
= =/3k =0
para al menos una j
(10-20)
El rechazo deHode la ecuacin 10-20 implica que almenas uno de los regresoresx,x2, "Xk contribuye de manera significativa al modelo. El procedimiento de prueba incluye un anlisis de varianza en el que se
410
hace la particin de la suma de cuadrados total SS T en una suma de cuadrados debida al modelo (o a la re. gresin) y una suma de cuadrados debida a los residuales (o al error), es decir,
(10-21)
Ahora bien, si la hiptesis nula H o:31 == 132 == ... == 3k == Oes verdadera, entonces SSRkr se distribuye como X~, donde el nmero de grados de libertad parax2 es igual al nmero de regresores del modelo. Asimismo, puede demostrarse que SSE/cr se distribuye como X~-k-l y que SSE y SSR son independientes. El procedimiento de prueba para H O :31 == 132 == ... == 3k == O consiste en calcular SSR / k MS R Fo == SSE /(n-k-1) MS (10-22) E yen rechazar H o siFoexcede aFa ,k,lI-k-l' De manera alternativa, podra usarse el enfoque del valor Ppara la prueba de hiptesis y, por lo tanto, rechazar H o si el valor P del estadstico F o es menor que a. Por lo general la prueba se resume en una tabla del anlisis de varianza como la tabla 10-6. Es sencillo encontrar una frmula para calcular SSR' En la ecuacin 10-16 se estableci una frmula para calcular SSE; es decir,
l- (L;'=l Yi)2 / n ==
SS == /J'X'Y_
R
...:.:i,--,= 1=------,----
! (
Yi)2
n
(10-23)
(10-24)
Grados de libertad
le n-le -1
Cuadrado medio MS R MS E
SST
n- 1
411
SS
T
(I
Yi)2
(10-25)
Estos clculos casi siempre se realizan con software de regresin. Por ejemplo, en la tabla 10-4 se muestra una parte de la salida de Minitab para el modelo de regresin de la viscosidad del ejemplo lO-lo La seccin superior de esta presentacin es el anlisis de varianza del modelo. La prueba de significacin de la regresin en este ejemplo incluye las hiptesis
H O :/3 l H l : /3 j
= /3 2 = O
:j:.
El valor P de la tabla 10-4 para el estadstico F (ecuacin 10-22) es muy pequeo, por lo que se concluira que al menos una de las dos variables -la temperatura (Xl) y la velocidad de alimentacin (x z)- tiene un coeficiente de regresin diferente de cero. En la tabla 10-4 se presenta tambin el coeficiente de determinacin mltiple R 2, donde
R =-=1--
SSR SST
SSE SST
(10-26)
Como en los experimentos diseados, R 2 es una medida de la cantidad de reduccin en la variabilidad de y que se obtiene al utilizar las variables de regresin Xl' xz, ..., X k en el modelo. Sin embargo, como se seal antes, un valor grande de R 2 no implica necesariamente que el modelo de regresin sea adecuado. Siempre que se agregue una variable al modelo, R 2 se incrementar, independientemente de que la variable adicional sea estadsticamente significativa o no. Por lo tanto, es posible que los modelos que tienen valores grandes de R Z produzcan predicciones pobres de nuevas observaciones o estimaciones pobres de la respuesta media. Puesto que R 2 siempre se incrementa cuando se agregan trminos al modelo, algunos constructores de modelos de regresin prefieren usar el estadstico R 2 ajustada definido como
R2
aJustnda
(10-27)
En general, el estadstico R Z ajustada no siempre se incrementar cuando se agreguen variables al modelo. De hecho, si se agregan trminos innecesarios, el valor de R~ustndn se decrementar con frecuencia. Por ejemplo, considere el modelo de regresin de la viscosidad. La R 2 ajustada para el modelo se muestra en la tabla 10-4. Se calcula como
Z RajUstnda
= 1- (n-1) n- p (1- R 2 )
= 1- G~)(l- 0.92697)
= 0.915735
que est muy cerca de la R Z ordinaria. Cuando la diferencia entre R Z YR~ustnda es considerable, existe un buen riesgo de que se hayan incluido en el modelo trminos no significativos.
412
10~4.2
Muchas veces el inters se centra en probar hiptesis sobre los coeficientes de regresin individuales. Estas pruebas seran tiles para determinar el valor de cada uno de los regresares del modelo de regresin. Por ejemplo, el modelo podra ser ms eficaz con la inclusin de variables adicionales o quiz con la eliminacin de una o ms de las variables que estn ya en el modelo. Agregar una variable al modelo de regresin ocasiona siempre que la suma de cuadrados de regresin se incremente y que la suma de cuadrados del error se decremente. Es necesario decidir si el incremento de la suma de cuadrados de regresin es suficiente para garantizar el uso de la variable adicional en el modelo. Adems, agregar una variable no importante al modelo en realidad puede incrementar el cuadrado medio del error, reducindose as la utilidad del modelo. Las hiptesis para probar la significacin de cualquier coeficiente de regresin individual, por ejemplo f3j , son H o :f3j = O
H 1 :f3j:;i: O
,,"~O
Si H o:f3j = Ono se rechaza, entonces esto indica quexj puede eliminarse del modelo. El estadstico de prueba para esta hiptesis es
t
o
13 = r:;;z-c
J
(10-28)
VA
L-
jj
donde Cjj es el elemento de la diagonal de (X'xt1 correspondiente a 13 j' La hiptesis nula H o:f3j = Ose rechazasi ItoI > t a /2,n-k-l' Observe que se trata en realidad de una prueba parcial o marginal, ya que el coeficiente de regresin 13 j depende de todos los dems regresares Xi (i :;i: j) que estn en el modelo. .. , se le llama con frecuencia error estndar (se) del coeAl denominador de la ecuacin 10-28, ~a2 C ficiente de regresin f3 j' Es decir,
A
(10-29)
Por lo tanto, una manera equivalente de escribir el estadstico de prueba de la ecuacin 10-28 es
to =
13j
- A -
(10-30)
se(f3 j
La mayora de los programas de computadora de regresin proporcionan la prueba t para cada parmetro del modelo. Por ejemplo, considere la tabla 10-4, la cual contiene la salida de Minitab para el ejemplo 10-1. En la seccin superior de esta tabla se da la estimacin de mnimos cuadrados de cada parmetro, el error estndar, el estadstico t y el valor P correspondiente. Se concluira que ambas variables, la temperatura y la velocidad de alimentacin, contribuyen de manera significativa en el modelo. Tambin puede examinarse directamente la contribucin de una variable particular, por ejemploxj , a la suma de cuadrados de regresin, dado que otras Xi variables (i :;i: j) estn incluidas en el modelo. El procedimiento para hacer esto es la prueba general de la significacin de la regresin o, como se denomina con frecuencia, el mtodo de suma de cuadrados extra. Este procedimiento tambin puede usarse para investigar la contribucin de un subconjunto de los regresores al modelo. Considere el modelo de regresin con k regresores:
y= Xf3+e
i~
413
donde y es (n x l),Xes(n x p),pes(p x l),ees(n x l)yp =k+ 1. Querra determinarse si el subconjunto de regresares Xl' X 2, , X r (r < k) contribuye significativamente al modelo de regresin. Sea que se haga la particin del vector de los coeficientes de regresin de la siguiente manera:
P=
donde PI es (r x 1) y P2 es [(p - r)
X
[;:J
=O
O
(10-31 )
Hl:Pl :;t=
donde Xl representa las columnas de X asociadas con PI y X2 representa las columnas de X asociadas con po. P;ra el modelo completo (incluyendo tanto aPl como ap2) se sabe que /J = (X'xtlX'y. Adems, la suma de cuadrados de regresin para todas las variables incluyendo la ordenada al origen es
SSR (P) = /J'X'y
y
(p grados de libertad)
MS
E
= y'y-/JX'y
n- p
A SSR(/J) se le llama la suma de cuadrados de regresin debida ap. Para encontrar la contribucin de los trminos enPl a la regresin, se ajusta el modelo suponiendo que la hiptesis nulaHo:fJl = Oes verdadera. El modelo reducido se encuentra a partir de la ecuacin 10-32 con PI = O:
y = X 2P2 +e
(10-33)
(10-35)
Esta suma de cuadrados tiene r grados de libertad. Es la "suma de cuadrados extra" debida aPl' Observe que SSR(/JIIP2) es el incremento en la suma de cuadrados de regresin debido a la inclusin de las variables Xl' X 2 , ... , X r en el modelo. Ahora bien, SSR(/JIIP2) es independiente de MSE, y la hiptesis nulaPl = Opuede probarse con el estadstico
(10-36)
SiFo > Fa,r,n-p, se rechazaHo, y se concluye que al menos uno de los parmetros enPl es diferente de cero y, por consiguiente, al menos una de las variablesxh x2, ""Xr en Xl contribuye significativamente al modelo de regresin. Algunos autores llaman a la prueba de la ecuacin 10-36 la prueba F parcial.
414
La pruebaF parcial es muy til. Puede usarse para medir la contribucin dexj como si fuera la ltima variable que se agreg al modelo, calculando
SSR(/3jl/3o, /31' ..., /3j-1' /3j+1' oo., /3k) ste es el incremento en la suma de cuadrados de regresin debido a que se agregaxj a un modelo que ya contiene ax1, oo., xj_1 ,xj + l' oo., xk. Observe que la prueba F parcial de una sola variable xj es equivalente a la prueba t de la ecuacin 10-28. Sin embargo, la prueba F parcial es un procedimiento ms general por cuanto puede medir el efecto de conjuntos de variables.
EJEMPLO 1O~6 ......... Considere los datos de la viscosidad del ejemplo 10-1. Suponga que se quiere investigar la contribucin de la variablex2 (velocidad de alimentacin) al modelo. Es decir, las hiptesis que quieren probarse son
y= 1652.3955+ 7. 6397x 1
y la suma de cuadrados de regresin para este modelo (con un grado de libertad) es
= SSR(/321/30'
MS E
(31)/1
3316.3/1 267.604
= 12.3926
Observe que en el denominador deFose usaMSE del modelo completo (tabla 10-4). Entonces, puesto que Fo.os, 1, 13 = 1.67, se rechazara H O:/32 = Oy se concluira quex2 (velocidad de alimentacin) contribuye significativamente al modelo.
415
Debido a que esta prueba F parcial incluye un solo regresor, es equivalente a la prueba t porque el cuadrado de una variable aleatoria t con v grados de libertad es una variable aleatoria F con 1 y v grados de libertad. Para ver esto, observe, por la tabla 10-4, que el estadstico t para H O :f32 = Odio como resultado t o == 3.5203 y que t~ = (3.5203? == 12.3925 = F o
10-5
Con frecuencia es necesario construir estimaciones de intervalos de confianza para los coeficientes de regresin {(3) y para otras cantidades de inters del modelo de regresin. El desarrollo de un procedimiento para obtener estos intervalos de confianza requiere suponer que los errores {s} tienen una distribucin normal e independiente con media cero yvarianzaaZ, el mismo supuesto que se estableci en la seccin sobre la prueba de hiptesis de la seccin 10-4.
10-5.1
. Puesto que el estimador de mnimos cuadrados jJ es una combinacin lineal de las observaciones, se sigue que jJ tiene una distribucin normal con vector medio Py matriz de covarianza aZ(X'xtI Entonces cada uno de los estadsticos
~-f3
~O'2e
j= 0,1, ..., k
(10-37)
se distribuye como t con n - p grados de libertad, donde e es el elemento (jj)-simo de la matriz (X'xt\ y 0'2 es la estimacin de la varianza del error, obtenida con la ecuacin 10-17. Por lo tanto, un intervalo de confianza de 100(1-a) por ciento para el coeficiente de regresin f3, j == O, 1, ..., k, es
(10-38)
~j
ta/2.n_pse(~ j ) ~ f3 j ~ ~ j +ta/2.n_pse(~ j )
EJEMPLO 10-7
Se construir un intervalo de confianza de 95% para el parmetro f3I del ejemplo 10-1. Ahora bien, ~I 7.62129, y puesto que 0'2 = 267.604 yen == 1.429184 x 10-3, se encuentra que
~ 7.62129+2.16~(267.604)(1.429184XlO-3)
7.62129- 2.16(0.6184) ~ f3I y el intervalo de confianza de 95% para f3I es 6.2855 ~ f3I
~ ~
7.62129+ 2.16(0.6184)
8.9570
416
1O~5.2
Tambin puede obtenerse un intervalo de confianza para la respuesta media en un punto particular, por ejemplo, XOI' X 02 , , X Ok Se define primero el vector
Xo
x10l] = X 02
X Ok
) es Este estimador es insesgado, ya que E[5{x o)] = E(x~jJ) ~ x~p = Jl ylxo' Y la varianza de Y(xo V[y(x o )] = a2x~ (X'Xr I X o (10-40)
Por lo tanto, un intervalo de confianza de 100(1- a) por ciento para la respuesta media en el puntoxOl ,x02 , ... , XOk es
(10-41)
::1
')'
II
1O~6
Es posible usar un modelo de regresin para predecir observaciones futuras de la respuesta y que corresponden a valores particulares de los regresores, por ejemploxOl ,x02, ,XOk Si x'o = [1,X OI 'X02' ,XOk]' entonces una estimacin puntual de la observacin futura yo en el punto X OI , X 02 , . ,XOk se calcula con la ecuacin 10-39: Y(X O) = x~jJ Un intervalo de prediccin de 100(1-a) por ciento para esta observacin futura es Y(x o )- f al2 ,lI-p ~a2 (1 +x~ (X'XrIxo) S; Yo
S;
(10-42)
Cuando se predicen nuevas observaciones y se estima la respuesta media en un punto dadox ol ,x02 , , X Ok , es necesario tener cuidado para no hacer una extrapolacin fuera de la regin que contiene las observaciones originales. Es muy posible que un modelo que se ajuste bien en la regin de los datos originales deje de hacerlo fuera de esa regin.
1O~7
Como se destac en los experimentos diseados, la verificacin de la adecuacin del modelo es una parte importante en el procedimiento del anlisis de datos. Es de igual importancia en la construccin de modelos de regresin y, como se ilustr en el ejemplo 10-1, en un modelo de regresin debern examinarse
417
siempre las grficas de los residuales que se usaron en los experimentos diseados. En general, siempre es necesario: 1) examinar el modelo ajustado para asegurarse de que proporciona una aproximacin adecuada del verdadero sistema y 2) verificar que no se infringe ninguno de los supuestos de la regresin de mnimos cuadrados. El modelo de regresin probablemente producir resultados pobres o equivocados a menos que sea un ajuste adecuado. Adems de las grficas de los residuales, existen otros diagnsticos del modelo que con frecuencia son tiles en la regresin. En esta seccin se presenta un breve resumen de estos procedimientos. Para anlisis ms completos, ver Montgomery y Peck [82] y Myers [84].
1O~ 7.1
Residuales estandarizados y studentizados Muchos constructores de modelos prefieren trabajar con residuales escalados en lugar de los residuales de mnimos cuadrados ordinarios. Estos residuales escalados transmiten con frecuencia ms informacin que los residuales ordinarios. Un tipo de residual escalado es el residual estandarizado:
d.=2 fj
= 1, 2, ... ,12
(10-43)
donde por lo general se usa fj = ~ MS E en los clculos. Estos residuales estandarizados tienen media cero y varianza aproximadamente unitaria; por consiguiente, son muy tiles para buscar puntos atpicos. La mayora de los residuales estandarizados debern localizarse en el intervalo -3 :5 di :5 3, y cualquier observacin con un residual estandarizado que est fuera de este intervalo es potencialmente inusual con respecto a su respuesta observada. Estos puntos atpicos debern examinarse con atencin, ya que pueden representar algo tan simple como un error al registrar los datos o algo que sea motivo de mayor preocupacin, como una regin del espacio del regresor, donde el modelo ajustado es una aproximacin pobre de la verdadera superficie de respuesta. El proceso de estandarizacin de la ecuacin 10-43 escala los residuales al dividirlos por su desviacin estndar promedio aproximada. En algunos conjuntos de datos, los residuales pueden tener desviaciones estndar que difieren considerablemente. A continuacin se presenta una escalacin que toma en consideracin esta situacin. El vector de los valores ajustados )Ji que corresponden a los valores observados Yi es
y =xP
=X(X'X)- X'y
(10-44)
=Hy A la matriz 12 x 12, H = X(X'xt1X' se le llama generalmente la matriz "gorro" porque mapea el vector de los valores observados en un vector de los valores ajustados. La matriz gorro y sus propiedades desempean un papel central en el anlisis de regresin. Los residuales del modelo ajustado pueden escribirse convenientemente en la notacin matricial como e =y- y y resulta que la matriz de covarianza de los residuales es (10-45) Cov(e)= a 2 (I-H) La matriz 1 - H no es por lo general diagonal, por lo que los residuales tienen varianzas diferentes y estn correlacionados.
418
(10-46) donde hu es el elemento i-simo de la diagonal de H. Puesto que O ~ h ~ 1, al utilizar el cuadrado medio residual MSE para estimar la varianza de los residuales en realidad se est sobreestimando V( e). Adems, puesto que hu es una medida de localizacin del punto i-simo en el espacio x, la varianza de e depende de dnde est el punto Xi' En general, los residuales situados cerca del centro del espacio x tienen varianzas ms grandes que los residuales situados en lugares ms apartados. Las violaciones de los supuestos del modelo son ms probables en los puntos remotos, y estas violaciones pueden ser difciles de detectar por la inspeccin de e (o d) porque sus residuales sern por lo general ms pequeos. Se recomienda tomar en consideracin esta desigualdad de la varianza cuando se escalen los residuales. Se sugiere graficar los residuales studentizados:
r.
I
e ~(j2(1-hi)
i = 1, 2, ...,
11
(10-47)
con (j2 = MS E en lugar de e (o d). Los residuales studentizados tienen varianza constante V(r) = 1 independientemente de la localizacin de X cuando la forma del modelo es correcta. En muchas situaciones la varianza de los residuales se estabiliza, en particular para conjuntos de datos grandes. En estos casos puede haber poca diferencia entre los residuales estandarizados y los studentizados. Por lo tanto, los residuales estandarizados y studentizados transmiten con frecuencia informacin equivalente. Sin embargo, ya que cualquier punto con un residual grande y una hu grande tiene una influencia potencialmente considerable sobre el ajuste de mnimos cuadrados, suele recomendarse el examen de los residuales studentizados. En la tabla 10-3 se presentan las diagonales gorro hu Ylos residuales studentizados para el modelo de regresin de la viscosidad del ejemplo 10-1. Residuales PRESS La suma de cuadrados del error de prediccin (PRESS, del ingls Prediction Error Sum of Squares) proporciona una til escalacin de los residuales. Para calcular la PRESS se selecciona una observacin, por ejemplo la i. Se ajusta el modelo de regresin a las 11 - 1 observaciones restantes y se usa esta ecuacin para predecir la observacin que se apart Yi' Al denotar este valor predicho Y(i)' puede encontrarse el error de prediccin del punto i como e(i) = Y = Y(i)' Al error de prediccin suele llamrsele el residual PRESS i-simo. Este procedimiento se repite para cada observacin i = 1, 2, ... ,11, producindose un conjunto de 11 residuales PRESS e(l)' e(2)' oo., e(n)' Entonces el estadstico PRESS se define como la suma de cuadrados de los 11 residuales PRESS como en PRESS
i=l
e~) = !
[Yi - Y(i)]2
(10-48)
i=l
Por lo tanto, la PRESS utiliza cada subconjunto posible de 11 -1 observaciones como un conjunto de datos de estimacin, y se utiliza una observacin a la vez para formar un conjunto de datos de prediccin. Inicialmente, parecera que para calcular la PRESS es necesario ajustar 11 regresiones diferentes. Sin embargo, la PRESS puede calcularse a partir de los resultados de un solo ajuste de mnimos cuadrados a las 11 observaciones totales. Resulta que el residual PRESS i-simo es
e(i)
= 1- h..
11
(10-49)
Por lo tanto, ya que la PRESS es tan slo la suma de cuadrados de los residuales PRESS, una frmula de clculo simple es PRESS
! ( ~h )2
i=l
(10-50)
419
por la ecuacin 10-49 es sencillo ver que el residual PRESS es slo el residual ordinario ponderado de acuerdo con los elementos de la diagonal de la matriz gorro hu. Los puntos de los datos para los que hu es grande tendrn residuales PRESS grandes. Estas observaciones sern por lo general puntos de alta influencia. En general, una diferencia grande entre el residual ordinario y los residuales PRESS indicar un punto donde el modelo se ajusta bien a los datos, pero un modelo construido sin dicho punto producir predicciones pobres. En la siguiente seccin se estudiarn otras medidas de influencia. Por ltimo, cabe sealar que la PRESS puede usarse para calcular una R 2 aproximada de prediccin, por ejemplo ? . PRESS (10-51 ) RpredicciD = 1S
JY
Este estadstico ofrece cierto indicio de la capacidad predictiva del modelo de regresin. Para el modelo de regresin de la viscosidad del ejemplo 10-1, los residuales PRESS pueden calcularse utilizando los residuales ordinarios y el valor de hu encontrado en la tabla 10-3. El valor correspondiente del estadstico PRESS es PRESS = 5207.7. Entonces 2 PRESS RpredicciD = 1S
JY
= 1-
Por lo tanto, podra esperarse que este modelo "explique" cerca de 89% de la variabilidad al predecir nuevas observaciones, en comparacin con el aproximadamente 93% de la variabilidad en los datos originales que explica el ajuste de mnimos cuadrados. La capacidad predictiva global del modelo basado en este criterio parece ser muy satisfactoria.
R-student
Es comn considerar al residual studentizado T comentado antes como el diagnstico de un punto atpico. Se acostumbra usar MSE como una estimacin de cr en el clculo de T. Se hace referencia a este enfoque como la escalacin interna del residual, ya que MSE es una estimacin de cr generada internamente que se obtiene del ajuste del modelo a las n observaciones. Otro enfoque sera usar una estimacin de cr basada en un conjunto de datos en el que se elimina la observacin i-sima. La estimacin de cr as obteniPuede demostrarse que da se denota por S 2 (n- p)MSE _e2 /(l-h) S(i)= n-p-1 (10-52)
t).
La estimacin de cr de la ecuacin 10-52 se usa en lugar de MSE para producir un residual studentizado externamente, al que es comn llamar R-student, dado por
t.
1
e.
~sti) (1- h)
i = 1, 2, ..., n
(10-53)
En muchas situaciones habr una ligera diferencia entre t y el residual studentizado ri' Sin embargo, si la observacin i-sima es influyente, entonces S puede diferir significativamente de MSE, y por lo tanto la R-student ser ms sensible a este punto. Adems, bajo los supuestos usuales, ti tiene una distribucin tll - p - 1' Por lo tanto, la R-student ofrece un procedimiento ms formal para detectar puntos atpicos a travs de la prueba de hiptesis. En la tabla 10-3 se muestran los valores de laR-student para el modelo de regresin de la viscosidad del ejemplo 10-1. Ninguno de esos valores es inusualmente grande.
ti)
r
420
1O~7.2
CAPTULO 10 AJUSTE DE MODELOS DE REGRESIN
Diagnsticos de influencia
En ocasiones se encuentra que un subconjunto pequeo de los datos ejerce una influencia desproporcio_ nada sobre el modelo de regresin ajustado. Es decir, las estimaciones o predicciones de los parmetros pueden depender ms del subconjunto influyente que de la mayora de los datos. Sera conveniente localizar estos puntos influyentes y valorar su impacto en el modelo. Si estos puntos influyentes son valores "malos", debern eliminarse. Por otra parte, quiz no haya nada malo con estos puntos. Pero si controlan propiedades clave del modelo, sera deseable saberlo, ya que podra afectar el uso del modelo. En esta seccin se describen e ilustran algunas medidas tiles. de influencia.
Puntos de accin de palanca
La localizacin de los puntos en el espacio x es importante para determinar las propiedades del modelo. En particular, las observaciones apartadas tienen potencialmente acciones o brazos de palanca desproporcionados sobre las estimaciones de los parmetros, los valores predichos y los estadsticos de resumen usuales. La matriz gorro H :=: X(X'Xt1X' es muy til para identificar las observaciones influyentes. Como ya se seal, H determina las varianzas y covarianzas de y y e, ya que V(Y) :=: a2H y V( e) :=: a2(I - H). Los elementos hu de H pueden interpretarse como la cantidad de accin de palanca ejercida porYj sobre J. Por lo tanto, la inspeccin de los elementos de H puede .revelar puntos que son potencialmente influyentes en virtud de su localizacin en el espacio x. La atencin suele centrarse en los elementos de la diagonal h. Puesto que L;~l h:=: rango(H) :=: rango(X) :=: p, el tamao promedio de los elementos de la diagonal de la matriz H es pln. Como gua aproximada, entonces, si un elemento h de la diagonal es mayor que 2pln, la observacin i es un punto con accin de palanca alta. Para aplicar lo anterior al modelo de la viscosidad del ejemplo 10-1, observe que 2pln :=: 2(3)/16 :=: 0.375. En la tabla 10-3 se dan las diagonales gorro h para el modelo de primer orden; puesto que ninguna de las h excede 0.375, se concluira que no hay puntos de accin de palanca en estos datos.
Influencia sobre los coeficientes de regresin
Las diagonales gorro identificarn los puntos potencialmente influyentes debido a su localizacin en el espaciox. Es deseable considerar la localizacin del punto y la variable de respuesta cuando se mide la influencia. Cook [32a, b] ha sugerido el uso de una medida del cuadrado de la distancia entre la estimacin de mnimos cuadrado~, basada en todos los n puntos y la estimacin obtenida al eliminar el punto i, por ejemplo P(i)' Esta medida de la distancia puede expresarse como
D. :=: ,
(P u) - P)'X'x(jJU) - P)
pMS E
i :=: 1, 2,
OO"
(10-54)
Un valor de referencia razonable paraD es la unidad. Es decir, en general las observaciones para las que D > 1 se consideran influyentes. El estadstico D se calcula en realidad a partir de
D. :=: r/ V[Y(x )] , p V(e)
r/
h p (l-h)
i :=: 1, 2, .oo,
11
(10-55)
Observe que, aparte de la constante p, D es el producto del cuadrado del residual studentizado i-simo y hu/(l-h). Puede demostrarse que este cociente es la distancia del vector X al centroide de los datos restantes. Por lo tanto, D est compuesto por un componente que refleja la medida en que el modelo ajusta
421
la observacin i-simaYi y un componente que mide qu tan alejado est ese punto del resto de los datos. Cualquiera de los componentes (o ambos) puede contribuir a un valor grande de Di' En la tabla 10-3 se muestran los valores de Di para el ajuste del modelo de regresin a los datos de la viscosidad del ejemplo 10-1. Ninguno de estos valores de Di excede 1, por 10 que no hay evidencia slida de observaciones influyentes en estos datos.
10-8
En la seccin 6-6 se indic cmo agregar puntos centrales a un diseo factorial 2" le permite al experimentador obtener una estimacin del error experimental puro. Esto permite hacer la particin de la suma de cuadrados de los residuales SSE en dos componentes; es decir,
SSE
= SSpE +SSWF
donde SSPE es la suma de cuadrados debida al ~rror puro y SSLOF es la suma de cuadrados debida a la falta de ajuste. Puede presentarse un desarrollo general de esta particin en el contexto de un modelo de regresin. Suponga que se tienen ni observaciones de la respuesta en el nivel i-simo de los regresores Xi' i = 1, 2, ..., m. Sea queYij denota la observacinj-sima de1a respuesta en Xi' i = 1,2, ... ,m yj = 1,2, ..., ni' Hay n = 2:;':1 ni observaciones en total. El residual (ij)-simo puede escribirse como (lO-56) donde jii es el promedio de las ni observaciones en Xi' Al elevar al cuadrado ambos miembros de la ecuacin 10-56 y hacer la operacin suma sobre i y j se obtiene (10-57) El primer miembro de la ecuacin 10-57 es la suma de cuadrados de los residuales ordinaria. Los dos componentes del segundo miembro miden el error puro y la falta de ajuste. Se observa que la suma de cuadrados del error puro (10-58) se obtiene calculando la suma de cuadrados corregida de las observaciones repetidas en cada nivel de X y haciendo despus la agrupacin en los m niveles de x. Si se satisface el supuesto de la varianza constante, sta es una medida independiente del modelo del error puro, ya que para calcular SSPE slo se usa la variabilidad de las y en cada nivel Xi' Puesto que hay ni - 1 grados de libertad del error puro en cada nivel Xi' el nmero total de grados de libertad asociados con la suma de cuadrados del error puro es
~
i=l
(n-l)=n-m
(10-59)
=~
i=1
n(Yi -)Ji)2
(10-60)
422
es una suma ponderada de los cuadrados de las desviaciones entre la respuesta media Yi en cada nivel Xi y el valor ajustado correspondiente. Si los valores ajustados )Ji estn cerca de las respuestas promedio); correspondientes, entonces hay un fuerte indicio de que la funcin de regresin es lineal. Si lasvse desvan mucho de lasy, entonces es probable que la funcin de regresin no sea lineal. Hay m - p grajos de libertad asociados con SSLOF porque hay m niveles de x, y se pierden p grados de libertad porque deben estimarse p parmetros para el modelo. En lo que a los clculos se refiere, por lo general SSLOF se obtiene restando SSPE de SSE' El estadstico de prueba para la falta de ajuste es
F a-
(10-61)
de MSLOF es
(10-62) Si la verdadera funcin de regresin es lineal, entonces E(Yi ) = f3 a + 2:.J=If3 jXij' y el segundo trmino de la ecuacin 10-62 es cero, dando como resultado E(MSLOF) = er. Sin embargo, si la verdadera funcin de regresin no es lineal, entonces E(Yi ) :;t: f3 a + 2:.J=If3 jXij y E(MSLOF) > er. Adems, si la verdadera funcin de regresin es lineal, entonces el estadstico Fa sigue la distribucin Fm-p,n-m' Por lo tanto, para probar la falta de ajuste, se calculara el estadstico de prueba Fa y se concluira que la funcin de regresin no es lineal si Fa > Fa, m-p,n-m' Es sencillo incorporar este procedimiento de prueba en el anlisis de varianza. Si se concluye que la funcin de regresin no es lineal, entonces el modelo tentativo habr de abandonarse y debern hacerse intentos para encontrar una ecuacin ms apropiada. De manera alternativa, si Fa no excede Fa,m-p, n-m' no existe evidencia slida de falta de ajuste y MSPE y MSLOF se combinan con frecuencia para estimar er. El ejemplo 6-6 es una ilustracin muy completa de este procedimiento, donde las rplicas de las corridas son puntos centrales de un diseo factorial 22
10~9
PROBLEMAS
10-1. La resistencia a la tensin de un producto de papel se relaciona con la cantidad de madera dura en la pulpa. Se producen 10 muestras en la planta piloto y los datos obtenidos se presentan en la siguiente tabla. Resistencia 160 Porcentaje de madera dura
10
Resistencia
171
175 182
184
b)
15 15 20 20
181 188
193 195 200
20
25 25 28 30
a) Ajustar un modelo de regresin lineal que relacione la resistencia con el porcentaj e de madera dura. Probar el modelo del inciso a para la significacin de la regresin. e) Encontrar un intervalo de confianza de 95% para el parmetro {31' 10-2. En una planta se destila aire lquido para producir oxgeno, nitrgeno y argn. Se piensa que el porcentaje de impurezas en el oxgeno se relaciona linealmente con la cantidad de impurezas en el aire, medida por el
Il'rrnm
i
1
"
10-9 PROBLEMAS
423
"conteo de contaminacin" en partes por milln (ppm). Una muestra de los datos de operacin de la planta se presenta a continuacin:
a) Ajustar un modelo de regresin lineal a los datos. b) Probar la significacin de la regresin. e) Encontrar un intervalo de confianza de 95% para 13. Graficar los residuales del problema 10-1 y comentar la adecuacin del modelo. Graficar los residuales del problema 10-2 y comentar la adecuacin del modelo. Utilizando los resultados del problema 10-1, probar el modelo de regresin para la falta de ajuste. Se realiz un estudio sobre el desgaste y de un cojinete y su relacin conx = viscosidad del aceite y X 2 = carga. Se obtuvieron los siguientes datos: y 193 230 172 91 113 125
x
1.6 15.5 22.0 43.0 33.0 40.0
X2
a) Ajustar un modelo de regresin lineal mltiple a los datos. b) Probar la significacin de la regresin. e) Calcular el estadstico t para cada parmetro del modelo. Qu conclusiones pueden sacarse? 10-7. Se piensa que la potencia al freno desarrollada por el motor de un automvil en un dinammetro es una funcin de la rapidez del motor en revoluciones por minuto (rpm), el octanaje del combustible y la compresin del motor. Se llev a cabo un experimento en el laboratorio y los datos colectados fueron:
Potencia al freno 225 212 229 222 219 278 246 237 233 224 223 230
rpm 2000 1800 2400 1900 1600 2500 3000 3200 2800 3400 1800 2500
Octanaje 90 94 88 91 86 96 94 90 88 86 90 89
424
a) Ajustar un modelo de regresin mltiple a estos datos. b) Probar la significacin de la regresin. Qu conclusiones pueden sacarse? e) Con base en las pruebas t, son necesarios los tres regresares en el modelo? 10-8. Analizar los residuales del modelo de regresin del problema 10-7. Comentar la adecuacin del modelo. 10-9. El rendimiento de un proceso qumico se relaciona con la concentracin del reactivo y la temperatura de operacin. Se realiza un experimento con los siguientes resultados:
Rendimiento 81 89 83 91 79 87 84 90
a) Suponga que quiere ajustarse un modelo de los efectos principales a estos datos. Establecer la matriz X'X utilizando los datos exactamente como aparecen en la tabla. b) La matriz que se obtuvo en el inciso a es diagonal? Comentar la respuesta. e) Suponga que el modelo se escribe en trminos de las variables codificadas "usuales"
xI
x2
Temperatura -165 15
Establecer la matriz X'X para el modelo en trminos de estas variables codificadas. Esta matriz es diagonal? Comentar la respuesta. d) Definir un nuevo conjunto de variables codificadas
XI
= --------
X
2
=------''----------
Temperatura - 150 30
Establecer la matriz X'X para el modelo en trminos de este conjunto de variables codificadas. Esta matriz es diagonal? Comentar la respuesta. e) Resumir lo que se haya aprendido acerca de la codificacin de variables con este problema. 10-10. Considere el experimento factaria12 4 del ejemplo 6-2. Suponga que falta la ltima observacin. Volver a analizar los datos y sacar conclusiones. Cmo se comparan estas conclusiones con las del ejemplo original? 10-11. Considere el experimento factorial 24 del ejemplo 6-2. Suponga que faltan las dos ltimas observaciones. Volver a analizar los datos y sacar conclusiones. Cul es el resultado de la comparacin de estas conclusiones con las del ejemplo original? 10-12. Dados los datos siguientes, ajustar el modelo de regresin polinomial de segundo orden
10-9 PROBLEMAS
425
y
26 24 175 160 163 55 62 100 26 30 70 71
x
1.0 1.0 1.5 1.5 1.5 0.5 1.5 0.5 1.0 0.5 1.0 1.5
X2
1.0 1.0 4.0 4.0 4.0 2.0 2.0 3.0 1.5 1.5 2.5 2.5
Despus de que se haya ajustado el modelo, probar la significacin de la regresin. 10-13. a) Considere el modelo de regresin cuadrtico del problema 10-12. Calcular los estadsticos t de cada uno de los parmetros del modelo y comentar las conclusiones a que se llega a partir de estas cantidades. b) Usar el mtodo de la suma de cuadrados extra para evaluar el valor de los trminos cuadrticos X2, x~ y XX 2 del modelo. 10-14. Relacin entre el anlisis ae varianza y el anlisis de regresin. Cualquier modelo del anlisis de varianza puede expresarse en trminos del modelo lineal general y = xfJ + e, donde la matriz X se compone de ceros y unos. Demostrar que el modelo con un solo factor Yij = 1-1 + T + cij, i = 1,2, 3,j = 1,2,3,4 puede escribirse en la forma del modelo lineal general. Despus a) Escribir las ecuaciones normales (X'X)jJ = X'y y compararlas con las ecuaciones normales que se encontraron en el captulo 3 para este modelo. b) Encontrar el rango de X'X. Es posible obtener (X'X)-? e) Suponga ql1e se elimina la primera ecuacin normal y se agrega la restriccin ~;~ ni = o. Tiene solucin el sisterila de ecuaciones resultante? De ser as, encontrarla. Hallar la suma de cuadrados de regresin jJ'X'yy compararla con la suma de cuadrados de los tratamientos del modelo con un solo factor. 10-15. Suponga que se est haciendo el ajuste de una lnea recta y se desea hacerla varianza de /3 tan pequea como sea posible. Al trabajar con la restriccin de un nmero par de puntos experimentales, dnde debern colocarse estos puntos para minimizar V(/3)? (Nota: usar el diseo que se pide en este ejercicio con sumo cuidado, ya que, aun cuando minimiza V(/3), tiene propiedades indeseables; ver, por ejemplo, Myers y Montgomery [85a]. nicamente si se tiene una gran seglllidad de que la verdadera relacin funcional es lineal deber considerarse el uso de este diseo.) 10-16. Mnimos cuadrados ponderados. Suponga que se est ajustando la lnea recta Y = 130 + f3x + c, pero la varianza de las y depende ahora del nivel de x; es decir,
V(ylx.)=a 2 = 1 l
a?
donde las W son constantes desconocidas, llamadas con frecuencia ponderaciones. Demostrar que si se eligen las estimaciones de los coeficientes de regresin para minimizar la suma de cuadrados de los errores ponderados dada por. w(y - 130 - f3x )2, las ecuaciones normales de mnimos cuadrados resultantes son
1=1
~02: w+~2: wx =
i=l i=1
2: wY
;=1
=!
;=1
WXY
~'''1
426
CAPTULO 10
10-17. Considere el diseo 2i;:/ analizado en el ejemplo 10-5. a) Suponga que se opta por aumentar el diseo con la corrida nica seleccionada en ese ejemplo. Encontrar las varianzas y las covarianzas de los coeficientes de regresin del modelo (ignorando los bloques):
,
:11
"
~:J
+13 24X2X4 + e
e) Es posible separar los alias de estos efectos con menos de cuatro corridas adicionales?
11~1
La metodologa de superficies de respuesta, o MSR, es una coleccin de tcnicas matemticas y estadsticas tiles en el modelado y el anlisis de problemas en los que una respuesta de inters recibe la influencia de diversas variables y donde el objetivo es optimizar esta respuesta. Por ejemplo, suponga que un ingeniero qumico quiere encontrar los niveles de temperatura (Xl) y presin (x 2) que maximicen el rendimiento (y) de un proceso. El rendimiento del proceso es una funcin de los niveles de la temperatura y la presin, por ejemplo, y= (xp X2 )+8 donde 8 representa el ruido o error observado en la respuestay. Si la respuesta esperada se denota por E(y) = (Xl' X2) = r, entonces a la superficie representada por r = (Xp X2 ) se le llama superficie de respuesta. Por 10 general la superficie de respuesta se representa grficamente como en la figura 11-1, donde r se grafica contra los niveles de X y X 2 Se han visto ya grficas de superficie de respuesta como sta, particularmente en los captulos sobre diseos factoriales. Para ayudar a visualizar la forma de una superficie de respuesta, con frecuencia se grafican los contornos de la superficie de respuesta, como se muestra en la figura 11-2. En la grfica de contorno se trazan las lneas de respuesta constante en el plano Xl' X 2 Cada contorno corresponde a una altura particular de la superficie de respuesta. Tambin se ha visto antes la utilidad de las grficas de contorno. En la mayora de los problemas MSR, la forma de la relacin entre la respuesta y las variables independientes es desconocida. Por 10 tanto, el primer paso de la MSR es encontrar una aproximacin adecuada de la verdadera relacin funcional entre y y el conjunto de variables independientes. Por 10 general se emplea un polinomio de orden inferior en alguna regin de las variables independientes. Si la respuesta est bien modelada por una funcin lineal de las variables independientes, entonces la funcin de aproximacin es el modelo de primer orden y= 130 +f3x +f32 X2 + ... +f3k Xk +8 (11-1)
427
'1
428
CAPTULO 11
70
::11
:b
"O
Ql Ql
"" o
~
60
o. CIl
50
e
'E
'C
e
OC
Ql Ql
40
100
X,
Temperatura (oC)
20
160 10
Presin (psi)
Figura 11-1 Superficie de respuesta tridimensional donde se indica el rendimiento esperado (1]) como una funcin de la temperatura (Xl) y la presin (x 2).
70
::11
:b
60
"" o
"O
Ql Ql
o. CIl
50
El e
'E
'C
e
OC
Ql
Ql
40
X,
Temperatura (oC)
Presin (psi)
10
Figura 11-2
429
Si hay curvatura en el sistema, entonces debe usarse un polinomio de orden superior, tal como el modelo de segundo orden
y= 130 +
L
i=l
f3X
L
i=1
f3X;
LL
i<}
f3ijXX j +10
(11-2)
En casi todos los problemas MSR se usa uno de estos modelos, o ambos. Desde luego, es probable que un modelo polinomial sea una aproximacin razonable de la verdadera relacin funcional en el espacio completo de las variables independientes, pero para una regin rdativamente pequea suelen funcionar bastante bien. El mtodo de mnimos cuadrados, estudiado en el captulo 10, se usa para estimar los parmetros de los polinomios de aproximacin. Despus se realiza el anlisis de la superficie de respuesta utilizando la superficie ajustada. Si la superficie ajustada es una aproximacin adecuada de la verdadera funcin de la respuesta, entonces el anlisis de la superficie ajustada ser un equivalente aproximado del anlisis del sistema real. Los parmetros del modelo pueden estimarse de manera ms eficiente cuando se emplean los diseos experimentales apropiados para recolectar los datos. Los diseos para ajustar superficies de respuesta se denominan diseos de superficie de respuesta. Estos diseos se revisan en la seccin 11-4. La MSR es un procedimiento secuencial. Muchas veces, cuando se est en un punto de la superficie de respuesta que est apartado del ptimo, como en el caso de las condiciones de operacin actuales de la figura 11-3, el sistema presenta una curvatura moderada y el modelo de primer orden ser apropiado. El objetivo en este caso es llevar al experimentador de manera rpida y eficiente por la trayectoria del mejoramiento hasta la vecindad general del ptimo. Una vez que se ha encontrado la regin del ptimo, puede emplearse un modelo ms elaborado, como el de segundo orden, y llevarse a cabo un anlisis para localizar el ptimo. En la figura 11-3 se puede ver que el anlisis de una superficie de respuesta puede considerarse como "el ascenso a una colina", donde la cima de sta representa el punto de la respuesta mxima. Si el verdadero ptimo es un punto de respuesta mnima, entonces la situacin puede considerarse como "el descenso a un valle". El objetivo ltimo de la MSR es determinarlas condiciones de operacin ptimas del sistema o determinar una regin del espacio de los factores en la que se satisfagan los requerimientos de operacin.
85
r/E--~--
:
70
//
/'
//
/'
r ,
430
CAPTULO 11 MTODOS DE SUPERFICIES DE RESPUESTA
1
~.
.,
Anlisis ms detallados de la MSR se encuentran en Myers y Montgomery [85a], Khuri y Cornell [67] y Box y Draper [16b].
11~2
Frecuentemente la estimacin inicial de las condiciones de operacin ptimas del sistema estarn lejos del ptimo real. En tales circunstancias, el objetivo del experimentador es pasar con rapidez a la vecindad general del ptimo. Para ello desea usarse un procedimiento experimental econmico y eficiente. Cuando se est muy lejos del ptimo, por lo general se supone que un modelo de primer orden es una aproximacin adecuada de la verdadera superficie en una regin pequea de las x. El mtodo del ascenso ms pronunciado es un procedimiento para moverse secuencialmente sobre la trayectoria del ascenso ms pronunciado, es decir, en la direccin del incremento mximo de la respuesta. Desde luego, si lo que se pretende es una minimizacin, entonces esta tcnica se llama mtodo del deseen. so ms pronunciado. El modelo ajustado de primer orden es
y= ~o + L ~iXi
i=l
(11-3)
y la superficie de respuesta de primer orden, es decir, loscontornos de y, es una serie de lneas paralelas como las que se muestran en la figura 11-4. La direccin del ascenso ms pronunciado es aquella enla que y se incrementa con mayor rapidez. Esta direccin es paralela a la normal de la superficie de respuesta ajustada. Por lo general se toma como la trayectoria del ascenso ms pronunciado a la recta que pasa por el centro de la regin de inters y que es normal a la superficie ajustada. Por lo tanto, los pasos sobre la
~i~rli'"
y=10
m.",,,\
y = 50
y=20
X1
Figura 114 Superficie de respuesta de primer orden y trayectoria del ascenso ms pronunciado.
431
trayectoria son proporcionales a los coeficientes de regresin {~}. El tamao real del paso lo determina el experimentador con base en el conocimiento del proceso o de otras consideraciones prcticas. Se conducen experimentos sobre la trayectoria del ascenso ms pronunciado hasta que deja de observarse un incremento adicional en la respuesta. Entonces puede ajustarse un nuevo modelo de primer orden, determinarse una nueva trayectoria del ascenso ms pronunciado y el procedimiento contina. En ltima instancia, el experimentador llegar a la vecindad del ptimo. En general, la falta de ajuste del modelo de primer orden indica que se ha llegado a ella. En este momento se realizan experimentos adicionales para obtener una estimacin ms precisa del ptimo.
EJEMPLO
11~
Un ingeniero qumico est interesado en determinar las condiciones de operacin que maximizan el rendimiento de un proceso. Dos variables controlables influyen en el rendimiento del proceso: el tiempo de reaccin y la temperatura de reaccin. El ingeniero opera actualmente el proceso con un tiempo de reaccin de 35 minutos y una temperatura de 155F, que dan como resultado rendimientos de cerca de 40%. Puesto que es improbable que esta regin contenga el ptimo, el ingeniero ajusta un modelo de primer orden y aplica el mtodo del ascenso ms pronunciado. El ingeniero decide que la regin de exploracin para ajustar el modelo de primer orden deber ser (30,40) minutos de tiempo de reaccin y (150, 160tE Para simplificar los clculos, las variables independientes se codificarn en el intervalo usual (-1,1). Por lo tanto, si;l denota la variable natural tiempo y;2 la variable natural temperatura, entonces las variables codificadas son
;1- 35 x =--1 5
x2
= -5
;0 -155
El diseo experimental se muestra en la tabla 11-1. Observe que el diseo usado para recabar estos datos es un factorial 22 aumentado con cinco puntos centrales. Las rplicas del centro se usan para estimar el error experimental y permitir la verificacin de la adecuacin del modelo de primer orden. Adems, el diseo est centrado alrededor de las condiciones de operacin actuales del proceso. Es posible ajustar un modelo de primer orden a estos datos por el procedimiento de mnimos cuadrados. Aplicando los mtodos para diseos de dos niveles se obtiene el siguiente modelo en las variables codificadas:
y= 40.44+0.775x1 +0.325x 2
Tabla 11-1 Datos del proceso para ajustar el modelo de primer orden
Variables naturales
30 30 40 40 150 160 150 160 155 155 155 155 155
Variables codificadas
Xl
X2
Respuesta y
39.3 40.0 40.9 41.5 40.3 40.5 40.7 40.2 40.6
35 35 35 35 35
-1 -1 1 1 O O O O O
-1 1 -1 1 O O O O O
432
CAPTULO 11
Antes de explorar a lo largo de la trayectoria del ascenso ms pronunciado, deber investigarse la adecuacin del modelo de primer orden. El diseo 22con puntos centrales permite al experimentador
1. Obtener una estimacin del error. 2. Verificar las interacciones (o trminos de productos cruzados) del modelo. 3. Verificar los efectos cuadrticos (curvatura).
Las rplicas del centro pueden usarse para calcular una estimacin del error de la siguiente manera:
=-'--"'----------'----'---'----<----'-----''----------'----'-----'------'---
= 0.0430
En el modelo de primer orden se supone que las variablesx y X 2 tienen un efecto aditivo sobre la respuesta. La interaccin entre las variables se representara por el coeficiente /312 del trmino de un producto cruzadoxx2sumado al modelo. La estimacin de mnimos cuadrados de este coeficiente es simplemente la mitad del efecto de la interaccin que se calcula como en un diseo factorial 22 ordinario, o
::1
'1
11
~2
= t[(lx39.3)+(lx41.5)+(-lx40.0)+(-lx40.9)]
=t(-0.1) = -0.025
:J
= 0.0025
Al comparar
SSInteraccin
~11 +~22 = YF - Ye
= 40.425- 40.46
= -0.035
433
Tabla 11-2 Anlisis de varianza del modelo de primer orden Suma de cuadrados Fuente de variacin Modelo (/31' /32) Residual (Interaccin) (Cuadrtico puro) (Error puro) Total
2.8250 0.1772 (0.0025) (0.0027) (0.1720) 3.0022
Grados de libertad
2 6 1 1 4 8
Cuadrado medio
1.4125 0.0025 0.0027 0.0430
Fo
47.83 0.058 0.063
Valor P
0.0002 0.8215 0.8142
La suma de cuadrados con un solo grado de libertad asociada con la hiptesis nula, H o:/3u + /322 = O, es /1 F/1 e (rF )2
SS Cuadrtica pura
/1 F
+/'
re
'e
donde /1 F Y/1 e son el nmero de puntos de la porcin factorial y el nmero de puntos centrales, respectivamente. Puesto que
F
= SSCuadrticapura
8'2
= 0.0430
= 0.063
0.0027
es pequeo, no hay indicios de un efecto cuadrtico puro. En la tabla 11-2 se resume el anlisis de varianza de este modelo. Las verificaciones de la interaccin y la curvatura no son significativas, mientras que la prueba F de la regresin global es significativa. Adems, el error estndar de 131 y 132 es
i=1,2
Ambos coeficientes de regresin 131 y 132 son grandes en comparacin con sus errores estndar. En este punto no hay razn para cuestionar la adecuacin del modelo de primer orden. Para apartarse del centro del diseo -el punto (Xl = 0,x2 = 0)- sobre la trayectoria del ascenso ms pronunciado, se hara un movimiento de 0.775 unidades en la direccin Xl por cada 0.325 unidades en la direccinx2 Por lo tanto, la trayectoria del ascenso ms pronunciado pasa por el punto (Xl = 0,x2 = O) Y tiene pendiente 0.325/0.775. El ingeniero decide usar 5 minutos de tiempo de reaccin como tamao bsico del paso. Al utilizar la relacin entre Sl y Xl' se observa que 5 minutos de tiempo de reaccin es equivalente a un paso en la variable codificada Xl de &1 = 1. Por lo tanto, los pasos sobre la trayectoria del ascenso ms pronunciado son &1 = 1.0000 Y &2 = (0.325/0.775) &1 = 0.42. El ingeniero calcula puntos sobre esta trayectoria y observa los rendimientos en los mismos hasta que se nota un decremento en la respuesta. En la tabla 11-3 se muestran los resultados tanto en variables codificadas como naturales. Aun cuando la manipulacin matemtica de las variables codificadas es ms sencilla, deben usarse las variables naturales cuando se corre el proceso. En la figura 11-5 se grafica el
434
Tabla 11-3 Pasos Origen
~
CAPTULO 11
Experimento del ascenso ms pronunciado para el ejemplo 11-1 Variables codificadas Variables naturales
';1
x1
O 1.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 S.OO 9.00 10.00 11.00 12.00
X2
Origen Origen Origen Origen Origen Origen Origen Origen Origen Origen Origen Origen
".
O 0.42 0.42 0.84 1.26 1.68 2.10 2.52 2.94 3.36 3.78 4.20 4.62 5.04
35 5 40 45 50 55 60 65 70 75 SO 85 90 95
';2 155 2 157 159 161 163 165 167 169 171 173 175 179 181
Respuesta y
41.0 42.9 47.1 49.7 53.8 59.9 65.0 70.4 77.6 80.3 76.2 75.1
::1 :
Ii
'1
rendimiento en cada paso de la trayectoria del ascenso ms pronunciado. Se observan incrementos de la respuesta hasta el dcimo paso; sin embargo, todos los pasos despus de este punto resultan en un decremento del rendimiento. Por lo tanto, deber ajustarse otro modelo de primer orden en la vecindad general del punto (~l = 85, ~2 = 175). Se ajusta un nuevo modelo de primer orden alrededor del punto (~l = 85, ~2 = 175). La regin de exploracin para ~1 es [80, 90] Y para ~2 es [170, 180]. Por lo tanto, las variables codificadas son
~l - 85 x =--1
x2 =
~2
-175 5
90
80
E e
70
'E
'C e
Ql
60
50
6
Pasos
10
11
12
Figura 11-5 Rendimiento contra pasos sobre la trayectoria del ascenso ms pronunciado para el ejemplo 11-1.
435
Variables naturales
~l 80 80 90 90 85 85 85 85 85
~2 170 180 170 180 175 175 175 175 175
Variables codificadas
Xl
Respuesta
y
Xz
-1 -1 1 1
o o o o o
-1 1 -1 1
no
78.0 79.5 79.9 80.3 80.0 79.7 79.8
76.5
o o o o o
De nueva cuenta se usa un diseo 22 con cinco puntos centrales. El diseo experimental se muestra en la tabla 11-4. El ajuste del modelo de primer orden a las variables codificadas de la tabla 11-4 es
y= 78.97+1.00xl +O.SOx 2
En la tabla 11-5 se presenta el anlisis de varianza de este modelo, incluyendo las verificaciones de la interaccin y del trmino cuadrtico puro. Las verificaciones de la interaccin y del trmino cuadrtico puro implican que el modelo de primer orden no es una aproximacin adecuada. Esta curvatura en la verdadera superficie puede indicar que el experimentador se encuentra cerca del ptimo. En este punto es necesario hacer anlisis adicionales para localizar el ptimo con mayor precisin.
Por el ejemplo 11-1 se observa que la trayectoria del ascenso ms pronunciado es proporcional a los sig~ nos y magnitudes de los coeficientes de regresin del modelo ajustado de primer orden
Y=~a+
L ~iXi
i=l
Es sencillo dar un algoritmo general para determinar las coordenadas de un punto sobre la trayectoria del ascenso ms pronunciado. Suponga que el punto Xl =X 2 = ... = Xk = Oes la base o punto origen. Entonces
1. Se elige el tamao del paso en una de las variables del proceso, por ejemplo D.xj En general, se seleccionara la variable de la que se tenga mayor informacin, o se seleccionara la variable que tiene el coeficiente de regresin absoluto I~ j I ms grande.
Tabla 11-5 Anlisis de varianza del segundo modelo de primer orden
Fuente de variacin Regresin Residual (Interaccin) (Cuadrtico puro) (Error puro) Total
Suma de cuadrados
5.00 11.1200 (0.2500) (10.6580) (0.2120) 16.1200
Grados de libertad
2 6
Cuadrado medio
Fa
Valor P
1 1 4
4.72 201.09
0.0955 0.0001
436
CAPTULO 11
A"'=A
1
f3 j /&j
. Z
k = 12 , , ...,;
z'-+J' .,. .
3. Se convierten las & de variables codificadas a variables naturales. Para ilustrar, considere la trayectoria del ascenso ms pronunciado calculada en el ejemplo 11-1. Puesto quex I tiene el coeficiente de regresin ms grande, se selecciona el tiempo de reaccin como la variable del paso 1 del procedimiento anterior. Cinco minutos de tiempo de reaccin es el tamao del paso (con base en el conocimiento del proceso). En trminos de las variables codificadas, ste es &1 = 1.0. Por lo tanto, por el lineamiento 2, el tamao del paso de la temperatura es
&
2
~I / &1
~2
Para convertir los tamaos de los pasos codificados (&1 = 1.0 Y&2 = 0.42) a las unidades naturales de tiempo y temperatura, se usan las relaciones
& =5 1
que dan como resultado
~Sl
y
~S2
= &2(5)= 0.42(5)= 2P
11~3
Cuando el experimentador se encuentra relativamente cerca del ptimo, por lo general se requiere un modelo que incorpore la curvatura para aproximar la respuesta. En la mayora de los casos, el modelo de segundo orden y= 130
f3ijxX j +8
(11-4)
i=1
i<j
es adecuado. En esta seccin se indicar cmo usar este modelo ajustado para encontrar el conjunto ptimo de condiciones de operacin para lasx, as como para caracterizar la naturaleza de la superficie de respuesta.
11~3.1
Suponga que quieren encontrarse los niveles dex,x2, ""Xk que optimizan la respuesta predicha. Este punto, en caso de existir, ser el conjunto de las XI' X , ..., X 2 k para las que las derivadas parciales ay / aXI = ay / aX 2 = ... = ay / aXk = O. A este punto, por ejemplo x,,, x2 ,,, ""Xk,., se le llama punto estacionario. El punto estacionario podra representar 1) un punto de respuesta mxima, 2) un punto de respuesta mnima, o 3) un punto silla. Estas tres posibilidades se ilustran en las figuras 11-6 a 11-8. Las grficas de contorno desempean un papel muy importante en el estudio de las superficies de respuesta. Mediante la generacin de grficas de contorno utilizando software de computadora para el
"
11-3 ANLISIS DE UNA SUPERFICIE DE RESPUESTA DE SEGUNDO ORDEN
437
1.00
a) Superficie de respuesta
1.00_---..---r------cr-----......- - - - - - - - - .
0.50
l-(N
0.00
-0.50
_1.00e-1.00
-L
L-
===-...L__...-!!.::..---..
0.50 1.00
-0.50
0.00
x,
b) Grfica de contorno
Figura 11-6
Superficie de respuesta y grfica de contorno que ilustran una superficie con un mximo.
438
CAPTULO 11
1.00,-----;::=:;:;;:;;....-----.:::;;;::-----"'--~-__.:_____,
0.50
;..:N
0.00
-0.50
-1.00..-------''''------l..--...L..---l..--'-----'.--.
-1.00
-0.50
0.00
0.50
1.00
x,
b) Grfica de contorno
Figura 11-7
Superficie de respuesta y grfica de contorno que ilustran una superficie con un mnimo.
439
x,
1.00_---.----,.----,..----------r-----.
-0.50
...L..J
~...l_
_ _..L__
_4I
0.00
x,
0.50
1.00
b) Grfica de contorno
Figura 11-8
Superficie de respuesta y grfica de contorno que ilustran una superficie con un punto silla (o minimax).
I!
t\"
[,
440
CAPTULO 11
anlisis de superficie de respuesta, el experimentador puede por lo general caracterizar la forma de la superficie y localizar el ptimo con una precisin razonable. Es posible obtener una solucin matemtica general para la localizacin del punto estacionario. Al escribir el modelo de segundo orden en notacin matricial, se tiene
y= lJo +x'b+x'Bx
donde
(11-5)
B=
f322,:,f32k/ 2
simtrica
lJ
kk
Es decir, b es un vector (k Xl) de los coeficientes de regresin de primer orden y B es una matriz simtrica (k x k) cuyos elementos de la diagonal principal son los coeficientes cuadrticos puros (lJi!) y cuyos elementos que estn fuera de la diagonal son la mitad de los coeficientes cuadrticos mixtos (lJ ij' i :;t: j). La derivada de y con respecto a los elementos del vector x igualada con O es
- = b+2Bx = O
El punto estacionario es la solucin de la ecuacin 11-6, o
ay ax
(11-6)
x, =-tB-Ib
(11-7)
Adems, al sustituir la ecuacin 11-7 en la 11-5, la respuesta predicha en el punto estacionario puede encontrarse como
~ y, = f3~
o +i x ,
l'b
(11-8)
11~3.2
Una vez que se ha encontrado el punto estacionario, generalmente es necesario caracterizar la superficie de respuesta en la vecindad inmediata de este punto. Por caracterizar se entiende determinar si el punto estacionario es el punto de una respuesta mxima, mnima o un punto silla. Por lo general tambin se desea estudiar la sensibilidad relativa de la respuesta a las variables Xl' X 2 , oo., Xk' Como ya se seal, la forma ms directa de hacer esto es examinando una grfica de contorno del modelo ajustado. Si slo hay dos o tres variables en el proceso (las x), la construccin e interpretacin de esta grfica de contorno es relativamente sencilla. Sin embargo, incluso cuando hay un nmero relativamente reducido de variables, un anlisis ms formal, llamado anlisis cannico, puede ser til. Es conveniente transformar primero el modelo en un nuevo sistema de coordenadas con el origen en el punto estacionario x, y despus hacer la rotacin de los ejes de este sistema hasta que sean paralelos a los ejes principales de la superficie de respuesta ajustada. Esta transformacin se ilustra en la figura 11-9. Puede demostrarse que se obtiene as el modelo ajustado
~ ~ y= y,
+1
1?
1 2 + oo. +lLkW k
(11-9)
donde las {w} son las variables independientes transformadas y las {A} son constantes. A la ecuacin 11-9 se le llama la forma cannica del modelo. Adems, las {A} son slo eigenvalores o races caractersticas de la matriz B.
441
La naturaleza de la superficie de respuesta puede determinarse a partir del punto estacionario y de los signos y magnitudes de las {A}. Primero suponga que el punto estacionario est dentro de la regin de exploracin para ajustar el modelo de segundo orden. Si todas las {A} son positivas, X s es un punto de respuesta mnima; si todas las {A} son negativas, X s es un punto de respuesta mxima; y si las {A} tienen signos diferentes, X s es un punto silla. Adems, la superficie presenta una inclinacin mayor en la direccin w para la que \A I es el mximo. Por ejemplo, la figura 11-9 describe un sistema para el que X s es un mximo (Al y ,.1.2 son negativas) con 1,.1.1 \ > 1,.1.2\'
EJEMPLO
11~2
..........
Se continuar el anlisis del proceso qumico del ejemplo 11-1. No es posible ajustar un modelo de segundo orden en las variables Xl y X 2 utilizando el diseo de la tabla 11-4. El experimentador decide aumentar este diseo con puntos suficientes para ajustar un modelo de segundo orden. 1 Obtiene cuatro observaciones en (Xl = 0,x2 = 1.414) Y(Xl = 1.414,x2 = O). El experimento completo se muestra en la tabla 11-6, y el diseo se ilustra en la figura 11-10. A este diseo se le llama diseo central compuesto (o DCC), el cual se estudiar con mayor detalle en la seccin 11-4.2. En esta segunda fase del estudio, dos respuestas adicionales fueron de inters, la viscosidad y el peso molecular del producto. Las respuestas tambin se muestran en la tabla 11-6. La atencin se centrar en el ajuste de un modelo cuadrtico para la respuesta rendimiento Y1 (las otras respuestas se analizarn en la seccin 11-3.4). Por lo general se utiliza software de computadora para ajustar una superficie de respuesta y construir las grficas de contorno. La tabla 11-7 contiene la salida de Design-Expel1. Al examinar la tabla se observa que este paquete de software calcula primero las "sumas de cuadrados extra o secuenciales" de los trminos lineales, cuadrticos y cbicos del modelo (hay un mensaje de advertencia referente a los alias del modelo cbico, ya que el DCC no contiene corridas suficientes para apoyar un modelo cbico completo). Con base en el valor P pequeo de los trminos cuadr1 El ingeniero corri las cuatro observaciones adicionales aproximadanlente en el mismo periodo en que corri las nueve observaciones originales. Si hubiera transcurrido un lapso grande entre las dos series de corridas, habra sido necesaria la separacin en bloques. La separacin en bloques en los diseos de superficie de respuesta se revisa en la seccin 11-4.3.
442
CAPTULO 11
Tabla 11-6 Diseo central compuesto para el ejmplo 11-2 Respuestas Variables naturales
~
Variables codificadas
X X2
~2
Y2
Y3
(rendimiento)
(viscosidad)
(peso molecular)
80 80 90 90 85 85 85 85 85 92.07 77.93 85 85
170 180 170 180 175 175 175 175 175 175 175 182.07 167.93
-1 -1 1 1
O O O O O
-1 1 -1 1
O O O O O O O
1.414 -1.414
O O
1.414 -1.414
76.5 77.0 78.0 79.5 79.9 80.3 80.0 79.7 79.8 78.4 75.6 78:5 77.0
62 60 66 59
72
69 68 70
71
68
71
58 57
2940 3470 3680 3890 3480 3200 3410 3290 3500 3360 3020 3630 3150
ticos, se decide ajustar un modelo de segundo orden a la respuesta rendimiento. La salida de computadora muestra el modelo final en trminos tanto de las variables codificadas como de los niveles naturales o reales de los factores. En la figura 11-11 se muestra la grfica de la superficie de respuesta tridimensional y la grfica de contorno para la respuesta rendimiento en trminos de las variables del proceso tiempo y temperatura. Es relativamente sencillo ver por el examen de estas figuras que el ptimo se encuentra muy cerca de 175P y 85 minutos de tiempo de reaccin y que la respuesta est en un mximo en este punto. Por el examen de la grfica de contorno se observa que el proceso puede ser ligeramente ms sensible a los cambios en el tiempo de reaccin que a los cambios en la temperatura.
+2
1-
-2
(-1.414, O)
(0,0)
(1.414, O) +2
x,
(1, -1)
-2 -
443
Tabla 11-7
Salida de computadora de Design-Expert para ajustar un modelo a la respuesta rendimiento del ejemplo 11-2
Response: yield ***WARNING: The Cubic Model is Aliased!*** Sequential Model Surn of Squares Surn of Squares Source DF Mean 80062.16 1 Linear 10.04 2 2FI 0.25 1 Mean Square 80062.16 5.02 0.25
F Value
2.69 0.12
Prob> F
0.1166 0.7350
Ouadratic
Cubic Residual Total
17.95
2.042E-003 0.49 80090.90
2
2 5 13
8.98
1.021 E-003 0.099 6160.84
126.88
0.010
<0.0001
0.9897
Suggested
Aliased
Lack of Fit Tests Source Linear 2FI Surn of Squares 18.49 18.24 0.28 0.28 0.21 DF 6 5 Mean Square 3.08 3.65 0.094 0.28 0.053
F
Value 58.14 68.82 Prob> F 0.0008 0.0006 0.2897 0.0826
Ouadratic
Cubic Pure Error
"p'ru~!?as.de
3
1 4
1.78
5.31
Suggested
Aliased
significativa.
Model Surnrnary Statistics Std. Source Dev. R-Squared Linear 1.37 0.3494 1.43 0.3581 2FI Ouadratic 0.27 0.9828 Cubic 0.31 0.9828
2.35
18.33
Suggested
Aliased
Response: yield ANOVA for Response Surface Quadratic Model Analysis of variance table [Partial surn of squares] Surn of Mean Squares Source DF Square Model 28.25 5 5.65
F Value 79.85
A B
B2
AB
Residual
1 1 1 1 1
7 3
0.50
0.071
0.28 0.21
28.74 0.27 78.48 0.34 2.35
4
12
0.094 0.053
R-Squared Adj R-Squared Pred R-Squared Adeq Precision
0.2897
C.V.
PRESS
~I
I
444
CAPTULO 11
Tabla 117
(continuacin)
Coefficient Estimate
79.94 0.99 0.52 -1.38 -1.00 0.25
DF
1 1 1 1 1 1
Standard Error
0.12 0.094 0.094 0.10 0.10 0.13
95% CI Low
79.66 0.77 0.29 -1.61 -1.24 -0.064
95% CI High
80.22 1.22 0.74 -1.14 -0.76 0.56
VIF
1.00 1.00 1.02 1.02 1.00
A2 B2
AB
Diagnostics Case Statistics Student Cook's Outlier Run Standard Actual Predicted Order Order Value Value Residual Leverage Residual Distance t
8 6 9 11 12 10 7 1 5 3 13 2 4 1 2 3 4 5 6 7 8 9 10 11 12 13 76.50 78.00 77.00 79.50 75.60 78.40 77.00 78.50 79.90 80.30 80.00 79.70 79.80 76.30 77.79 76.83 79.32 75.78 78.59 77.21 78.67 79.94 79.94 79.94 79.94 79.94 0.20 0.21 0.17 0.18 -0.18 -0.19 -0.21 -0.17 -0.040 0.36 0.060 -0.24 -0.14 0.625 0.625 0.625 0.625 0.625 0.625 0.625 0.625 0.200 0.200 0.200 0.200 0.200 1.213 1.275 1.027 1.089 -1.107 -1.195 -1.283 -1.019 -0.168 1.513 0.252 -1.009 -0.588 0.409 0.452 0.293 0.329 0.341 0.396 0.457 0.289 0.001 0.095 0.003 0.042 0.014 1.264 1.347 1.032 1.106 -1.129 -1.240 -1.358 -1.023 -0.156 1.708 0.235 -1.010 -0.559
La localizacin del punto estacionario tambin podra encontrarse utilizando la solucin general de la ecuacin 11-7. Observe que [0.995] b = 0.515 B= [-1.376 0.1250] 0.1250 -1. 001
"
11-3 ANLISIS DE UNA SUPERFICIE DE RESPUESTA DE SEGUNDO ORDEN
445
80.29
82.64
85.00
Tiempo
87.36
92.07
a) La grfica de contorno
80.21
77.99
'ti
<::
" 'E
a:
E <::
"
73.55
182.1 179.2 ):
&/},o
176.4 173.6
&I'~
~(I'"
170.8
~\e~
Figura 11-11 Grficas de contorno y de superficie de respuesta de la respuesta rendimiento, ejemplo 11-2.
Es decir, Xl, s = 0.389 YX 2,s = 0.306. En trminos de las variables naturales, el punto estacionario es
f: -85 0.389 = _"1__
de donde se obtienes 1 = 86.95 =87 minutos de tiempo de reaccinYs2 = 176.53 = 176,SOF Este valor est muy cerca del punto estacionario que se encontr por examen visual en la grfica de contorno de la figura 11-11. Al utilizar la ecuacin 11-8, la respuesta predicha en el punto estacionario puede encontrarse como Ys = 80.21.
446
CAPTULO 11
El anlisis cannico que se describe en esta seccin tambin puede usarse para caracterizar la Superficie de respuesta. Primero es necesario expresar el modelo ajustado en la forma cannica (ecuacin 11-9). Los eigenvalores Al y Az son las races de la ecuacin de determinantes IB-AII == O
-1.376-A 0.1250 -1.001- A - 0 \ 0.1250
1-
que se reduce a
AZ +2.3788A+1.3639== O
Las races de esta ecuacin cuadrtica sonA I == -0.9641 YAz == -1.4147. Por lo tanto, la forma cannica del modelo ajustado es
y== 80.21- 0.9641w; -1.4147wi
Puesto que tanto Al como Az son negativas y el punto estacionario est en la regin de exploracin, se concluye que el punto estacionario es un mximo.
.........................................................................
En algunos problemas MSR puede ser necesario encontrar la relacin entre las variables cannicas {w} y las variables del diseo {x}. Esto es particularmente cierto cuando es imposible operar el proceso en el punto estacionario. Como una ilustracin, suponga que en el ejemplo 11-2 el proceso no pudo operarse en ~l == 87 minutos y ~z == 176SF debido a que esta combinacin de factores resulta en un costo excesivo. Se quiere "regresar" ahora del punto estacionario a un punto con un costo menor sin incurrir en prdidas considerables en el rendimiento. La forma cannica del modelo indica que la superficie es menos sensible a la prdida de rendimiento en la direccin wl . La exploracin de la forma cannica requiere convertir los puntos del espacio (w l , wz) en puntos del espacio (Xl' X z). En general, las variables x se relacionan con las variables cannicas w por
w
== M'(x-xs)
donde M es una matriz ortogonal (k x k). Las columnas de M son los eigenvectores normalizados asociados con {A i }. Es decir, si mi es la columna i-sima de M, entonces mi es la solucin de (B - AI)m == O (11-10) para la que LJ=lm~ == 1. El procedimiento se ilustra usando el modelo de segundo orden ajustado del ejemplo 11-2. ParaA I == -0.9641, la ecuacin 11-10 queda como (-1.376+0.9641) 0.1250 ][mn ]_ [ 0.1250 (-1.001+0.9641) m ZI - O
[OJ
o
-0.4129m n + 0.1250m zl == O 0.1250m n - 0.0377m ZI == O Quiere obtenerse la solucin normalizada de estas ecuaciones, es decir, aquella para la que m lz l + mil == 1. No existe una solucin nica para estas ecuaciones, por lo que lo ms conveniente es asignar un valor ar-
447
m;l
bitrario a una de las incgnitas, resolver el sistema y normalizar la solucin. Al hacer m;l = 0.3027. Para normalizar esta solucin, m;l Y m;l se dividen entre
= 1, se encuentra
m
11
= ~ = 0.3027 = 0.2897
1. 0448 1. 0448
m~l =--=-1- = 0.9571
m
21
1. 0448
1. 0448
que es la primera columna de la matriz M. Utilizando A2 = -1.4147 puede repetirse el procedimiento anterior, obtenindose m22 = 0.2888 como la segunda columna de M. Por lo tanto, se tiene M- [0.2897 -O. 9574J - 0.9571 0.2888 La relacin entre las variables w y x es
m 12
= -0.9574 Y
11 ~ 3.3
Sistemas de cordilleras
No es raro encontrar variaciones de las superficies de respuesta con mximos o mnimos puros o con puntos silla estudiadas en la seccin anterior. Los sistemas de cordilleras, en particular, son muy comunes. Considere la forma cannica del modelo de segundo orden presentado anteriormente en la ecuacin 11-9:
y= Ys
+A 2 W
448
CAPTULO 11
60
65
65
L.-
60
x,
L-
x,
conA z negativa. Observe que el marcado estiramiento en la direccin W 1 ha resultado en una lnea de centros en y = 70 Yel ptimo puede tomarse en cualquier lugar a lo largo de esta lnea. A este tipo de superficie de respuesta se le llama sistema de cordilleras estacionarias. Si el punto estacionario est muy apartado de la regin de exploracin para el ajuste del modelo de segundo orden y unaA (o ms) est cerca de cero, entonces la superficie puede ser un sistema de cordille ras crecientes. En la figura 11-13 se ilustra una cordillera creciente para k = 2 variables con Al cerca de cero YA z negativa. En este tipo de sistema de cordilleras no pueden hacerse inferencias acerca de la verdadera superficie o del punto estacionario porque X s est fuera de la regin donde se ha ajustado el modelo. Sin embargo, la exploracin adicional est garantizada en la direccin w1 Sil. z hubiera sido positiva, este sistema se habra llamado cordillera descendente.
11~3.4
Respuestas mltiples
Muchos problemas de superficies de respuesta incluyen el anlisis de varias respuestas, como en el ejemplo 11-2, donde el experimentador midi tres. En dicho ejemplo, el proceso se optimiz nicamente con respecto a la respuesta rendimiento Y1' La consideracin simultnea de respuestas mltiples requiere construir primero un modelo de superficie de respuesta apropiado para cada respuesta y despus intentar encontrar un conjunto de condiciones de operacin que optimice en cierto sentido todas las respuestas o que al menos las mantenga en los rangos deseados. Un estudio completo del problema de las respuestas mltiples se ofrece en Myers y Montgomery [85a]. En el ejemplo 11-2 pueden obtenerse modelos para las respuestas viscosidad y peso molecular (yz YY3' respectivamente) de la siguiente manera:
yz
= 70.00- 0.16x1 -
Y3
En trminos de los niveles naturales del tiempo (';1) y la temperatura (.;z), estos modelos son Yz = -9030.74+ 13.393'; 1 + 97. 70s.; z - 2.75xlO- 2
.;i - 0.26757.;; -
5xlO- z ';l';Z
449
En las figuras 11-14 y 11-15 se presentan las grficas de contorno y superficie de respuesta para estos modelos. Un enfoque relativamente directo para optimizar varias respuestas que funciona bien cuando slo hay pocas variables en el proceso es la superposicin de las grficas de contorno de cada respuesta. En la figura 11-16 se muestra una grfica de superposicin para las tres respuestas del ejemplo 11-2, con los contornos para los que YI (rendimiento) ;:o: 78.5, 62 :5 Yz (viscosidad) :5 68, YY3 (peso molecular Mn) :5 3400. Si estos lmites representan condiciones importantes que el proceso debe satisfacer, entonces, como se muestra en la porcin no sombreada de la figura 11-16, existen varias combinaciones del tiempo y la temperatura que resultarn en un proceso satisfactorio. El experimentador puede hacer el examen visual de
182.1 60.00 179.7 58.00 62.00 65.00 68.00
177.4
~
Ql
E
c.
175.0
<::::::::> 70.00
172.6
170.3
82.64
85.00
Tiempo
87.36
89.71
92.07
a} La grfica de contorno
70.03
63.75
E Ql
o
'ti
'E
<::
Ql
57.47
tI:
51.19
170.8
167.9
Figura 11-14 Grfica de contorno y grfica de la superficie de respuesta de la viscosidad, ejemplo 11-2.
450
182.1
CAPTULO 11
r-~-'----r--...-----'----r~--'---'
179.7
177.4
~ 175.0 c.
E
172.6
3566
~ 3266
2845
.... ....
182.1 179.2 h 176.4 &O.0 173.6 Qtl" I!'I' 170.8
Q
.... ....
.... ....
92.07
-<.\e~~
86.41 o
167.9
Figura 11-15 Grfica de contorno y grfica de la superficie de respuesta del peso molecular, ejemplo 11-2.
la grfica de contorno para determinar las condiciones de operacin apropiadas. Por ejemplo, es posible que el experimentador est ms interesado en la regin ms grande de las dos regiones factibles que se muestran en la figura 11-16. Cuando hay ms de tres variables del diseo, se hace muy complicada la superposicin de las grficas de contorno, ya que la grfica de contorno es bidimensional, y k - 2 de las variables deldiseo deben mantenerse constantes para construir la grfica. Con frecuencia se necesita una gran cantidad de ensayo y error para determinar cules son los factores que deben mantenerse constantes y qu niveles seleccionar para obtener la mejor vista de la superficie. Por lo tanto, existe inters prctico en mtodos de optimizacin ms formales para las respuestas mltiples.
451
179.7
177.4
e ~ ~ 175.0
t!
E
80.29
82.64
85.00 Tiempo
87.36
89.71
92.07
Figura 11-16 Regin del ptimo encontrada superponiendo las superficies de respuesta delrendimiento, la viscosidad y el peso molecular, ejemplo 11-2.
Un enfoque popular consiste en formular y resolver el problema como un problema de optimizacin restringida. Para ilustrar este enfoque utilizando el ejemplo 11-2, el problema podra formularse como
= 83.5
temperatura
= 177.1
5'1 =
79.5
temperatura = 172.25 5'1 = 79.5 tiempo = 86.6 Observe que la primera solucin es la regin factible superior (la ms pequea) del espacio del diseo (referirse a la figura 11-16), mientras que la segunda solucin es la regin ms grande. Ambas soluciones estn muy cerca de los lmites de las restricciones. Otro enfoque til para la optimizacin de respuestas mltiples es usar la tcnica de optimizacin simultnea popularizada por Derringery Suich [37]. Su procedimiento hace uso de las funciones con condicin de deseable. El enfoque general consiste en convertir primero cada respuesta Yi en una funcin con condicin de deseable individual di que vara en el rango 0:5d i :51 donde si la respuesta Yi est en su meta u objetivo; entonces di = 1, Ysi la respuesta est fuera de una regin aceptable, di = O. Despus las variables del diseo se eligen para maximizar la condicin de deseable global D = (d1 . d2 ..... d )l/m . m donde hay m respuestas.
452
CAPTULO 11
Las funciones con condicin de deseable individual estn estructuradas como se indica en la figura 11-17. Si el objetivo T para la respuesta y es un valor mximo,
d=(;~~r ~::~T
1, y>T
(11-11)
cuando la ponderacin t = 1, la funcin con condicin de deseable es lineal. Al elegir t > 1 se pone ms inters en estar cerca del valor objetivo, y cuando se elige O < t < 1 esto tiene menos importancia. Si el objetivo para la respuesta es un valor mnimo, 1 y<T
d=
(~-o-:r
T75y75U y>U
(11-12)
La funcin con condicin de deseable de dos colas que se muestra en la figura 11-17c supone que el objetivo se localiza entre los lmites inferior (L) Y superior (U), y se define como
y<L L75y75T
d=
(11-13)
T75y75U y>U
Se us el paquete de software Design-Expel1 para resolver el ejemplo 11-2 utilizando el enfoque de la funcin con condicin de deseable. Se eligi T = 80 como el objetivo para la respuesta rendimiento, U = 70, Yse fij la ponderacin de esta condicin de deseable individual igual a la unidad. Se hizo T = 65 para la respuesta viscosidad con L = 62 Y U = 68 (para ser consistente con las especificaciones), con ambas ponderaciones t 1 = t z = 1. Por ltimo, se indic que cualquier peso molecular abajo de 3400 era aceptable. Se encontraron dos soluciones.
Solucin 1:
Tiempo
Solucin 2:
= 86.5
Temperatura
j\ = 78.8
Tiempo
= 170.5 yz = 65
= 0.822
3287
Y3 =
D
= 0.792
3400
Y3 =
La solucin 1 tiene la condicin de deseable global ms alta. Observe que resulta en una viscosidad acorde con el objetivo y en un peso molecular aceptable. Esta solucin est contenida en la ms grande de las dos regiones de operacin de la figura 11-16, mientras que la segunda solucin est contenida en la regin ms pequea. En la figura 11-18 se muestran las grficas de la superficie de respuesta y de contorno de la funcin con condicin de deseable global D.
453
,r..--I-- r
= 1
OL----&<~-------..l---
r>1
O<r<1
OL-----L.--------=ilI--T
r, > 1-+--~'----->-/
OL-----:::::..----------'--------~'-------
e) El objetivo (blanco) es que y est tan cerca como sea posible de la especificacin
Figura 1117 Funciones con condicin de deseables individuales para la optimizacin simultnea.
454
CAPTULO 11
0.820
:;
Q)
Q)
ro
"' -o
Q) Q)
-o
0 .C:;
e e
'O
U
O
175.00
Temperatura
172.50 170.00
a) Superficie de respuesta
Tiempo
180.00----..----------------------1l
177.50
~========~
~ Q) 175.00 c. E ~
::J
172.50
170.00~----..L--------' ~========::I===~~
80.00 82.50 85.00 87.50
Tiempo bl Grfica de contorno
90.00
Figura 11-18
Grfica de la superficie de respuesta y de contorno de la funcin con condicin de deseable del ejemplo 11-2.
'1
455
11-4
El ajuste y anlisis de superficies de respuesta se facilita en gran medida con la eleccin apropiada del diseo experimental. En esta seccin se revisan algunos aspectos de la seleccin del diseo apropiado para ajustar superficies de respuesta. Cuando se selecciona un diseo de superficie de respuesta, algunas de las caractersticas deseables en el diseo son las siguientes:
1. Proporciona una distribucin razonable de los puntos de los datos (yen consecuencia informa-
2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
cin) en toda la regin de inters. Permite que se investigue la adecuacin del modelo, incluyendo la falta de ajuste. Permite que los experimentos se realicen en bloques. Permite que los diseos de orden superior se construyan secuencialmente. Proporciona una estimacin interna del error. Proporciona estimaciones precisas de los coeficientes del modelo. Proporciona un buen perfil de la varianza de prediccin en toda la regin experimental. Proporciona una robustez razonable contra los puntos atpicos o los valores faltantes. No requiere un gran nmero de corridas. No requiere demasiados niveles de las variables independientes. Asegura la simplicidad del clculo de los parmetros del modelo.
Estas caractersticas entran en conflicto en ocasiones, por lo que con frecuencia debe aplicarse la discrecionalidad al seleccionar un diseo. Para mayor informacin sobre la eleccin de un diseo de superficie de respuesta, referirse a Myers y Montgomery [85a], Box y Draper [16b] y Khuri y Cornell [67].
11-4.1
2: f3i X +8
(11-14)
i=l
Hay una clase nica de diseos que minimizan la varianza de los coeficientes de regresin {~i}' Se trata de los diseos de primer orden ortogonales. Un diseo de primer orden es ortogonal si todos los elementos que estn fuera de la diagonal de la matriz (X'X) son cero. Esto implica que la suma de los productos cruzados de las columnas de la matriz X sea cero, La clase de los diseos de primer orden ortogonales incluye los factoriales 2k y las fracciones de la serie 2k en las que los efectos principales no son alias entre s. Al usar estos diseos se supone que los niveles bajo y alto de los k factores estn codificados en los niveles usuales 1. El diseo 2k no permite la estimacin del error experimental a menos que se hagan rplicas de algunas corridas. Un mtodo comn de incluir las rplicas en el diseo 2k es aumentar el diseo con varias observaciones en el centro (el punto Xi = 0, i = 1, 2, 'oo, k). La adicin de puntos centrales al diseo 2k no influye en las {~ } para i ;::: 1, pero la estimacin de f30 se convierte en el gran promedio de todas las observaciones. Adems, la adicin de puntos centrales no altera la propiedad de ortogonalidad del diseo. En
456
CAPTULO 11
x,
0.)
b)
el ejemplo 11-1 se ilustra el uso de un diseo 22 aumentado con cinco puntos centrales para ajustar un modelo de primer orden. Otro diseo de primer orden ortogonal es el diseo smplex. El diseo smplex es una figura de lados regulares con k + 1 vrtices en k dimensiones. Por 10 tanto, el diseo smplex para k = 2 es un tringulo equiltero, y para k = 3 es un tetraedro regular. En la figura 11-19 se muestran diseos smplex de dos y tres dimensiones.
11~4.2
En el ejemplo 11-2 se hizo la introduccin informal (e incluso antes en el ejemplo 6-6) del diseo central compuesto o DCC para ajustar un modelo de segundo orden. Se trata de la clase ms popular de diseos usados para ajustar estos modelos. En general, el DCC consta de un factoria12k (o de un factorial fraccionado de resolucin V) con 11 F corridas, 2k corridas axiales o estrella y 11 c corridas centrales. En la figura 11-20 se muestra el DCC para k = 2 Y k = 3 factores. El despliegue prctico de un DCC surge con frecuencia a travs de la experimentacin secuencial, como en los ejemplos 11-1 y 11-2. Es decir, se ha usado un diseo 2k para ajustar un modelo de primer orden, este modelo ha presentado falta de ajuste, y despus se agregaron las corridas axiales para permitir la incorporacin de los trminos cuadrticos en el modelo. El DCC es un diseo muy eficiente para ajustar el modelo de segundo orden. Hay dos parmetros en el diseo que deben especificarse: la distancia a de las corridas axiales al centro del diseo y el nmero de puntos centrales 11 c . A continuacin se analiza la eleccin de estos dos parmetros.
457
(O,a)
(-1, +1)
(+1, +1)
--_'I---b~-I---"""--X1
(-a, O)
(0,0)
(a, O)
(-1,-1)
(O, -a)
(+1, -1)
= 2 Y k = 3.
Rotabilidad Es importante que el modelo de segundo orden proporcione buenas predicciones en toda la regin de inters. Una manera de definir "buenas" es requerir que el modelo tenga una varianza razonablemente consistente y estable de la respuesta predicha en los puntos de inters x. Recuerde, por la ecuacin 10-40, que la varianza de la respuesta predicha en algn punto x es
V[Y(x)] = a 2 x'(X'Xr 1 x
Boxy Hunter [17a] propusieron que un diseo de superficie de respuesta de segundo orden debe ser rotable. Esto significa que la V[Y(x)] es la misma en todos los puntos x que estn a la misma distancia del centro del diseo. Es decir, la varianza de la respuesta predicha es constante en esferas. En la figura 11-21 se muestran los contornos de v'V[Y(x)] constante para el ajuste del modelo de segundo orden utilizando el DCC en el ejemplo11-2. Observe que los contornos de desviacin estndar constante de la respuesta predicha son crculos concntricos. Un diseo con esta propiedad dejar la varianza de ysin cambio cuando el diseo se rota alrededor del centro (O, 0, ..., O), de ah el nombre de diseo rotable. La rotabilidad es una base razonable para la seleccin de un diseo de superficie de respuesta. Puesto que la finalidad de la MSR es la optimizacin, y la localizacin del ptimo se desconoce antes de correr el experimento, tiene sentido el uso de un diseo que proporcione una precisin de estimacin igual en todas las direcciones (puede demostrarse que cualquier diseo de primer orden ortogonal es rotable). Un diseo central compuesto se hace rotable mediante la eleccin de a. El valor de a para la rotabilidad depende del nmero de puntos en la porcin factorial del diseo; de hecho, a = (fI F)1/4 produce un diseo central compuesto rotable, donde nF es el nmero de puntos usados en la porcin factorial del diseo. El DCC esfrico La rotabilidad es una propiedad esfrica; es decir, tiene mayor sentido como criterio de diseo cuando la regin de inters es una esfera. Sin embargo, no es importante tener una rotabilidad exacta para tener un buen diseo. De hecho, para una regin esfrica de inters, la mejor eleccin de a desde el punto de vista de la varianza de prediccin para el DCC es hacer a = Vk. Este diseo, llamado DCC esfrico, coloca todos los puntos factoriales y axiales del diseo sobre la superficie de una esfera de radio Vk. Para una exposicin ms amplia del tema, ver Myers y Montgomery [85a].
458
CAPTULO 11
0.3019
179.7
ro
;;;
Q.
O; 175.0
E ~ 172.6
170.3
0.3019
87.36
a) Contornos de ~V[y(x)1
0.3949
0.3020
0.2091
0.1161
"
-<;\0~9
167.9
Figura 11-21 Contornos de desviacin estndar constante de la respuesta predicha para el DCC rotable, ejemplo 11-2.
Corridas centrales en el DCC La eleccin de a en el DCC est dictada principalmente por la regin de inters. Cuando esta regin es una esfera, el diseo debe incluir corridas centrales para proporcionar una varianza razonablemente estable de la respuesta predicha. En general, se recomiendan de tres a cinco corridas centrales. El diseo de Box-Behnken Box y Behnken [13] han propuesto algunos diseos de tres niveles para ajustar superficies de respuesta. Estos diseos se forman combinando factoriales 2k con diseos de bloques incompletos. Los diseos re-
11-4 DISEOS EXPERIMENTALES PARA AJUSTAR SUPERFICIES DE RESPUESTA Tabla 11-8 Diseo de Box-Behnken para tres variables
Xl
X2 X3
459
Corrida
1 2
3 4
5
6 7
8 9
-1 -1 1 1 -1 -1 1 1
O O O O O O O
-1 1 -1 1
O O O O
O O O O
10
11
12
13
-1 -1 1 1
O O O
-1 1 -1 1 -1 1 -1 1
O O O
14 15
sultantes suelen ser muy eficientes en trminos del nmero requerido de corridas, y son rotables o casi rotables. En la tabla 11-8 se muestra el diseo de Box-Behnken para tres variables. El diseo tambin se ilustra geomtricamente en la figura 11-22. Observe que el diseo de Box-Behnken es un diseo esfrico, con todos los puntos localizados en una esfera de radio...n. Asimismo, el diseo de Box-Behnken no contiene ningn punto en los vrtices de la regin cbica creada por los lmites superior.e inferior de cada variable. Esto podra ser una ventaja cuando los puntos de los vrtices del cubo representan combinaciones de los niveles de los factores cuya prueba es prohibitivamente costosa o imposible debido a restricciones fsicas del proceso. Regin cuboidal de inters Existen muchas situaciones en las que la regin de inters es cuboidal en lugar de esfrica. En estos casos, una variante til del diseo central compuesto es el diseo central compuesto con centros en las caras o el cubo con centros en las caras, en el que a = 1. En este diseo los puntos axiales o estrella se localizan en los centros de las caras del cubo, como se muestra en la figura 11-23 para k = 3. Esta variante del diseo central compuesto se usa en ocasiones d.ebido a que slo requiere tres nveles de cada factor, y en la prc-
-1
+1 .
Figura 11-23 Diseo central compuesto con centros en las caras para k == 3.
.<:.
fl
460
CAPTULO 11 MTODOS DE SUPERFICIES DE RESPUESTA
-1.00
(a)
-1.00
Superficie de respuesta
Xl
Figura 11-24
Desviacin estndar de la respuesta predicha ~V[y(x)] para el cubo con centros en las caras con k = 3, /le = 3 YX 3 = O.
461
--'---"---~--Xl
---t+--..--\-t--- x ,
al
b)
tica con frecuencia es difcil cambiar los niveles de los factores. Sin embargo, observe que los diseos centrales compuestos no son rotables. El cubo con centros en las caras no requiere tantos puntos centrales como el DCC esfrico. En la prctica, nc = 2 o 3 es suficiente para proporcionar una buena varianza de prediccin en toda la regin experimental. Cabe sealar que en ocasiones se emplearn ms corridas centrales para dar una estimacin razonable del error experimental. En la figura 11-24 se muestra la raz cuadrada de la varianza de prediccin v'V[5'(x)] del cubo con centros en las caras para k = 3 con n c = 3 puntos centrales (x 3 = O). Observe que la desviacin estndar de la respuesta predicha es razonablemente uniforme en una porcin relativamente larga del espacio del diseo.
Otros diseos Existen muchos otros diseos de superficie de respuesta que en ocasiones son tiles en la prctica. Para dos variables, podran usarse diseos compuestos de puntos cuya separacin en un crculo es igual y que forman polgonos regulares. Puesto que los puntos del diseo son equidistantes del origen, a estos arreglos con frecuencia se les llama diseos equirradiales. Para k = 2, un diseo equirradial rotable se obtiene combinando n z ;::: 5 puntos con una separacin igual en un crculo con nI ;::: 1 punto en el centro del crculo. Diseos de particular utilidad para k = 2 son el pentgono y el hexgono. Estos diseos se muestran en la figura 11-25. Otros diseos tiles incluyen el diseo compuesto pequeo, el cual consiste en un factorial fraccionado en el cubo de resolucin III* (los efectos principales son alias de las interacciones de dos factores y ninguna de las interacciones de dos factores es alias entre s) y las corridas axiales y centrales usuales, y la clase de los diseos hbridos. Estos diseos pueden ser de valor considerable cuando es importante reducir el nmero de corridas tanto como sea posible. En la tabla 11-9 se muestra un diseo compuesto pequeo para k = 3 factores. Este diseo usa la fraccin un medio estndar del diseo 23 en el cubo, ya que satisface los criterios de la resolucin III*. El diseo tiene cuatro corridas en el cubo y seis corridas axiales, y debe incluir al menos un punto central. Por lo tanto, el diseo tiene un mnimo de N = 11 ensayos, y el modelo de segundo orden en k = 3 variables tiene p = 10 parmetros por estimar, por lo que se trata de un diseo muy eficiente con respecto al nmero de conidas. El diseo de la tabla 11-9 tiene n c = 4 corridas centrales. Se seleccion a = 1. 73 para obtener un diseo esfrico debido a que el diseo compuesto pequeo no puede hacerse rotable. En la tabla 11-10 se muestra un diseo hbrido para k = 3. Algunos de estos diseos tienen niveles irregulares, y esto puede ser un factor limitante para su aplicacin. Sin embargo, se trata de diseos muy
, I l'
~'l
462
CAPTULO 11
pequeos, y poseen excelentes propiedades de la varianza de prediccin. Para mayores detalles acerca de los diseos compuestos pequeos y los diseos 1uoridos, referirse a Myers y Montgomery [85a].
11~4.3
Cuando se usan diseos de superficie de respuesta, con frecuencia es necesario considerar la formacin de bloques para eliminar las variables perturbadoras. Por ejemplo, este problema puede ocurrir cuando un diseo de segundo orden se ensambla secuencialmente a partir de un diseo de primer orden, como se ilustr en los ejemplos 11-1 y 11-2. Puede transcurrir tiempo considerable entre que se corre el modelo de primer orden y se corren los experimentos complementarios requeridos para construir un diseo de se-
,i
463
gundo orden, y durante este tiempo las condiciones de prueba pueden cambiar, haciendo necesaria la formacin de bloques. Se dice que un diseo de superficie de respuesta se forma de bloques ortogouales si se divide en bloques tales que sus efectos no afecten las estimaciones de los parmetros del modelo de superficie de respuesta. Si se usa un diseo 2/c o 2/c-P como un diseo de superficie de respuesta de primer orden, pueden usarse los mtodos del captulo 7 para disponer las corridas en 2' bloques. Los puntos centrales de estos diseos debern asignarse por igual entre los bloques. Para hacer la formacin de bloques ortogonales de un diseo de segundo orden, deben satisfacerse dos condiciones. Si hay nb observaciones en el bloque b-simo, entonces estas condiciones son
L
u=l
nb
XillX jll
=O
=;t:.
j= 0,1, ..., k
para todab
donde X ill Yxju son los niveles de las variables i-sima y j-sima en la corrida u-sima del experimento con X Oll = 1 para toda u. 2. La fraccin de la suma de cuadrados total para cada variable con que contribuye cada bloque, debe ser igual a la fraccin de las observaciones totales que estn contenidas en el bloque; es decir,
L x~ L X~t
ll=l N ll=l
nb
i = 1, 2, ..., k
para todab
donde N es el nmero de corridas del diseo. Como un ejemplo de la aplicacin de estas condiciones, considere un diseo central compuesto rotable en k = 2 variables con N = 12 corridas. Los niveles Xl y X 2 de este diseo pueden escribirse en la matriz del diseo
Xl
X2
Bloqoe 1
Bloque 2
Observe que el diseo se ha dispuesto en dos bloques, con el primer bloque consistiendo en la porcin factorial del diseo ms dos puntos centrales y el segundo bloque consistiendo en los puntos axiales ms
,
i
464
CAPTULO 11
dos puntos centrales adicionales. Es claro que la condicin 1 se satisface; es decir, ambos bloques son diseos de primer orden ortogonales. Para investigar la condicin dos, considere primero el bloque 1 y observe que
~ X" = ~ xi" = 4
u=l 1l=1
L x" = Lxi" = 8
u=l 1l=1
Por lo tanto,
L Xi~l L X~l
u=l N
",
nI N
6
1l=1
AS,
4 8
12
2 _
~
u=l
Por lo tanto,
L L
u=l N
",
X iu
o
X'~l
n2 N
6
u=l
- =8 12
Puesto que la condicin 2 tambin se satisface en el bloque 2, este diseo est formado de bloques ortogonales. En general, el diseo central compuesto siempre puede construirse para hacer la formacin de bloques ortogonales en dos bloques con el primer bloque consistiendo en nF puntos factoriales ms n CF puntos centrales y el segundo bloque consistiendo en nA = 2k puntos axiales ms nCA puntos centrales. La primera condicin de la formacin de bloques ortogonales se cumplir siempre independientemente del valor que se use para a en el diseo. Para que la segunda condicin se cumpla,
I
" ",
x~,
(11-15)
LXi:'
"
El miembro izquierdo de la ecuacin 11-15 es 2a 2/np, y despus de sustituir esta cantidad, la ecuacin para el valor de a que resultar en la formacin de bloques ortogonales puede resolverse como
112
(11-16)
465
Este valor de a no dar como resultado, en general, un diseo rotable o esfrico. Si se requiere que el diseo tambin sea rotable, entonces a = (n F)I/4 Y
(n F
)
1/? -
nF(n A +n CA ) 2(n F +n CF )
(11-17)
No siempre es posible encontrar un diseo que satisfaga exactamente la ecuacin 11-17. Por ejemplo, si k = 3, n F = 8 Y nA = 6, la ecuacin 11-17 se reduce a (8) 1/ ?
= 8(6+n CA )
---.:..-----=:"--'--
2(8+n CF )
nA nCA
Nmero total de puntos en el bloque axial Nmero total de puntos N del diseo Valores dea Separacin en bloques ortogonales Rotabilidad
11
25 169
11
33
1.4142 1.6330 2.0000 2.3664 2.0000 2.8284 2.3664 3.3636 2.8284 1.4142 1.6818 2.0000 2.3784 2.0000 2.8284 2.3784 3.3333 2.8284
466
CAPTULO 11
Cabe destacar dos puntos importantes acerca del anlisis de varianza cuando el diseo de superficie de respuesta se ha corrido en bloques. El primero se refiere al uso de los puntos centrales para calcular una estimacin del error puro. Slo los puntos centrales que se corren en el mismo bloque pueden considerarse como rplicas, por lo que el trmino del error puro slo puede calcularse dentro de cada bloque. Si la variabilidad es consistente en todos los bloques, entonces estas estimacionesdel error puro podran agruparse. El segundo punto se refiere al efecto de bloque. Si el diseo se forma de bloques ortogonales en m bloques, la suma de cuadrados de los bloques es
SSBloques
=L
b=!
ni
nb
(11-18)
donde E b es el total de las n b observaciones en el bloque b-simo y G es el gran total de las N observaciones en los m bloques. Cuando los bloques no son exactamente ortogonales, puede usarse la prueba general de significacin de la regresin (el mtodo de la "suma de cuadrados extra") que se describi en el captulo 10.
11~4.4
Los diseos estndares de superficie de respuesta estudiados en las secciones anteriores, como el diseo central compuesto y el diseo de Box-Behnken y sus variantes (como el cubo con centros en las caras), son de uso generalizado porque son diseos bastante generales y flexibles. Si la regin experimental es un cubo o una esfera, de manera tpica existe un diseo de superficie de respuesta que ser aplicable al problema. Sin embargo, ocasionalmente un experimentador se encuentra con una situacin en la que el diseo estndar de superficie de respuesta puede no ser una eleccin obvia. Los diseos generados por computadora son una alternativa por considerar en estos casos. Hay tres situaciones en las que puede ser apropiado algn tipo de diseo generado por computadora.
1. Una regin experimental irregular. Si la regin de inters del experimento no es un cubo o una esfera, los diseos estndares quiz no sean la mejor eleccin. Las regiones de inters irregulares ocurren con bastante frecuencia. Por ejemplo, un experimentador est investigando las propiedades de un adhesivo particular. El adhesivo se aplica a dos piezas y despus se cura a una temperatura elevada. Los dos factores de inters son la cantidad de adhesivo aplicada y la temperatura de curado. En los rangos de estos dos factores, tomados como -1 a + 1 en la escala de la variable codificada usual, el experimentador sabe que si se aplica muy poco adhesivo y la temperatura de curado es muy baja, las piezas no se pegarn satisfactoriamente. En trminos de las variables codificadas, esto lleva a una restriccin sobre las variables del diseo, por ejemplo
dondex l representa la cantidad aplicada de adhesivo YXzla temperatura. Adems, si la temperatura es demasiado elevada y se aplica mucho adhesivo, las piezas resultarn daadas por la fatiga trmica o bien ocurrir un pegado inadecuado. Por lo tanto, hay otra restriccin sobre los niveles de los factores
Xl +X z
:51
En la figura 11-26 se muestra la regin experimental que resulta de aplicar estas restricciones. Observe que las restricciones eliminan de hecho dos de los vrtices del cuadrado, produciendo una regin experi-
467
0.5
-1.0
-0.5
x,
0.5
1.0
mental irregular (en ocasiones a estas regiones irregulares se les llama "latas abolladas"). No existe ningn diseo de superficie de respuesta estndar que se ajuste exactamente a esta regin.
2. Un modelo no estndar. Por lo general, ~~ experimentador elige un modelo de superficie de respuesta de primer o de segundo orden, consciente de que este modelo emprico es una aproximacin del verdadero mecanismo subyacente. Sin embargo, en ocasiones el experimentador puede tener un conocimiento o idea especial acerca del proceso bajo estudio que puede sugerir un modelo no estndar. Por ejemplo, el modelo
puede ser de inters. El experimentador estara interesado en obtener un diseo eficiente para ajustar este modelo reducido de cuarto graqo. Como otra ilustracin, en ocasiones se encuentran problemas de superficie de respuesta en los que algunos de los factores del diseo son variables categricas. No hay diseos de superficie de respuesta estndares para esta situacin (referirse a Myers y Montgomery [85a] para un estudio de las variables categricas en problemas de superficie de respuesta).
3. Requerimientos inusuales para el tamao de la muestra. Ocasionalmente, un experimentador quiz necesite reducir el nmero de corridas requeridas en un diseo estndar de superficie de respuesta. Por ejemplo, suponga que se pretende ajustar un modelo de segundo orden en cuatro variables. El diseo central compuesto para esta situacin requiere entre 28 y 30 corridas, dependiendo del nmero de puntos centrales seleccionados. Sin embargo, el modelo slo tiene 15 trminos. Si las corridas tienen un costo muy elevado o se llevan mucho tiempo, el experimentador querr un diseo con menos ensayos. Aun cuando los diseos generados por computadora pueden usarse para este fin, por lo general se cuenta con enfoques mejores. Por ejemplo, puede construirse un diseo compuesto pequeo para cuatro factores
468
CAPTULO 11
con 20 corridas, incluyendo cuatro puntos centrales, y tambin se cuenta con un diseo hbrido con apenas 16 corridas. stas son en general elecciones superiores al uso de un diseo generado por computadora para reducir el nmero de ensayos. Gran parte del desarrollo de los diseos generados por computadora se deriva del trabajo de Kiefer [65a, b] y Kiefer y Wo1fowitz [66] en la teora de los diseos optimales. Por diseo optimal se entiende un diseo que es "mejor" con respecto a algn criterio. Se requieren programas de computadora para construir estos diseos. El enfoque usual es especificar un modelo, determinar la regin de inters, seleccionar el nmero de corridas que debern hacerse, especificar el criterio de optimalidad y despus elegir los puntos del diseo de un conjunto de puntos candidatos que el experimentador considerara usar. De manera tpica, los puntos candidatos son una matriz de puntos distribuidos en la regin factible del diseo. Hay varios criterios de optimalidad populares. Quiz el de uso ms generalizado es el criterio de optimalidad D. Se dice que un diseo es optimal D si
se minimiza. Ocurre que un diseo optimal D minimiza el volumen de la regin de confianza conjunta para el vector de los coeficientes de regresin. Una medida de la eficiencia relativa del diseo 1 respecto del diseo 2 de acuerdo con el criterio D est dada por (11-19) donde Xl Y X2 son las matrices X de los dos diseos y p es el nmero de parmetros del modelo. El criterio de optimalidadA slo se ocupade las varianzas de los coeficientes de regresin. Un diseo es optimalA si minimiza la suma de los elementos de la dj.gonal principal de (X'xtl [a sta se le llama la traza de (X'xt\ denotada generalmente como tr(X'Xtl]. Por lo tanto, un diseo optimalA minimiza la suma de las varianzas de los coeficientes de regresin. Puesto que muchos experimentos de superficie de respuesta se refieren a la prediccin de la respuesta, los criterios de la varianza de prediccin son de gran inters prctico. Quizs el ms popular de estos criterios sea el criterio de optimalidad G. Se dice que un diseo es optimal G si minimiza la varianza de prediccin escalada mxima en la regin del diseo. Es decir, si el valor mximo de
en la regin del diseo es un mnimo, donde N es el nmero de puntos del diseo. Si el modelo tiene p parmetros, la eficiencia G de un diseo es precisamente
p
Ge
= , NV[5'(x)]
max
a?
(11-20)
El criterio V considera la varianza de prediccin en un conjunto de puntos de inters en la regin del diseo, por ejemplo Xl' X 2 , , XIII. El conjunto de puntos podra ser el conjunto de candidatos del que se seleccion el diseo, o podra ser alguna otra coleccin de puntos que tienen un significado especfico para el experimentador. Un diseo que minimiza la varianza de prediccin promedio en este conjunto de m puntos es un diseo optimal V. En conjunto, a los criterios de diseo que se han venido estudiando suele llamrseles criterios de optimalidad alfabtica. Existen algunas situaciones en las que el diseo optimal alfabtico se conoce o bien
469
puede construirse analticamente. Un buen ejemplo es el diseo 2\ que es optimal D, A, G YV para ajustar el modelo de primer orden en k variables o para ajustar el modelo de primer orden con interaccin. Sin embargo, en la mayora de los casos el diseo optimal no se conoce y debe emplearse un algoritmo basado en computadora para encontrar un diseo. Muchos paquetes de software de estadstica que soportan experimentos diseados cuentan con esta capacidad. La mayora de los procedimientos para construir diseos se basan en el algoritmo de intercambio. En esencia, el experimentador selecciona una matriz de puntos candidatos y un diseo inicial (quiz al azar) a partir de este conjunto de puntos. Entonces el algoritmo intercambia los puntos que estn en la matriz, pero no en el diseo, con los puntos que estn actualmente en el diseo, en un esfuerzo por mejorar el criterio de optimalidad seleccionado. Debido a que no se evalan explcitamente todos los diseos posibles, no hay garanta de que se ha encontrado un diseo optimal, pero el procedimiento de intercambio suele asegurar que se obtiene un diseo que est "cerca" del optimal. Algunas implementaciones repiten varias veces el proceso de construccin del diseo, empezando con diseos iniciales diferentes, para incrementar la posibilidad de que se obtendr un diseo final que est muy cerca del optimal. Para ilustrar algunas de estas ideas, considere el experimento del adhesivo expuesto anteriormente y que llev a la regin experimental irregular de la figura 11-26. Suponga que la respuesta de inters es la fuerza de desprendimiento y que quiere ajustarse un modelo de segundo orden para esta respuesta. En la figura 11-27a se muestra un diseo central compuesto con cuatro puntos centrales (12 corridas en total) inscrito dentro de esta regin. Se trata de un diseo que no es rotable, pero es el DCC ms grande que puede ajustarse dentro del espacio del diseo. Para este diseo I(X'xt11 = 1.852 E-2, Yla traza de (X'xt1 es 6.375. En la figura 11-27a tambin se muestran los contornos de desviacin estndar constante de la respuesta predicha, calculada suponiendo que a = 1. En la figura 11-27b se muestra la grfica de superficie de respuesta correspondiente. En la figura 11-28a y en la tabla 11-12 se muestra un diseo optimalD de 12 corridas para este problema, generado con el paquete de software Design-Expert. Para este diseo, I(X'xt11 = 2.153 E-4. Observe que el criterio D es considerablemente mejor para este diseo que el DCC inscrito. La eficiencia relativa del DCC inscrito con respecto al diseo optimal D es
Es decir, el DCC inscrito tiene una eficiencia de slo 47.6% que la del diseo optimalD. Esto implica que tendran que hacerse 1/0.476 = 2.1 rplicas del DCC (o aproximadamente el doble) para tener la misma precisin de la estimacin de los coeficientes de regresin que la que se consigue con el diseo optimalD. La traza de (X'xt1 es 2.516 para el diseo optimal D, lo cual indica que la suma de las varianzas de los coeficientes de regresin es considerablemente ms pequea para este diseo que para el DCC. En las figuras 11-28a y b se muestran tambin los contornos de desviacin estndar constante de la respuesta predicha y la grfica de la superficie de respuesta asociada (suponiendo que a = 1). En general, los contornos de la desviacin estndar de la prediccin son ms bajos para el diseo optimalD que para el DCC inscrito, particularmente cerca de los lmites de la regin de inters, donde el DCC inscrito no incluye ninguno de los puntos del diseo. En la figura 11-29a se muestra un tercer diseo, creado al tomar las dos rplicas de los vrtices de la . regin en el diseo optimalD y pasarlas al centro del diseo. Esto podra ser una idea til, ya que la figura 11-28b muestra que la desviacin estndar de la respuesta predicha se incrementa ligeramente cerca del centro de la regin del diseo para el diseo optimalD. En la figura 11-29a se muestran tambin los contornos de desviacin estndar constante de la prediccin para este diseo optimalD modificado, y en la fi-
470
CAPTULO 11 1.00
0.50
>iN
0.00
-0.50
-1.001------1.00 -0.50
(a)
0.00 %,
0.50
1.00
-0.50
-0.50
(1))
Figura 1127 Un diseo central compuesto inscrito para la regin restringida del diseo de la figura 11-26.
471
l-{N
0.00
-1.00 L -1.00
~~..:::::::~__--.J~-
__......=::t:::i..
0.50 1.00
-0.50
0.00
x,
(a)
-1.00
-1.00
472
CAPTULO 11
Tabla U-12
Orden estndar
1 2 3 4 5
6 7 8 9 10 11
12
-0.50 1.00 -0.08 -1.00 1.00 0.00 -1.00 0.25 -1.00 1.00 0.00 -0.08
-1.00 0.00 -0.08 1.00 -1.00 1.00 0.25 -1.00 -0.50 0.00 1.00 -0.08
gura 11-29b se muestra la grfica de la superficie de respuesta. El criterioD para este diseo es I(X'xyll = 3.71 E-4, Y la eficiencia relativa es
D =
e
0.000371
Es decir, este diseo es casi tan eficiente como el diseo optimalD. La traza de (X'xtl es 2.448 para este diseo, un valor ligeramente mayor que el que se obtuvo para el diseo optimalD. Los contornos de desviacin estndar constante de la prediccin para este diseo dan la impresin visual de ser al menos tan buenos como los del diseo optimal D, particularmente en el centro de la regin. Los diseos generados por computadora con base en los criterios de optimalidad alfabtica pueden ser ciertamente tiles en situaciones en las que la regin experimental no es ni esfrica ni cuboidal. Sin embargo, no son sustitutos de los diseos estndares en la mayora de los problemas. Los diseos optimales alfabticos se generan apegndose estrictamente a un solo criterio y, como se seal al principio de la seccin 11-4, donde se enlistaron varios criterios para diferentes diseos, incluyen varios que son de carcter un tanto cualitativo o subjetivo. En problemas experimentales reales, por lo general hay muchos criterios que es necesario evaluar para seleccionar un diseo. Para un estudio ms amplio de este tema, referirse a Myers y Montgomery [85a, captulo 8].
11~5
En las secciones anteriores se presentaron diseos de superficie de respuesta para aquellas situaciones en las que los niveles de cada factor son independientes de los niveles de otros factores. En los experimentos con mezclas, los factores son los componentes o ingredientes de una mezcla y, por consiguiente, sus niveles no son independientes. Por ejemplo, six l ,x2, ... ,xp denota las proporciones de p componentes de una mezcla, entonces
i
= 1,2, oo.,
xl . +x 2 +oo+XP =1
1'11'
1
11
473
-0.50
-1.00 -1.00
L __~~;;::::::::::::=~--JC=~_
-0.50 0.00 0.50 1.00
X,
la) El diseo y los contornos de ~V [jilxll/a2 constante
Figura 11.29 Un diseo optimalD modificado para la regin restringida del diseo de la figura 11-26.
r1 .,
474
CAPTULO 11 MTODOS DE SUPERFICIES DE RESPUESTA
X, X, + x 2 = 1
a)
X,
b)
Figura 11-30 Espacio de los factores restringidos para mezclas con a) p = 2 componentes y b)p = 3 componentes.
Figura 11-31
Estas restricciones se ilustran grficamente en la figura 11-30 para p = 2 YP = 3 componentes. Para dos componentes, el espacio de los factores del diseo incluye todos los valores de los dos componentes que estn sobre el segmento de recta Xl + X 2 = 1, con cada componente siendo acotado por Oy 1. Con tres componentes, el espacio de la mezcla es un tringulo con vrtices que corresponden a las formulaciones que son mezclas puras (mezclas que son 100% de un solo componente). Cuando hay tres componentes en la mezcla, la regin experimental restringida puede representarse convenientemente en papel milimtrico trilineal, como se muestra en la figura 11-31. Cada uno de los tres lados de la grfica de la figura 11-31 representa una mezcla que no contiene nada de alguno de los tres componentes (el componente indicado en el vrtice opuesto). Las nueve lneas de graduacin en cada direccin marcan incrementos de 10% en el componente respectivo. Los diseos smplex se usan para estudiar los efectos de los componentes de una mezcla sobre la variable de respuesta. Un diseo smplex reticular {p, m} parap componentes consta de los puntos definidos por los siguientes arreglos de las coordenadas: las proporciones asumidas por cada componente toman los In + 1 valores que estn separados por una distancia igual de O a 1, 1 2 Xi = 0,-,-,"',1 i = 1,2, .oo, p (11-21) m m y se usan todas las combinaciones posibles (mezclas) de las proporciones de la ecuacin 11-21. Como un ejemplo, sean p = 3 Y m = 2. Entonces
i
= 1,
2, 3
475
= 1
X, =
Retfcula [3, 2]
X,
Retcula [3, 31
Xl
= 1
X3
= 1
= 1
Retfcula [4, 2]
Retcula [4, 31
= 3 YP = 4 componentes.
(xl'x 2 , x 3 )
= (1, O, O), (O, 1, O), (O, O, 1), (t, t, O), (t, O, t), (O, t, t)
En la figura 11-32 se ilustra este diseo. Los tres vrtices (1, O, O), (O, 1, O) Y(O, O, 1) son las mezclas puras, mientras que los puntos (t, t, O), (t, O, t) y (O, t, t) son mezclas binarias o mezclas de dos componentes localizadas en los puntos medios de los tres lados del tringulo. En la figura 11-32 se muestran tambin los diseos smplex reticulares {3, 3}, {4, 2} Y{4, 3}. En general, el nmero de puntos en un diseo smplex reticular {P, m} es
= ..:..;:(p,-+_n_l_-_1,--) !
m!(p-1)!
Una alternativa del diseo smplex reticular es el diseo smplex de centroide. En un diseo smplex de centroide con p componentes, hay 2P -1 puntos, que corresponden a las p permutaciones de (1, O, O, oo., O), las (~) permutaciones de (t, t, O, oo., O), las (f) permutaciones de (t, t, t, O, oo., O), .oo, Yel centroide global (;, ;, .oo, ;). En la figura 11-33 se muestran algunos diseos smplex de centroide.
a)
b)
Figura 11-33
= 3 componentes y b) p = 4 componentes.
476
CAPTULO 11
Una crtica a los diseos smplex descritos antes es que la mayora de las corridas ocurren en la frontera de la regin y, por consiguiente, incluyen slo p -1 de los p componentes. Suele ser deseable aumentar el diseo smplex reticular o de centroide con puntos adicionales en el interior de la regin donde las mezclas estarn formadas por la totalidad de los p componentes. Para un estudio ms amplio, ver Comell [33] y Myers y Montgomery [85a]. Los modelos para mezclas difieren de los polinomios usuales empleados en los diseos de superficie de respuesta debido a la restriccin Lx = 1. Las formas estndares de los modelos para mezclas que se usan ampliamente son
Lineal:
p
E(y) =
Cuadrtico:
L f3x
=1
p
(11-22)
E(y) =
Cbico completo:
L f3x + LL f3ijxX
;=1
i<j
(11-23)
E(y) =
L
;=1
f3x +
LL f3ijxX
i<j
(11-24)
i<j
Cbico especial:
E(y) =
L
;=1
f3x +
LL f3ijxX
i<j
(11-25)
Los trminos de estos modelos tienen interpretaciones relativamente simples. En las ecuaciones 11-22 a 11-25, el parmetro f3 representa la respuesta esperada para la mezcla purax = 1 Yxj = Ocuando j ;: i. A la porcin L;=lf3X se le llama porcin de mezcla lineal. Cuando hay curvatura derivada de una mezcla no lineal entre pares de componentes, los parmetros f3ij representan una mezcla sinrgica o bien antagnica. Los trminos de rdenes superiores suelen ser necesarios en los modelos para mezclas porque 1) los fenmenos estudiados pueden ser complejos y 2) la regin experimental con frecuencia es la regin de operabilidad completa y, en consecuencia, es grande y requiere un modelo elaborado.
EJEMPLO 11..3
Una mezcla de tres componentes Comell [33] describe el experimento con una mezcla en el que se combinaron tres componentes -polietileno (Xl), poliestireno (x z) y polipropileno (x3)- para hilar una fibra que se usar en cortinas. La variable de respuesta de inters es la elongacin del hilo en kilogramos de fuerza aplicada. Se usa un diseo smplex
477
Tabla 11-13 El diseo smplex reticular {3, 2} para el problema de la elongacin del hilo Proporciones de los componentes Valores observados Punto del diseo
Xl
X2
X3
de la elongacin
1 2 3 4 5 6
1
"2
l
O
"2
l
O O O
l
O O O
"2
l
"2
O O
"2
1
"2
l
reticular para estudiar el producto. El diseo y las respuestas observadas se muestran en la tabla 11-13. Observe que todos los puntos del diseo incluyen mezclas puras o binarias; es decir, nicamente se usan a lo sumo dos de los tres componentes en cualquier formulacin del producto. Tambin se corren rplicas de las observaciones, con dos rplicas de cada una de las mezclas puras y tres rplicas de cada una de las mezclas binarias. La desviacin estndar del error puede estimarse a partir de estas rplicas de las observaciones como fj = 0.85. Comel1 ajusta el polinomio de segundo grado de la mezcla a los datos, obteniendo
9.6x 2 x 3
Puede demostrrse que este modelo es una representacin adecuada de la respuesta. Observe que como
{J3 > {JI > {J2' se concluira que el componente 3 (polipropileno) produce el hilo con la elongacin mxima. Adems, puesto que {J12 y {J13 son positivos, la mezcla de los componentes 1 y 2 o de los componentes
1 y 3 produce valores ms altos de la elongacin de los que se esperaran si nos limitramos a promediar las elongaciones de las mezclas puras. Se trata de un ejemplo de los efectos de mezclado "sinrgicos". Los componentes 2 y 3 tienen efectos de mezclado antagnicos, ya que {J23 es negativa. En la figura 11-34 se grafican los contornos de la elongacin, lo cual puede ser de utilidad para interpretar los resultados. Al examinar la figura, se observa que si se desea la elongacin mxima, deber elegirse la mezcla de los componentes 1 y 3, la cual est formada por aproximadamente 80% del componente 3 y 20% del componente 1.
x,
Figura 1134 Contornos de la elongacin estimada del hilo constante en el modelo de segundo orden para la mezcla del ejemplo 11-3.
478
CAPTULO 11
Se seal ya que los diseos smplex reticular y smplex de centroide son diseos de puntos fronte. ra. Si el experimentador quiere hacer predicciones acerca de las propiedades de mezclas completas, sera muy deseable contar con ms corridas en el interior del smplex. Se recomienda aumentar los diseos smplex ordinarios con corridas axiales y el centroide global (si el centroide no es ya un punto del diseo). El eje del componente i es la recta o rayo que se extiende del punto basex = O,xj = 1/(p -1), para toda j ; i, al vrtice opuesto dondex = 1,xj = Opara todaj ; i. El punto base siempre se localizar en el centroide de la frontera de (p - 2) dimensiones del diseo smplex que est opuesto al vrtice Xi = 1, xj = O para todaj ; i. [Ala frontera se le llama en ocasiones el (p - 2)-llano.] La longitud del eje del componente es una unidad. Los puntos axiales se sitan sobre los ejes de los componentes a una distancia !1 del centroide. El valor mximo de!1 es (p -1)/p. Se recomienda que las corridas axiales se coloquen a la mitad entre el centroide del diseo smplexy cada vrtice para que!1 = (p -1)/2p. En ocasiones a estos puntos se les llama mezclas de verificacin axial, porque es una prctica comn excluirlas cuando se ajusta el modelo preliminar de la mezcla y usar despus las respuestas en estos puntos axiales para verificar la adecuacin del ajuste del modelo preliminar. En la figura 11-35 se muestra el diseo smplex reticular {3, 2} aumentado con los puntos axiales. Este diseo tiene 10 puntos, con cuatro de ellos en el interior del diseo smplex. La retcula smplex {3, 3} soportar el ajuste del modelo cbico completo, mientras que la retcula smplex aumentada no lo har; sin embargo, la retcula smplex aumentada permitir al experimentador ajustar el modelo cbico especial o agregar al modelo cuadrtico trminos especiales de cuarto orden, como 31233XIX2X~, La retcula smplex aumentada es superior para estudiar la respuesta de mezclas completas en el sentido de que puede detectar y modelar la curvatura en el interior del tringulo que no puede tomarse en consideracin por los trminos del modelo cbico completo. La retcula smplex aumentada tiene ms potencia para detectar la falta de ajuste que la retcula {3, 3}. Esto es de particular utilidad cuando el experimentador no est seguro acerca del modelo apropiado que debe usar y tambin planea construir un modelo secuencialmente empezando con un polinomio simple (quiz de primer orden), probar el modelo para la
Figura 11-35
479
falta de ajuste, despus aumentar el modelo con trminos de rdenes superiores, probar el nuevo modelo para la falta de ajuste y as sucesivameme. En algunos problemas de mezclas surgen restricciones sobre los componentes individuales. Las restricciones sobre la frontera inferior de la forma
i
= 1, 2, ..., P
son muy comunes. Cuando slo estn presentes restricciones sobre la frontera inferior, la regin factible del diseo sigue siendo un diseo smplex, pero se inscribe dentro de la regin del smplex original. Esta situacin puede simplificarse mediante la introduccin de pseudocomponentes, definidos como
x> (1:'~\1
x' l +x' 2 ++x' P =1
(11-26)
por lo que el uso de pseudocomponentes permite utilizar diseos tipo smplex cuando las fronteras inferiores forman parte de la situacin experimental. Las formulaciones especificadas por el diseo smplex para los pseudocomponentes se transforman en formulaciones para los componentes originales invirtiendo la transformacin de la ecuacin 11-26. Es decir, six~es el valor asignado al pseudocomponente i-simo en una de las corridas del experimento, el componente i-simo de la mezcla original es
x, ~ 1, +(1- ~ 1 )x;
(11-27)
Cuando los componentes tienen restricciones tanto sobre la frontera superior como la inferior, la regin factible deja de ser un diseo smplex; ser, en cambio, un politopo irregular. Puesto que la regin experimental no tiene una forma "estndar", los diseos generados por computadora son muytiles para este tipo de problemas de mezclas.
EJEMPLO 11..4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Formulacin de una pintura Un experimentador est intentando optimizar la formulacin de una pintura automotriz de recubrimiento total. Se trata de productos complejos que tienen requerimientos de desempeo muy especficos. El cliente quiere, en particular, que la dureza Knoop exceda de 25 y que el porcentaje de slidos est abajo de 30. El recubrimiento total es una mezcla de tres componentes, que consiste en un monmero (Xl), un entrelazador (x 2 ) y una resina (x3 ). Existen restricciones sobre las proporciones de los componentes:
Xl
+x 2 +x 3 = 100
5.:::; Xl .:::; 25 25':::;x 2 .:::; 40 50,:::;x 3 .:::; 70
El resultado es la regin de experimentacin restringida ilustrada en la figura 11-36. Puesto que la regin de inters no es smplex, se usar un diseo optimal D para este problema. Suponiendo que posiblemente ambas respuestas sern modeladas con un modelo cuadrtico de una mezcla, el diseo optimalD ilustra-
480
CAPTULO 11
Monmero
25.00
45
Entrelazador
5.00
Resina
Figura 11-36
La regin experimental restringida para el problema de la formulacin de la pintura del ejemplo 11-4 (mostrada en la escala real del componente).
Tabla 11-14 Diseo optimal D para el problema de la formulacin de la pintura del ejemplo 11-4 Orden Monmero Entrelazador Resina Dureza Slidos estndar Corrida X2 X3 X Y Y2
1 2 3 4 5 6 7 8 9 10 11 12 13 14
2 1 4 13 7 3 6 11 10 14 12 9 5 8
17.50 10.00 15.00 25.00 5.00 5.00 11.25 5.00 18.13 8.13 25.00 15.00 10.00 5.00
32.50 40.00 25.00 25.00 25.00 32.50 32.50 40.00 28.75 28.75 25.00 25.00 40.00 25.00
50.00 50.00 60.00 50.00 70.00 62.50 56.25 55.00 53.33 63.13 50.00 60.00 50.00 70.00
29 26 17 28 35 31 21 20 29 25 19 14 30 23
9.539 27.33 29.21 30.46 74.98 31.5 15.59 19.2 23.44 32.49 23.01 41.46 32.98 70.95
481
F Value
Prob> F
2.37
0.62 3.08
0.1329
0.5630 0.1174 0.0247 0.5703 0.7354
AB AC BC
Residual Lack of Fit Pure Error Cor Total Std. Dev. Mean C.V. PRESS
Component A-Monomer B-Crosslinker C-Resin AS AC SC
1 1 1 8
4 4
7.62
0.35 0.51
DF
Standard Error
1 1 1 1 1 1
do en la figura 11-36 puede generarse utilizando Design-Expelt. Se supuso que, adems de las seis corridas requeridas para ajustar el modelo cuadrtico de una mezcla, se haran cuatro corridas diferentes adicionales para verificar la falta de ajuste y que se haran rplicas de cuatro de estas corridas a fin de proporcionar una estimacin del error puro. Design-Expen utiliz los vrtices, los centros en los bordes, el centroide global y las corridas de verificacin (los puntos localizados a la mitad entre el centroide y los vrtices) como los puntos candidatos. El diseo con 14 corridas se muestra en la tabla 11-14 junto con las respuestas dureza y slidos. Los resultados del ajuste de modelos cuadrticos para ambas respuestas se resumen en las tablas 11-15 y 11-16. Observe que los modelos cuadrticos se ajustan muy bien tanto a la respuesta dureza como a la respuesta slidos. En estas tablas se muestran las ecuaciones ajustadas para ambas respuestas (en trminos de los pseudocomponentes). En las figuras 11-37 y 11-38 se muestran las grficas de contorno de las respuestas. La figura 11-39 es una grfica de superposicin de las dos superficies de respuesta, donde se muestra el contorno de la dureza Knoop de 25% y el contorno de 30% para los slidos. La regin factible para este producto es el rea sin sombrear cerca del centro de la grfica. Evidentemente, existen varias elecciones
r'
Tabla 11-16 Ajuste del modelo para la respuesta slidos
Response: solids ANOVA for Mixture Quadratic Model Analysis of variance table [Partial sum of squares] Sum of Mean Source Squares DF Square Model 4297.94 5 859.59 Linear Mixture 2931.09 2 1465.66 AB 211.20 1 211.20
F Value
Prob> F
AC BC
285.67
1036.72
Residual Lack of Fit Pure Error Cor Total Std. Dev. Mean C.V. PRESS
Component A-Monomer B-Crosslinker C-Resin AB AC BC
1 1 8 4 4 13
285.67
1036.72
<0.0001
<0.0001 0.0360 0.0191 0.0005 0.4633
DF
Standard Error
1 1 1 1 1 1
*B *C *A* B *A*C * B* C
*A
Monmero
25.00 2
2
45.00
Entrelazador
5.00
70.00
Resina
483
25.00
2
'+45.00 5.00
L+o_~....L..
__ 2
70.00
Entrelazador
Resina
Monmero
25.00
2
45.00
5.00
70.00
Entrelazador
Resina
Figura 11-39 Grfica de contorno de las respuestas dureza Knoop y porcentaje de slidos, donde se indica la regin factible para la formulacin de la pintura.
484
CAPTULO 11
para las proporciones del monmero, el entrelazador y la resina para el recubrimiento total que redunda_ r en un producto que satisfaga los requerimientos de desempeo.
11.6
Personal de investigacin y desarrollo aplica con frecuencia la metodologa de superficies de respuesta en operaciones de plantas piloto. Cuando se apli~a a un proceso de produccin a gran escala, suele hacerse una sola vez (o con poca frecuencia), ya que el procedimiento experimental es relativamente minucioso. Sin embargo, las condiciones que fueron ptimas para la planta piloto quiz no lo sean para el proceso a gran escala. La planta piloto puede producir 2 libras de producto por da, mientras que el proceso a gran escala puede generar 2000 libras diarias. Esta "escalacin" de la planta piloto al proceso de produccin a gran escala da por lo general como resultado la distorsin de las condiciones ptimas. Incluso si la planta a gran escala empieza a operar en el ptimo, con el tiempo se "desva" de ese punto debido a las variaciones en las materias primas, los cambios ambientales y el personal de operacin. Se requiere un mtodo para el monitoreo y el mejoramiento continuo de un proceso a gran escala cuyo objetivo sea mover las condiciones de operacin hacia el ptimo o despus de una "desviacin". El mtodo no deber requerir cambios grandes o repentinos de las condiciones de operacin que pudieran interrumpir la produccin. La operacin evolutiva (EVOP, por sus siglas en ingls) fue propuesta por Box [12c] como un procedimiento de operacin con estas caractersticas. Est diseado como un mtodo de operacin rutinaria en la planta que lleva a cabo el personal de manufactura con un mnimo de asistencia del equipo de investigacin y desarrollo. La EVOP consiste en introducir de manera sistemtica pequeos cambios en los niveles de las variables de operacin bajo consideracin. Generalmente se emplea un diseo 2k para hacer esto. Se supone que los cambios de las variables son lo suficientemente pequeos para que no ocurran perturbaciones serias en el rendimiento, la calidad o la cantidad, pero lo suficientemente grandes para descubrir en ltima instancia mejoras potenciales en el desempeo del proceso. Se colectan datos de las variables de respuesta de inters en cada punto del diseo 2k Cuando se ha hecho una observacin en cada punto del diseo, se dice que se ha completado un ciclo. Entonces pueden calcularse los efectos y las interacciones de las variables del proceso. Finalmente, despus de varios ciclos, el efecto de una o ms variables del proceso o sus interacciones sobre la respuesta puede parecer significativo. En este punto se debe tomar una decisin para modificar las condiciones de operacin bsicas a fin de mejorar la respuesta. Cuando se han detectado las condiciones mejoradas, se dice que se ha terminado una fase. Para probar la significacin de las variables e interacciones del proceso, se necesita una estimacin del error experimental. sta se calcula a partir de los datos del ciclo. Adems, el diseo 2k se centra por lo general en torno a las mejores condiciones de operacin actuales. Mediante la comparacin de la respuesta en este punto con los 2k puntos de la porcin factorial, es posible verificar la curvatura o cambio en la media (CIM, por sus siglas en ingls); es decir, si el proceso en realidad se centra en el mximo, por ejemplo, entonces la respuesta en el centro deber ser significativamente mayor que las respuestas en los puntos perifricos del diseo 2k En teora, la EVOP puede aplicarse akvariables del proceso. En la prctica es comn considerar slo dos o tres variables. Se presentar un ejemplo del procedimiento para dos variables. Box y Draper [16a] ofrecen un estudio detallado del caso de tres variables, incluyendo las formas y hojas de trabajo necesarias. Myers y Montgomery [85a] revisan la implementacin en computadora de la EVOP.
485
84.5
(4)
84.5
x,
250
(OF)
EJEMPLO
11~5
Considere un proceso qumico cuyo rendimiento es una funcin de la temperatura (Xl) y la presin (x2 ). Las condiciones de operacin actuales sonx I = 250F YX 2 = 145 psi. El procedimiento EVOP utiliza el diseo 22 ms el punto central mostrado en la figura 11-40. El ciclo se completa corriendo cada punto del diseo en orden numrico (1,2,3,4,5). Los rendimientos del primer ciclo se muestran tambin en la figura 11-40. Los rendimientos del primer ciclo se anotan en la hoja de clculo EVOP, la cual se muestra en la tabla 11-17. Al trmino del primer ciclo no puede hacerse ninguna estimacin de la desviacin estndar.
Tabla 11.17 Hoja de clculo EVOP para el ejemplo 11-5, n = 1
5 ]l3 2 W 4
Fase: 1 Fecha: 1/11/00 Clculo de la desviacin estndar (5) Suma anterior S = Promedio anterior
(1)
(2)
(3)
(4)
S=
(i) Nuevas observaciones (iv) Diferencias [(ii) - (i)] (v) Nuevas sumas [(i) + (iii)] (vi) Nuevos promedios lYi = (v)/n]
84.5
84.2
84.9
84.5
84.3
Nueva S = rango x
/5",= 84.5 84.5 84.2 84.2 84.9 84.9 84.5 84.5 84.3 84.3
Rango de (iv)= Nueva suma S = Nuevo promedio S = Nueva sumaS n-l
Clculo de los efectos Efecto de la temperatura = t(5'3+ 5'4 - 5'2 - 5'5) = 0.45 Efecto de la presin = !(5'3 + 5'5 - 5'2 - 5'4) = 0.25 Efecto de la interaccin T x P = !(5'2 + 5'3 - 5'4 - 5'5) = 0.15 Efecto del cambio en la media =t(5'2 + 5'3 + 5'4 + 5'5 -45'1) = 0.02
Clculo de los lmites de error . 2 Para el nuevo promedIo = Jii S = Para los nuevos efectos
Jii S =
486
CAPTULO 11
2 Fase: 1 Fecha: 1/11/00 Clculo de la desviacin estndar (5) 84.3 84.3 84.0 0.3 168.3 84.15 Suma anterior S = Promedio anterior S = Nueva S = rango x
Clculo de los promedios Condiciones de operacin (1) 84.5 84.5 84.9 -0.4 169.4 84.70 (2) 84.2 84.2 84.6 -0.4 168.8 84.40
(i) Suma del ciclo anterior (ii) Promedio del ciclo anterior (iii) Nuevas observaciones (iv) Diferencias [(ii) - (iii)] (v) Nuevas sumas [(i) + (iii)] (vi) Nuevos promedios lYi = (v)/n]
fs,n = 0.60 Rango de (iv) = 2.0 Nueva suma S = 0.60 Nuevo promedio S = Nueva suma S . -----=0.60
n-1
Y2 - Ys) = 0.43
Clculo de los lmites de error . 2 Para el nuevo promedlO = ..n S = 0.85 2 Para los nuevos efectos e S = 0.85
..,n
Efecto de la presin = hY3 + Ys -Y2 -Y4) = 0.58 Efecto de la interaccin T x P = t(Y2 + Y3 - Y4 - Ys) = 0.83 Efecto del cambio en la media = -0.17
t(Y2 + Y3 + Y4 + Ys - 4Yl) =
Los efectos y la interaccin de la temperatura y la presin se calculan de la manera usual para un diseo 22 Despus se corre un segundo ciclo y los datos del rendimiento se registran en otra hoja de clculo EVOp, la cual se muestra en la tabla 11-18. Al final del segundo ciclo, el error experimental puede estimarse y las estimaciones de los efectos pueden compararse con lmites aproximados de 95% (dos desviaciones estndar). Observe que el rango se refiere al rango de las diferencias del rengln (iv); por lo tanto, el rango es + 1.0 - (-1.0) = 2.0. Puesto que ninguno de los efectos de la tabla 11-18 excede sus lmites de error, probablemente el verdadero efecto sea cero, y no se contemplan modificaciones en las condiciones de operacin. En la tabla 11-19 se muestran los resultados de un tercer ciclo. Ahora, el efecto de la presin excede su lmite de error y el efecto de la temperatura es igual al lmite de error. Probablemente ahora se justifique un cambio en las condiciones de operacin. A la luz de los resultados, parece razonable empezar una nueva fase EVOP alrededor del punto (3). Por lo tanto, Xl = 225F Y X 2 = 150 psi seran el centro del diseo 22 en la segunda fase. Un aspecto importante de la EVOP es la retroalimentacip. de informacin generada por el proceso para operadores y supervisores. Esto se consigue mediante un tablero con informacin EVOP a la vista de todos. En la tabla 11-20 se muestra el tablero de informacin para este ejemplo al final del ciclo 3.
"
487
5 i]13
2
Fase: 1 Fecha: 1/11/00 Clculo de la desviacin estndar (5) 168.3 84.15 85.2 -1.05 253.5 84.50 Suma anterior S = 0.60 Promedio anterior S = 0.60 Nueva S = rango x f5,n = 0.56 Rango de (iv) = 1.60 Nueva suma S = 1.16 Nuevo promedio S = Nueva sumaS = 0.58 11- 1
Clculo de los promedios Condiciones de operacin (1) 169.4 84.70 85.0 -0.30 254.4 84.80 (2) 168.8 84.40 84.0 +0.40 252.8 84.27 (3) 170.8 85.40 86.6 -1.20 257.4 85.80 (4) 168.0 84.00 84.9 -0.90 252.9 84.30
(i) Suma del ciclo anterior (ii) Promedio del ciclo anterior (iii) Nuevas observaciones (iv) Diferencias [(ii) - (iii)] (v) Nuevas sumas [(i) + (iii)] (vi) Nuevos promedios Ji = (V)/I1]
Clculo de los lmites de error Para el nuevo promedio = Para los nuevos efectos
in
S = 0.67
Efecto de la presin = teY3 + Y5 - Y2 - Y4) = 0.87 Efecto de la interaccin T x P = t(Y2 + Y3 - Y4 - Y5) = 0.64 Efecto del cambio en la media =!(Y2+ Y3+ Y4 + Y5 -0.07
2 ..;n S = 0.67
-4Yl) =
150
84.50
85.80
~ 145
"~
c:::
84.80 84.27
140
84.30 255
Temperatura
Lmites de error para los promedios: 0.67 Efectos con limites de error de 95%: Desviacin estndar Thmperatura Presin 0.67 0.87 0.67 0.67 0.67 0.60
TxP
Cambio en la media 0.58
0.64
0.07
!1I
488
n= k=5
9 10
CAPTULO 11
Tabla 11-21
Valores de A, n 2 0.30 0.24 0.23 3 0.35 0.27 0.26 4 0.37 0.29 0.28 5 0.38 0.30 0.29
6
0.39 0.31 0.30
La mayora de las cantidades de la hoja de clculo EVOP se obtienen directamente del anlisis del di.Por ejemplo, la varianza de cualquier efecto, como tcY3 + )lS-)l2 -)14)' es simplemente seo factorial2k donde es la varianza de las observaciones (y). Por lo tanto, los lmites de error de dos desviaciones estndar (que corresponden a 95 %) para cualquier efecto seran 2a1":'. La varianza del cambio en la media es
cr
crin,
V(CIM) =
V[~(Y2 + Y3 + Y4 + Ys - 4Y1)]
2 (
nI) n-
El rango de las diferencias, por ejemplo Rn , se relaciona con la estimacin de la desviacin estndar de las diferencias por an = RJd2 El factor d 2 depende del nmero de observaciones utilizadas para calcular R n Entonces R nld2 = tNnl(n - 1), por lo que puede usarse
/n-l) R n _ a= -n-d;=(fk,n)Rn = S
A
para estimar la desviacin estndar de las observaciones, donde k denota el nmero de puntos que se utilizaron en el diseo. Para un diseo 22 con un punto central se tiene k = 5, y para un diseo 23 con un punto central se tiene k = 9. Los valores de k n se dan en la tabla 11-21.
11~7
11~7.1
DISEO ROBUSTO
Antecedentes
A lo largo de este libro se ha hecho hincapi en la importancia del uso de experimentos diseados estadsticamente en el proyecto, desarrollo y mejoramiento de productos y procesos. A partir de la dcada de 1980, los ingenieros y cientficos han adquirido la conciencia creciente de los beneficios del uso de experi-
489
mentas diseados y, en consecuencia, ha habido muchas reas de aplicaciones nuevas. Una de las ms importantes de stas es el diseo robusto, donde la atencin se centra en uno o ms de los siguientes puntos: 1. El diseo de sistemas (productos o procesos) que no sean sensibles a factores ambientales que puedan afectar el desempeo una vez que el sistema se ha desplegado en el campo. Un ejemplo es la formulacin de una pintura para exteriores que debe tener gran duracin cuando se exponga a una variedad de condiciones climticas. Puesto que las condiciones climticas no son del todo predecibles, y ciertamente no son constantes, el responsable de la formulacin del producto quiere que ste sea robusto contra un amplio rango de factores de temperatura, humedad y precipitacin pluvial que afectan el desgaste y acabado de la pintura. 2. El diseo de productos para que no sean sensibles a la variabilidad transmitida por los componentes del sistema. Un ejemplo es el diseo de un amplificador electrnico para que el voltaje de salida est tan cerca como sea posible del valor nominal deseado, independientemente de la variabilidad de los parmetros elctricos de los resistores, transistores y fuentes de poder que son los componentes del aparato. 3. El diseo de procesos para que el producto manufacturado est tan cerca como sea posible de las especificaciones nominales, aun cuando sea imposible controlar con toda precisin algunas variables del proceso (como la temperatura) o las caractersticas de las materias primas. 4. Determinar las condiciones de operacin de un proceso para que las caractersticas crticas del producto estn tan cerca como sea posible del valor objetivo deseado y la variabilidad en torno a este objetivo se minimice. Ejemplos de este tipo de problema ocurren con frecuencia. Uno de ellos sucede en la manufactura de semiconductores, donde sera deseable que el espesor del xido de una oblea estuviera lo ms cerca posible del espesor objetivo promedio, as como que la va~ riabilidad del espesor a lo largo de la oblea (una medida de uniformidad) fuese lo ms pequea posible. A principios de la dcada de 1980, el ingeniero japons Genichi Taguchi introdujo un enfoque para resolver problemas de este tipo, a los que se hace referencia de manera conjunta como el problema del diseo paramtrico robusto (RPD, por sus siglas en ingls) (ver Taguchi y Wu [109] y Taguchi [108a, bD. SU enfoque se bas en la clasificacin de las variables de un proceso o producto como variables de control (o controlables) y variables de ruido (o no controlables) para despus encontrar los ajustes de las variables controlables que minimizan la variabilidad transmitida a la respuesta por las variables no controlables. Se establece el supuesto de que aun cuando los factores de ruido no son controlables en el sistema a gran escala, pueden controlarse para los fines de un experimento. Referirse a la figura 1-1 para una ilustracin grfica de las variables controlables y no controlables en el contexto general de un experimento diseado. Taguchi introdujo algunos mtodos estadsticos novedosos y ciertas variantes de las tcnicas establecidas como parte de este procedimiento RPD. Hizo uso de diseos factoriales altamente fraccionados y otros tipos de diseos fraccionados obtenidos a partir de arreglos ortogonales. Su metodologa gener mltiples debates y controversias. Parte de la polmica surgi porque la metodologa de Taguchi fue defendida en Occidente inicialmente (y principalmente) por empresarios, y la ciencia estadstica subyacente no haba sido revisada adecuadamente por los especialistas. Para finales de la dcada de 1980, los resultados de una revisin muy completa indicaron que aun cuando los conceptos de ingeniera de Taguchi y el objetivo global del RPD tenan bases slidas, haba problemas de fondo con esta estrategia experimental y con los mtodos para el anlisis de datos. Para detalles especficos de estos temas, ver Box [12d], Box, Bisgaard y Fung [14], Hunter [59a, b], Montgomery [80b], Myers y Montgomery ~85a] y Pignatiello y Ramberg [94]. Muchas de estas preocupaciones se encuentran resumidas tambin en el amplio panel de
.:..
\O
Tabla 11-22
b) Arreglo exterior
E F G Corrida
1 1 1
1 1 2
1 2 1
1 2 2
2 1 1
2 1 2
2 2 1
2 2 2
1 2 3 4 5 6 7 8 9
A 1 1 1 2 2 2 3 3 3
a) Arreglo interior B e
1 2 3 1 2 3 1 2 3 1 2 3 2 3 1 3 1 2
D
1 2 3 3 1 2 2 3 1 15.6 15.0 16.3 18.3 19.7 16.2 16.4 14.2 16.1 9.5 16.2 16.7 17.4 18.6 16.3 19.1 15.6 19.9 16.9 19.4 19.1 18.9 19.4 20.0 18.4 15.1 19.3 19.9 19.2 15.6 18.6 25.1 19.8 23.6 16.8 17.3 19.6 19.7 22.6 21.0 25.6 14.7 16.8 17.8 23.1 19.6 19.8 18.2 18.9 21.4 19.6 18.6 19.6 22.7 20.0 24.2 23.3 23.2 27.5 22.5 24.3 23.2 22.6 19.1 21.9 20.4 24.7 25.3 24.7 21.6 24.2 28.6
491
discusin publicado en Technometrics (ver Nair, et al. [86]). En el material suplementario del texto de este captulo tambin se comentan e ilustran muchos de los problemas implcitos en los mtodos tcnicos de Taguchi. La metodologa de Taguchi para el problema RPD gira en torno al uso de un diseo ortogonal para los factores controlables, el cual se "cruza" con un diseo ortogonal separado para los factores de ruido. En la tabla 11-22 se presenta un ejemplo de Byrne y Taguchi [23] que trata del desarrollo de un mtodo para ensamblar un conector elastomtrico en un tubo de nylon que producira la fuerza de separacin requerida. Hay cuatro factores controlables, cada uno con tres niveles (A = interferencia, B = espesor de la pared del conector, e = profundidad de insercin y D = porcentaje de adhesivo), y tres factores de ruido o no controlables (E = tiempo de acondicionamiento,F = temperatura de acondicionamiento y G = humedad relativa del acondicionamiento). El panel a de la tabla 11-22 contiene el diseo para los factores controlables. Observe que se trata de un diseo factorial fraccionado de tres niveles; especficamente, es un diseo 34-2. Taguchi lo llama el diseo de arreglo interior. El panel b de la tabla 11-22 contiene un diseo 23 para los factores de ruido, al que Taguchi llama el diseo de arreglo exterior. Entonces se realiza cada corrida del arreglo interior para todas las combinaciones de tratamientos del arreglo exterior, producindose las 72 observaciones de la fuerza de separacin que se muestran en la tabla. A este tipo de diseo se le llama diseo de arreglo cruzado. Taguchi sugiri que los datos de un experimento de arreglo cruzado se resumieran con dos estadsticos: el promedio de cada observacin en el arreglo interior para todas las corridas del arreglo exterior y un resumen de estadsticas que intentaba combinar informacin acerca de la media y la varianza, llamado relacin seal a ruido. Las relaciones seal a ruido se definen a propsito para que un valor mximo de la relacin minimice la variabilidad transmitida por las variables de ruido. Entonces se lleva a cabo un anlisis para determinar cules son los ajustes de los factores controlables que dan como resultado 1) una media tan prxima como sea posible al objetivo deseado y 2) un valor mximo de la relacin seal a ruido. El examen de la tabla 11-22 revela un problema importante con la estrategia de diseo de Taguchi; a saber, el enfoque del arreglo cruzado llevar a un experimento muy grande. En el ejemplo tratado aqu slo hay siete factores, pero el diseo tiene 72 corridas. Adems, el diseo de arreglo interno es un diseo 34-2 de resolucin III (ver el captulo 9 para un estudio de este diseo), por lo que a pesar del gran nmero de corridas, no es posible obtener ninguna informacin acerca de las interacciones entre las variables controlables. De hecho, incluso la informacin acerca de los efectos principales est potencialmente corrompida, ya que los efectos principales tienen estrechas relaciones de alias con las interacciones de dos factores. Ocurre tambin que las relaciones seal a ruido de Taguchi son problemticas; al maximizarse la relacin no se minimiza necesariamente la variabilidad. Referirse al material complementario del texto para mayores detalles. Un punto importante acerca del diseo de arreglo cruzado es que s proporciona informacin acerca de las interacciones factor controlable x factor de ruido. Estas interacciones son cruciales para la solucin de un problema RPD. Por ejemplo, considere las grficas de las interacciones de dos factores de la figura 11-41, donde x es el factor controlable y z el factor de ruido. En la figura 11-41a no hay ninguna interaccin x x z; por lo tanto, no hay ningn valor de la variable controlable x que afecte la variabilidad transmitida a la respuesta por la variabilidad enz. Sin embargo, en la figura 11-41b hay una fuerte interaccinx x z. Observe que cuando x se pone en el nivel bajo, hay mucho menos variabilidad en la variable de respuesta que cuando x est en el nivel alto. Por lo tanto, a menos que haya como mnimo una interaccin factor controlable x factor de ruido, no hay ningn problema de diseo robusto. Como se ver en la siguiente seccin, enfocarse en la identificacin y el modelado de estas interacciones es una de las claves de un enfoque ms eficiente y eficaz del RPD.
492
CAPTULO 11
+ La variabilidad eny
se reduce cuando x =-
z
a) Ninguna interaccin control x ruido
z
b) Interaccin control x ruido significativa
11~7.2
Como se seal en la seccin anterior, las interacciones entre los factores controlables y los de ruido son la clave en un problema de diseo robusto. Por lo tanto, es lgico usar un modelo de respuesta que incluya tanto a los factores controlables como a los factores de ruido y sus interacciones. Para ilustrar, suponga que se tienen dos factores controlables Xl YX 2 yun solo factor de ruidoz 1 . Se supone que tanto los factores controlables como el de ruido se expresan como las variables codificadas usuales (es decir, tienen su centro en cero y tienen lmites inferior y superior a). Si quiere considerarse un modelo de primer orden que incluya las variables controlables, un modelo lgico es (11-28) Observe que este modelo incluye los efectos principales de ambos factores controlables, su interaccin, el efecto principal de la variable de ruido y las dos interacciones entre las variables controlables y la de ruido. A este tipo de modelo, el cual incorpora a las variables controlables y las de ruido, suele l1amrsele modelo de respuesta o de reaccin. Excepto cuando al menos uno de los coeficientes de regresin 0 11 y 021 sea diferente de cero, no habr ningn problema de diseo robusto. Una ventaja importante del enfoque del modelo de respuesta es que tanto los factores controlables como los factores de ruido pueden colocarse en un solo diseo experimental; es decir, puede evitarse la estructura de los arreglos interior y exterior del enfoque de Taguchi. Al diseo que contiene tanto los factores controlables como los de ruido suele l1amrsele diseo de arreglo combinado. Como se seal anteriormente, se supone que las variables de ruido son aleatorias, aun cuando son controlables para los fines de un experimento. Especficamente, se supone que las variables de ruido estn expresadas en unidades codificadas, que tienen valor esperado cero, varianza y que si hay varias variables de ruido, tienen covarianzas cero. Bajo estos supuestos es sencillo encontrar un modelo para la respuesta media tomando el valor esperado de y en la ecuacin 11-28. Se obtiene as
a;,
donde el subndice z del operador expectativa es un recordatorio para tomar el valor esperado con respecto a ambas variables aleatorias de la ecuacin 11-28, Zl Yc. Para encontrar un modelo de la varianza de la
11
493
respuesta y se usa el enfoque de la transmisin del error. Primero, el modelo de respuesta de la ecuacin 11-28 se expande en una serie de Taylor de primer orden alrededor de Zl = O. Se obtiene as
Y== Yz=o +-d (zl- 0 )+R+s
Zl
dy
Se han derivado modelos simples para la media y la varianza de la variable de respuesta de inters. Observe lo siguiente:
1. Los modelos de la media y la varianza incluyen nicamente las variables controlables. Esto significa que es potencialmente posible fijar las variables controlables para alcanzar un valor objetivo de la media y minimizar la variabilidad transmitida por la variable de ruido. 2. Aun cuando en el modelo de la varianza intervienen slo las variables controlables, incluye asimismo los coeficientes de regresin de la interaccin entre las variables controlables y la de ruido. Es as como la variable de ruido influye en la respuesta. 3. El modelo de la varianza es una funcin cuadrtica de las variables controlables. 4~ El modelo de la varianza (dejando de lado if) es slo el cuadrado de la pendiente del modelo de respuesta ajustado en la direccin de la variable de ruido.
Para dar un uso operacional a estos modelos sera necesario: 1. Realizar un experimento y ajustar un modelo de respuesta apropiado, tal como la ecuacin 11-28. 2. Sustituir los coeficientes de regresin desconocidos en los modelos de la media y la varianza con sus estimaciones de mnimos cuadrados del modelo de la respuesta o de reaccin, y sustituir la if del modelo de la varianza con el cuadrado medio de los residuales que se encontr cuando se ajust el modelo de respuesta. 3. Optimizar los modelos de la media y la varianza utilizando los mtodos estndares de optimizacin de respuestas mltiples revisadas en la seccin 11-3.4. Es muy sencillo generalizar estos resultados. Suponga que hay k variables controlables yrvariables de ruido. El modelo de respuesta general que incluye estas variables se escribir como
(11-29)
dondef(x) es la porcin del modelo que incluye slo las variables controlables y h(x, z) son los trminos que incluyen los efectos principales de los factores de ruido y las interacciones entre los factores controlables y los de ruido. De manera tpica, la estructura de h(x, z) es
"1
494
CAPTULO 11
h(x, z)=:i=l
riZi
::
i=l j=l
OijXZj
La estructura de (x) depender de cul sea el tipo de modelo que el experimentador considere apropiado para las variables controlables. Las elecciones lgicas son el modelo de primer orden con interaccin y el modelo de segundo orden. Si se supone que las variables de ruido tienen media cero, varianza y covarianzas cero, y que las variables de ruido y los errores aleatorios s tienen covarianzas cero, entonces el modelo de la media para la respuesta es Ez[Y(x, z)]= (x) (11-30) y el modelo de la varianza para la respuesta es
a;
Vz[y(x,
(11-31)
Myers y Montgomery [85a] presentan una forma un tanto ms general de la ecuacin 11-31 basada en la aplicacin directa de un operador de varianza condicional al modelo de respuesta. EJEMPLO
11~6
Para ilustrar el procedimiento anterior, considere nuevamente el ejemplo 6-2 en el que se estudiaron cuatro factores en un diseo factorial 24 para investigar su efecto sobre la rapidez de filtracin de un producto qumico. Se supondr que el factor A, la temperatura, es difcil de controlar en el proceso a gran escala, pero que puede controlarse durante el experimento (el cual se llev a cabo en una planta piloto). Los otros tres factores, la presin (B), la concentracin (C) y la velocidad de agitacin (D), son fciles de controlar. Por lo tanto, el factor de ruidoz1 es la temperatura, y las variables controlablesxl,x2 y X 3 son la presin, la concentracin y la velocidad de agitacin, respectivamente. Puesto que tanto los factores controlables como el factor de ruido estn en el mismo diseo, el diseo factorial 24 utilizado en este experimento es un ejemplo de un diseo de arreglo combinado. Utilizando los resultados del ejemplo 6-2, el modelo de respuesta es
fI .!'\
Utilizando las ecuaciones 11-30 y 11-31, se encuentra que los modelos de la mediay la varianza son Ez[y(x, Zl)]= 70.06+4.94x 2 +7.31x 3 y Vz[y(x, Zl)]= a;(10.81- 9.06x 2 +8.31x 3 )2 +a 2
a;
495
0.500 -
-o
e 1]
U
l'.:
o
11
0.000
>t'"'
-0.500
-1.000
L -_ _i - _ - L .
...l____ll~
_ ___J
-1.000
-0.500
X4
0.000
0.500
1.000
= Velocidad de agitacin
Figura 1142 Contornos del ndice de filtracin medio constante, ejemplo 11-6, con Xl = temperatura = o.
En la figura 11-42 se presenta la grfica de contorno del paquete de software Design-Expert de los contornos de respuesta del modelo de la media. Para construir esta grfica se fij el factor de ruido (temperatura) en cero y el factor controlable no significativo (presin) tambin en cero. Observe que la rapidez de filtracin promedio se incrementa cuando tanto la concentracin como la velocidad de agitacin se incrementan. Design-Expel1 constituir tambin de manera automtica grficas de la raz cuadrada de los contornos de la varianza, que denomina propagacin del error (o POE, por sus siglas en ingls). Evidentemente, la POE no es sino la desviacin estndar de la variabilidad que se transmite a la respuesta como una funcin de las variables controlables. En la figura 11-43 se muestra la grfica de contorno y la grfica de superficie de respuesta tridimensional de la POE, obtenida con Design-Expert (en esta grfica la variable de ruido se mantiene constante en cero, como se explic anteriormente). Suponga que el experimentador quiere mantener una rapidez de filtracin promedio de cerca de 75 y minimizar la variabilidad alrededor de este valor. En la figura 11-44 se muestra una grfica de superposicin de los contornos de la rapidez de filtracin media y la POE como una funcin de la concentracin y la velocidad de agitacin, las variables controlables significativas. Para conseguir los objetivos deseados ser necesario mantener la concentracin en el nivel alto y la velocidad de agitacin muy cerca del nivel intermedio.
El ejemplo 11-6 ilustra el uso de un modelo de primer orden con interaccin como el modelo para los factores controlables,f(x). Se presenta ahora un ejemplo adaptado de Montgomery [8b] que induye un modelo de segundo orden.
496
CAPTULO 11
'0
c:
'13
QJ
g
c: c: " o
11
>{'"
.L...l
--J.-L
--'
0.00
= Velocidad de agitacin
0.50
1.00
al Grfica de contorno
10.4465 4.41816
w O
Q.
1.00 1.00
b)
Figura 1143 Grfica de contorno y superficie de respuesta de la propagacin del error (POE) en el ejemplo 11-6, con Xl = temperatura = O.
497
0.50
0
ni
c: c: el>
'<;
,l:l
<.J
11
c: " o
>l
M
0.00
-0.50
0.00
0.50
1.00
Concentracin
x. = Velocidad de agitacin
Figura 11-44 Grfica de superposicin de los contornos de la media y la POE del ndice de filtracin, ejemplo 11-6, con Xl = temperatura = O.
EJEMPLO
11~7
...........................................................
En una fbrica de semiconductores se realiz un experimento que incluy dos variables controlables y tres variables de ruido. En la tabla 11-23 se muestra el diseo de arreglo combinado utilizado por los experimentadores. El diseo es una variante de 23 corridas de un diseo central compuesto que se cre empezando con un DCC estndar para cinco factores (la porcin del cubo es un diseo 25-1) Yeliminando las corridas axiales asociadas con las tres variables de ruido. Este diseo soportar un modelo de respuesta que tiene un modelo de segundo orden en las variables controlables, los efectos principales de las tres variables de ruido y las interacciones entre los factores controlables y los de ruido. El modelo de respuesta ajustado es Y(x, z)= 30.37-2.92x1 -4.l3x 2 +2.60x; +2.18x~ + 2. 87x 1 X 2
a;
r:'
498
Tabla 11-23 Experimento de arreglo combinado con dos variables controlables y tres variables de ruido, ejemplo 11-7
Nmero de corrida
X X2 Z Z2 Z3
y
44.2 30.0 30.0 35.4 49.8 36.3 41.3 31.4 43.5 36.1 22.7 16.0 43.2 30.3 30.1 39.2 46.1 36.1 47.4 31.5 30.8 30.7 31.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
-1.00 1.00 -1.00 1.00 -1.00 1.00 -1.00 1.00 -1.00 1.00 -1.00 1.00 -1.00 1.00 -1.00 1.00 -2.00 2.00 0.00 0.00 0.00 0.00 0.00
-1.00 -1.00 1.00 1.00 -1.00 -1.00 1.00 1.00 -1.00 -1.00 1.00 1.00 -1.00 -1.00 1.00 1.00 0.00 0.00 -2.00 2.00 0.00 0.00 0.00
-1.00 -1.00 -1.00 -1.00 1.00 1.00 1.00 1.00 -1.00 -1.00 -1.00 -1.00 1.00 1.00 1.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
-1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
1.00 -1.00 -1.00 1.00 -1.00 1.00 1.00 -1.00 -1.00 1.00 1.00 -1.00 1.00 -1.00 -1.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
1.00,...---,------------------.::::=o
30
0.50
1-t
0.00
--0.50
__....::I...._
__JL.__
---J
--0.50
0.00
x,
0.50
1.00
Figura 1145
499
0.50
~N
0.00
-0.50
-1.00 LL -1.00
-L
---l
..L-~'__
_ ___l
-0.50
0.00
Xl
0.50
1.00
Figura 11-46
1.00
0.50
}iN
0.00
-0.50
-1.001.'-"'~~~=
-1.00
-0.50
0.00
.50
1.00
Figura 11-47
Superposicin de los contornos de la media y la POE para el ejemplo 11-7, con la regin en blanco indicando condiciones de operacin satisfactorias para la media y la varianza.
500
CAPTULO 11
En este problema es deseable mantener la media del proceso abajo de 30. Al inspeccionar las figuras 11-45 y 11-46, es claro que se necesitar hacer un ajuste si se quiere hacer pequea la varianza del proceso. Puesto que slo hay dos variables controlables, una forma lgica de llegar a este arreglo es superponer los contornos de la respuesta media constante y la varianza constante, como se muestra en la figura 11-47. Esta grfica muestra los contornos para los que la media del proceso es menor o igual que 30 y la desviacinestndar del proceso es menor o igual que 5. La regin delimitada por estos contornos representara una zona de operacin tpica de respuesta media baja y varianza del proceso baja.
118
11-1. En una planta qumica se produce oxgeno licuando aire y separndolo por destilacin fraccionada en sus gases componentes. La pureza del oxgeno es una funcin de la temperatura del condensador principal y de la relacin de la presin entre las columnas superior e inferior. Las condiciones de operacin actuales son temperatura (s) == -220C y la relacin de la presin (S2) == 1.2. Utilizando los datos siguientes, encontrar la trayectoria del ascenso ms pronunciado: Temperatura (s) ndice de la presin (S2) Pureza -225 1.1 82.8 -225 1.3 83.5 -215 1.1 84.7 -215 1.3 85.0 84.1 -220 1.2 -220 1.2 84.5 -220 1.2 83.9 -220 1.2 84.3 11-2. Un ingeniero industrial ha desarrollado un modelo de simulacin por computadora para un sistema de inventario de dos artculos. Las variables de decisin son la cantidad del pedido y el punto de reorden de cada artculo. La respuesta que debe minimizarse es el costo total del inventario. El modelo de simulacin se usa para producir los datos que se muestran en la tabla siguiente. Identificar el diseo experimental. Encontrar la trayectoria del descenso ms pronunciado.
Artculo 1 Cantidad del pedido (s) 100 140 140 140 100 100 100 140 120 120 120 Punto de reorden (S2) 25 45 25 25 45 45 25 45 35 35 35 Cantidad del pedido (S3) 250 250 300 250 300 250 300 300 275 275 275
Artculo 2 Punto de reorden (S4) 40 40 40 80 40 80 80 80 60 60 60 Costo total 625 670 663 654 648 634 692 686 680 674 681
11-8 PROBLEMAS
501
11-3. Verificar que el siguiente diseo es smplex. Ajustar el modelo de primer orden y encontrar la trayectoria del ascenso ms pronunciado.
o -J2 O J2
11-4. Para el modelo de primer orden
J2 O -J2
O
-1
1
-1 1
y= 60+1.5x-0.Sx 2 +2.0x 3
encontrar la trayectoria del ascenso ms pronunciado. Las variables estn codificadas como -1::5 Xi ::5 1. 11-5. La regin de experimentacin de tres factores son el tiempo (40 ::5 T ::5 SO min), la temperatura (200 ::5 Tz ::5 300C) y la presin (20 ::5 P ::5 50 psig). Se ha ajustado un modelo de primer orden en variables codificadas a los datos del rendimiento de un diseo 23 El modelo es
utilizando variables codificadas (-1 ::5 Xi ::5 + 1). a) Trazar la trayectoria del ascenso ms pronunciado que se obtendra si se ignorara la interaccin. b) Trazar la trayectoria del ascenso ms pronunciado que se obtendra incluyendo la interaccin en el modelo. Compararla con la trayectoria que se encontr en el inciso a. l1-S. Los datos que se muestran en la siguiente tabla se recolectaron en un experimento para optimizar el crecimiento de un cristal como una funcin de tres variablesx,xzY X 3 Son deseables los valores grandes de y (rendimiento en gramos). Ajustar un modelo de segundo orden y analizar la superficie ajustada. Bajo qu conjunto de condiciones se alcanza el crecimiento mximo?
502
CAPTULO 11
y
-1
-1
-1
-1
-1
-1
-1 1 1 1 1 -1.682 1.682 O O O O O O O O O O
1 1 -1
-1
1
1
O O -1.682 1.682 O O O O O O O O
1 -1 1 -1 1 -1 1 O O O O -1.682 1.682 O O O O O O
66 70
78
60
80
70
100 75 100 80 68 63 65 82
113
100 118 88 100 85
11-9. Un ingeniero qumico recolect los siguientes datos. La respuesta y es el tiempo de filtracin,x es la temperatura y X z es la presin. Ajustar un modelo de segundo orden.
x
-1 -1 1 1 -1.414 1.414 O O O O O O O
Xz
-1 1 -1 1 O O -1.414 1.414 O O O O O
54 45 32 47 50 53 47 51 41 39 44 42 40
a) Qu condiciones de operacin se recomendaran si el objetivo es minimizar el tiempo de filtracin? b) Qu condiciones de operacin se recomendaran si el objetivo es operar el proceso con una velocidad de filtracin media muy prxima a 46? 11-10. El diseo hexagonal que se presenta a continuacin se usa en un experimento que tiene como objetivo ajustar un modelo de segundo orden:
11-8 PROBLEMAS
Xl X2
503
0.5 -0.5
-1
-0.5 0.5
O O O O O
68 74 65 60 63 70 58 60 57 55 69
posible? 11-11. Un experimentador corri un diseo de Box-Behnken y obtuvo los siguientes resultados, donde la variable de respuesta es la viscosidad de un polmero:
Temperatura
Velocidad de agitacin
Presin
Xl
X2
X3
25 20 15
+1
O
+1
O
+1
O
-1
-1
-1
Corrida
Xl
X2
X3
Yl
1 2 3 4 5 6 7 8 9 10
11
-1
+l
-1 +1 -1 +1 -1 +1
O O O O O O O
-1 -1 +1 +1
O O O O
12
13
-1 +1 -1 +1
O O O
14 15
535 580 596 563 -1 645 -1 458 +1 350 +1 600 -1 595 -1 648 +1 532 +1 656 O 653 O 599 O 620
O O O O
a) Ajustar el modelo de segundo orden. b) Efectuar el anlisis cannico. Qu tipo de superficie se ha encontrado?
,
504
e)
d)
CAPTULO 11 MTODOS DE SUPERFiCiES DE RESPUESTA
,'~
Qu condiciones de operacin para XI' X 2 Y X 3 llevan al punto estacionario? Qu condiciones de operacin se recomendaran si es importante obtener una viscosidad que est tan cerca de 600 como sea posible? 11-12. Considere el diseo central compuesto de tres variables que se muestra a continuacin. Analizar los datos y sacarconclusiones, suponiendo que se quiere maximizar la conversin 0'1) con la actividad 0'2) entre 55 y 60.
Conversin Corrida
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Tiempo (min) -1.000 1.000 -1.000 1.000 -1.000 1.000 -1.000 1.000 0.000 0.000 0.000 0.000 -1.682 1.682 0.000 0.000 0.000 0.000 0.000 0.000
Temperatura
Catalizador
(%)
YI
Actividad
Y2
CC)
-1.000 -1.000 1.000 1.000 -1.000 -1.000 1.000 1.000 0.000 0.000 0.000 0.000 0.000 0.000 -1.682 1.682 0.000 0.000 0.000 0.000
(%)
-1.000 -1.000 -1.000 -1.000 1.000 1.000 1.000 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 -1.682 1.682 0.000 0.000
74.00 51.00 88.00 70.00 71.00 90.00 66.00 97.00 81.00 75.00 76.00 83.00 76.00 79.00 85.00 97.00 55.00 81.00 80.00 91.00
53.20 62.90 53.40 62.60 57.30 67.90 59.80 67.80 59.20 60.40 59.10 60.60 59.10 65.90 60.00 60.70 57.40 63.20 60.80 58.90
11-13. Un fabricante de herramientas de corte ha desarrollado dos ecuaciones empricas para la vida de la herra~ mienta en horas 0'1) y para el costo de la herramienta en dlares 0'2)' Ambos modelos son funciones lineales de la dureza del acero (XI) y de la fecha de fabricacin (x 2). Las dos ecuaciones son
11-8 PROBLEMAS
505
Xl
X2
-1 1 -1 1 1.414 -1.414 O O O O O O
-1 -1 1 1 O O 1.414 -1.414 O O O O
Y 360.6 445.2 412.1 601.7 518.0 411.4 497.6 397.6 530.6 495.4 510.2 487.3
S2
6.689 14.230 7.088 8.586 13.130 6.644 7.649 11.740 7.836 9.306 7.956 9.127
11-15. 11-16.
11-17.
11-18.
e) Ajustar un modelo a ln(S2). Este modelo es superior al que se encontr en el inciso b? Suponga que se quiere que el espesor medio est en el intervalo 450 25. Encontrar un conjunto de condiciones de operacin que consiga este objetivo y que al mismo tiempo minimice la varianza. e) Comentar los aspectos de la minimizacin de la varianza del inciso d. Se ha minimizado tambin la varianza total del proceso? Verificar que el diseo de primer orden ortogonal es tambin un diseo de primer orden rotable. Demostrar que aumentar un diseo 2k conn e puntos centrales no afecta las estimaciones de/3 (i = 1,2, .oo, k), pero que la estimacin de la ordenada al origen /30 es el promedio de las 2k + n e observaciones. El diseo central compuesto rotable. Puede demostrarse que un diseo de segundo orden es rotable si L7t=IX:XJ" = Osi a o b (o ambas) son impares y si L::=IX~, = 3L::=IX~XJ.,. Demostrar que para el diseo central compuesto estas condiciones llevan a a = (/lF)1/4 para la rotabilidad, donde /lF es el nmero de puntos en la porcin factoriaL Verificar que el diseo central compuesto que se muestra abajo est separado en bloques ortogonales:
d)
Bloque 1
Xl X2 X3 Xl
Bloque 2
X2 X3 Xl
Bloque 3
X2 X3
O O 1 1 -1 -1
O O 1 -1 -1 1
O O 1 -1 1 -1
O O 1 1 -1 -1
O O 1 -1 1 -1
O O -1 1 1 -1
-1.633 1.633 O O O O O O
O O -1.633 1.633 O O O O
O O O O -1.633 1.633 O O
11-19. Formacin de bloques del diseo central compuesto. Considere un diseo central compuesto para k = 4 varia-
bles en dos bloques. Puede encontrarse siempre un diseo rotable formado de bloques ortogonales? 11-20. Cmo puede correrse un diseo hexagonal en dos bloques ortogonales?
506
CAPTULO 11
11-21. En la tabla siguiente se muestra el rendimiento durante los cuatro primeros ciclos de un proceso qumico. Las variables son el porcentaje de concentracin (x) en los niveles 30,31 Y32 Yla temperatura (x 2 ) en 140, 142 Y 144F. Hacer el anlisis utilizando mtodos EVOP.
Condiciones Ciclo 1 2 3 4
(1) 60.7 59.1 56.6 60.5 (2) 59.8 62.8 59.1 59.8 (3) 60.2 62.5 59.0 64.5 (4) 64.2 64.6 62.3 61.0 (5) 57.5 58.3 61.1 60.1
11-22. Suponga que se aproxima una superficie de respuesta con un modelo de orden di, tal como y = XJJ + 8, cuando la verdadera superficie est descrita por un modelo de orden d 2 > di; es decir,E(y) = XJJ + XJJ2' a) Demostrar que los coeficientes de regresin son sesgados, es decir, que E(JJ) = p + AfJ2' donde A = (X'X)-X'X2 Es comn llamar a A la matriz alias. b) Si d = 1 Yd2 = 2, Yse utiliza un diseo 2k completo para ajustar el modelo, usar el resultado del inciso a para determinar la estructura de los alias. e) Si d = 1, d 2 = 2 Yk = 3, encontrar la estructura de los alias, suponiendo que se usa un diseo 23- para ajustar el modelo. d) Si d = 1, d 2 = 2 Yk = 3, Yse utiliza el diseo smplex del problema 11-3 para ajustar el modelo, determinar la estructura de los alias y comparar los resultados con el inciso e. 11-23. En un artculo ("Conozcamos todos el cuadrado latino", en Quality Engineeling, vol. 1, pp. 453-465), J.S. Hunter ilustra algunos de los problemas asociados con los diseos factoriales fraccionados 3k -p. El factor A es la cantidad de etanol agregada a un combustible estndar y el factor B representa la: relacin aire/combustible. La variable de respuesta es la emisin de monxido de carbono (CO) en g/m3 El diseo se muestra abajo:
Diseo
X2
Observaciones y
66 78 90 72 80 75 68 66 60 62 81 94 67 81 78 66 69 58
O 1 2 O 1 2 O 1 2
O O O 1 1 1 2 2 2
-1 O +1 -1 O +1 -1 O +1
-1 -1 -1 O O O +1 +1
+1
Observe que se ha usado el sistema de notacin de O, 1 Y2 para representar los niveles bajo, intermedio y alto de los factores. Se ha usado tambin una "notacin geomtrica" de -1, OY + 1. Se hacen dos rplicas de cada corrida del diseo. a) Verificar que el modelo de segundo orden
y= 78.5+4.5x -7.0x 2 -
es un modelo razonable para este experimento. Trazar los contornos de la concentracin de CO en el espacio Xl' X 2.
lil
1I
lil
'1,
1
1
11-8 PROBLEMAS
507
i il
b) Suponga ahora que en lugar de slo dos factores, se usaron cuatro factores en un diseo factorial fraccionado 34-2 Yque se obtuvieron exactamente los mismos datos que en el inciso a. El diseo sera el si-
guiente: Diseo
A
o
1 2
o o
1 2 1 2
o o o
1 1 1 2 2 2
e o o
1 1 2 1 2 2
Xl
X2
X3
X4
Observaciones y
o
1 2 1 2
-1
o o o
+1 -1 +1 -1 +1
-1 -1 -1
-1 +1 +1 -1
o o o
o 2 o
1
o o o
o +1 o
+1 -1 +1 -1
-1
66 78 90
72
+1 +1 +1
+1 -1
80 75 68 66 60
62 81 94 67 81 78 66 69 58
Confirmar que este diseo es un arreglo ortogonal L 9 c) Calcular los promedios marginales de la respuesta CO en cada nivel de los cuatro factoresA, B, e yD. Construir grficas de estos promedios marginales e interpretar los resultados. Los factores eyD parecen tener efectos grandes? Estos factores tienen en realidad algn efecto sobre la emisin de CO? Por qu su efecto aparente es grande? . d) El diseo del inciso b permite el ajuste del modelo
y= /30 +
Suponga que el verdadero modelo es
L /3x + L /3x; +e
i=1 i=1
y= /30 +
L
i=1
/3x +
L
i=1
/3X2 +
LL
i<j
/3ijxx j
=e
Demostrar que si las 13j representan las estimaciones de mnimos cuadrados de los coeficientes del modelo ajustado, entonces
E(/3o) = /30 -
508
CAPTULO 11
11-24. Suponga que es necesario disear un experimento para ajustar un modelo cuadrtico en la regin -1 ::; Xi ::; + 1, i = 1,2 sujeto a la restriccin Xl + X 2 ::; 1. Si se viola la restriccin, el proceso no funcionar adecuada_ mente. No es posible hacer ms de n = 12 corridas. Establecer los siguientes diseos: a) Un modelo DCC "inscrito" con punto central en Xl = X 2 = O. b) Un diseo factorial 32 "inscrito" con punto central en Xl = X 2 = -0.25. e) Un diseo optimal D. d) Un diseo optimalD modificado que sea idntico al del inciso e, pero con todas las rplicas de las corridas en el centro del diseo. e) Evaluar el criterio I(X'X)-l para cada diseo. f) Evaluar la eficiencia D para cada diseo en comparacin con el diseo optimal D del inciso c. g) Qu diseo preferira el lector? Por qu? 11-25. Considere un diseo 23 para ajustar un modelo de primer orden. a) Evaluar el criterio D I(X'X)-l para este diseo. b) Evaluar el criterio A tr(X'X)-1 para este diseo. e) Encontrar la varianza de prediccin escalada mxima para este diseo. Este diseo es optimal G? 11-26. Repetir el problema 11-25 utilizando un modelo de primer orden con las interacciones de dos factores. 11-27. Un ingeniero qumico desea ajustar una curva de calibracin para un nuevo procedimiento utilizado para medir la concentracin de un ingrediente particular de un producto fabricado en sus instalaciones. Pueden prepararse 12 muestras, cuya concentracin es conocida. El ingeniero quiere construir un modelo para las concentraciones medidas. Piensa que una curva de calibracin lineal ser adecuada para modelar la concentracin medida como una funcin de las concentraciones conocidas; es decir,y = /30 + /31X + s, donde X es la concentracin real. Estn bajo consideracin cuatro diseos experimentales. El diseo 1 consta de seis corridas con la concentracin conocida 1 y seis corridas con la concentracin conocida 10. El diseo 2 consta de cuatro corridas con las concentraciones 1, 5.5 y 10. El diseo 3 consta de tres corridas con las concentraciones 1,4,7 y 10. Por ltimo, el diseo 4 consta de tres corridas con las concentraciones 1 y 10 Yseis corridas con la concentracin 5.5. a) Graficar la varianza de prediccin escalada para los cuatro diseos en la misma grfica en el rango de la concentracin 1 ::; X ::; 10. Qu diseo sera preferible? b) Calcular el determinante de (X'X)-l para cada diseo. Qu diseo sera preferible de acuerdo con el criterio D? e) Calcular la eficienciaD de cada diseo en comparacin con el "mejor" diseo que se haya encontrado en el inciso b. d) Para cada diseo, calcular la varianza de prediccin promedio en el conjunto de puntos dado por X = 1, 1.5, 2, 2.5, oo., 10. Qu diseo sera preferible de acuerdo con el criterio V? e) Calcular la eficiencia V de cada diseo en comparacin con el mejor diseo que se haya encontrado en el inciso d. f) Cul es la eficiencia G de cada diseo? 11-28. Resolver de nuevo el problema 11-27, suponiendo que el modelo que el ingeniero quiere ajustar es cuadrtico. Evidentemente, ahora slo pueden considerarse los diseos 2, 3 y 4. 11-29. Un experimentador quiere correr un experimento de una mezcla de tres componentes. Las restricciones sobre las proporciones de los componentes son las siguientes:
0.2:<:; Xl
:<:; 0.4
11-8 PROBLEMAS
509
e) Establecer un experimento para ajustar un modelo cuadrtico para mezclas con Il == 12 corridas, suponiendo que tres de estas corridas son rplicas. Usar el criterio D. d) Comentar los dos diseos que se encontraron. 11-30. Myers y Montgomery [85a] describen un experimento con una mezcla de gasolina en el que intervienen tres componentes de la mezcla. No hay restricciones sobre las proporciones de la mezcla, y se us el siguiente diseo con 10 corridas:
Xl 1 O O
"2 1 "2
1
X2
X3
O 1 O
"2
1
O O 1 O
"2 1 "2 1 3"
"6 "6
1 1 1
O
"2 1 3"
"6 "6
1 1 1
O
3" 2 3"
"6 "6
1 1 1
3"
3"
y, mi/gal 24.5,25.1 24.8,23.9 22.7,23.6 25.1 24.3 23.5 24.8,24.1 24.2 23.9 23.7
a) Qu tipo de diseo utilizaron los experimentadores? b) Ajustar un modelo cuadrtico para mezclas a los datos. Es adecuado este modelo? e) Graficar los contornos de la superficie de respuesta. Qu mezcla se recomendara para maximizar las millas por galn? 11-31. Considere el experimento del llenado de las botellas del ejemplo 6-1. Suponga que el porcentaje de carbona== 1). tacin (A) es una variable de ruido (en unidades codificadas a) Ajustar el modelo de respuesta a estos datos. Se trata de un problema de diseo robusto? b) Encontrar el modelo de la media y el modelo de la varianza o bien la POE. e) Encontrar un conjunto de condiciones que resulten en una desviacin del llenado promedio tan prxima a cero como sea posible con varianza transmitida mnima. 11-32. Considere el experimento del problema 11-12. Suponga que la temperatura es una variable de ruido (a; == 1 en unidades codificadas). Ajustar modelos de respuesta para las dos respuestas. Se trata de un problema de diseo robusto con respecto a ambas respuestas? Encontrar un conjunto de condiciones que maximicen la conversin con la actividad entre 55 y 60 y que minimice la variabilidad transmitida por la temperatura. 11-33. Se ha corrido un experimento en un proceso que aplica un material de recubrimiento a una oblea. En cada corrida del experimento se fabric una oblea y se midi varias veces el espesor del recubrimiento en varios sitios de la misma. Despus se obtuvo la mediaYl yla desviacin estndarY2 de la medicin del espesor. Los datos (adaptados de Box y Draper [16b]) se muestran en la tabla siguiente:
a;
510
Media Corrida
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Desviacin estnd;;
Velocidad
0.000 1.000 -1.000 0.000 1.000 -1.000 0.000 1.000 -1.000 0.000 1.000 -1.000 0.000 1.000 -1.000 0.000 1.000 -1.000 0.000 1.000
Presin
1.000 1.000 -1.000 -1.000 -1.000 0.000 0.000 0.000 1.000 1.000 1.000 -1.000 -1.000 -1.000 0.000 0.000 0.000 1.000 1.000 1.000
Distancia
-1.000 -1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Yi
256.3 271.7 81.0 101.7 357.0 171.3 372.0 501.7 264.0 427.0 730.7 220.7 239.7 422.0 199.0 485.3 673.7 176.7 501.0 1010.0
Y2
4.6 23.6 0.0 17.7 32.9 15.0 0.0 92.5 63.5 88.6 21.1 133.8 23.5 18.5 29.4 44.7 158.2 55.5 138.9 142.4
a) Qu tipo de dise utilizaron los experimentadores? Es sta una buena eleccin del diseo para ajustar un modelo cuadrtico? b) Construir los modelos para ambas respuestas. e) Encontrar un conjunto de condiciones ptimas que resulten en una media tan grande como sea posible con la desviacin estndar menor que 60. 11-34. Una variacin del ejemplo 6-2. En el ejemplo 6-2 se encontr que una de las variables del proceso (B = presin) no era importante. Al eliminar esta variable se producen dos rplicas de un diseo 23. Los datos se muestran enseguida:
e
-
A (+)
A (-)
Y
57.75 68.25 73.00 81.75
S2
+
-
+ +
Suponer que e y D son factores controlables y que A es una variable de ruido. a) Ajustar un modelo para la respuesta media. b) Ajustar un modelo para la respuesta In (S2). e) Encontrar las condiciones de operacin que resulten en la respuesta de rapidez de filtracin media que exceda 75 con varianza mnima. d) Comparar los resultados obtenidos con los del ejemplo 11-6, en el que se aplic el enfoque de la transmisin del error. Hasta qu punto son similares las dos respuestas?
A lo largo de gran parte de este libro se ha supuesto que los factores de un experimento son factores fijos, es decir, los niveles de los factores usados por el experimentador son los niveles de inters especfico. La implicacin de esto es, desde luego, que las inferencias estadsticas que se hacen acerca de estos factores se restringen a los niveles especficos estudiados. Es decir, si se investigan tres tipos de materiales, como en el experimento de la vida de la batera del ejemplo 5-1, las conclusiones slo son vlidas para esos tipos especficos de materiales. Una variante de esto ocurre cuando el factor o factores son cuantitativos. En estas situaciones, con frecuencia se usa un modelo de regresin que relaciona la respuesta con los factores para predecir la respuesta en la regin que abarcan los niveles de los factores usados en el diseo experimental. Varios ejemplos de esto se presentaron en los captulos 5 al 9. En general, cuando se trabaja con un efecto fijo, se dice que el espacio inferencial del experimento es el conjunto especfico de los niveles de los factores investigados. En algunas situaciones experimentales, los niveles de los factores se eligen al azar de una poblacin ms grande de niveles posibles, y el experimentador quiere sacar conclusiones acerca de la poblacin completa de los niveles, no slo de los que se usaron en el diseo experimental. En esta situacin se dice que se trata de un factor aleatorio. Se empieza con una situacin simple, un experimento con un solo factor en el que el factor es aleatorio y se usa esto para introducir el modelo de efectos aleatorios para el anlisis de varianza y los componentes de la varianza. Los factores aleatorios ocurren tambin normalmente en experimentos factoriales, as como en otros tipos de experimentos. Este captulo se enfoca en los mtodos para el diseo y anlisis de experimentos factoriales con factores aleatorios. En el captulo 13 se presentarn los diseos anidados y de parcelas subdivididas, dos situaciones en las que es frecuente encontrar factores aleatorios en la prctica.
12~1
Es comn que un experimentador est interesado en un factor que tiene un gran nmero de posibles niveles. Cuando el experimentador selecciona aleatoriamente a de estos niveles de la poblacin de los niveles del factor, entonces se dice que el factor es aleatorio. Puesto que los niveles del factor utilizados realmente en el experimento se eligieron al azar, se hacen inferencias acerca de la poblacin completa de los niveles del factor.Se supone que la poblacin de los niveles del factor es de tamao infinito o bien lo suficientemen-
511
' '1
512
CAPTULO 12
te grande para considerarla infinita. No es frecuente encontrar situaciones en las que la poblacin de los niveles del factor sea lo suficientemente pequea para emplear el enfoque de una poblacin finita. Referirse a Bennett y Franklin [9] y Searle y Fawcett [101] para una revisin del caso de una poblacin finita. El modelo estadstico lineal es
Yj
= 1,
2, oo., a
(12-1)
donde tanto r como eij son variables aleatorias. Si r tiene varianza o; y es independiente de eij' la varianza de cualquier observacin es
V(Yij) = o; +0
2
A las varianzas y 02 se les llama los componentes de la varianza, y al modelo (ecuacin 12-1) se le llama modelo de efectos aleatorios o de los componentes de la varianza. Para probar hiptesis en este modelo se requiere que las {ej.} sean NlD(O, 02), que las {r} sean NlD(O, o; ), y que r y eij sean independientes. 1 La suma de cuadrados identidad
SST
o;
= SSTratamientos + SSE
(12-2)
sigue siendo vlida. Es decir, se hace la particin de la variabilidad total en las observaciones en un componente que mide la variacin entre los tratamientos (SS'Itat~mientos) y un componente que mide la variacin dentro de los tratamientos (SSE)' Probar hiptesis acerca de los efectos de tratamientos individuales no tiene sentido, por lo que en su lugar se prueban hiptesis acerca del componente de la varianza (12-3) :0; >0 Si o; = 0, todos los tratamientos son idnticos; pero si o; > 0, existe variabilidad entre los tratamientos.
Ho:o;
H1
o; :
Como anteriormente, SSE/a2 se distribuye como ji-cuadrada con N - a grados de libertad y, bajo la hiptesis nula, SSTratamientoJa2 se distribuye como ji-cuadrada con a - 1 grados de libertad. Ambas variables aleatorias son independientes. Por lo tanto, bajo la hiptesis nula = 0, el cociente
o;
SSTratamientos
F. - _--'a::.,.--,-=l'-----_ = MS Tratamieatos
0-
SSE N-a
MS E
(12-4)
se distribuye como F con a - 1 YN - a grados de libertad. Sin embargo, es necesario examinar los cuadrados medios esperados para tener la descripcin completa del procedimiento de prueba. Considere
E( MSTratamientos ) = a - 1 E( SSTratamientos ) = a - 1 E
[a
y; l] L --;;N
1=1
la
=---::-E a 1 n i=l
=1
Cuando se eleva al cuadrado y se toma la funcin esperanza de las cantidades entre corchetes, se observa que los trminos que incluyen a r: son reemplazados por o; como E(r) = O. Adems, los trminos que in1
El supuesto de que las {r J son variables aleatorias independientes implica que el supuesto usual de que ~~=1 r i = Odel modelo de efectos fijos no se aplica al modelo de efectos aleatorios.
513
2 2 ,'a "n 2 1 d ? ? ? 2 duyen a Si. ' S .. y..:.. i=l":" j=l T i son reemp aza os por neT, aneT y an-a respect' vament e. Por otra parte, todos los productos cruzados que incluyen a Ti y sij tienen valor esperado cero. Esto lleva a
E( MS Tratamientos) = a 2 + na;
De manera similar, puede demostrarse que
(12-5)
(12-6) Por los cuadrados medios esperados, se observa que bajo H o tanto el numerador como el denominador del estadstico de prueba (ecuacin 12-4) son estimadores insesgados de if, mientras que bajo H 1 el valor esperado del numerador es mayor que el valor esperado del denominador. Por lo tanto, H o deber rechazarse para los valores de F o que sean muy grandes. Esto implica una regin crtica de una cola superior, por lo que H o se rechaza si Fo > Fa, " _ 1, N _"' El procedimiento de clculo y el anlisis de la tabla de varianza del modelo de efectos aleatorios son idnticos a lasque se utilizaron en el caso de efectos fijos. Sin embargo, las conclusiones son muy diferentes, ya que se aplican a la poblacin completa de los tratamientos. Por lo general habr inters en estimar los componentes de la varianza (if ya;) del modelo. Al procedimiento que se usa para estimar if ya; se le llama mtodo del anlisis de varianza, ya que hace uso de las lneas de la tabla del anlisis de varianza. El procedimiento consiste en igualar los cuadrados medios esperados con sus valores observados en la tabla del anlisis de varianza y despejar los componentes de la varianza. Al igualar los cuadrados medios observados con los esperados en el modelo de efectos aleatorios con un solo factor, se obtiene 2 MSTratnmientos = a +na;
y
MS E =a 2
Por lo tanto, los estimadores de los componentes de la varianza son
a = MS
2
(12-7)
y
A? a -
= MSTratamientos n
_~==""-_----,:e...
MS E
(12-8)
L n "
i=l'
(12-9)
En el mtodo del anlisis de varianza para estimar los componentes de la varianza no se requiere el supuesto de normalidad. Produce estimadores de if y que son los mejores estimadores cuadrticos insesgados (es decir, de todas las funciones cuadrticas insesgadas de las observaciones, estos estimadores tienen mnima varianza).
a;
l!l!i
11
514
CAPTULO 12
Ocasionalmente, el mtodo del anlisis de varianza produce una estimacin negativa de uno de los componentes de la varianza. Evidentemente, los componentes de la varianza son por definicin no negativos, por lo que la estimacin negativa de un componente de la varianza se considera con cierta preocupacin. Un curso de accin es aceptar la estimacin y usarla como evidencia de que el verdadero valor del componente de la varianza es cero, suponiendo que la variacin muestralllev a la estimacin negativa. Esto tiene un atractivo intuitivo, pero adolece de algunas dificultades tericas. Por ejemplo, usar cero en lugar de la estimacin negativa puede alterar las propiedades estadsticas de otras estimaciones. Otra alternativa es volver a estimar el componente de la varianza negativa utilizando un mtodo que produzca siempre estimaciones no negativas. Una alternativa ms es considerar la estimacin negativa como evidencia de que el modelo lineal supuesto es incorrecto y examinar de nuevo el problema. El tratamiento completo de la estimacin de los componentes de la varianza se ofrece en Searle [99a, b], Searle, Casella y McCullogh [100] y Burdick y Graybill [22].
EJEMPLO
12~1
Una compaa textil fabrica un tejido en un gran nmero de telares. Le gustara que los telares fueran homogneos a fin de obtener un tejido de resistencia uniforme. El ingeniero del proceso sospecha que, adems de la variacin usual de la resistencia dentro de las muestras del tejido del mismo telar, puede haber tambin variaciones significativas en la resistencia entre un telar y otro. Para investigar esta posibilidad, er ingeniero selecciona cuatro telares al azar y hace cuatro determinaciones de la resistencia del tejido fabricado en cada telar. Este experimento se corre de manera aleatoria, y los datos obtenidos se muestran en la tabla 12-1. Se realiza el anlisis de varianza, el cual se muestra en la tabla 12-2. Por el anlisis de varianza se concluye que los telares de la planta difieren significativamente. Los componentes de la varianza se estiman con a2 = 1.90 Y
a; = 29.73-1.90 = 6.96
4
Este ejemplo ilustra un uso importante de los componentes de la varianza: la separacin de las diferentes fuentes de variabilidad que afectan un producto o sistema. El problema de la variabilidad de un producto se presenta con frecuencia en el control de calidad, y en muchas ocasiones es difcil aislar las
1 2 3
4
1 98
91
96 95
2 97 90 95 96
3 99 93 97 99
Yi.
96 92 95 98
515
Tabla 12.2
Grados de libertad 3 12 15
Fo 15.68
Valor P <0.001
fuentes de la variabilidad. Por ejemplo, este estudio puede haber sido motivado por una gran variabilidad en la resistencia del tejido, como se ilustra en la figura 12-1a. En esta grfica se presenta la salida del proceso (resistencia del tejido) modelado como una distribucin normal con varianza f ~ = 8.86. (sta es la estimacin de la varianza de cualquier observacin de la resistencia del ejemplo 12-1.) Las especificaciones superior e inferior de la resistencia se muestran tambin en la figura 12-1a, y es relativamente inmediato ver que una proporcin bastante grande de la salida del proceso se sale de las especificaciones (las reas sombreadas de las colas de la figura 12-1a). El ingeniero del proceso se ha preguntado por qu es tan grande la cantidad de tejido defectuoso que debe desecharse, reelaborarse o degradarse a un producto de menor calidad. La respuesta es que la mayor parte de la variabilidad de la resistencia del producto es el resultado de las diferencias entre los telares. El desempeo irregular de los telares podra ser el resultado de una instalacin incorrecta, un mantenimiento deficiente, una supervisin ineficaz, operadores sin la capacitacin suficiente, fibra de entrada defectuosa, etctera. El ingeniero del proceso debe intentar ahora aislar las causas especficas de la diferencia en el desempeo de los telares. Si pudiera identificar y eliminar estas fuentes de variabilidad entre los telares, sera posible reducir considerablemente la varianza de la salida del proceso, quiz hasta f~ = 1.90, la estimacin del componente de la varianza dentro del telar (error) en el ejemplo 12-1. En la figura 12-1b se muestra la distribucin normal de la resistencia de la fibra con f~ = 1.90. Observe que la proporcin del producto defectuoso en la salida se ha reducido radicalmente. Aun cuando es improbable que pueda eliminarse toda la variabilidad entre los telares, es claro que una reduccin significativa en este componente de la varianza incrementara sensiblemente la calidad de la fibra producida.
LS (especificacin inferior)
US (especificacin superior)
LS (especificacin inferior)
US (especificacin superior)
C1: =0.
516
CAPTULO 12
Es sencillo encontrar un intervalo de confianza para el componente de la varianza 02. Si las observa_ ciones siguen una distribucin normal e independiente, entonces (N -a)MSE /o2 se distribuye como X~-a' Por lo tanto,
P [ X 1-(a/2),N-a
2
(N - a )MSE
:5
a2
:5 X a/2,N-a
= 1- a
y un intervalo de confianza de 100(1 - a) por ciento para 02 es (N-a)MS E < 2 < (N-a)MS E
?
X~/2,N-a
_a -
(12-10)
XI-(a/2),N-a
,-
MSTratamienlns - MS E = ---'-'==::::""'--"n
La variable aleatoria (a -l)MSnatamientn'/(o2 + na;) se distribuye como X;-l' y (N - a)MSE /a2 se distribuye como X~-a' Por lo tanto, la distribucin de probabilidad de (j; es una combinacin lineal de dos variables aleatorias ji-cuadrada, por ejemplo donde
u
1 2 2 = a +na ,-
n(a-1)
u =---2 n(N-a)
a2
Desafortunadamente, no puede obtenerse una expresin predeterminada para la distribucin de esta combinacin lineal de variables aleatorias ji-cuadrada. Por lo tanto, no es posible construir un intervalo de confianza exacto para En Graybill [50] y Searle [99a] se presentan procedimientos aproximados. Ver tambin la seccin 12-7. Es sencillo encontrar una expresin exacta para un intervalo de confianza del cociente a; /(a; + 02). Se trata de un cociente con significado, ya que refleja laproporcin de la varianza de una observacin [recuerde que V(Yij) = + 02] que es el resultado de las diferencias entre los tratamientos. Para desarrollar este intervalo de confianza en el caso de un diseo balanceado, observe que MSnatamientos y MS E son variables aleatorias independientes y, adems, que puede demostrarse que
a;.
a;
MSTratamienlos /
(na; +a MSJi / a 2
2 ) _
F
a-l,N-a
Por lo tanto,
( F
<
l-a/2,a-I,N-a -
MSTralamientos
lY1,
~"'S
a na; +a??
-:5
Fa/2
(12-11)
P(L:5 :~ :5 U) = 1- a
donde
L=l.(MSTratamienlOS
(12-12)
MS E
Fa/2 ,a-I,N-a
1 1)
(12-13a)
517
y
U = 1. (MSTralamicnlos
lZ
MS E
1 1)
(12-13b)
Observe que L y U son los lmites de confianza inferior y superior del intervalo 100(1- a) por ciento, respectivamente, del cociente a;/if. Por lo tanto, un intervalo de confianza de 100(1 - a) por ciento para a;/(a; + if) es
--<
(12-14)
Para ilustrar este procedimiento, se encontrar un intervalo de confianza de 95% de a;/(a; + a2) para los datos de la resistencia del ejemplo 12-1. Recuerde que MSTratamientos = 29.73, MSE = 1.90, a = 4, lZ =4,Foo025,3,12 = 4.47 YFOo975,3,12 = 1/Foo025,12,3 = 1/14.34 = 0.070. Por lo tanto, por las ecuaciones 12-13a y b,
1.90
0.070
a;
o 0.39:5 2'
a2 ? :50.98 a, +a-
Se concluye que la variabilidad entre los telares explica entre 39 y 98% de la varianza en la resistencia observada del tejido producido. Este intervalo de confianza es relativamente ancho debido al tamao pequeo de la muestra que se us en el experimento. Sin embargo, es evidente que la variabilidad entre los telares (a;) no es insignificante.
12~2
Suponga que se tienen dos factores, A y B, Y que ambos tienen un gran nmero de niveles de inters (como en la seccin anterior, se supondr que el nmero de niveles es infinito). Se escogern al azar a niveles del factor A y b niveles del factor B, y estos niveles de los factores se incluirn en un diseo experimental factorial. Si el experimento se hace con lZ rplicas, las observaciones pueden representarse con el modelo lineal
i = 1, 2, .oo, a j= 1,2, b { k = 1, 2, .oo, lZ
OO"
(12-15)
donde todos los parmetros del modelo, t,f3j, (tf3)j YSijk' son variables aleatorias independientes. Tambin se supondr que las variables aleatorias Ti' f3 j, (tf3)j Yspo siguen una distribucin normal con media cero y
518
CAPTULO 12
= a;, V(f3j) = a~, V[(r,B)ij] = a;p y V(Cjk) = er. Por lo tanto, la varianza de cual? ? ? ? V( Yijk ) = a; +a +a; +a-
(12 -16)
ya; ,a~ ,a; ya2 son los componentes de la varianza. Las hiptesis que quieren probarse son Ho:a; = 0, Ho:a~ = y Ho:a;p = O. Observe la similitud con el modelo de efectos aleatorios de un solo factor. Los clculos numricos del anlisis de varianza se mantienen sin cambios; es decir, SSA, SSB' SSAB' SSr y SSE se calculan como en el caso de efectos fijos. Sin embargo, para formar los estadsticos de prueba, deben examinarse los cuadrados medios esperados. Puede demostrarse que
(12-17)
y
E(MS E )
=a2
Por los cuadrados medios esperados se observa que el estadstico apropiado para probar la hiptesis de que no hay interaccin, Ho:a;p = O, es MS F. = -AB (12-18) o MS E ya que bajoHo tanto el numerador como el denominador deFotienen valor esperado y slo siHo es falsaE(MSAB) es mayor que E(MSE). El cociente F o se distribuye como F(a -l),ab(n -1)' De manera similar, para probar Ho:a; = O se usara MS F. = - A (12-19) o MS AB que se distribuye como
Fa _ 1, (a _ l)(b _ 1)'
er,
O el estadstico es
(12-20)
que se distribuye como F b - 1, (a-1)(b -1)' Todas estas pruebas son de una sola cola superior. Observe que estos estadsticos de prueba no son los mismos que se usaran si ambos factoresA y B fuesen fijos. Los cuadrados medios esperados se usan siempre como gua para construir los estadsticos de prueba. En muchos experimentos que incluyen factores aleatorios existe al menos inters tanto en estimar los componentes de la varianza como en la prueba de las hiptesis. Los componentes de la varianza pueden estimarse con el mtodo del anlisis de varianza, es decir, igualando los cuadrados medios observados de las lneas de la tabla del anlisis de varianza con sus valores esperados y resolviendo para los componentes de la varianza. Se obtiene as
(12-21)
519
como las estimaciones puntuales de los componentes de la varianza en el modelo de efectos aleatorios de dos factores. En la seccin 12-7 se revisarn otros mtodos para obtener estimaciones puntuales de los componentes de la varianza y los procedimientos para construir intervalos de confianza.
EJEMPLO 12,2
Estudio de capacidad o aptitud de sistemas de medicin Con frecuencia se usan experimentos diseados estadsticamente para investigar las fuentes de variabilidad que afectan a un sistema. Una aplicacin industrial comn es usar un experimento diseado para estudiar los componentes de la variabilidad en un sistema de medicin. Estos estudios se conocen comnmente como estudios de capacidad o aptitud de instrumentos de medicin (calibradores) o estudios de repetibilidad y reproductibilidad (R&R) de instrumentos de medicin (calibradores), ya que stos son los componentes de la variabilidad de inters. En la tabla 12-3 se muestra un experimento R&R de instrumentos de medicin tpico (de Montgomery [80aD. Se usa un instrumento o calibrador para medir una dimensin crtica de una pieza. Se han seleccionado 20 piezas del proceso de produccin, y tres operadores escogidos al azar miden dos veces cada pieza con este calibrador. El orden en que se hacen las mediciones est completamente aleatorizado, por lo que se trata de un experimento factorial de dos factores en el que los factores del diseo son las piezas y los operadores, con dos rplicas. Las piezas y los operadores son factores aleatorios. Es vlida la identidad del componente de la varianza de la ecuacin 12-15; es decir,
2 ay 2 = a ,2 +a 2f3 +a 'f3 +a 2
donde a ~ es la variabilidad total (que incluye la variabilidad debida a las diferentes piezas, la variabilidad es el componente de la vadebida a los diferentes operadores y la variabilidad debida al calibrador), rianza de las piezas, a~ es el componente de la varianza de los operadores, a;f3 es el componente de la va-
a;
Tabla 12-3 El experimento de la capacidad o aptitud del sistema de medicin del ejemplo 12-2 Nmero de Operador 1 Operador 2 Operador 3 la pieza 20 1 21 20 19 21 20 24 23 24 24 23 24 2 20 21 19 21 20 22 3 27 28 26 27 28 4 27 18 5 19 18 19 18 21 23 21 24 21 23 22 6 22 22 21 22 24 20 7 18 20 19 8 19 17 18 24 23 25 23 24 24 9 25 23 26 25 24 25 10 21 11 21 20 20 20 20 17 19 18 19 12 18 19 23 25 25 25 25 25 13 14 24 24 23 25 24 25 31 15 29 30 30 28 30 25 26 25 27 16 26 26 20 19 20 20 20 17 20 18 19 21 19 19 21 23 25 19 25 26 25 24 25 19 17 20 19 19 18 17
1
520
CAPTULO 12 EXPERIMENTOS CON FACTORES ALEATORIOS
rianza que representa la interaccin entre las piezas y los operadores, y 0 2 es el error experimental aleatorio. De manera tpica, al componente de la varianza a2 se le llama la repetibilidad del instrumento de medicin (calibrador), ya que puede considerarse que 0 2 refleja la variacin obtenida cuando la misma pieza es medida por el mismo operador, y es comn llamar a
la reproductibilidad del instrumento de medicin (calibrador), ya que refleja la variabilidad adicional en el sistema de medicin que resulta del uso del instrumento por parte del operador. Estos experimentos . suelen realizarse con el objetivo de estimar los componentes de la varianza. En la tabla 12-4 se muestra el anlisis de varianza de este experimento. Los clculos se realizaron utilizando la rutina Balanced ANOVA (anlisis de varianza balanceado) de Minitab. Con base en los valores P, se concluye que el efecto de las piezas es grande, que los operadores quiz tengan un efecto pequeo y que no hay ninguna interaccin significativa pieza-operador. La ecuacin 12-21 puede usarse para estimar los componentes de la varianza de la siguiente manera:
f2 =
r
f2 fJ f2 rfJ
y
f2
= 0.99
La parte inferior de la salida de Minitab de la tabla 12-4 contiene los cuadrados medios esperados del modelo aleatorio, con los nmeros entre parntesis representando los componentes de la varianza [(4) representa a2, (3) representa o;fJ' etc.]. Se presentan tambin las estimaciones de los componentes de la varianza, junto con el trmino del error que se utiliz para probar ese componente de la varianza en el anlisis de varianza. Ms adelante se estudiar la terminologa modelo no restringido; sta no tiene relevancia en los modelos aleatorios. Observe que la estimacin de uno de los componentes de la varianza, f;fJ' es negativa. Desde luego, esto no tiene sentido, ya que por definicin las varianzas son no negativas. Desafortunadamente, pueden obtenerse estimaciones negativas de los componentes de la varianza cuando se usa el mtodo de estimacin del anlisis de varianza (lo cual se considera una de sus desventajas). Existen varias maneras de abordar esta situacin. Una posibilidad es suponer que la estimacin negativa significa que el componente de la varianza en realidad es cero y simplemente se hace cero, dejando sin cambios las dems estimaciones. no negativas. Otro enfoque es estimar los componentes de la varianza con un mtodo que asegure estimaciones no negativas (este enfoque se revisar brevemente en la seccin 12-7). Por ltimo, podra observarse que el valor P del trmino de interaccin de la tabla 12-4 es muy grande, tomar esto como evidencia de que o ~fJ es en realidad cero (es decir, que no hay efecto de interaccin) y ajustar un modelo reducido de la forma
Yijk
que no incluye el trmino de interaccin. ste es un enfoque relativamente sencillo y que con frecuencia funciona casi tan bien como los mtodos ms elaborados.
Tabla 12-4 Anlisis de varianza balanceado (Balanced ANOYA de Minitab) del ejemplo 12-2
Factor part
2 9
'l!I
15
operator random 3
1
16
2
10 17
3
11
18
12 19
13 20
14
Analys;s of Var;ance for y Source part operator part*operator Error Total Source
DF 19
2
38 60 119
87.65 1 .84
0.72
Var;ance component 1 part 10.2798 2 operator 0.0149 3 part*operator -0.1399 4 Error 0.9917
Expected Mean Square for Each Term (us;ng unrestr;cted model) (4) + 2(3) + 6(1) (4) + 2(3) + 40(2)
(4)
2(3)
(4 )
U1 N
......
522
Tabla 12-5
CAPTULO 12
Type Levels Values 2 1 random 20 9 8 16 15 1 2 3 operator random Analysis of Variance for y Source part operator Error TotaL Source 1 part 2 operator 3 Error
Factor part
3 10 17 3
4 11 18
5 12 19
6 13 20
7 14
DF 19 2 98 119
70.64 1 .48
0.000 0.232
Expected Mean Square for Each Term (using unrestricted modeL) (3) + 6( 1) (3) + 40(2)
(3)
En la tabla 12-5 se muestra el anlisis de varianza del modelo reducido. Puesto que no hay trmino de interaccin, los dos efectos principales se prueban contra el trmino del error, y las estimaciones de los componentes de la varianza son {j2 = 62.39- 0.88 = 10.25 , (3)(2)
{j2
{3
= 1.31- 0.88
(20)(2)
0.0108
{j2
= 0.88
_ {j2 +{j2
Por ltimo, la varianza del calibrador podra estimarse como la suma de las estimaciones de los componentes de la varianza {j2 y {j~ como
,
{j2
calibrador -
{3
= 0.88+0.0108 = 0.8908
La variabilidad del calibrador parece ser pequea en comparacin con la variabilidad del producto. Se trata generalmente de una situacin deseable, la cual implica que el calibrador tiene la capacidad de distinguir entre las diferentes gradaciones del producto. .
12,3
Se considera ahora la situacin en que uno de los factores,A, est fijo y el otro, B, es aleatorio. Se le llama anlisis de varianza del modelo mixto. El modelo estadstico lineal es i = 1, 2, ,a (12-22) Yijk = fl+T +f3 j +(Tf3)ij +t:ijk j= 1,2, ,b { k= 1,2, ,11
523
Aqu T es un efecto fijo, (Jj es un efecto aleatorio, se supone que la interaccin (T(J)j es un efecto aleatorio y &ijk es un error aleatorio. Se supone tambin que las {T) son efectos fijos tales que L ~=1 Ti = OYque (Jj es una variable aleatoria NID(O, a~). El efecto de la interaccin, (T(J)j' es una variable aleatoria normal con media Oy varianza [(a -1 )/a]a;p; sin embargo, la operacin suma del componente de la interaccin en el rango del factor fijo es igual a cero. Es decir,
(T(J)ij
= (T(J).j = O
j= 1,2, ... ,b
=1
Esta restriccin implica que algunos elementos de la interaccin en diferentes niveles del factor fijo no son independientes. De hecho, puede demostrarse (ver el problema 12-25) que
l' ;f;
'La covarianza entre (T(J)ij y (T(J)ij' paraj ;f; j' es cero, y el error aleatorio &;jk es NID(O, 02). Puesto que la suma de los efectos de la interaccin en los niveles del factor fijo es igual a cero, a esta versin del modelo mixto con frecuencia se le llama modelo restringido. En este modelo la varianza de (T(J);j se define como [(a -l)/a]a;p en vez de como a;p para simplificar los cuadrados medios esperados. El supuesto (T(J)j = Otambin tiene un efecto sobre los cuadrados medios esperados, los cuales puede demostrarse que son
E(MS )= a 2 +na 2 +
A TP
bnL T;
a-1
(12-23)
;=1
E(MS E )= a 2
Por lo tanto, el estadstico de prueba apropiado para probar que las medias de los efectos del factor fijo son iguales, o Ha:r:; = O, es MS F = -A a MS AB que tiene la distribucin de referenciaFa _ 1, (a-1)(b-1)' Para probar Ha: a~, el estadstico de prueba es MS B F =-a MS E con la distribucin de referencia Ha: a;p = O, se usara
F b _ 1, aben _ 1)'
F = -AB a
MS MS E
que tiene la distribucin de referencia F(a _ l)(b _ 1), aben _ 1)' En el modelo mixto es posible estimar los efectos del factor fijo como
i = 1, 2, ... ,a
(12-24)
,;,:I;
, I
'1'
'1".
~'
I
524
CAPTULO 12 EXPERIMENTOS CON FACTORES ALEATORIOS
--,'.
'
"j--
:;-:1\
~:v
Los componentes de la varianza a~, a;p ya 2 pueden estimarse aplicando el mtodo del anlisis de varianza. Al eliminar la primera ecuacin de las ecuaciones 12-23 quedan tres ecuaciones con tres incgnitas, cuyas soluciones son (12-25)
y
{}2
= MS E
Este enfoque general puede emplearse para estimar los componentes de la varianza en cualquier modelo mixto. Despus de eliminar los cuadrados medios que contienen factores fijos, siempre quedar un sistema de ecuaciones que puede resolverse para los componentes de la varianza. En los modelos mixtos, el experimentador puede tener inters en probar hiptesis o en construir intervalos de confianza para las medias de tratamientos individuales del factor fijo. Al utilizar estos procedimientos, deber tenerse cuidado de usar el error estndar apropiado de la media de los tratamientos. El error estndar de la media de los tratamientos del efecto fijo es Cuadrado medio para probar el efecto fijo ]1/2 [ Nmero de observaciones en la media de cada tratamiento
=---,;;;-
~ MS AB
Observe que esto es simplemente el error estndar que se usara si ste fuera un modelo con efectos fijos, salvo porqueMSE se ha reemplazado con el cuadrado medio que se us en la prueba de la hiptesis.
EJEMPLO
12~3
..........................................................
Retomando el experimento de la capacidad o aptitud del sistema de medicin Considere de nuevo el experimento R&R del calibrador descrito en el ejemplo 12-2. Suponga ahora que slo tres operadores usan este calibrador, de tal modo que los operadores son un factor fijo. Sin embargo, puesto que las piezas se eligen al azar, se trata ahora de un experimento con un modelo mixto. El anlisis de varianza del modelo mixto se muestra en la tabla 12-6. Los clculos se realizaron utilizando la rutina Balanced ANOVA (anlisis de varianza balanceado) de Minitab. Se especific el uso del modelo restringido en el anlisis de Minitab, el cual gener tambin los cuadrados medios esperados para este modelo. En la salida de Minitab, la ca)ltidad Q[2] indica una expresin cuadrtica que incluye aloperador del efecto de factor fijo. Es decir, Q[2] = L ~=1f3~ / (b -1). Las conclusiones son similares al ejemplo 12-2. Los componentes de la varianza pueden estimarse con la ecuacin 12-25 como
{}2 PIezas
(3)(2)
-
A?
a Piezas X operadores
{}2
MSPiezns x operadores n
MS E
= MS E = 0.99
Estos resultados tambin se muestran en la salida de Minitab. De nueva cuenta, resulta una estimacin negativa del componente de la varianza de la interaccin. Un curso de accin apropiado sera ajustar un
ii-
SiR"
-"i:Wit5"r""Y&te'-'",~$"=\;~:'~;~~IA
Tabla 12.6
Anlisis de varianza (Minitab) del modelo mixto del ejemplo 12). Se supone el modelo restringido
Type Levels Values random 20 1 2 8 9 16 15 operator f;xed 3 1 2 Factor part Analys;s of Var;ance for y Source part operator part*operator Error Total Source DF 19 2 38 60 119 SS 1185.425 2.617 27.050 59.500 1274.592 Var;ance component 10.2332
"1
3 10 17 3
4 11 18
5 12 19
6 13 20
7 14
1 2 3 4
-0.1399 0.9917
Expected Mean Square for Each Term (us;ng restr;cted model) (4 ) + 6 (1 ) (4) + 2(3) + 4oQ[2J (4) + 2(3) (4 )
lJ1 N lJ1
526
CAPTULO 12
modelo reducido, como se hizo en el ejemplo 12-2. En el caso de un modelo mixto con dos factores, esto lleva a los mismos resultados del ejemplo 12-2.
......................................................................... .
Sehan propuesto varias versiones diferentes del modelo mixto. Estos modelos difieren de la versin restringida del modelo mixto estudiado anteriormente en los supuestos establecidos acerca de los componentes aleatorios. A continuacin se revisa brevemente uno de estos modelos alternativos. Considere el modelo
bnL a
a-1
(12-26)
=1
= 0 2 + no ~ + ano ~
Al comparar estos cuadrados medios esperados con los de la ecuacin 12-23, se observa que la nica diferencia evidente es la presencia del componente de la varianza o~ en el cuadrado medio esperado del efecto aleatorio. (En realidad, hay otras diferencias debido a las definiciones diferentes de la varianza del efecto de la interaccin en los dos modelos.) Por consiguiente, se probara la hiptesis de que el componente de la varianza del efecto aleatorio es igual a cero (Ho:o~ = O) usando el estadstico
B F=--
MS MS AB
en contraste con probar H o : o~ con Fo = MSB/MSE en el modelo restringido. La prueba deber ser ms conservadora cuando se emplee este modelo porque por lo general MSAB ser mayor que MS E Los parmetros de los dos modelos guardan una relacin cercana. De hecho, puede demostrarse que
f3 j =yj+(aY).j (rf3)ij
0 1,
2
= (aY)ij +(aY).j
=Op+-Oay
a
2
O,p - 0a,
527
Puede usarse el mtodo del anlisis de varianza para estimar los componentes de la varianza. Con referencia a los cuadrados medios esperados, se encuentra que el nico cambio de las ecuaciones 12-25 es que d MS B -MS AB a - = --=-----'=-(12-27) y an Estos dos modelos son casos especiales del modelo mixto propuesto por Scheff [98b, d]. En este modelo se supone que las observaciones pueden representarse con
i
Yijk =mij+cijk
= 1, 2, = 1, 2,
,a
,b
,lZ
j=1,2,
= fl+7:; +b j +cij
E(mij ) = fl + 7:;
!
y
7:;=0
;=1
C. .)
=O
j= 1,2, ... ,b
Las varianzas y covarianzas de bj y cij se expresan a travs de las covarianzas de las mijo Adems, los parmetros de los efectos aleatorios en otras formulaciones del modelo mixto pueden relacionarse con bj y cijo El anlisis estadstico del modelo de Scheff es idntico al del modelo restringido tratado aqu, salvo porque, en general, el estadstico MSA/MSAB no siempre se distribuye como F cuando Ha: 7:i = Oes verdadera. A la luz de esta multiplicidad de modelos mixtos, una pregunta lgica es: qu modelo deber usarse? La mayora de los especialistas en estadstica prefieren el modelo restringido, mismo que se encuentra con mayor frecuencia en la literatura del tema. El modelo restringido es en realidad un poco ms general que el no restringido, ya que en el primero la covarianza entre dos observaciones del mismo nivel del factor aleatorio puede ser positiva o negativa, mientras que en el segundo esta covarianza slo puede ser positiva. Si la estructura correlativa de los componentes aleatorios no es grande, entonces cualquiera de los dos modelos mixtos es apropiado, y slo hay diferencias menores entre ellos. Cuando se haga referencia ms adelante a los modelos mixtos, se supondr la estructura del modelo r~stringido. Sin embargo, si hay correlaciones grandes en los datos, entonces quiz deba emplearse el modelo de Scheff. La eleccin del modelo deber ser siempre dictada por los datos. El artculo de Hocking [56] es un resumen claro de diferentes modelos mixtos.
EJEMPLO 12..4 .
El modelo no restringido Algunos paquetes de software de computadora tienen soporte para un solo modelo mixto. Minitab soporta tanto el modelo restringido como el no restringido, aun cuando la seleccin por omisin es el modelo no restringido. En la tabla 12-7 se muestra la salida de Minitab para el experimento del ejemplo 12-3 utilizando el modelo no restringido. Observe que los cuadrados medios esperados concuerdan con los de la ecuacin 12-26. Las conclusiones son idnticas a las del anlisis del modelo restringido, y las estimaciones de los componentes de la varianza son muy similares.
\Jl N
00
Tabla 12-7 Anlisis del experimento del ejemplo 12-3 utilizando el modelo restringido Anlisis de varianza (diseos balanceados)
Type Levels Values 1 random 20 8 15 operator fixed 3 1 Factor part Analysis of Variance for y Source part operator part*operator Error' Total Source 1 2 3 4 part operator pa rt*ope ra to r Error
DF
2 9 16 2
3 10 17 3
11 18
12 19
13 20
14
19
2
38 60 119
87.65 1. 84 0.72
-0.1399 0.9917
Expected Mean Square for Each Term (using unrestricted model) (4) + 2(3) + 6(1) (4) + 2(3) + Q[2J (4) + 2(3)
(4 )
'1'}
529
12~4
Pueden usarse las curvas de operacin caracterstica del apndice para determinar el tamao de la muestra en experimentos con factores aleatorios. Se empieza con el modelo de efectos aleatorios con un solo factor de la seccin 12-1. La probabilidad del error tipo II para el modelo de efectos aleatorios es {3 = 1- P{Rechazar Ha IHa es falsa} = 1- P{Fa > Fa a-1 N-a la; > O} (12-28)
De nueva cuenta se requiere la distribucin del estadstico de prueba Fa = MSTratamientoJMSE bajo la hiptesis alternativa. Puede demostrarse que siH1 es verdadera (a; > O), la distribucin de Fa esF central con a - 1 Y N - a grados de libertad. Puesto que la probabilidad del error tipo II del modelo de efectos aleatorios se basa en la distribucin F central usual, podran usarse las tablas de la distribucin F del apndice para evaluar la ecuacin 12-28. Sin embargo, es ms simple determinar la sensibilidad de la prueba mediante el uso de las curvas de operacin caracterstica. En la parte IV del apndice se presenta una serie de estas curvas para varios valores . de los grados de libertad del numerador, de los grados de libertad del denominador y a de 0.05 y 0.01. En estas curvas se grafica la probabilidad del error tipo II contra el parmetro .l, donde .l = 1+ ' 2
lla 2
(12-29)
Observe que.l incluye dos parmetros desconocidos, a 2 y a;. Quiz pueda estimarse a; si se tiene una idea acerca de cunta variabilidad de la poblacin de tratamientos es importante detectar. Puede escogerse una estimacin de 02 recurriendo a la experiencia previa o discrecionalmente. En ocasiones es ttJ' , ~. definir el valor de a; que quiere detectarse en trminos del cociente a;/a2. .~t!}:;
tl.:
Q..
I
PrT1
;r
Cr'
a;
'2 I~ }~ ,~.~~! Suponga que se han seleccionado cinco tratamientos al azar con seis observaciones por tratamiento y 'W~ r;) .1:::-;",' 8
- , '-
EJEMPLO 12,.5
l7''''~~'
":'~:"'~~J~.~1
I~~
__
J
j
0-,
. . - ' \ 0~ g: !ii
S'G(~i.f \Q4.J.;t,-,~~ C:
ll
'0"i
- ~d
Por la curva de operacin caracterstica con a -1 = 4, N-a = 25 grados de libertad y a = 0.05, se encuentra que {3=0.20 Ypor lo tanto la potencia es de aproximadamente 0.80.
Tambin puede usarse el incremento porcentual en la desviacin estndar de un mtodo de observacin para determinar el tamao de la muestra. Si los tratamientos son homogneos, entonces la desviacin estndar de una observacin seleccionada al azar es a. Sin embargo, si los tratamientos son diferentes, la desviacin estndar de una observacin elegida al azar es
Ja +a;
2
530
CAPTULO 12
Si P es el incremento porcentual fijo en la desviacin estndar de una observacin ms all del cual se desea rechazar la hiptesis nula, entonces 1+0.1P
o a-
Para unaP dada pueden usarse las curvas de operacin caracterstica de la parte VI del apndice para encontrar el tamao de la muestra deseado. Tambin pueden usarse las curvas de operacin caracterstica para determinar el tamao de la muestra del modelo de efectos aleatorios con dos factores y del modelo mixto. Se utiliza la parte VI del apndice para el modelo de efectos aleatorios. El parmetro l, los grados de libertad del numerador y los grados de libertad del denominador se muestran en la mitad superior de la tabla 12-8. Para el modelo mixto deben usarse las partes V y VI del apndice. Los valores apropiados de ep2 y l se muestran en la mitad inferior de la tabla 12-8. .
Tabla 12-8 Parmetros de las curvas de operacin caracterstica de las tablas V y VI del apndice para los modelos con dos factores de efectos aleatotios y mixto
Factor
A
Ji
1+
bna;
(r+na;p
(a-1)(b-1)
B
AB
Factor
A (fijo)
Parmetro
a-1
(a-1)(b-1)
v
VI
VI
B (aleatorio)
AB
b-1
, __
11.
1+-
na;p
0 a-
(a-1)(b-1)
531
12~5
Una parte importante de cualquier problema de diseo experimental es la realizacin del anlisis de varianza. Esto implica determinar la suma de cuadrados de cada componente del modelo y el nmero de grados de libertad asociados con cada suma de cuadrados. Despus, para construir los estadsticos de prueba apropiados, deben determinarse los cuadrados medios esperados. En situaciones de diseo complejas, particularmente las que incluyen modelos aleatorios o mixtos, con frecuencia es til contar con un procedimiento formal para este proceso. Se presentar un conjunto de reglas para anotar los cuadrados medios esperados en cualquier experimento factorial balanceado, anidado: o factorial anidado. (Observe que los arreglos parcialmente balanceados, como los cuadrados latinos y los diseos de bloques incompletos, se excluyen explcitamente.) Estas reglas son estudiadas por varios autores, incluyendo Scheff [98d], Bennett y Franklin [9], Cornfield y Tukey [34] YSearle [99a, b]. Mediante el examen de los cuadrados medios esperados puede desarrollarse el estadstico apropiado para probar hiptesis acerca de cualquier parmetro del modelo. El estadstico de prueba es el cociente de los cuadrados medios que se elige, de tal modo que el valor esperado del cuadrado medio del numerador difiere del valor esperado del cuadrado medio del denominador nicamente por el componente de la varianza o el factor fijo en el que se tiene inters. Siempre es posible determinar los cuadrados medios esperados de cualquier modelo como se hizo en el captulo 3, es decir, mediante la aplicacin directa del operador valor esperado. Este mtodo de fuerza bruta, como suele llamrsele, puede ser muy laborioso. Las reglas que se presentan a continuacin producen siempre los cuadrados medios esperados sin recurrir al enfoque de fuerza bruta y, con la prctica, su uso se vuelve relativamente simple. Cuando se aplican a un modelo mixto, estas reglas producen cuadrados medios esperados que son consistentes con los supuestos del modelo mixto restringido de la seccin 12-3. Las reglas se ilustran utilizando el modelo factorial de efectos fijos con dos factores.
Regla 1.
El trmino del error del modelo, 8 ij ...m , se escribe como 8(ij... )m, donde el subndice m denota el subndice de la rplica. Para el modelo con dos factores, esta regla implica que 8 ijk se convierte en 8 (ij)k'
Regla 2.
Adems de una media global (P) y un trmino del error [8(ij... )n,], el modelo contiene todos los efectos principales y las interacciones cuya existencia supone el experimentador. Si existen todas las interacciones posibles entre los k factores, entonces hay (; ) interacciones de dos factores, (; ) interacciones de tres factores, .oo, 1 interaccin de k factores. Si uno de los factores de un trmino aparece entre parntesis, entonces no hay interaccin entre ese factor y los dems factores de ese trmino.
Regla 3.
Para cada trmino del modelo, los subndices se dividen en tres clases: a) vivos: aquellos que estn presentes en el trmino y no estn entre parntesis; b) muertos: aquellos que estn presentes en el trmino y estn entre parntesis; y e) ausentes: aquellos subndices que estn presentes en el modelo pero no en ese trmino particular. Por lo tanto, en ('r:(3)ij, i y j son subndices vivos y k es un subndice ausente, y en 8(ij)b k es un subndice vivo, mientras que i y j son subndices muertos.
2
532
CAPTULO 12
El nmero de grados de libertad de cualquier trmino del modelo es el producto del nmero de niveles asociados con cada subndice muerto y el nmero de niveles asociados con cada subndice vivo menos lo Por ejemplo, el nmero de grados de libertad asociados con (rf3)ij es (a -1 )(b -1), Y el nmero de grados de libertad asociados con 8 (ij)k es ab(n - 1).
Cada trmino del modelo tiene asociado con l un componente de la varianza (efecto aleatorio) o bien un factor fijo (efecto fijo). Si una interaccin contiene al menos un efecto aleatorio, la interaccin completa se considera aleatoria. Un componente de la varianza tiene letras griegas como subndices para identificar el efecto aleatorio particular. Por 10 tanto, en un modelo mixto de dos factores con el factor A fijo y el factor B aleatorio, el componente de la varianza de B es a~, y el componente de la varianza deAB es a;fJ' Un efecto fijo se representa siempre por la suma de cuadrados de los componentes del modelo asociados con ese factor dividida por sus grados de libertad. En el ejemplo tratado aqu, el efecto de A es
Regla 5.
i=1
a-1
Para obtener los cuadrados medios esperados, se elabora la tabla siguiente. Hay un rengln para cada componente (cuadrado medio) del modelo y una columna para cada subndice. Arriba de cada subndice se escribe el nmero de niveles del factor asociados con ese subndice y si el factor es fijo (F) o aleatorio (R). Las rplicas siempre se consideran aleatorias.
a) En cada rengln se escribe 1 si uno de los subndices muertos en el componente del rengln coin-
F
b j
a
Factor
i
R n
k
b) En cada rengln, si cualquiera de los subndices del componente del mismo coincide con el sub-
ndice de la columna, se escribe Osi el encabezado de la columna es un factor fijo y 1 si es un factor aleatorio:
Factor
F a i
F b j
R n
k
Ti
f3j
O O 1 O O 1
(Tf3)j
c(ij)k
533
e) En las posiciones del rengln que quedan vacas se escribe el nmero de niveles que aparecen indicados arriba del encabezado de la columna:
F F
R
11
Factor
r:i
a i
b
j
le
11 11 11
O a O 1
b O O 1
d) Para obtener los cuadrados medios esperados de cualquier componente del modelo, primero se cubren todas las columnas cuyos encabezados sean subndices vivos de ese componente. Despus, en cada rengln que contiene al menos los mismos subndices que los del componente bajo consideracin, se toma el producto de los nmeros visibles y se multiplica por el factor fijo o aleatorio apropiado de la regla 1. La suma de estas cantidades es el cuadrado medio esperado del componente del modelo bajo consideracin. Por ejemplo, para encontrar E(MSA), se cubre la columna i. El producto de los nmeros visibles en los renglones que contienen al menos el subndice i sonbn (rengln 1), O(rengln 3) y 1 (rengln 4). Observe que i no est presente en el rengln 2. Por lo tanto, el cuadrado medio esperado es
bn
E(MSA)=a2 +
2: 7:;
i=l
a-1
En la tabla 12-9 se presenta la tabla completa de los cuadrados medios esperados para este diseo. En las tablas 12-10 y 12-11 se muestran las derivaciones de los cuadrados medios esperados para los modelos con dos factores, aleatorio y mixto, respectivamente. Observe que se ha supuesto la versin restringida del modelo mixto para producir los cuadrados medios esperados. En el ejemplo siguiente se considera un diseo factorial con tres factores.
EJEMPLO
12~6
Considere un experimento factorial de tres factores con a niveles del factor A, b niveles del factor B, e niveles del factor e y n rplicas. El anlisis de este diseo, suponiendo que todos los factores son de efectos
R
11
Factor
r:
a i
b
j
le
11
O
a
a-+-?
bl1"Lr:; a-1
O O
1
11
a-+ b -1 a-+ a? ?
al1"Lf3~
O
1
11
534
CAPTULO 12
Tabla 12-10 Derivacin de los cuadrados medios esperados, modelo de efectos aleatorios con dos factores
R
a
R
b
R
n
Factor
T f3i (Tf3)ij C(j)k
j
b
k
n n n
1
a
+ nu;p + bnu;
2 +nurp + anu 2 p 2 + IW rp
1 1 1
1 1
u-
Tabla 12-11
Derivacin de los cuadrados medios esperados, modelo mixto con dos factores
F
a
R
b j b
R n
k
n n n
Factor
T f3i (Tf3)y C(ij)k
i
O
a
1 1
2 2
+ anu~
O 1
u + nu;p ? u-
i
i
I
Tabla 12-12 Derivacin de los cuadrados medios esperados, modelo de efectos aleatorios con tres factores
R
a
R
b
R
e k e e
R
n
Factor
T f3i Yk (Tf3)i (ry)k (f3Y)ik (Tf3Y)ik cijkl
i
1
a a
j
b
1
n n n n n n n u u
2 2
1
b
1
e
1
1
a
1
b
1 1
1 1
1
1 1 1 1
+ enu;p + bnu~, + nu;py + benu; + enu;p + anu~l' + nu;Pl' + aenu~ ?b? b? u- + IW~, + anu P1' + nu;py + a nu; 2 u + nu;py + enu;p b u- + nu;py + IW~, 2 u + nU;Pl' + alW~y 2 u + nu;py
? ? ? ? ? ? u-
535
fijos, se presenta en la seccin 5-4. Ahora se determinan los cuadrados medios esperados suponiendo que todos los factores son aleatorios. El modelo estadstico apropiado es
Yijkl
Utilizando las reglas descritas antes, en la tabla 12-12 se derivan los cuadrados medios esperados. Se observa, al examinar los cuadrados medios esperados de la tabla 12-12, que siA, B y e son factores aleatorios, entonces no existe ninguna prueba exacta para los efectos principales. Es decir, si se quiere probar la hiptesis = 0, no es posible formar un cociente de dos cuadrados medios esperados tal que el nico trmino del numerador que no est en el denominador sea bcna;. El mismo fenmeno ocurre para los efectos principales de B y C. Observe que efectivamente existen las pruebas apropiadas para las interacciones de dos y tres factores. Sin embargo, es posible que las pruebas de los efectos principales sean de importancia bsica para el experimentador. Por lo tanto, cmo debern probarse los efectos principales? Este problema se considera en la siguiente seccin.
a;
........................................................................ .
PRUEBAS F APROXIMADAS
12,6
Es frecuente que en experimentos factoriales con tres o ms factores incluidos en un modelo aleatorio o mixto, as como en otros diseos ms complejos, no exista un estadstico de prueba exacto para ciertos efectos de los modelos. Una posible solucin a este dilema es suponer que ciertas interacciones son insignificantes. Para ilustrar, si fuera razonable suponer que todas las interacciones de dos factores del ejemplo 12-6 son insignificantes, entonces podra hacerse a;/3 = a~ = a~y = 0, y sera posible conducir pruebas de los efectos principales. Aun cuando parece tratarse de una posibilidad atractiva, es necesario sealar que debe haber algo en la naturaleza del proceso -o algn conocimiento previo slido- que permita suponer que una o ms de las interacciones son insignificantes. En general, no es sencillo establecer este supuesto, y tampoco deber hacerse a la ligera. No debern eliminarse ciertas interacciones del modelo sin evidencia concluyente de que es apropiado hacerlo. Un procedimiento defendido por algunos experimentadores es probar primero las interacciones, despus fijar en cero aquellas interacciones que se hayan encontrado no significativas, para despus suponer que estas interacciones son cero cuando se prueben otros efectos en el mismo experimento. Aun cuando en ocasiones se aplica en la prctica, este procedimiento puede ser riesgoso, ya que cualquier decisin respecto a una interaccin est sujeta tanto al error tipo 1 como al error tipo H. Una variante de esta idea es agrupar ciertos cuadrados medios en el anlisis de varianza para obtener una estimacin del error con ms grados de libertad. Por ejemplo, suponga que en el ejemplo 12-6 no fue significativo el estadstico de prueba Fo = MSABc/MSE Por lo tanto, H o:a;/3Y = no se rechaza, y tanto MSABC como MS E estiman la varianza del error cJl. El experimentador podra considerar la agrupacin o combinacin de MSABC Y MSE de acuerdo con
536
CAPTULO 12
(MS E ,) que es muy grande. Esto har que sea ms difcil detectar otros efectos significativos. Por otra parte, si el cuadrado medio del error original tiene un nmero muy pequeo de grados de libertad (por ejemplo, menos de seis), el experimentador quiz tenga mucho que ganar al hacer la agrupacin, ya que podra conseguirse as un incremento potencialmente considerable de la precisin de pruebas posteriores. Un procedimiento razonablemente prctico es el siguiente. Si el cuadrado medio del error original tiene seis o ms grados de libertad, no hacer la agrupacin. Si el cuadrado medio del error original tiene menos de seis grados de libertad, hacer la agrupacin slo si el estadstico F del cuadrado medio que se agrupar no es significativo para un valor grande de a, tal como a = 0.25. Cuando no es posible suponer que ciertas interacciones son insignificantes y sigue siendo necesario hacer inferencias acerca de los efectos para los que no existen pruebas exactas, puede emplearse un procedimiento atribuido a Satterthwaite [97]. El mtodo de Satterthwaite utiliza combinaciones lineales de cuadrados medios, por ejemplo, MS'= MS r
y
(12-31)
(12-32)
MS" = MS
11
donde los cuadrados medios de las ecuaciones 12-31 y 12-32 se seleccionan de tal modo que E(MS') E(MS") sea igual a un mltiplo del efecto (el parmetro del modelo o el componente de la varianza) considerado en la hiptesis nula. Entonces el estadstico de prueba sera
F=--
MS' MS"
(12-33)
. I
I
,
(12-34)
2 q= MS u /!,u
.00
+MSv2 /!,v
(12-35)
En p y q ,/; es el nmero de grados de libertad asociados con el cuadrado medio MSo No existe la seguridad de que p y q sean enteros, por lo que puede ser necesario hacer una interpolacin en las tablas de la distribucinFo Por ejemplo, en el modelo de efectos aleatorios con tres factores (tabla 12-12), es relativamente sencillo ver que un estadstico de prueba apropiado para Ho:a; = O sera F = MS' /MS", con
MS'= MS A +MS ABC
y
MS"= MS AB
+ MS AC
Los grados de libertad de F se calcularan con las ecuaciones 12-34 y 12-35. La teora subyacente de esta prueba es que tanto el numerador como el denominador del estadstico de prueba (ecuacin 12-33) se distribuyen aproximadamente como mltiplos de variables aleatorias
537
ji-cuadrada, y puesto que no aparece ningn cuadrado medio en el numerador o el denominador de la ecuacin 12-33, el numerador y el denominador son independientes. Por lo tanto, en la ecuacin 12-33, F se distribuye aproximadamente como Fp , q' Satterthwaite hace hincapi en que deber prestarse atencin al aplicar el procedimiento cuando algunos de los cuadrados medios de MS' y MS" aparezcan con signos negativos. Gaylory Hopper [48] reportan que siMS' = MS 1 -MS 2, entonces la aproximacin de Satterthwaite tiene una validez razonable si
__ 1 2
Y si 11 :5 100 Y 12 2::
N2.
.
EJEMPLO
12~7
Se estudia la cada de la presin medida en una vlvula de expansin de una turbina. El ingeniero de diseo considera que las variables importantes que influyen en las lecturas de la cada de la presin son la temperatura del gas en la admisin (A), el operador (B) y el manmetro especfico que utiliza el operador (C). Estos tres factores se incluyen en un diseo factorial, con la temperatura del gas fija y el operador y el manmetro aleatorios. En la tabla 12-13 se muestran los datos codificados de dos rplicas. El modelo lineal de este diseo es
donde 7:; es el efecto de la temperatura del gas (A), f3j es el efecto del operador (B) y Yk es el efecto del manmetro (C). El anlisis de varianza se muestra en la tabla 12-14. Se ha agregado la columna titulada "Cuadrados medios esperados" a esta tabla, y las entradas de esta columna se derivan por los mtodos estudiados en la seccin 12-5. Por la columna Cuadrados medios esperados, se observa que existen pruebas exactas para todos los efectos esperados salvo el efecto principalA. En la tabla 12-14 se muestran los resultados de estas pruebas. Para probar el efecto de la temperatura del gas, o H o:7:; = O, podra usarse el estadstico
MS' F= MS"
'labIa 12-13 Datos codificados de la cada de la presin para el experimento de la turbina Temperatura del gas (A)
60 P
0
7SoP
Operador (B)
90 P
0
Manmetro
Operador (B)
. Operador (B)
(C)
1 2
3
1 -2
-3
2
O
-6 4 -1 -2
-9 -S -1
-4
-1 -8 -8 -2
O
4 4 4
-3
-8
-7
-7 -2 4
1 14 14 22 24 20 16
2 6
O
8 6 2
O
1 2 6 2
3 O
4 -7 6 -S 2 -S -1
1 -8 -8 -8
3
-2 -1
2 -2 20 1 -7 -1 -2
-1 -2 -9 -8
-4
4 -2 1 -8
3
1
3
-7
~-' .:~--:~=~:-=~-
\J1
l.J,.l
00
Tabla 12-14 Anlisis de varianza de los datos de la cada de la presin Fuente de variacin Temperatura, A Suma de cuadrados 1023.36 423.82 7.19 1211.97 137.89 209.47 166.11 770.50 3950.32 Grados de libertad 2 3 2 6 4 6 12 36 71
(J
2
Cuadrado medio 511.68 141.27 3.60 202.00 34.47 34.91 13.84 . 21.40
Fo
2.22 4.05 0.10 14.59 2.49 1.63 0.65
bcn2:.7:
Operador,B
Manmetro, C
(J2 + an(J~y + acn(J~ (J2 + an(J~y + abn(J~ (J2 + n(J;py + cn(J;p (J2 + n(J;p)' + bn~'1' (J2 + an(J~y (J2 + n(J;py (J-
AB AC BC ABC
Error Total
,jJ illilJ
539
donde
MS'=MS A
y
+ MS ABC + MS AC
bcn2::;2
MS"= MS AB
ya que
E(MS')-E(MS")=
a-1
Para determinar el estadstico de prueba para Ha:' = O, se calculan MS'= MS A +MS ABC = 511.68+ 13.84 = 525.52 MS"= MS AB + MS AC = 202.00+34.47= 236.47
y
y
(MS AB +MS AC )2 q = MS AB 2 / 6 + MS 2 / 4 AC
= (236.47)2 = 7.88=8 (202.00)2 /6+(34.47)2 /4
Al comparar F = 2.22 con Fa.a5 ,2, 8 = 4.46, no puede rechazarse Ha. El valor P aproximado esP = 0.17. La interaccinAB, o temperatura-operador, es grande, y hay ciertos indicios de una interaccinAC o temperatura-manmetro. El anlisis grfico de las interaccionesAB yAC, ilustrado en la figura 12-2, indica que el efecto de la temperatura puede ser grande cuando se usan el operador 1 y el manmetro 3. Por lo tanto, parece posible que los efectos principales de la temperatura y el operador estn enmascarados por la interaccin AB grande.
En la tabla 12-15 se presenta la salida de la rutina Balanced ANOVA (anlisis de varianza balanceado) de Minitab para el experimento del ejemplo 12-7. Se ha especificado el modelo restringido. Q[l] representa el efecto fijo de la presin del gas. Observe que las entradas de la tabla del anlisis de varianza
~.'il
'I ji
ji
11
1I
540
125 100
I:Q
~
CAPTULO 12
100 75
CJ
x 75
Iu D "
'ro "
50 25
B~2
50 25
O
.!!!
QJ
'"
QJ
ID " u
" '"
~
ro
.!!!
~4
-25 -50
B~ 1 B~3
o 1-25 -50
" '"
ro
60
75 A
90
60
concuerdan en general con las de la tabla 12-14, salvo por la pruebaF de la temperatura del gas (factorA). Minitab indica que la prueba no es exacta (lo que se ve por los cuadrados medios esperados). La Prueba Sintetizada construida por Minitab es en realidad el procedimiento de Satterthwaite, pero usa,un estadstico de prueba diferente del que se utiliz aqu. Observe que, por la salida de Minitab, el cuadrado medio del error para probar el factor A es
(4)+(5)-7= MS AB
, I
I
1
+ MS AC -MS ABC
que es un cuadrado medio del error apropiado para probar el efecto promedio deA. Esto es una muy buena ilustracin de que puede haber ms de una manera de construir los cuadrados medios sintticos usados en el procedimiento de Satterthwaite. Sin embargo, se preferira en general la combinacin lineal de los cuadrados medios que se seleccionaron, en lugar de la que eligi Minitab, ya que no incluye ningn cuadrado medio con signo negativo en las combinaciones lineales. El anlisis del ejemplo 12-7, suponiendo el modelo no restringido, se presenta en la tabla 12-16. La diferencia principal con el modelo restringido es que ahora los valores esperados de los cuadrados medios de los tres efectos principales son tales que no existe ninguna prueba exacta. En el modelo restringido, los dos efectos aleatorios promedio podran probarse contra su interaccin, pero ahora el cuadrado medio esperado deB incluye aa;py y aa;p,yel cuadrado medio esperado de Cincluye aa;py y aa~. De nueva cuenta, Minitab construye cuadrados medios sintticos y prueba estos efectos con el procedimiento de Satterthwaite. Las conclusiones generales no son radicalmente diferentes del anlisis del modelo restringido, adems del cambio grande en la estimacin del componente de la varianza del operador. El modelo no restringido produce una estimacin negativa de a ~ . Puesto que el factor manmetro no es significativo en ninguno de los dos anlisis, es posible que sea pertinente alguna reduccin del modelo.
roo
&'"rmttt"t,,:Zl';.
Tabla 12-15 Anliss de varianza balanceado de Minitab (Balanced AN avA) del ejemplo 12-7, modelo restringido Anlisis de varianza (diseos balanceados)
Factor Type Levels Values GasT fixed 3 60 Operator random 4 1 Gauge random 3 1 Analysis of Variance for Drop Source GasT Operator Gauge GasT*Operator GasT*Gauge Operator*Gauge GasT*Operator*Gauge Error Total x Not an exact F-test. Source 1 2 3 4 5 6 7 8 GasT Operator Gauge GasT*Operator GasT*Gauge Operator*Gauge GasT*Operator*Gauge Error DF
2 3 2 6 4 6 12 36 71
75 2 2
90 3 3
SS
1023.36 423.82 7.19 1211.97 137.89 209.47 166.11 770.50 3950.32
MS
511.68 141.27 3.60 202.00 34.47 34.91 13.84 21. 40
F
2.30 4.05 0.10 14.59 2.49 1.63 0.65
"1l
Variance Error Expected Mean Square for Each Term component term (using restricted model)
*
6 6 7
7
8 8
+ 2(7) + 6(6) + 6(6) + 2(7) (8) + 2(7) (8) + 6(6) (8) + 2(7)
(8)
lJ1
....
Source 1 GasT
Error DF
6.97
Error MS
222.63
Synthesis of Error MS
(4) + (5) - (7)
____ ,__
=---~ =--=~:'~--C::S3I
U1
Tabla 12-16 Anlisis de varianza balanceado de Minjtab (Balanced ANOVA) del ejemplo 12-7, modelo no restringido Anlisis de varianza (diseos balanceados)
Factor Type Levels Values GasT fixed 3 60 Operator random 4 1 Gauge random 3 1 Analysis of Variance for Drop Source GasT Operator Gauge GasT*Operator GasT*Gauge Operator*Gauge GasT*Operator*Gauge Error Total x Not an exact F-test. Source 1 2 3 4 5 6 7 8 DF 2 3 2 6 4 6 12 36 71
75 2 2
90 3 3
Variance Error Expected Mean Square for Each Term component term (using unrestricted model) * (8) + 2(7) + 8(5) + 6(4) + Q[1J GasT * (8) + 2(7) + 6(6) + 6(4) + 18(2) Operator -4.544 * (8) + 2(7) + 6(6) + 8(5) + 24(3) Gauge -2.164 7 (8) + 2(7) + 6(4) GasT*Operator 31.359 7 (8) + 2(7) + 8(5) GasT*Gauge 2.579 7 (8) + 2(7) + 6(6) Operator*Gauge 3.512 8 (8) + 2(7) GasT*Operator*Gauge -3.780 (8) Error 21.403
* Synthesized Test. Error Terms for Synthesized Tests Source' 1 GasT 2 Operator 3 Gauge Error DF 6.97 7.09 5.98 Error MS 222.63 223.06 55.54 Synthesis of Error MS
(4) (4) (S)
+ +
543
12..7
Como se seal anteriormente, la estimacin de los componentes de la varianza en un modelo aleatorio o mixto reviste con frecuencia considerable importancia para el experimentador. En esta seccin se presentan algunos resultados y tcnicas adicionales que son tiles para estimar los componentes de la varianza. La atencin se centra en los procedimientos para encontrar intervalos de confianza para los componentes de la varianza, y se ilustra asimismo cmo encontrar estimaciones de mxima verosimilitud de los componentes de la varianza. El mtodo de mxima verosimilitud puede ser una alternativa til cuando el mtodo del anlisis de varianza produce estimaciones negativas.
12..7.1
Cuando se introdujo el modelo de efectos aleatorios en la seccin 12-1, se presentaron intervalos de confianza exactos de 100(1-a) por ciento paraerypara otras funciones de los componentes de la varianza en ese diseo experimental simple. Siempre es posible encontrar un intervalo de confianza exacto para cualquier funcin de los componentes de la varianza que es el valor esperado de uno de los cuadrados medios del anlisis de varianza. Por ejemplo, considere el cuadrado medio del error. Puesto que E(MSE ) = siempre es posible encontrar un intervalo de confianza exacto para ya que la cantidad 2 2 tEMSE / a = tEo2 / a
er,
er,
tiene una distribucin ji-cuadrada cantE grados de libertad. El intervalo de confianza exacto de 100(1-a) por ciento es (12-36) Desafortunadamente, en experimentos ms complejos en los que intervienen varios factores del diseo no es posible por lo general encontrar intervalos de confianza exactos para los componentes de la varianza de inters, ya que estas varianzas no son el valor esperado de un solo cuadrado medio del anlisis de varianza. Sin embargo, los conceptos fundamentales de las "pseudo" pruebas F aproximadas de Satterthwaite, introducidos en la seccin 12-6, pueden emplearse para construir intervalos de confianza aproximados de los componentes de la varianza para los que no se cuenta con ningn intervalo de confianza exacto. Recuerde que el mtodo de Satterthwaite utiliza dos combinaciones lineales de cuadrados medios
que tiene una distribucinF aproximada. Al utilizar los grados de libertad apropiados paraMS' y MS", definidos en las ecuaciones 12-34 y 12-35, este estadstico F puede usarse en una prueba de significacin aproximada del parmetro o del componente de la varianza de inters.
PI'
'i1l
111, I,i
milI
i
i
544
CAPTULO 12
Para probar la significacin de un componente de la varianza, por ejemplo a~, las dos combinaciones lineales, MS' y MS", se eligen de tal modo que la diferencia en sus valores esperados sea igual a un mltiplo del componente, por ejemplo
o
2 _
ao -
E(MS')- E(MS")
k
(12-37)
La ecuacin 12-37 proporciona una base para una estimacin puntual de a~: MS'-MS" f2 - - - - ok
- ...
11
..!.. MS k u
(12-38)
Los cuadrados medios (MS) de la ecuacin 12-38 son independientes, donde lasf;MS/a = SS/a tienen distribuciones ji-cuadrada con/; grados de libertad. La estimacin del componente de la varianza, f~, es una combinacin lineal de mltiplos de los cuadrados medios, y rf ~ la ~ sigue una distribucin ji-cuadrada aproximada con r grados de libertad, donde
r
=
ni
( f2 )2
2:-2-' k h
=1
1 MS~
( MS r ++MSs -MS - ... -MSv )2 MS; MS; MS,~ MS; --+ ... +--+--+ ... +-fr fs f., fu
Il
, I
(12-39)
'!
Este resultado slo puede usarse si f~ > O. Como r no ser un entero en la mayora de los casos, por lo general ser necesario hacer una interpolacin de las tablas ji-cuadrada. Graybill [50] establece un resultado general para r. Ahora bien, puesto que rf ~ laZ tiene una distribucin ji-cuadrada aproximada con r grados de libertad,
p { X1-a/2,r - a~ - Xa/2,r. -1
2 -
} __
y
rf2 rf2 } 0_<a2 < o =l-a P { __ 2 0? Xa/2,r Xl-a/2,r
rf2
rf2
(12-40)
EJEMPLO
12~8
Para ilustrar este procedimiento, considere nuevamente el experimento del ejemplo 12-7, donde se us un modelo mixto con tres factores en un estudio de la cada de la presin en una vlvula de expansin de una turbina. El modelo es
Yijkl
545
donde 7: es un efecto fijo y todos los dems efectos son aleatorios. Se encontrar un intervalo de confianza aproximado para a;,8 . Al utilizar los cuadrados medios esperados de la tabla 12-14, se observa que la diferencia en los valores esperados de los cuadrados medios para el efecto de la interaccin de dos factores AB y el efecto de interaccin de tres factores ABe es un mltiplo del componente de la varianza de inters, a;,8'
- cna ,,8
Por lo tanto, la estimacin puntual de a;,8 es 2 _ MS AB - MS ABC a ,,8 cn
A
134.91-19.26 (3)(2)
19.28
+ (19.26)2
(2)(3)(2)
4.36
El intervalo de confianza aproximado de 95% paraa;,8 se encuentra entonces con la ecuacin 12-40 de la siguiente manera:
:5 a ,,8 :5 - 2 - X O.025,r X 0.975,r (4.36)(19.28) 2 ( ,4_.3----'6)'-'-(1_9_.28~) -'---------'---'-------'- < a < 11.58 - ,,8 0.61 7.26:5 a;,8 :5137.81
-2--
ra;,8
..... ?
ra;,8
"'?
Este resultado es consistente con los resultados de la prueba F exacta para a;,8' en que hay evidencia slida de que este componente de la varianza es diferente de cero.
12~7.2
El mtodo de Satterthwaite de la seccin anterior es una forma relativamente simple de encontrar un intervalo de confianza aproximado para un componente de la varianza que puede expresarse como una combinacin lineal de cuadrados medios, por ejemplo
a~ =
2: cMS
=1
(12-41)
El mtodo de Satterthwaite funciona bien cuando los grados de libertad de cada cuadrado medio MS son relativamente grandes, y cuando todas las constantes c de la ecuacin 12-41 son positivas. Sin embargo, en ocasiones algunas de las c son negativas. Graybill y Wang [51] propusieron un procedimiento llamado mtodo de grandes muestras modificado, que puede ser una alternativa muy til del mtodo de Satterthwaite. Si todas las constantes c de la ecuacin 12-41 son positivas, entonces el intervalo de confianza modificado de 100(1 - a) por ciento de una muestra grande para a~ es
A2 a o-
2: G2 MS2 :5 a~ :5 a~ + 2:
C
=1 i=l
(12-42)
546
donde
CAPTULO 12
G. = 1 - - 1
Fa,Ji,ee
1 H ---- F
l-a,J,lXl
Observe que una variable aleatoria F con un nmero infinito de grados de libertad en el denominador es equivalente a una variable aleatoria ji-cuadrada dividida por sus grados de libertad. Considere ahora el caso ms general de la ecuacin 12-41, donde las constantes C no tienen restricciones sobre el signo. Esto puede escribirse como
o~ =
2: cMS - 2:
=1
C j MS j ,
(12-43)
j=P+l
Ting, etal [110], dan un intervalo de confianza inferior aproximado de 100(1-a) por ciento paraa~ como
L= o~
-.jf7;
P
(12-44)
donde VL
2: 02
=1
C;
MS2 +
j=P+l
+
1
2: 2: GccMSMS
i=l
P-1
t>i
G. = 1 - - -
Fa,f,lXl
H.
J
=
IJ
Fl-a,f,CCJ
O ..
= ( Fa,f;,fj _1)2 F
1[(
0 2F 2
1
a,f,fj
2 J
a,f,fj
a=
II
1
Fa,f;+f"
oo
(h + h ) jh
_ J_i _ _ 1 J_II
si P > 1 y
O~ =
si P = 1
Estos resultados tambin pueden extenderse para incluir intervalos de confianza aproximados para cocientes de componentes de la varianza. Para una relacin completa de estos mtodos, referirse al excelente libro de Burdick y Graybill [22].
EJEMPLO
12~9
Para ilustrar el mtodo de grandes muestras modificado, considere nuevamente el modelo mixto con tres factores del ejemplo 12-7. Se encontrar un intervalo de confianza inferior aproximado de 95% para 0;13. Recuerde que la estimacin puntual de 0;13 es
02
,13
= MS AB -
MS ABe cn
= 134.91-19.26 = 19.28
(3)(2)
fI
547
C1
= C2 =
1/6,
1 = FO.05,6,~
1
1-~= 0.524
2.1
1
H? =
-
FO.95,12,~
G
12
= ( F0.05,6,12 -
(H 2 )2
-0.054
a;p
es
Este resultado es consistente con los resultados de la prueba F exacta para este efecto.
12~7.3
En este captulo se ha subrayado el mtodo del anlisis de varianza para estimar los componentes de la varianza debido a que es relativamente directo y hace uso de cantidades familiares: los cuadrados medios de la tabla del anlisis de varianza. Sin embargo, el mtodo tiene ciertas desventajas, incluyendo la molesta tendencia a producir en ocasiones estimaciones negativas. Adems, el mtodo del anlisis de varianza es en realidad un mtodo de estimador de momentos, una tcnica que los especialistas en estadstica matemtica prefieren en general no usar para estimar parmetros, debido a que resulta con frecuencia en estimaciones de parmetros que no tienen buenas propiedades estadsticas. A la tcnica de estimacin de parmetros preferida se le llama mtodo de mxima verosimilitud. La implementacin de este mtodo puede ser un tanto complicada, en particular para el modelo de un diseo experimental, pero en cierto sentido el mtodo de mxima verosimilitud selecciona estimaciones de los parmetros que, para un modelo y una distribucin del error especificados, maximiza la probabilidad de ocurrencia de los resultados muestrales. Una descripcin general muy adecuada del mtodo de mxima verosimilitud aplicado a modelos de diseos experimentales se ofrece en Milliken y Johnson [79]. La revisin completa del mtodo de mxima verosimilitud sale del alcance de este libro, pero la idea general puede ilustrarse con suma facilidad. Soponga quex es una variable aleatoria con una distribucin
11
~.
548
CAPTULO 12 EXPERIMENTOS CON FACTORES ALEATORIOS
i;!
1
,1
de probabilidad/ex; 8), donde 8 es un parmetro desconocido. Sea Xl' X 2, ... , X n una muestra aleatoria de n observaciones. Entonces la funcin de verosimilitud de la muestra es
I
I
Observe que ahora la funcin de verosimilitud es una funcin nicamente del parmetro desconocido 8. El estimador de mxima verosimilitud de 8 es el valor de 8 que maximiza la funcin de verosimilitudL(8). Para ilustrar cmo se aplica esto en el modelo de un diseo experimental con efectos aleatorios, considere un modelo de dos factores con a = b = n = 2. El modelo es
Yijk
eov(Yijk'
Y'j'k')= a r +a (3 +a r(3
=a;
2 - a (3 =0
j j
= j',
-:1=
-:1=
k'
(12-45)
1, es decir,
Ym Yll2
Y211
y= Y212 Yl21 Y122 Y221 Y222
1: =
donde 1:11 , 1:22 , 1:12 Y 1:21
[1:
11 1: 12 ] 1: 21 1: 22
1: 11 = 1: 22
a r +a (3 +a r (3 ? aya r2 a r2
a r2 a r2 a2 y 2 2 ? a r +a (3 +a;(3
a r2 a r2 ? ? 2 a; +af +a r (3 2 ay
2 O O a2 a (3 (3 ? 2 O O aa (3 (3 1: 12 = O O a2 a2 (3 (3 2 O O a (3 a 2 (3
'
12-7 ALGUNOS TEMAS ADICIONALES SOBRE LA ESTIMACIN DE LOS COMPONENTES DE LA VARlANZA Y};21
549
es slo la transpuesta de };12' Entonces cada observacin sigue una distribucin normal con varianza
a ~, y si se supone que todas las N = abn observaciones tienen una distribucin normal conjunta, entonces
la funcin de verosimilitud del modelo aleatorio queda como
donde jN es un vector N x 1 compuesto de unos. Las estimaciones de mxima verosimilitud de /-l, a;, a~,
a;/l yaZ son los valores de estos parmetros que maximizan la funcin de verosimilitud. Tambin sera deseable restringir las estimaciones de los componentes de la varianza a valores no negativos. Por lo tanto, en la prctica la funcin de verosimilitud se maximizara sujeta a esta restriccin. La estimacin de los componentes de la varianza por el mtodo de mxima verosimilitud requiere software de computadora especializado. Algunos paquetes de software de estadstica general cuentan con esta capacidad. El sistema SAS calcula estimaciones de mxima verosimilitud de los componentes de la varianza de modelos aleatorios o mixtos con la rutina SAS PROC MIXED. Se ilustrar el uso de la rutina PROC MIXED aplicndola al modelo factorial de dos factores introducido en los ejemplos 12-2 y 12-3. Considere primero el ejemplo 12-2. Se trata del modelo de un diseo factorial de efectos aleatorios con dos factores. El mtodo del anlisis de varianza ha producido una estimacin negativa del componente de la varianza de la interaccin. Las estimaciones negativas de los componentes de la varianza pueden evitarse en la rutina PROC MIXED especificando el uso del mtodo de mxima verosimilitud restringida (o residual) (REML, por sus siglas en ingls). En esencia, la REML restringe las estimaciones de los componentes de la varianza a valores no negativos. La rutina PROC MIXED del sistema SAS requiere como entrada la matriz de covarianza de los parmetros del modelo. La estructura de un modelo aleatorio en el que todas las variables aleatorias son mutuamente independientes es
(12-46)
donde las 1 son matrices identidad. (La estructura de la covarianza de un modelo puede especificarse en la rutina PROC MIXED con la opcin TYPE= stnlcture en el enunciado RANDOM.) La estructura de la covarianza del modelo del ejemplo 12-2 se especifica como TYPE = SIM (el valor por omisin de PROC MIXED), que especifica la estructura simple de la covarianza para los parmetros del modelo dados en la ecuacin 12-46. En la tabla 12-17 se presenta la salida de la rutina PROC MIXED de SAS para el experimento del ejemplo 12-2. Se especific el mtodo de estimacin REML de los componentes de la varianza. La salida se ha anotado con nmeros para facilitar la descripcin que se presenta a continuacin: 1. Estimaciones de los componentes de la varianza y la salida relacionada. 2. Parmetro covarianza. Identifica los parmetros del modelo: a;, a~, a~/l y aZ. 3. Cociente de la varianza estimada del efecto y la varianza estimada del error residual:
0 2 /0 2
1
4. Estimaciones de los parmetros. Son las estimaciones REML de los componentes de la varianza 2 o~, o~/l y 0 Observe que la estimacin REML de o;/l es cero.
o;,
_~~
,__
~ ~
,,~O"'=~
,,""'
lJ1 lJ1
Tabla 12-17 Salida de PROC MIXED del sistema SAS del anlisis del estudio de repetibilidad y reproductibilidad de instrumentcis de medicin (calibradores) ddJ:;i~IDPJo_l)-2 !ltili~ndo la estimacin REML de los componentes de varianza
The MIXED Procedure Class Level Information Levels Values 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 OPERATOR 3 1 2 3 REPLICAT 2 1 2 Class PART Covariance Parameter Estimates (REML)
[I]
Cov Parm OPERATOR PART PART*OPERATOR Residual
[I]
Ratio 0.01203539 11.60743820 -0.00000000 1.00000000
GJ
rn
[]]
Z
Pr
[I] > Iz I
0.7463 0.0024 0.0000
Alpha
@]
Lower Upper -0.0538 0.0750 3.6388 16.8637 0.6359 1.1304
[Q]
Asymptotic Covariance Matrix of Estimates Cov Parm OPERATOR PART PART*OPERATOR Residual OPERATOR 0.00107978 0.00006632 0.00000000 -0.00039795 PART 0.00006632 11.38231579 0.00000000 -0.00265287 PART*OPERATOR 0.00000000 0.00000000 0.00000000 -0.00000000 Residual -0.00039795 -0.00265287 -0.00000000 0.01591791
[j]
Model Fitting Information for VALUE Description Value Observations 120.0000 Variance Estimate 0.8832 Standard Deviation Estimate 0.9398 REML Log Likelihood -204.696 Akaike's Information Criterion -208.696 Schwarz's Bayesian Criterion -214.254 -2 REML Log Likelihood 409.3913
,ici\t"
.'~ ~
".
q---=
n----____
"7
=e"'"5'O'
'"'M':cr,:;d~".
Tabla 12-18 Salida de PROC MlXED del sistema SAS del anlisis del estudio de repetibilidad y reproductibilidad de instrumentos de medicin (calibradores) con el operador como efecto fijo utilizando la estimacin REML de los componentes de la vatianza
The MIXED Procedure Covariance Parameter Estimates (REMU Cov Parm PART PART*OPERATOR Residual Ratio
11.60743876 0.00000000 1.00000000
Estimate
10.25126472 0.00000000 0.88316337
Std Error
3.37376895 0.12616620
Pr >
Iz I
Alpha
0.05 0.05
Lower
Upper
;:::~
3.04 7.00
0.0024 0.0000
Asymptotic Covariance Matrix of Estimates Cov Parm PART PART*OPERATOR Residual PART
11.38231693 0.00000000 -0.00265287
PART*OPERATOR
0.00000000 0.00000000 0.00000000
Residual
-0.00265287 -0.00000000 -0.01591791
Model Fitting lnformation for VALUE Description Observations Variance Estimate Standard Dev;at;on Est;mate REML Log Likelihood Akaike's lnformat;on Criterion Schwarz's Bayesian Cr;ter;on -2 REML Log Likelihood Tests of F;xed Effects Source OPERATOR
U1 U1
t-'
NDF
2
DDF
38
Type 111 F
1.48
Pr > F
0.2401
552
CAPTULO 12
5. Error estndar de la estimacin. Es el error estndar (se) para muestras grandes de la estimacin
del parmetro: se(a) = ~V( a ). 6. El estadstico Z asociado con la varianza estimada: Z=a /se(a). 7. Valor P del estadstico Z calculado. S. Nivel alfa usado para calcular el intervalo de confianza. 9. Lmites inferior y superior de un intervalo de confianza de la teora normal para muestras grandes de 100(1 - a) por ciento para los componentes de la varianza: L= a - Za/2se(a) U = a +Za/2se(a) 10. Matriz asinttica de la covarianza de las estimaciones. Es la matriz de la covarianza para muestras grandes de las estimaciones de los componentes de la varianza. 11. Medidas del ajuste del modelo para comparar el ajuste de modelos alternativos. Observe que los resultados de la rutina PROC MIXED de SAS coinciden muy de cerca con los valores presentados en el ejemplo 12-2 cuando el modelo reducido (sin el trmino de la interaccin) se ajust a los datos. En el ejemplo 12-3 se consider el mismo experimento, pero se supuso que los operadores eran un factor fijo, lo cual llev a un modelo mixto. La rutina PROC MIXED de SAS puede emplearse para estimar los componentes de la varianza para esta situacin. La estructura de la covarianza de las observaciones, suponiendo que todas las variables aleatorias son mutuamente independientes (es decir, el modelo mixto no restringido), es 2 COV(Yijk' Yi)'k') = a~ +a;p +a i = i', j = j', k = k' =a~+a;p i=i', j=j', k;t:k' (12-47) = a~ i ; i', j = j' =0 j;t:j' La matriz de la covarianza de los parmetros del modelo es
G = [a~I
a~I]
(12-48)
(Esto se especifica en el enunciado TYPE = SIM en la entrada de la rutina PROC MIXED.) En la tabla 12-18 se muestra la salida de la rutina PROC MIXED de SAS para la forma no restringida del modelo mixto del ejemplo 12-3. De nueva cuenta se seleccion el mtodo REML. La estimacin del componente de la varianza para el factor "pieza" es muy similar a la estimacin que se obtuvo utilizando el modelo aleatorio. La estimacin de la varianza del error residual tambin es similar. Adems, la salida incluye una prueba F para el efecto fijo.
12~8
PROBLEMAS
12-1. Una fbrica textil tiene un gran nmero de telares. Se supone que cada telar produce la misma cantidad de tela por minuto. Para investigar este supuesto, se eligen cinco telares al azar y se registra su produccin en tiempos diferentes. Se obtienen los siguientes datos: Telar 1 2 3 4 5 14.0 Produccin (lb/min) 14.2 14.1
13.9
14.1
13.8
14.2
13.9
14.1 14.0
14.1 14.0
13.6 13.8
13.8 13.6
13.9
13.9 13.8
13.9 13.7
14.0
12-8 PROBLEMAS
553
a) Explicar por qu este experimento es de efectos aleatorios. Todos los telares tienen la misma produccin? Utilizar a = 0.05. b) Estimar la variabilidad entre los telares. e) Estimar, la varianza del error experimental. d) Encontrar un intervalo de confianza de 95% para a; / (a; + a2 } e) Analizar los residuales de este experimento. Considera el lector que se satisfacen los supuestos del anlisis de varianza? 12-2. Un fabricante sospecha que los lotes de materia prima suministrados por su proveedor difieren de manera significativa en el contenido de calcio. Hay un gran nmero de lotes actualmente en el almacn. Se seleccionan cinco de ellos para hacer un estudio. Un qumico hace cinco determinaciones en cada lote y obtiene los siguientes datos:
Lote 1 23.46 23.48 23.56 23.39 23.40 Lote 2 23.59 23.46 23.42 23.49 23.50 Lote 3 23.51 23.64 23.46 23.52 23.49 Lote 4 23.28 23.40 23.37 23.46 23.39 Lote 5 23.29 23.46 23.37 23.32 23.38
a) Existe una variacin significativa en el contenido de calcio de un lote a otro? Utilizar a = 0.05. b) Estimar los componentes de la varianza. e) Encontrar un intervalo de confianza de 95 % para a; / (a; + a 2 } d) Analizar los residuales de este experimento. Se satisfacen los supuestos del anlisis de varianza? 12-3. En una fbrica metalrgica se usan varios hornos para calentar ejemplares de metal. Se supone que todos los hornos operan a la misma temperatura, aunque se sospecha que quiz no sea ste el caso. Se seleccionan al azar tres hornos y se registran sus temperaturas en cargas sucesivas. Los datos recabados son los siguientes:
Horno 1 2 3 Thmperatura 498.10 493.50 479.90 477.35 488.25 473.00
a) Existe una variacin significativa de la temperatura entre los hornos? Utilizar a = 0.05. b) Estimar los componentes de la varianza de este modelo. e) Analizar los residuales de este experimento y sacar conclusiones acerca de la adecuacin del modelo. 12-4. En un artculo de Joumal ofthe Electrochemical Society (vol. 139, no. 2, pp. 524-532) se describe un experimento para investigar la deposicin de vapor a baja presin del polisilicio. El experimento se llev a cabo en el reactor de alta capacidad de Sematech en Austin, Texas. El reactor tiene varias posiciones para las obleas, y se seleccionan al azar cuatro de estas posiciones. La variable de respuesta es la uniformidad del espesor de la pelcula. Se hicieron tres rplicas del experimento y se obtuvieron los siguientes datos:
554
CAPTULO 12
e) Estimar el componente del error aleatorio. d) Analizar los residuales de este experimento y comentar la adecuacin del modelo. 12-5. Considere el experimento de la deposicin de vapor del problema 12-4. a) Estimar la variabilidad total de la respuesta uniformidad. b) Qu parte de la variabilidad total de la respuesta uniformidad se debe a la diferencia entre las posiciones en el reactor? e) Hasta qu nivel podra reducirse la variabilidad de la respuesta uniformidad si pudiera eliminarse la variabilidad entre una posicin y otra en el reactor? Considera el lector que sta es una reduccin significativa? 12-6. En un artculo de Joumal ofQuality Technology (vol. 13, no. 2, pp. 111-114) se describe un experimento para investigar los efectos de cuatro sustancias qumicas blanqueadoras sobre la brillantez de la pulpa. Estas cuatro sustancias qumicas se seleccionaron al azar de una poblacin grande de agentes blanqueadores potenciales. Los datos son los siguientes: Sustancia qumica 1 2 3
4
Brillantez de la pulpa 74.466 92.746 76.208 79.306 81.914 80.346 78.017 91.596 80.802 78.358 77.544 77.364
a) Existe alguna diferencia en los tipos de sustancias qumicas? Utilizar a = 0.05. b) Estimar la variabilidad debida al tipo de sustancias qumicas. e) Estimar la variabilidad debida al error aleatorio. d) Analizar los residuales de este experimento y comentar la adecuacin del modelo. 12-7. Considere el modelo de efectos aleatorios, balanceado, en una variable. Desarrollar un procedimiento para encontrar un intervalo de confianza de 100(1 - a) por ciento para a2/(a; + a2 ). 12-8. Referirse al problema 12-1. a) Cul es la probabilidad de aceptar Ha si a; es 4 veces la varianza del error a2 ? b) Si la diferencia entre los telares es lo suficientemente grande para incrementar la desviacin estndar de una observacin en 20%, quiere detectarse esto con una probabilidad de al menos 0.80. Qu tamao de la muestra deber usarse? 12-9. Se llev a cabo un experimento para investigar la capacidad o aptitud de un sistema de medicin. Se seleccionaron diez piezas al azar, y dos operadores escogidos aleatoriamente midieron tres veces cada pieza. Las pruebas se hicieron en orden aleatorio y se obtuvieron los siguientes datos:
Mediciones del operador 1 2 49 52 50 51 49 50 51 50 51 46 Mediciones del operador 2 3 50 51 50 50 48 50 51 49 50 49 1 50 51 54 48 48 52 51 53 51 46 2 48 51 52 50 49 50 50 48 48 47 3 51 51 51 51 48 50 50 50 49 48
Nmero de pieza 1 2 3 4 5 6 7 8 9 10
1 50 52 53 49 48 52 51 52 50 47
fI
12-8 PROBLEMAS
555
12-10.
12-11.
12-12.
12-13. 12-14.
12-15.
12-16.
12-20.
12-21. 12-22.
a) Analizar los datos de este experimento. b) Encontrar estimaciones puntuales de los componentes de la varianza utilizando el mtodo del anlisis de varianza. Considere nuevamente los datos del problema 5-6. Suponga que ambos factores, las mquinas y los operadores, se eligen al azar. a) Analizar los datos de este experimento. b) Encontrar estimaciones puntuales de los componentes de la varianza utilizando el mtodo del anlisis de varianza. Considere nuevamente los datos del problema 5-13. Suponga que ambos factores son aleatorios. a) Analizar los datos de este experimento. b) Estimar los componentes de la varianza. Suponga que en el problema 5-11 las posiciones en el horno se seleccionaron aleatoriamente, dando como resultado un experimento con un modelo mixto. Analizar de nuevo los datos de este experimento bajo este nuevo supuesto. Estimar los componentes apropiados del modelo. Analizar de nuevo el experimento de los sistemas de medicin del problema 12-9, suponiendo que los operadores son un factor fijo. Estimar los componentes apropiados del modelo. En el problema 5-6, suponga que slo hay cuatro mquinas de inters, pero los operadores se seleccionaron aleatoriamente. a) Qu tipo de modelo es apropiado? b) Efectuar el anlisis y estimar los componentes del modelo. Mediante la aplicacin del operador valor esperado, desarrollar los cuadrados medios esperados del modelo factorial mixto con dos factores. Usar los supuestos del modelo restringido. Verificar los resultados con los cuadrados medios esperados de la tabla 12-11 para constatar que concuerdan. Considere el diseo factorial de tres factores del ejemplo 12-6. Proponer los estadsticos de prueba apropiados para todos los efectos principales y las interacciones. Repetir para el caso en: que A y B son fijos y e es aleatorio. Considere el experimento del ejemplo 12-7. Analizar los datos para el caso en queA, B y e son aleatorios. Deducir los cuadrados medios esperados de la tabla 12-14. Considere un experimento factorial de cuatro factores donde el factor A tiene a niveles, el factor B tiene b niveles, el factor e tiene e niveles, el factor D tiene d niveles y hay n rplicas. Anotar las sumas de cuadrados, los grados de libertad y los cuadrados medios esperados para los siguientes casos. Suponer el modelo restringido para todos los modelos mixtos. Puede usarse un paquete de computadora como Minitab. a) A, B, e y D son factores fijos. b) A, B, e y D son factores aleatorios. e) A es fijo y B, e y D son aleatorios. d) A y B son fijos y e y D son aleatorios. e) A, B Y e son fijos y D es aleatorio. Existen pruebas exactas para todos los efectos? Si no es as, proponer estadsticos de prueba para los efectos que no puedan probarse directamente. Considere nuevamente los incisos e, d y e del problema 12-19. Obtener los cuadrados medios esperados suponiendo un modelo no restringido. Puede usarse un paquete de computadora como Minitab. Comparar los resultados obtenidos con los del modelo restringido. En el problema 5-17, suponga que los tres operadores se seleccionaron al azar. Analizar los datos bajo estas condiciones y sacar conclusiones. Estimar los componentes de la varianza. Considere el modelo factorial de tres factores
i. :. 1, 2, J -1, 2, { k= 1,2,
,a ,b ,e
Suponiendo que los tres factores son aleatorios, desarrollar la tabla del anlisis de varianza, incluyendo los cuadrados medios esperados. Proponer los estadsticos de prueba apropiados para todos los efectos..
556
CAPTULO 12
Yijk
12-24.
12-28.
12-29. 12-30.
12-31.
12-32.
12-33. 12-34.
Si todos los factores son aleatorios, puede probarse alguno de los efectos? Si las interacciones de tres facto. res y (r:f3h no existen, es posible probar todos los dems efectos? En el problema 5-6, suponga que tanto las mquinas como los operadores se escogieron al azar. Determinar la potencia de la prueba para detectar un efecto de la mquina tal que a~ = aZ, donde a~ es el componente de la varianza del factor mquina. Son suficientes dos rplicas? En el anlisis de varianza del modelo mixto de dos factores, demostrar que Cov[(r:f3)jj, (r"f3)j]l = -(l/a) a;p para i ;.: i'. Demostrar que el mtodo del anlisis de varianza siempre produce estimaciones puntuales insesgadas de los componentes de la varianza en cualquier modelo aleatorio o mixto. Invocando los supuestos de normalidad usuales, encontrar una expresin para la probabilidad de obtener una estimacin negativa de un componente de la varianza por el mtodo del anlisis de varianza. Utilizando este resultado, escribir un enunciado para la probabilidad de que < Oen un anlisis de varianza de un factor. Comentar la utilidad de este enunciado de probabilidad. Analizar los datos del problema 12-9, suponiendo que los operadores son fijos y utilizando tanto la forma no restringida como la restringida de los modelos mixtos. Comparar los resultados que se obtienen con los dos modelos. Considere el modelo mixto de dos factores. Demostrar que el error estndar de la media del factor fijo (por ejemplo, A) es [MSAB/bn]1/2. Considere los componentes de la varianza del modelo aleatorio del problema 12-9. a) Encontrar un intervalo de confianza exacto del 95% para aZ. b) Encontrar intervalos de confianza aproximados del 95 % para los otros componentes de la varianza utilizando el mtodo de Satterthwaite. Usar el experimento descrito en el problema 5-6 y suponer que ambos factores son aleatorios. Encontrar un intervalo de confianza exacto del 95% para aZ. Construir intervalos de confianza aproximados del 95% para los otros componentes de la varianza utilizando el mtodo de Satterlhwaite. Considere el experimento de tres factores del problema 5-17 y suponga que los operadores se seleccionaron al azar. Encontrar un intervalo de confianza aproximado del 95 % para el componente de la varianza del operador. Resolver de nuevo el problema 12-30 utilizando el mtodo de grandes muestras modificado que se describe en la seccin 12-7.2. Comparar las dos series de intervalos de confianza obtenidas y comentarlas. Resolver de nuevo el problema 12-32 utilizando el mtodo de grandes muestras modificado que se describe en la seccin 12-7.2. Comparar este intervalo de confianza con el que se obtuvo anteriormente y comentarlo.
&;
En este captulo se introducen dos importantes tipos de diseos experimentales: el diseo anidado y el diseo de parcelas subdivididas. Estos dos diseos encuentran una aplicacin razonablemente generalizada en el uso industrial de los experimentos diseados. Con frecuencia incluyen tambin uno o ms factores aleatorios, por lo que algunos de los conceptos introducidos en el captulo 12 tendrn cabida aqu.
13..1
En algunos experimentos con factores mltiples, los niveles de uno de los factores (por ejemplo el factor B) son similares pero no idnticos a los diferentes niveles de otro factor (por ejemplo A). A un arreglo como ste se le llama diseo anidado o jerrquico, con los niveles del factor B anidados bajo los niveles del factorA. Por ejemplo, considere una compaa que compra su materia prima a tres proveedores diferentes. La compaa quiere determinar si la pureza de la materia prima de cada proveedor es la misma. Hay cuatro lotes de materia prima disponibles de cada proveedor, y se harn tres determinaciones de la pureza en cada lote. La situacin se describe en la figura 13-1. Se trata de un diseo anidado de dos etapas, con los lotes anidados bajo los proveedores. A primera vista se podra preguntar por qu no es un experimento factorial. Si fuera un experimento factorial, entonces el lote 1 se referira siempre al mismo lote, el lote 2 se referira siempre al mismo lote, etctera. Evidentemente, no es ste el caso, ya que los lotes de cada proveedor son nicos para ese proveedor particular. Es decir, el lote 1 del proveedor 1 no tiene relacin con el lote 1 de cualquier otro proveedor, el lote 2 del proveedor 1 no tiene relacin con el lote 2 de cualquier otro proveedor, etctera. Para subrayar el hecho de que los lotes de cada proveedor son diferentes, se pueden numerar como 1, 2, 3 y 4 para el proveedor 1; 5, 6, 7 Y8 para el proveedor 2; y 9,10,11 Y12 para el proveedor 3, como se muestra en la figura 13-2. En ocasiones quiz no se sepa si un factor est cruzado en un arreglo factorial o anidado. Si los niveles del factor pueden numerarse arbitrariamente como en la figura 13-2, entonces el factor est anidado.
557
558
CAPTULO 13
Proveedores Lotes
Observaciones
{Y'"
Y121
Yl3l
Y132
Y141
Y 211
~ ~
Y221 Y231 Y241 Y311 Y321 Y331 Y341 Y222 Y232 Y242 Y312 Y322 Y332 Y342 Y223 Y 233 Y243 Y313 Y323 Y333 Y343
y 112
Y122
Y142
Y 212 Y 213
Y 113
Y123
Y133
Y143
13~ 1.1
Anlisis estadstico
El modelo estadstico lineal para el diseo anidado de dos etapas es i = 1, 2, , a Yijk=t+'i;+{3j(i)+S(ij)k j=l, 2, , b . {k = 1, 2, , n
(13-1)
Es decir, haya niveles del factor A, b niveles del factor B anidados bajo cada nivel deA, y n rplicas. El subndicej(i) indica que el nivelj-simo del factor B est anidado bajo el nivel i-simo del factorA. Resulta conveniente considerar que las rplicas estn anidadas dentro de la combinacin de los nivelesdeA y B; por lo tanto, se usa el subndice (ij)k para el trmino del error. Se trata de un diseo anidado balanceado, ya que hay el mismo nmero de niveles de B con cada nivel deA y el mismo nmero de rplicas. Puesto que no todos los niveles del factor B aparecen dentro de todos los niveles del factor A, no puede haber interaccin entre A y B. La suma de cuadrados total corregida puede escribirse como
2:2:2: (Yijk - y... )2 = 2:2:2: [(Yi.. - Y... )+(Yij, - y;.. )+(Yijk - Yij, )]2 j=1 k=1 j=1 k=1
i=1 ;=1
(13-2)
2:2:2: (Yijk - y'.. )2 = bn 2: (Yi.. - Y... )2 + n 2:2: (Yij, - Yi.. )2 + 2:2:2: (Yijk - Yij,)2 j=1 k=1 j=1 j=1 k=1
i=1 ;=1 i=1 i=1
abn
ah
abn
(13-3)
ya que los tres trminos con productos cruzados son cero. La ecuacin 13-3 indica que puede hacerse la particin de la suma de cuadrados total en una suma de cuadrados debida al factor A, una suma de cuadrados debida al factor B bajo los niveles deA, y una suma de cuadrados debida al error. Simblicamente, la ecuacin 13-3 puede escribirse como
SST
= SS A + SSB(A) + SSE
(13-4)
Hay abn -1 grados de libertad para SSr. a -1 grados de libertad para SSA' a(b -1) grados de libertad para SSB(A) y aben -1) grados de libertad para el error. Observe que abn -1 = (a -1) + a(b -1) + aben -1). Si los errores son NID(O, ci), cada una de las sumas de cuadrados del miembro derecho de la ecuacin 13-4
Proveedores Lotes
559
A fijo B fijo
A fijo B aleatorio
A aleatorio B aleatorio
puede dividirse por sus grados de libertad para obtener cuadrados medios con una distribucin independiente tales que el cociente de dos cuadrados medios cualesquiera se distribuye como F. Los estadsticos apropiados para probar los efectos de los factores A y B dependen de siA y B son fijos o aleatorios. Si los factoresAy B son fijos, se supone que ~;=1 Ti = Oy ~~=1 f3j(1) = O(i = 1,2, ..., a). Es decir, la suma de los efectos del tratamiento A es cero, y la suma de los efectos del tratamiento B es cero dentro de cada nivel deA. De manera alternativa, siA y B son aleatorios, se supone que T es NID(O, a;) y que f3j(i) es NID(O, a~). Tambin es frecuente encontrar modelos mixtos conA fijo y B aleatorio. Los cuadrados medios esperados pueden determinarse aplicando directamente las reglas del captulo 12. Para el modelo mixto, estos cuadrados medios esperados suponen la forma restringida del modelo del captulo 12. En la tabla 13-1 se muestran los cuadrados medios esperados para estas situaciones. La tabla 13-1 indica que si los niveles deAy B son fijos, Ho:T; = Ose prueba con MSA/MS E y H o:f3j(;) = O se prueba con MSB(A/MSE Si A es un factor fijo y B es aleatorio, entonces Ho:T = O se prueba con MSA/MSB(A) y Ho:a~ = Ose prueba con MSB(A/MSE Por ltimo, si tantoA comoB son factores aleatorios, Ho:a; = Ose prueba con MSA/MSB(A) y Ho:a~ = Ocon MSB(A/MSE El procedimiento de prueba se resume en la tabla del anlisis de varianza, como se muestra en la tabla 13-2. Las frmulas para calcular las sumas de cuadrados se obtienen desarrollando las cantidades de la ecuacin 13-3 y simplificando. stas son
SS
bn
1=1
b
SSE
;=1 j=l
2
SST
11
Tabla 13-2 Tabla del anlisis de varianza para el diseo anidado de dos etapas
Fuente de variacin
Suma de cuadrados
Grados de libertad
Cuadrado medio
A B dentro deA
Error Total
bn
e Y;" -Y... f
,
560
CAPTULO 13 DISEOS ANIDADOS Y DE PARCELAS SUBDMDIDAS
SSB(A)
,i
SSB(A)
2: [1 -;; 2: Y~. a b
1=1 J=l
l] ;~
Esto expresa la idea de que SSB(A) es la suma de cuadrados entre los niveles de B para cada nivel deA, sumados en todos los niveles de A.
EJEMPLO
13~1
Considere una compaa que compra materia prima en lotes de tres proveedores diferentes. La pureza de esta materia prima vara considerablemente, lo cual ocasiona problemas en la manufactura del producto terminado. Quiere determinarse si la variabilidad de la pureza es atribuible a las diferencias entre los proveedores. Se seleccionan al azar cuatro lotes de materia prima de cada proveedor, y se hacen tres determinaciones de la pureza en cada lote. Se trata, desde luego, de un diseo anidado de dos etapas. Los datos, despus de codificarlos restando 93, se muestran en la tabla 13-3. Las sumas de cuadrados se calculan de la siguiente manera:
SST
= 2:2:2:
i=l j=l k=l
Yijk -
Y.. abn
= 153.00- (13)2 = 148.31 36 1 a 2 SS =_ ~ y2_~ A bn~ ,.. abn 1=1 = _1_[(_5)2 +(4)2 +(14)2]- (13)2 (4)(3) 36 = 19.75-4.69= 15.06
SS
B(A)
1~~ =_
1=1 J=l
n LJ LJ
2 __ Yij.
1 a ~ bn LJ
1=1
2 Yi..
3 = 89.67-19.75= 69.92
y
SSE
= 2:2:2:
i=l j=l k=l
abn?
1ab
Yijk - -
2:2: Y~.
=
Tabla 13-3
Datos codificados de la pureza del ejemplo 13-1 (Codificacin: Y;jk Proveedor 1 Lotes
Proveedor 2
1 1 -1 O O
Yij.
2 -2 -3 --4 -9
3 -2 O 1 -1
4 1 4 O 5
1 1 -2 -3
2 O 4 2
6
3 -1 O -2 -3
4
1 2 4 O
6
O 3 2
2 -2 O 2
--4
O
14
3 1 -1 2 2
3 2 1
6
Yi..
-5
561
Tabla 13-4
Suma de cuadrados
15.06 69.92 63.33 148.31
Grados de libertad 2
9 24 35
Cuadrado medio
7.53 7.77 2.64
a + 3a~ + a2 , + 3a~ a2
6 .-
Fo
0.97 2.94
Valor P
0.42 0.02
En la tabla 13-4 se resume el anlisis de varianza. Los proveedores son fijos y los lotes aleatorios, por lo que los cuadrados medios esperados se obtienen de la columna de en medio de la tabla 13-1 y se repiten por conveniencia en la tabla 13-4. Por el examen de los valores P, se concluira que no hay ningn efecto significativo sobre la pureza debido a los proveedores, pero la pureza de los lotes de materia prima del mismo proveedor difieren significativamente.
Las implicaciones prcticas de este experimento y del anlisis son muy importantes. El objetivo del experimentador es encontrar la fuente de la variabilidad en la pureza de la materia prima. Si sta es resultado de las diferencias entre los proveedores, el problema puede resolverse seleccionando al "mejor" proveedor. Sin embargo, esa solucin no es aplicable aqu porque la principal fuente de variabilidad es la variacin de la pureza de un lote a otro dentro de los proveedores. Por lo tanto, el problema debe atacarse trabajando con los proveedores para reducir su variabilidad de un lote a otro. Esto puede implicar modificaciones en los procesos de produccin de los proveedores o en su sistema interno de control de calidad. Observe lo que habra pasado si se hubiera hecho un anlisis incorrecto de este diseo como un experimento factorial de dos factores. Si se considera que los lotes estn cruzados con los proveedores, se obtienen los totales de los lotes de 2, -3, -2 y 16, donde cada celda lote x proveedores contiene tres rplicas. Por lo tanto, puede calcularse una suma de cuadrados debida a los lotes y una suma de cuadrados de interaccin. El anlisis de varianza factorial completo se muestra en la tabla 13-5, suponiendo un modelo mixto. Este anlisis indica que los lotes difieren significativamente y que hay una interaccin significativa entre los lotes y los proveedores. Sin embargo, es difcil ofrecer una interpretacin prctica de la interaccin lotes x proveedores. Por ejemplo, esta interaccin significativa quiere decir que el efecto del proveedor no es constante de un lote a otro? Adems, la interaccin significativa aunada al efecto no significativo del proveedor podra llevar al analista a concluir que los proveedores en realidad difieren, pero su efecto est enmascarado por la interaccin significativa.
Tabla 13-5
Anlisis de varianza incorrecto del diseo anidado de dos etapas del ejemplo 13-1 como un diseo factorial (proveedores fijos, lotes aleatorios)
Suma de cuadrados
15.06 25.64 44.28 63.33 148.31
Grados de libertad
2 3 6 24 35
Cuadrado medio
7.53 8.55 7.38 2.64 1.02 3.24 2.80
Valor P
0.42 0.04 0.03
562
Clculos
CAPTULO 13
Algunos paquetes de software de estadstica realizarn el anlisis de un diseo anidado. En la tabla 13-6 se presenta la salida del procedimiento Balanced ANOVA (anlisis de varianza balanceado) de Minitab (utilizando el modelo restringido). Los resultados numricos concuerdan con los clculos manuales reportados en la tabla 13-4. Minitab tambin reporta los cuadrados medios esperados en la parte inferior de la tabla 13-6. Recuerde que el smbolo Q[1] es un trmino cuadrtico que representa el efecto fijo de los proveedores, por lo que en la notacin que se usa aqu,
Q[1]=~
~;
a-1
Por lo tanto, el trmino del efecto fijo en el cuadrado medio esperado de Minitab para los proveedores 12Q[1] = 12L;=l (3-1) = 6L;=1 resultado que concuerda con el que se presenta en el algoritmo tabular de la tabla 13-4. En ocasiones no se cuenta con un programa de computadora especializado para analizar diseos anidados. Sin embargo, observe, al comparar las tablas 13-4 y 13-5, que
T; /
T;,
Es decir, la suma de cuadrados de los lotes dentro de los proveedores se compone de la suma de cuadrados de los lotes ms la suma de cuadrados de la interaccin lofes x proveedores. Los grados de libertad poseen una propiedad similar; es decir,
--+-------3 6
Lotes
Lotes x Proveedores
Por lo tanto, un programa de computadora para analizar diseos factoriales podra usarse tambin para analizar diseos anidados agrupando el "efecto principal" del factor anidado y las interacciones de ese factor con el factor bajo el que est anidado.
Tabla 13-6
Salida de Minitab (Balanced ANOVA) [anlisis de varianza balanceado] para el ejemplo 13-1
Factor Type Levels Values Supplier fixed 3 1 Batch(Supplier) random 4 1 Analysis of Variance for Purity Source Supplier Batch(Supplier) Error Total Source'
2 2
3 3
DF
2 9
24 35
0.97 2.94
0.416 0.017
Variance Error Expected Mean Square for Each Term component term (using restricted model) (3) + 3(2) + 12Q[1J 1 Supplier 2 (3) + 3(2) 2 Batch(Supplier) 1. 71 O 3 (3) 3 Error 2.639
563
13~1.2
La herramienta principal para verificar el diagnstico es el anlisis residual. Para el diseo anidado de dos etapas, los residuales son
El valor ajustado es
Yijk
y si se establecen las restricciones usuales sobre los parmetros del modelo (2: i f i
2, oo., a), entonces jl = Y... , f i
= Oy 2: j 13 j(i) = O, i = 1,
= Yi.. A
= Yij. -
+(_
Yi.. - Y..
_ )+(_
_)
= Yij.
Por lo tanto, los residuales del diseo anidado de dos etapas son (13-9) donde Yij. son los promedios de los lotes individuales. Las observaciones, los valores ajustados y los residuales para los datos de la pureza del ejemplo 13-1 son:
-1
O
-2 -3
-4
-2
O 1 1 4 O 1
-2 -3
O 4 2 -1 O
-2
O 3 2 2
Valor ajustado Yijk = Yij. 0.00 0.00 0.00 -3.00 -3.00 -3.00 -0.33 -0.33 -0.33 1.67 1.67 1.67 -1.33 -1.33 -1.33 2.00 2.00 2.00 -1.00 -1.00 -1.00 1.67 1.67 1.67 2.00
1.00 -1.00 0.00 1.00 0.00 -1.00 -1.67 0.33 1.33 -0.67 2.33 -1.67 2.33 -0.67 -1.67 -2.00 2.00 0.00 0.00 1.00 -1.00 -1.67 1.33 0.33 0.00
564
CAPTULO 13
4 O
-2
O
2 1 -1 2 3 2 1
Valor ajustado Yijk = 2.00 2.00 0.00 0.00 0.00 0.67 0.67 0.67 2.00 2.00 2.00
Yij.
2.00 -2.00 -2.00 0.00 2.00 0.33 -1.67 1.33 1.00 0.00 -1.00
Pueden realizarse ahora las verificaciones de diagnstico usuales; incluyendo las grficas de probabilidad normal, la verificacin de puntos atpicos y la graficacin de los residuales contra los valores ajustados. Como una ilustracin, en la figura 13-3 se grafican los residuales contra los valores ajustados y contra los niveles del factor proveedor.
3
o o o o o o o o o o o o
2
..!!! 1 ro
:::l
'"
.;
"O
o o o o o
-1
o o
-2
-3
-2
-1
Valores predichos
al
32-
,
o
I
o o
o o o
ro :::l
"O
j1-
o o o
.~ c::
O
o
-11-
o o
-21-
I 1
,
2
Proveedor
Figura 13-3
i]
565
En la situacin de un problema como el que se describe en el ejemplo 13-1, las grficas de los residuales son particularmente tiles debido a la informacin de diagnstico adicional que contienen. Por ejemplo, el anlisis de varianza ha indicado que la pureza media de los tres proveedores no difiere pero que hay una variabilidad estadsticamente significativa de un lote a otro (es decir, a~ > O). Pero, lla variabilidad dentro de los lotes es la misma para todos los proveedores? Se ha supuesto de hecho que ste es el caso, y si no es cierto desde luego que nos gustara saberlo, ya que tiene un impacto prctico considerable sobre la interpretacin de los resultados del experimento. La grfica de los residuales contra los proveedores de la figura 13-3b es una manera simple pero eficaz de verificar este supuesto. Puesto que la dispersin de los residuales es aproximadamente la misma para los tres proveedores, se concluira que la variabilidad en la pureza de un lote a otro es aproximadamente la misma para los tres proveedores.
13~ 1.3
Componentes de la varianza
Para el caso de efectos aleatorios, el mtodo del anlisis de varianza puede usarse para estimar los componentes de la varianza a~ ya;. Por los cuadrados medios esperados de la ltima columna de la tabla 13-1, se obtiene
cr,
(13-10)
a
y
~2
f3
=--'---'---11
MSB(A) -MS E
(13-11)
~? MS A -MSB(A) a-=----------'------'
"
bl1
(13-12)
En muchas aplicaciones de diseos anidados interviene un modelo mixto, con el efecto principal (A) fijo y el factor anidado (B) aleatorio. ste es el caso para el problema descrito en el ejemplo 13-1; los proveedores (factorA) son fijos, y los lotes de materia prima (factor B) son aleatorios. Los efectos de los proveedores pueden estimarse con
= h. _
_
Y...
= 12 14
13 36 13 36
= 36 = 36
29
-1
= h. - Y.. = 12 -
Para estimar los componentes de la varianza y a~, se elimina la lnea de la tabla del anlisis de varianza relativo a los proveedores y se aplica el mtodo de estimacin del anlisis de varianza a las dos lneas siguientes. Se obtiene as
cr
y
f2
= MSB(A)
- MS E
f3
11
566
Etapa 1
CAPTULO 13
Etapa 2
Etapa 3
Estos resultados se muestran tambin en la parte inferior de la salida de Minitab de la tabla 13-6. Por el anlisis del ejemplo 13-1, se sabe que T: no difiere significativamente de cero, mientras que el componl(nte de la varianza a~ es mayor que cero.
13~1.4
Un problema potencial en la aplicacin de los diseos anidados es que en ocasiones para obtener un nmero razonable de grados de libertad en el nivel ms alto, puede terminarse con muchos grados de libertad (quiz demasiados) en las etapas inferiores. Para ilustrar, suponga que se estn investigando las diferencias potenciales en el anlisis qumico entre diferentes lotes de material. Se planea tomar cinco muestras por lote, y cada muestra se medir dos veces. Si quiere estimarse un componente de la varianza para los lotes, entonces 10 lotes no sera una eleccin irrazonable. Esto resulta en 9 grados de libertad para los lotes, 40 grados de libertad para las muestras y 50 grados de libertad para las mediciones. Una manera de evitar esta situacin es usar un tipo particular de diseo anidado no balanceado llamado diseo anidado por etapas. En la figura 13-4 se muestra un ejemplo de un diseo anidado escalonado. Observe que slo se toman dos muestras de cada lote; una de ellas se mide dos veces, mientras que la otra una sola vez. Si haya lotes, entonces habr a -1 grados de libertad para los lotes (o, en general, la etapa superior), y todas las etapas inferiores tendrn exactamente a grados de libertad. Para ms informacin sobre el uso y el anlisis de estos diseos, ver Bainbridge [5], Smith y Beverly [104] y Nelson [88a, b, c], as como el material suplementario del texto de este captulo.
13~2
ETAPAS
Los resultados de la seccin 13-1 pueden extenderse fcilmente al caso de m factores completamente anidados. A este diseo se le llamara diseo anidado de m etapas. Como un ejemplo, suponga que una fundicin quiere investigar la dureza de dos formulaciones diferentes de una aleacin de metal. Se preparan tres hornadas de cada formulacin de la aleacin, se seleccionan dos lingotes al azar de cada hornada para probarlos, y se hacen dos mediciones de la dureza en cada lingote. La situacin se ilustra en la figura 13-5. En este experimento, las hornadas estn anidadas bajo los niveles del factor formulacin de la aleacin, y los lingotes estn anidados bajo los niveles del factor hornada. Por lo tanto, se trata de un diseo anidado de tres etapas con dos rplicas.
567
Hornadas
Lingotes
Observaciones
e""
Y1121
Y1211
Y'221
Y 1311
Y1321
Y1112
Y1122
Y1212
Y'222
Y 1312
Y'322
El modelo para el diseo anidado general de tres etapas es i=1' 2, j= 1,2, k { = 1,2, 1= 1,2,
000'
000'
o .. ,
b e
11
(13-13)
000'
Para el ejemplo tratado aqu, T:i es el efecto de la formulacin de la aleacin i-sima, f3j (i) es el efecto de la hornadaj-sima dentro de la aleacin i-sima, Yk(ij) es el efecto del lingote k-simo dentro de la hornada
Dureza media
Dureza observada
Figura 13-6 Fuentes de variacin en el ejemplo del diseo anidado de tres etapas.
TI
II
568
CAPTULO 13
Tabla 13-7 Anlisis de varianza del diseo anidado de tres etapas Fuente de variacin Suma de cuadrados Grados de Cuadrado libertad medio
A B (dentro deA)
en
e (dentro de B)
Error Total
n2:2:2:
(Yijk.
-y.. j
k (Yijk/ -Yijk.f
2:2:2:2:
i
j
2:2:2:2:
(Yljkl
-y.. j
j-sima y la aleacin i-sima, y E(ijk)/ es el trmino del error NID(O, 02) usual. La extensin de este modelo a In factores es directa. Observe que en el ejemplo anterior la variabilidad global de la dureza const de tres componentes: uno que result de las formulaciones de las aleaciones, otro que se gener de las hornadas y uno ms que sali del error de la prueba analtica. Estos componentes de la variabilidad en la dureza global se ilustran en la figura 13-6. Este ejemplo demuestra la manera en que se usa frecuentemente el diseo anidado en el anlisis de procesos para identificar las principales fuentes de variabilidad en la salida. Por ejemplo, si el componente de la varianza de la formulacin de la aleacin es grande, entonces esto implica que la variabilidad global de la dureza podra reducirse utilizando nicamente una de las formulaciones de la aleacin. El clculo de las sumas de cuadrados y el anlisis de varianza del diseo anidado de In etapas son similares al anlisis presentado en la seccin 13-1. Por ejemplo, el anlisis de varianza del diseo anidado de tres etapas se resume en la tabla 13-7. En esta tabla se muestran tambin las definiciones de las sumas de cuadrados. Observe que son una extensin simple de las frmulas para el diseo anidado de dos etapas. Muchos paquetes de software de estadstica realizarn los clculos. Para determinar los estadsticos de prueba apropiados deben encontrarse los cuadrados medios esperados empleando los mtodos del captulo 12. Por ejemplo, si los factores A y B son fijos y el factor e es aleatorio, entonces los cuadrados medios esperados pueden derivarse como se indica en la tabla 13-8. En esta tabla se indican los estadsticos de prueba apropiados para esta situacin.
Tabla U-S Derivacin de los cuadrados medios esperados para un diseo anidado de tres etapas con A y B fijos y e aleatorio
F F
R
e k e e
a
Factor
T
b
j
R n l n n n 1
O
1 1 1
a-+na-+
y
ben Ti a-1
2:
f3 j(l)
Yk(ij) c/U;k)
O
1 1
2+
nay
2+ en
1 1
2 a 2 + naY a?
569
13~3
En experimentos con factores mltiples, algunos factores pueden estar incluidos en un arreglo factorial y otros estar anidados. En ocasiones a estos diseos se les llama diseos factoriales-anidados. El anlisis estadstico de un diseo as con tres factores se ilustra en el ejemplo siguiente.
EJEMPLO
13~2
Un ingeniero industrial estudia la insercin manual de componentes electrnicos en tarjetas de circuitos impresos a fin de mejorar la rapidez de la operacin de ensamblaje. Ha diseado tres dispositivos de ensamblaje y dos arreglos del sitio de trabajo que parecen prometedores. Se necesitan operadores para realizar el ensamblaje, y se decide seleccionar aleatoriamente cuatro operadores para cada combinacin dispositivo-arreglo del sitio de trabajo. Sin embargo, debido a que los sitios de trabajo se encuentran en diferentes puntos dentro de la planta, es difcil usar los mismos cuatro operadores para cada arreglo del sitio de trabajo. Por lo tanto, los cuatro operadores escogidos para el arreglo 1 son diferentes de los cuatro para el arreglo 2. Puesto que slo hay tres dispositivos y dos arreglos del sitio de trabajo, y los operadores se escogen al azar, se trata de un modelo mixto. Las combinaciones de tratamientos de este diseo se corren en orden aleatorio y se obtienen dos rplicas. Los tiempos de ensamblaje se miden en segundos y se muestran en la tabla 13-9. En este experimento, los operadores estn anidados dentro de los niveles de los arreglos del sitio de trabajo, mientras que los dispositivos y los arreglos del sitio de trabajo estn incluidos en un factorial. Por lo tanto, este diseo tiene factores anidados y factoriales. El modelo lineal para este diseo es i=1,2,3 j= 1,2 (13-14) k=1,2,3,4 1= 1,2 donde r es el efecto del dispositivo i-simo, f3j es el efecto del arreglo del sitio de trabajo j-simo, YkU) es el efecto del operador k-simo dentro del nivelj-simo del arreglo del sitio de trabajo, (rf3)ij es la interaccin dispositivo x arreglo del sitio de trabajo, (rY)kU) es la interaccin dispositivo x operadores dentro del arreglo del sitio de trabajo, y (ijk)[es el trmino del error usual. Observe que no puede existir ninguna interaccin arreglo del sitio de trabajo x operador porque no todos los operadores usan todos los arreglos del sitio de trabajo. Asimismo, tampoco puede haber ninguna interaccin dispositivo x arreglo del sitio de trabajo x operador. En la tabla 13-10 se derivan los cuadrados medios esperados utilizando el algoritmo tabular del captulo 12. Esto produce el anlisis de un modelo mixto restringido. El estadstico de prueba apropiado para cualquier efecto o interaccin puede encontrarse inspeccionando esta tabla.
Datos del tiempo de ensamblaje del ejemplo 13-2 Arreglo 1 1 22 24 30 27 25 21 149 2 23 24 29 28 24 22 150 619 3 28 29 30 32 27 25 171 4 25 23 27 25 26 23 149 1 26 28 29 28 27 25 163 Arreglo 2 2 27 25 30 27 26 24 159 633 3 28 25 24 23 24 27 151 4 24 23 28 30 28 27 160 1252 == y....
Yi...
404 447 401
Dispositivos 1 Dispositivos 2 Dispositivos 3 Totales de los operadores, Y.jk. Totales de los arreglos, Y.j..
570
CAPTULO 13
Tabla 13-10 Derivacin del cuadrado medio esperado del ejemplo 13-2
F 3 F 2 j
R
4 k 4 4 1 4 1 1
R
2 1 2 2 2 2 2 1 Cuadrado medio esperado
2 a 2 + 2a'1' + 8 2
Factor
7:
f3j
YkU)
O 3
3
7: 1
(7:f3)ij
(ry )ikU)
c(ijk)
O O 1
O 1 O 1 1
(7:f3)~
En la tabla 13-11 se muestra el anlisis de varianza completo. Se observa que los dispositivos de ensamblaje son significativos y que los operadores dentro de los arreglos del sitio de trabajo tambin difieren significativamente. Est presente tambin una interaccin significativa entre los dispositivos y los operadores dentro de los arreglos del sitio de trabajo, indicando que los efectos de los diferentes dispositivos no son los mismos para todos los operadores. Los arreglos del sitio de trabajo parecen tener un efecto reducido sobre el tiempo de ensamblaje. Por lo tanto, para minimizar el tiempo de ensamblaje, la atencin debera centrarse en los dispositivos tipo 1 y 3. (Observe que los totales de los dispositivos de la tabla 13-9 son menores para los tipos 1 y 3 que para el tipo 2. Esta diferencia en las medias del tipo de dispositivo podra probarse formalmente utilizando comparaciones mltiples.) Adems, la interaccin entre los operadores y los dispositivos implica que algunos operadores son ms eficientes que otros al utilizar los mismos dispositivos. Quizs estos efectos operador-dispositivo podran aislarse y los operadores cuyo desempeo es menos eficiente podran mejorar impartindoles capacitacin adicional.
Clculos
Hay varios paquetes de software de estadstica que analizan con facilidad diseos factoriales-anidados, incluyendo Minitab y SAS. En la tabla 13-12 se presenta la salida de Minitab (Balanced ANOVA, anlisis de varianza balanceado), suponiendo la forma restringida del modelo mixto, para el ejemplo 13-2. Los cuadrados medios esperados de la parte inferior de la tabla 13-12 concuerdan con los que se derivaron con el mtodo tabular de la tabla 13-10. Q[l], Q[3] YQ[4] son los efectos del factor fijo para los arreglos del sitio de trabajo, los dispositivos, y la interaccin arreglo del sitio de trabajo x dispositivo, respectivamente. Las estimaciones de los componentes de la varianza son: Operador (arreglo): a~ = 1.609 Dispositivo x operador (arreglo): a~ = 1.576 Error: a 2 = 2.333
Tabla 13-11 Anlisis de varianza del ejemplo 13-2 Fuente de variacin Dispositivos (F) Arreglos (L) Operadores (dentro de los arreglos), O (L) Suma de cuadrados 82.80 4.08 71.91 19.04 65.84 56.00 299.67 Grados de libertad 2 1 6 2 12 24 47 Cuadrado medio 41.40 4.09 11.99 9.52 5.49 2.33
Fa
7.54 0.34 5.15 1.73 2.36
FL FO(L)
Error Total
_Y_HU
'P'"
-m"~'~ - ""',.
Mm
f '
E"'--'
----''""7''0
"'!I-$n-~'WMW!r:='te"'i'F\;;:r;;gg81;~,gr2;"j'i,,'~t~liiiiI
Tabla 13-12 Anlisis Balanced ANOVA de Minitab del ejemplo 13-2 utiliz_ando el modelo restringido Anlisis de varianza (diseos balanceados)
Type Levels Values Factor 1 2 fixed Layout 1 4 Operator(Layout) random 1 3 fixed Fixture Analysis of Variance for Time Source Layout Operator(Layout) Fixture Layout*Fixture Fixture*Operator(Layout) Error Total Source 1 2 3 4 5 6
DF
2 2 2
3 3
"'"
1 6 2 2 12 24 47
Variance Error Expected Mean Square for Each Term component term (using restricted model) 2 (6) + 6(2) + 24Q[1J Layout 6 (6) + 6(2) 1.609 Operator(Layout) 5 (6) + 2(5) + 16Q[3J Fixture 5 (6) + 2(5) + 8Q[4J Layout*Fixture 6 (6) + 2(5) 1.576 Fixture*Operator(Layout) (6) 2.333 Error
lJl
--.,J
1-'
U=;;
Ul -...l
ThWa U-13 Anlisis Balanced ANOVA de Minitab del ejemplo 13-2 utilizando el modelo no restringido Anlisis de varianza (diseos balanceados)
Type Levels Values Factor Layout fixed 2 1 Operator(Layout) random 4 1 Fixture fixed 3 1 Analysis of Variance for Time Source Layout Operator(Layout) Fixture Layout*Fixture Fixture*Operator(Layout) Error Total Source 1 2 3 4 S 6 DF 1 6 2 2 12 24 47 SS 4.083 71.917 82.792 19.042 65.833 56.000 299.667
2 2 2
3 3
Variance Error Expected Mean Square for Each Term component term (using unrestricted model) 2 (6) + 2(5) + 6(2) + Q[1,4J Layout S (6) + 2(S) + 6(2) Operator(Layout) 1.083 S (6) + 2(5) + Q[3,4J Fixture 5 (6) + 2(S) + Q[4J Layout*Fixture 6 (6) + 2(S) Fixture*Operator(Layout) 1. S76 (6) Error 2.333
573
En la tabla 13-13 se presenta el anlisis de Minitab del ejemplo 13-2 utilizando la forma no restringida del modelo mixto. Los cuadrados medios esperados de la parte inferior de esta tabla son ligeramente diferentes de los que se reportaron para el modelo restringido y, por lo tanto, la construccin de los estadsticos de prueba ser ligeramente diferente para el factor operadores (arreglo). Especficamente, el denominador del cociente F de los operadores (arreglo) es la interaccin dispositivos x operadores (arreglo) del modelo restringido (12 grados de libertad para el error), y es la interaccin arreglo x dispositivos en el modelo no restringido (2 grados de libertad para el error). Puesto que MSarreglo x dispositivos> MSdispositivos x operador (arreglo)' Ytiene menos grados de libertad, se encuentra ahora que el operador dentro del efecto del arreglo slo es significativo en el nivel aproximado de 12% (el valor Ptue 0.002 en el anlisis del modelo restringido). Adems, la estimacin del componente de la varianza a~ = 1.083 es menor. Sin embargo, puesto que est presente un efecto grande de los dispositivos y una interaccin dispositivos x operador (arreglo) significativa, seguira sospechndose que existe un efecto del operador y, por lo tanto, las conclusiones prcticas de este experimento no son afectadas mucho por elegir la forma restringida o la no restringida del modelo mixto. Las cantidades Q[l, 4] y Q[3, 4] son trminos cuadrticos del tipo fijo que contienen el efecto de interaccin arreglos x dispositivos. Si no se cuenta con un paquete de software especializado como SAS o Minitab, entonces puede usarse un programa para analizar experimentos factoriales con factores anidados y factoriales. As, el experimento del ejemplo 13-2 podra considerarse como un factorial de tres factores, con los dispositivos (F), los operadores (O) y los arreglos (L) como los factores. Entonces se agruparan ciertas sumas de cuadrados y ciertos grados de libertad para formar las cantidades apropiadas requeridas para el diseo con los factores anidados y factoriales de la siguiente manera:
Grados de libertad
2 1 2
3 3
6 6
2 1 2
+ SSw + SSFOL
12 24 47
24 47
13..4
En algunos experimentos factoriales con factores mltiples quiz no sea posible la aleatorizacin completa del orden de las corridas. Esto suele resultar en una generalizacin del diseo factorial llamada diseo de parcelas subdivididas. Como un ejemplo, considere un fabricante de papel que est interesado en tres mtodos diferentes para preparar la pulpa y cuatro temperaturas de coccin diferentes de la pulpa y que desea estudiar el efecto de estos dos factores sobre la resistencia a la tensin del papel. Cada rplica de un experimento factorial requiere 12 observaciones, y el experimentador ha decidido correr tres rplicas. Sin embargo, la ca-
~1
I ;
574
CAPTULO 13
pacidad de la planta piloto slo permite realizar 12 corridas por da, por lo que el experimentador decide correr una rplica en cada uno de tres das y considerar los das o las rplicas como bloques. En un da lleva a cabo el experimento de la siguiente manera. Se produce un lote de pulpa con uno de los tres mtodos bajo estudio. Despus este lote se divide en cuatro muestras, y la coccin de cada muestra se hace con una de las cuatro temperaturas. Entonces se produce un segundo lote de pulpa utilizando otro de los tres mtodos. Este segundo lote tambin se divide en cuatro muestras que se prueban con las cuatro temperaturas. Despus se repite el proceso, utilizando un lote de pulpa producido por el tercer mtodo. Los datos Se muestran en la tabla 13-14. Inicialmente, esto podra considerarse un experimento factorial con tres niveles del mtodo de preparacin (factorA) y cuatro niveles de la temperatura (factor B) en un bloque aleatorizado. Si ste fuera el caso, entonces el orden de experimentacin dentro de cada rplica o bloque debera ser completamente aleatorizado. Es decir, dentro de un bloque debera seleccionarse aleatoriamente una combinacin de tratamientos (un mtodo de preparacin y una temperatura) y obtener una observacin, despus debera seleccionarse aleatoriamente otra combinacin de tratamientos y obtener una segunda observacin, y as sucesivamente hasta que se hayan tomado las 12 observaciones en el bloque. Sin embargo, el experimentador no recab los datos de esta manera. l hizo un lote de pulpa y obtuvo observaciones para las cuatro temperaturas de ese lote. Debido a la economa para preparar los lotes y al tamao de los lotes, sta es la nica manera factible de correr este experimento. Un experimento factorial completamente aleatorizado requerira 36 lotes de pulpa, lo cual es totalmente irrealista. El diseo de parcelas .subdivididas requiere slo tres lotes de pulpa por bloque (rplica), en este caso 9 lotes en total. Evidentemente, el diseo de parcelas subdivididas ha dado como resultado una eficiencia experimental considerable. El diseo utilizado en el ejemplo de la pulpa es de parcelas subdivididas. Cada rplica o bloque del diseo de parcelas subdivididas se divide en tres partes llamadas parcelas completas, y a los mtodos de preparacin se les llama tratamientos principales o de parcelas completas. Cada parcela completa se divide en cuatro partes llamadas subparcelas (o parcelas subdivididas), y se asigna una temperatura a cada una de ellas. A la temperatura se le llama el tratamiento de la subparcela. Observe que si estn presentes otros factores no controlados o fuera del diseo, y si estos factores no controlados varan cuando los mtodos para preparar la pulpa se modifican, entonces cualquier efecto de los factores fuera del diseo sobre la respuesta estar completamente confundido (o mezclado) con el efecto de los mtodos para preparar la pulpa. Puesto que los tratamientos de las parcelas completas de un diseo de parcelas subdivididas estn confundidos con las parcelas completas y los tratamientos de las subparcelas no estn confundidos, es mejor asignar el factor en el que haya mayor inters a las subparcelas, de ser posible. Este ejemplo es bastante tpico de la forma en que se usan los diseos de parcelas subdivididas en un ambiente industrial. Observe que, en esencia, los dos factores "se aplicaron" en tiempos diferentes. Por consiguiente, un diseo de parcelas subdivididas puede considerarse como dos experimentos "combina-
Tabla 13-14 El experimento de la resistencia a la tensin del papel Mtodo de preparacin de la pulpa Temperatura (OP) 200 225 250 275 30 35 37 36 34 41 38 42 29 26 33 36 28 32 40 41 31 36 42 40 31 30 32 40 31 37 41 40 35 40 39 44 32 34 39 45 Rplica (o bloque) 1 1 2 3 1 Rplica (o bloque) 2 2 3 1 Rplica (o bloque)3 2 3
575
dos" o superpuestos entre s. Un "experimento" tiene el factor parcela completa aplicado a las unidades experimentales grandes (o es un factor cuyos niveles son difciles de cambiar) y el otro "experimento" tiene el factor subparcela aplicado a las unidades experimentales ms pequeas (o es un factor cuyos niveles son fciles de cambiar). El modelo lineal para el diseo de parcelas subdivididas es
Yijk
(13-15)
donde r, f3j y (rf3)ij representan la parcela completa y corresponden respectivamente a los bloques (o rplicas), alas tratamientos principales (factorA) y al error de la parcela completa [rplicas (o bloques) x A); y Yk> (rY)k' (f3Y)jk y (rf3Y)ijk representan la subparcela y corresponden respectivamente al tratamiento de la subparcela (factor B), las rplicas (o bloques) x B y las interaccionesAB, y al error de la subparcela (bloques x AB). Observe que el error de la parcela completa es la interaccin rplicas (o bloques) x A y que el error de la subparcela es la interaccin de tres factores bloques x AB. Las sumas de cuadrados para estos factores se calculan como en el anlisis de varianza de tres factores sin rplicas. Los cuadrados medios esperados del diseo de parcelas subdivididas, con las rplicas o bloques aleatorios y los tratamientos principales y los tratamientos de subparcelas fijas, se derivan en la tabla 13-15. Observe que el factor principal (A) de la parcela completa se prueba contra el error de la parcela completa, mientras que el subtratamiento (B) se prueba contra la interaccin rplicas (o bloques) x subtratamientas. La interaccinAB se prueba contra el error de la subparcela. Observe que no hay pruebas para el efecto de la rplica (o bloque) (A) o la interaccin rplica (o bloque) x subtratamiento (Ae). El anlisis de varianza de los datos de la resistencia a la tensin de la tabla 13-14 se resume en la tabla 13-16. Puesto que tanto los mtodos de preparacin como las temperaturas son fijos y las rplicas son aleatorias, son aplicables los cuadrados medios esperados de la tabla 13-15. El cuadrado medio de los mtodos de preparacin se compara con el cuadrado medio del error de la parcela completa, y el cuadra-
Tabla 13-15 Derivacin del cuadrado medio esperado del diseo de parcelas subdivididas
r
R
Factor
T
Parcela completa
1
r
a F j a
O O
b F k b b b
O O O O 1
R h
1 1 1 1 1 1 1 1
1
r
a a
O O 1
1
r
u 2 + au 2
?
Subparcela
1 1
576
CAPTULO 13
Tabla 13-16 Anlisis de varianza del diseo de parcelas subdivididas utilizando los datos de la resistencia a la tensin de la tabla 13-14 Fuente de variacin Rplicas (o bloques) Mtodo de preparacin (A) Error de la parcela completa [rplicas (o bloques) x A] Temperatura (B) Rplicas (o bloques) x B AB Error de la subparcela [rplicas (o bloques) x AB] Total Suma de cuadrados
77.55 128.39 36.28 434.08 20.67 75.17 50.83 822.97
Fa
7.08 41.94 2.96
Valor P
0.05 <0.01 0.05
do medio de las temperaturas se compara con el cuadrado medio de rplica (o bloque) x temperatura (Ae). Por ltimo, el cuadrado medio del mtodo de preparacin x temperatura se prueba contra el error de la subparcela. Tanto los mtodos de preparacin como la temperatura tienen un efecto significativo sobre la resistencia. Observe, por la tabla 13-16, que el error de la subparcela (4.24) es menor que el error de la parcela completa (9.07). ste es comnmente el caso en los diseos de parcelas subdivididas porque las subparcelas por lo general son ms homogneas que las parcelas completas. Esto da como resultado dos estlUcturas diferentes del en'or del experimento. Puesto que la comparacin de los tratamientos de las subparcelas se hace con mayor precisin, es preferible, de ser posible, asignar el tratamiento en el que haya mayor inters a las subparcelas. Algunos autores proponen un modelo estadstico un tanto diferente para el diseo de parcelas subdivididas,
i.: { le =
1,2, 1, 2,
J -1, 2,
,r ,a ,b
(13-16)
En este modelo (rf3)ij sigue siendo el error de la parcela completa, pero las interacciones bloques x By bloques x AB en esencia se han agrupado con Sijk para formar el error de la subparcela. Si la varianza del trmino del error Sijk de la subparcela se denota por a; y se establecen los mismos supuestos que para el modelo (ecuacin 13-15), los cuadrados medios esperados quedan como
Factor
Ti
E(MS)
(rplicas o bloques)
a;+aba; a2+ba2 +
, rp
f3i (A)
rb
L f3~
a-1
J
a; + ba;p
2 ra y~ a,+ ab-1
(j3Yh (AB)
I'LL
(f3Y)~k
a;+ (a-1)(b-1)
a;
(error de la subparcela)
;1
577
Observe que ahora tanto el tratamiento de la subparcela (B) como la interaccinAB se prueban contra el cuadrado medio del error de la subparcela. Si el experimentador se encuentra razonablemente cmodo con el supuesto de que las interacciones rplicas (o bloques) X B Yrplicas (o bloques) xAB son insignificantes, entonces este modelo alternativo es del todo satisfactorio. El diseo de parcelas subdivididas tiene una herencia agrcola: las parcelas completas son reas extensas de tierra y las subparcelas son reas ms pequeas dentro de las extensas. Por ejemplo, diversas variedades de un cultivo podan sembrarse en diferentes campos (parcelas completas), una variedad por campo. Despus cada campo poda dividirse en, por ejemplo, cuatro subparcelas, y cada subparcela poda tratarse con un tipo diferente de fertilizante. Aqu las variedades del cultivo son los tratamientos principales y los diferentes fertilizantes son los subtratamientos. No obstante su base agrcola, el diseo de parcelas subdivididas es til en muchos experimentos cientficos e industriales. En estos ambientes experimentales, es usual encontrar que algunos factores requieren unidades experimentales grandes mientras que otros necesitan pequeas, como en el problema de la resistencia a la tensin descrito antes. De manera alternativa, en ocasiones se encuentra que la aleatorizacin completa no es factible debido a que es ms difcil cambiar los niveles de algunos factores que otros. Los factores que son difciles de variar forman las parcelas completas mientras que los factores que son fciles de variar se corren en las subparcelas. En principio es necesario considerar con mucha atencin la forma en que debe llevarse a cabo el experimento e incorporar todas las restricciones sobre la aleatorizacin en el anlisis. Este punto se ilustra utilizando una modificacin del experimento del tiempo del enfoque del ojo del captulo 6. Suponga que slo hay dos factores, la agudeza visual (A) y el nivel de iluminacin (B). Un experimento factorial con a niveles de agudeza, b niveles de iluminacin y n rplicas requerira que las abn observaciones se hicieran de manera aleatoria. Sin embargo, en el aparato de prueba es bastante difcil ajustar estos dos factores en diferentes niveles, por lo que el experimentador decide obtener las n rplicas ajustando el dispositivo para una de las a agudezas visuales y uno de los b niveles de iluminacin y correr las n observaciones de una sola vez. En el diseo factorial, el error representa en realidad la dispersin o ruido en el sistema ms la habilidad del sujeto para reproducir el mismo tiempo de enfoque. El modelo para el diseo factorial podra escribirse como
i = 1, 2, j = 1, 2,
= 1,2,
,a ,b ,n
(13-17)
donde r/Jijk representa la dispersin o ruido en el sistema que resulta del "error experimental" (es decir, el fracaso para duplicar exactamente los mismos niveles de agudeza e iluminacin en diferentes corridas, la variabilidad en las condiciones ambientales, y aspectos parecidos), y ()ijk representa el "error de reproductibilidad" del sujeto. Generalmente estos componentes se combinan en un trmino del error global, por ejemplo E ijk = r/Jijk + ()ijk' Suponga que V(Eijk) = el- = a~ + a~. Ahora bien, en el diseo factorial, el cuadrado medio del error tiene un valor esperado el- = a~ + a~, con aben - 1) grados de libertad. Si la aleatorizacin se restringe como en el segundo diseo anterior, entonces el cuadrado medio "del error" del anlisis de varianza proporciona una estimacin del "error de reproductibilidad" a~ con aben -1) grados de libertad, pero no produce informacin acerca del "error experimental" a ~ . Por lo tanto, el cuadrado medio del error en este segundo diseo es muy pequeo; por consiguiente, con mucha frecuencia se rechazar incorrectamente la hiptesis nula. Como lo seal John [61d], este diseo es similar a uno de parcelas subdivididas con ab parcelas completas, cada uno dividido en n subparcelas, y ningn
578
CAPTULO 13
subtratamiento. Esta situacin tambin es similar a un submuestreo, como lo describe Ostle [92]. Suponiendo que A y B son fijos, los cuadrados medios esperados en este caso son
E(MSA)= a~ +na: +----'=-'1'
bnL 'i;
a-1
b_ 1
E( MS B
= a B + na", +
2 2
an
L f3~
E(MSAB)=a B +na",
E(MSE)=a~
+ (a-1) (b - 1)
LL ('if3) ~
(13-18)
Por lo tanto, no hay pruebas para los efectos principales a menos que la interaccin sea insignificante. La situacin es exactamente la de un anlisis de varianza de dos factores con una observacin por celda. Si los dos factores son aleatorios, entonces los efectos principales pueden probarse contra la interaccinAB. Si slo uno de los factores es aleatorio, entonces el factor fijo puede probarse contra la interaccinAB. En general, si se analiza un diseo factorial y todos los efectos principales y las interacciones son significativos, entonces deber examinarse con atencin cmo se realiz realmente el experimento. Puede haber restricciones sobre la aleatorizacin en el modelo que no se tomaron en cuenta en el anlisis y, por. consiguiente, los datos no debern analizarse como un factorial.
13..5
13..5.1
En ocasiones se encuentra que la parcela completa o la subparcela contendrn dos o ms factores, dispuestos en una estructura factorial. Como un ejemplo, considere un experimento conducido en-un horno para hacer crecer un xido en una oblea de silicio. Las variables de respuesta de inters son el espesor de la capa de xido y la uniformidad de la capa. Hay cuatro factores del diseo: la temperatura (A), el flujo de gas (B), el tiempo (C) y la posicin de la oblea en el horno (D). El experimentador planea correr un diseo factorial 24 con dos rplicas (32 ensayos). Ahora bien, los factores A y B (la temperatura y el flujo de gas) son difciles de cambiar, mientras que Cy D (el tiempoyla posicin de la oblea) son fciles de modificar. Esto lleva al diseo de parcelas subdivididas que se muestra en la figura 13-7. Observe que las dos rplicas del experimento estn subdivididas en cuatro parcelas completas, cada una de las cuales contiene una combinacin de los ajustes de la temperatura y el flujo de gas. Una vez que se eligen estos niveles, cada parcela completa se subdivide en cuatro subparcelas, y se realiza un diseo factorial 22 en los factores tiempo y posicin de la oblea, donde las combinaciones de tratamientos de la subparcela se prueban en orden aleatorio. nicamente se hacen cuatro cambios de la temperatura y del flujo de gas en cada rplica, mientras que los niveles del tiempo y la posicin de la oblea estn completamente aleatorizados. Un modelo para este experimento, consistente con la ecuacin 13-16, es
Yijklm = p.+'i +f3 j +Yk +(f3Y)jk +(}ijk +0 1 +A m+(OA)lm +(f3o)jl +(f3A)jm +(YO)kl +(OA)lm +(f3YO)jkl +(f3YA)jkm
i=l, 2 j= 1,2
(13-19)
579
Parcela completa
~u CJ CJ
++-
Subparcela
C:O:O:O:O:O:O"O:O
+-
U CJ UU CJ ! ! ! ! ! ! ! !
+..., +++-
Figura 13-7 Diseo de parcelas subdivididas con cuatro factores del diseo, dos en la parcela completa y dos en la subparcela.
donde 7: representa el efecto de la rplica, {Jj y Yk los efectos principales de la parcela completa, eijk es el error de la parcela completa, 01 y A m representan los efectos principales de la subparcela y sijklm es el error de la subparcela. Se han incluido todas las interacciones entre los cuatro factores del diseo. En la tabla 13-17 se presenta el anlisis de varianza de este diseo, suponiendo que las rplicas son aleatorias y que representan las varianzas de los errotodos los factores del diseo son efectos fijos. En esta tabla, es la varianza de los efectos de los blores de la parcela completa y de la subparcela, respectivamente,
a; ya; a;
Tabla 13-17
y los factores
Anlisis abreviado de un diseo de parcelas subdivididas con los factores A y B en las parcelas completas y D en las subparcelas (referirse a la figura 13-7)
Suma de cuadrados
SSRpliCll5
Grados de libertad
1 1 1 1
3
a;+I&r,
a;+8a~+A a;+8a~+B
SSA SSB SSAB SSwp SSc SSD SSCD SSAC SSBC SSAD SSBD SSABC SSABD SSACD SSBCD SSABCD SSsP SST
AB Error de la parcela completa (eijk) C (o[) D (..1. m ) CD AC BC AD BD ABC ABD ACD BCD ABCD Error de la subparcela (Cjk/m) Total
1 1 1 1 1 1 1 1 1 1 1 1
12 31
a;+ 8a~+ AB a;+ 8a~ a;+C a;+D a;+CD a;+AC a;+BC a;+AD a;+BD a;+ABC a;+ABD a;+ACD a;+BCD a;+ABCD a2 E
580
CAPTULO 13
ques, y (para simplificar) se han usado letras maysculas latinas para denotar los efectos de tipo fijo. Los efectos principales y la interaccin de la parcela completa se prueban contra el error de la parcela completa, mientras que los factores de la subparcela y todas las dems interacciones se prueban contra el error de la subparcela. Si algunos de los factores del diseo son aleatorios, los estadsticos de prueba sern diferentes. En algunos casos no habr ninguna prueba F exacta y deber usarse el procedimiento de Satterthwaite (descrito en el captulo 12). Los experimentos factoriales con tres o ms factores en una estructura de parcelas subdivididas tienden a ser experimentos bastante grandes. Por otra parte, la estructura de parcelas subdivididas con frecuencia facilita la realizacin de un experimento grande. Por ejemplo, en el caso del horno de oxidacin, los experimentadores slo tienen que cambiar ocho veces los factores que son difciles de modificar (A y B), por lo que quiz un experimento de 32 corridas no sea demasiado ilgico. Es posible reducir el nmero de corridas utilizando un factorial fraccionado para los factores del diseo de inters.
13,5.2
El concepto de diseos de parcelas subdivididas puede extenderse a situaciones en las que pueden ocurrir restricciones sobre la aleatorizacin en cualquier nmero de niveles dentro del experimento. Si hay dos niveles de restricciones sobre la aleatorizacin, al arreglo se le llama diseo de parcelas con doble subdivisin. En el ejemplo siguiente se ilustra este diseo.
EJEMPLO 13,3
Un investigador estudia los tiempos de absorcin de un tipo particular de cpsula de antibitico. Hay tres tcnicos, tres concentraciones de la dosis y cuatro espesores de la pared de la cpsula. Cada rplica de un experimento factorial requerira 36 observaciones. El experimentador se ha decidido por cuatro rplicas, y es necesario correr cada rplica en un da diferente. Observe que los das pueden considerarse como bloques. Dentro de una rplica (o un bloque) (da), el experimento se realiza asignando una unidad de antibitico a un tcnico que lleva a cabo el experimento con las tres concentraciones de la dosis y los cuatro espesores de la pared. Una vez que se ha formulado una concentracin particular de la dosis, se prueban los cuatro espesores de la pared con esa concentracin. Despus se selecciona otra concentracin de la dosis y se prueban los cuatro espesores de la pared. Por ltimo se prueba la tercera concentracin de la dosis y los cuatro espesores de la pared. Mientras tanto, otros dos tcnicos del laboratorio tambin siguen el mismo plan, empezando cada uno con una unidad de antibitico. Observe que hay dos restricciones sobre la aleatorizacin dentro de cada rplica (o bloque): el tcnico y la concentracin de la dosis. Las parcelas completas corresponden al tcnico. El orden en que se asignan los tcnicos a las unidades de antibitico se determina aleatoriamente. Las concentraciones de la dosis forman tres subparcelas. La concentracin de la dosis puede asignarse aleatoriamente a una subparcela. Por ltimo, dentro de una concentracin particular de la dosis se prueban los cuatro espesores de la pared de la cpsula de manera aleatoria, formando cuatro sub-subparcelas. A los espesores de la pared suele llamrseles sub-subtratamientos. Puesto que hay dos restricciones sobre la aleatorizacin en el experimento (algunos autores dicen que hay dos "divisiones" en el diseo), al diseo se le llama diseo de parcelas con doble subdivisin. En la figura 13-8 se ilustran las restricciones sobre la aleatorizacin y el arreglo experimental de este diseo.
581
3
Orden aleatorio
Tcnico
2
Bloques Concentracin de la dosis
3 3
2
3 1
2 3
1
Espesor de la pared
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
2 3
4 1
2 3
1
2
Espesor de la pared
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
2 3
1
3
Espesor de la pared
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3
1
2 3 4
2 3
1
4
Espesor de la pared
1
2 3 4
1
2 3 4
1
2
1
2 3 4
1
2
1
2
1
2 3
1
2 3
2 3 4
3 4
3 4
3 4
Figura 13-8
Yjldl
( f3
7: y
o)
ijkJ+cijklz
le:l, 2, { h-l, 2,
= 1, = 1,
2,
, r , b ,e (13-20)
2,
,a
donde 7:, {3j Y (7:{3h representan la parcela completa y corresponden a las rplicas o bloques, a los tratamientos principales (factor A) y al error de la parcela completa [rplicas (o bloques) x A)], respectiva-
582
CAPTULO 13
mente; y Yb (';Y)ib (j3Y)jk y (rf3Y)jk representan la subparcela y corresponden al tratamiento de la subparcela (factor B), las interacciones de rplicas (o bloques) x B yAB, Yal error de la subparcela, respectivamente; y o" y los parmetros restantes corresponden a la sub-subparcela y representan, respectivamente, al tratamiento de la sub-subparcela (factor C) y a las interacciones restantes. A la interaccin de cuatro factores (rf3yO)jk" se le llama el error de la sub-subparcela. Suponiendo que las rplicas (bloques) son aleatorias y que los dems factores del diseo son fijos, pueden derivarse los cuadrados medios esperados como se muestra en la tabla 13-18. Las pruebas de los tratamientos principales, los subtratamientos, los sub-subtratamientos y sus interacciones son obvias al inspeccionar esta tabla. Observe que no existen pruebas para las rplicas o bloques ni para las interacciones en las que intervienen rplicas o bloques. El anlisis estadstico de un diseo de parcelas con doble subdivisin es como el de una sola rplica de un factorial de cuatro factores. El nmero de grados de libertad de cada prueba se determina de la manera usual. Para ilustrar, en el ejemplo 13-3, donde se manejaron cuatro rplicas, tres tcnicos, tres concentraciones de la dosis y cuatro espesores de la pared, se tendran slo (r -l)(a -1) = (4 -1)(3 -1) = 6 grados de libertad del error de la parcela completa para probar a los tcnicos. Se trata de un nmero relativamente pequeo de grados de libertad, y el experimentador podra considerar el uso de rplicas adicioTabla 13-18 Derivacin del cuadrado medio esperado para el diseo de parcelas con doble subdivisin r c 1 a b R R F F F Cuadrado medio esperado Factor h l k j a 2+ abcda 2 1 c a b Ti 1 ;bcL {J2 c r O b a 2+a2 + } {Jj Parcela completa 1 TP (a-1) 2 1 b c (T{J)ij O 1 a 2+ bcaTP
Yk
Subparcela
a a
O O
O O O O
c c c c
1 1 1 1 1 1 1 1 1 1 1 1 1
a 2+ aca 2 +
'1'
rac L Y~ (b -1)
1
r
a 2+ aca2
1
r
o"
(TO)i1. (j30)jh (T{JO)ijh
Sub-subparcela
a a
O O
a a
b b b b
O O O O
1
O O O O O O O O
1
a 2+ aba 2 +
Td
rab L o~ (c-1)
1
r
1
r
r
1 1
O O
1
2 rb L L ({JO)~h a +ba;Pd+ (a-1)(c-1) 2 a + ba;Pd raLL (1'0)1. a-+aa;;'d+ (b-1)(c-1) 2 a + aa~d rLLL (j3YO)~k a- + a;pyd + (b -1)(c -1)
? ? ? ? ?
a 2+ aba;d
rJ
583
f
Az
A~,
A3
A, A,B,
B,
A~,
A~3
A,B3
A~3
Parcelas en franjas
~
A~z
A,B z
A~z
nales para incrementar la precisin de la prueba. Si haya rplicas, se tendrn 2(r - 1) grados de libertad para el error de la parcela completa. Por lo tanto, cinco rplicas producirn 2(5 -1) = 8 grados de libertad, seis rplicas produc:n 2(6 -1) = 10 grados de libertad, siete rplicas producirn 2(7 -1) = 12 grados de libertad, etctera. Por consiguiente, es probable que el experimentador no quiera correr menos de cuatro rplicas, ya que se produciran as slo cuatro grados de libertad. Cada rplica adicional permite ganar dos grados de libertad para el error. Si se cuenta con recursos para correr cinco rplicas, la precisin de la prueba podra incrementarse en un tercio (de seis a ocho grados de libertad). Adems, al pasar de cinco a seis rplicas, hay 25% de ganancia adicional en la precisin. Si los recursos lo permiten, el experimentador deber correr cinco o seis rplicas.
13~5.3
El diseo de parcelas subdivididas en franjas ha tenido una amplia aplicacin en las ciencias agrcolas, pero slo ocasionalmente encuentra un uso en la experimentacin industrial. En el caso ms simple, se tienen dos factores A y B. El factorA se aplica a las parcelas completas como en el diseo de parcelas subdivididas estndar. Despus el factor B se aplica a franjas (que son en realidad slo otro conjunto de parTabla 13-19 Anlisis de varianza abreviado de un diseo de parcelas subdivididas en franjas
Suma de cuadrados
SSRplicas
Grados de libertad
r-1 a-1 (r-1)(a-1) b-1 (r-1)(b -1) (a-1)(b-1) (r-1)(a -l)(b -1) rab -1
a;+aba;
LL
584
CAPTULO 13
celas completas) que son ortogonales a las parcelas completas originales utilizadas para el factorA. En la figura 13-9 se ilustra una situacin en la que los dos factores A y B tienen tres niveles. Observe que los niveles del factor A estn confundidos (o mezclados) con las parcelas completas, y que los niveles del factor B estn confundidos con las franjas (las cuales pueden considerarse como un segundo conjunto de parcelas completas). Un modelo para el diseo de parcelas subdivididas en franjas de la figura 13-9, suponiendo y rplicas, a niveles del factor A y b niveles del factor B, es
donde (rf3)ij y ('Y)ik son los errores de la parcela completa de los factores A y B, respectivamente, y Bijk es el error "de la subparcela" usado para probar la interaccinAB. En la tabla 13-19 se muestra un anlisis de varianza abreviado, suponiendo queA y B son factores fijos y que las rplicas son aleatorias. En ocasiones las rplicas se ~onsideran como bloques.
13,6
PROBLEMAS
13-1. El fabricante de la carga propulsora de una turbina est estudiando la rapidez de combustin del propulsor obtenido de tres procesos de produccin. Se seleccionan al azar cuatro lotes del propulsor de la salida de cada proceso y se hacen tres determinaciones de la rapidez de combustin de cada lote. Los resultados se presentan a continuacin. Analizar los datos y sacar conclusiones.. Proceso 1 Lote 1 25 30 26 2 19 28 20 3 15 17 14 4 15 16 13 1 19 17 14
Proceso 2 2 23 24 21 3 18 21 17 4 35 27 25 1 14 15 20
Proceso 3
2
3 38 54 50
4 25 29 33
35 21 24
13-2. Se estudia el acabado superficial de piezas metlicas fabricadas en cuatro mquinas. Se conduce un experimento en el que cada mquina es operada por tres operadores diferentes y se colectan y prueban dos ejemplares de cada operador. Debido a la ubicacin de las mquinas, se usan operadores diferentes en cada mquina, y los operadores se eligen al azar. Los datos se muestran en la tabla siguiente. Analizar los datos y sacar conclusiones.
Mquina 1 Operador
Mquina 2
Mquina 3 123 88 75 53 56 46 57 76 68 36 53
Mquina 4 123 40 56 62 47
1
79 62
2
94 74
3
46 57
123
92 99
85 79
13-3. Un ingeniero de manufactura est estudiando la variabilidad dimensional de un componente particular que se produce en tres mquinas. Cada mquina tiene dos mandriles, y se seleccionan al azar cuatro componentes de cada mandril. Los resultados se presentan a continuacin. Analizar los datos, suponiendo que las mquinas y los mandriles son factores fijos.
13-6 PROBLEMAS
585
Mandril
Mquina 1 1 2 12 8 9 9 11 10 12 8
Mquina 2
Mquina 3
1
14 15 13 14
2
12 10 11 13
1
14 10 12 11
2
16 15 15 14
13-4. Para simplificar la programacin de la produccin, un ingeniero industrial est estudiando la posibilidad de asignar un tiempo estndar a una clase particular de tareas, con la creencia de que las diferencias entre las tareas son insignificantes. Para ver si esta simplificacin es posible, se seleccionan seis tareas al azar. Cada tarea se encarga a un grupo diferente de tres operadores. Cada operador completa dos veces la tarea en momentos diferentes durante la semana, y se obtienen los resultados siguientes. Qu conclusiones pueden sacarse acerca del uso del tiempo estndar comn para todas las tareas de esta clase? Qu valor se usara para el estndar? Threa Operador 1 158.3 154.6 162.5 160.0 156.3 163.7 159.4 154.9 162.6 158.7 158.1 161.0 159.2 157.7 161.0 157.5 158.3 162.3 Operador 2 159.6 156.8 158.9 158.9 156.9 160.3 158.9 154.8 160.5 161.1 157.7 162.6 Operador 3 157.8 156.3 159.5 158.5 156.9 161.8
1 2 3 4 5 6
13-5. Considere el diseo anidado de tres etapas que se muestra en la figura 13-5 para investigar la dureza de una aleacin. Utilizando los datos que se presentan a continuacin, analizar el diseo, suponiendo que la qumica de la aleacin y las hornadas son factores fijos y que los lingotes son aleatorios. Usar la forma restringida del modelo mixto. Qumica de la aleacin Hornadas 1 Lingotes 1 40 63 2 27 30 1 95 67 1 2 2 69 47 1 65 54 3 2 78 45 1 22 10 1 2 23 39 1 83 62 2 2 2 75 64 1 61 77 3 2 35 42
13-6. Analizar nuevamente el experimento del problema 13-5 utilizando la forma no restringida del modelo mixto. Comentar las diferencias que se observan entre los resultados del modelo restringido y el no restringido. Puede usarse un paquete de software de computadora. 13-7. Derivar los cuadrados medios esperados para el diseo anidado balanceado de tres etapas, suponiendo que A es fijo y que B y e son aleatorios. Obtener las frmulas para estimar los componentes de la varianza. Suponer la forma restringida del modelo mixto. 13-8. Repetir el problema 13-7 suponiendo la forma no restringida del modelo mixto. Puede usarse un paquete de software de computadora para hacerlo. Comentar las diferencias entre el anlisis y las conclusiones del modelo restringido y el no restringido. 13-9. Derivar los cuadrados medios esperados para el diseo anidado balanceado de tres etapas si los tres factores son aleatorios. Obtener las frmulas para estimar los componentes de la varianza.
586
CAPTULO 13
13-10. Verificar los cuadrados medios esperados que se dan en la tabla 13-lo 13-11. Diseos anidados no balanceados. Considere un diseo anidado de dos etapas no balanceado con b niveles de B bajo el nivel i-simo de A y nij rplicas en la celda ij-sima. a) Anotar las ecuaciones normales de mnimos cuadrados para esta situacin. Resolver las ecuaciones normales. b) Construir la tabla del anlisis de varianza para el diseo anidado no balanceado de dos etapas. e) Analizar los datos siguientes, utilizando los resultados del inciso b.
Factor A Factor B 1
6 4 8
1 2 1
2 2 2 4
3
1 O
-3
1
5
7 9 6
-3
13-12. Componentes de la varianza en el diseo anidado no balanceado de dos etapas. Considere el modelo
i = 1, 2, j= 1, 2, { . k = 1, 2,
donde A Y B son factores aleatorios. Demostrar que
,a ,b , l1ij
donde
= ----'-------------'-b-a
N-
t (~ ni In, 1
a-1
a
l.
e
1
=---'--------'------N-2: 11~
;=1
t (~n,;tn,)- t~ ni IN
N
e2
a-1
13-13. Un ingeniero de procesos est probando el rendilniento de un producto manufacturado en tres mquinas. Cada mquina puede operarse con dos ajustes de la potencia. Adems, una mquina tiene tres estaciones en las que se fabrica el producto. Se conduce un experimento en el que cada mquina se prueba con ambos ajustes de la potencia, y se toman tres observaciones del rendimiento de cada estacin. Las corridas se hacen en orden aleatorio, y los resultados se presentan a continuacin. Analizar este experimento, suponiendo que los tres factores son fijos.
rl
13-6 PROBLEMAS
587
3 33.6 32.8 31.7 24.7 22.0 24.8
Mquina 1 Estacin Ajuste de la potencia 1 Ajuste de la potencia 2 1 34.1 30.3 31.6 24.3 26.3 27.1 2 33.7 34.9 35.0 28.1 29.3 28.6 3 36.2 36.8 37.1 25.7 26.1 24.9 1 31.1 33.5 34.0 24.1 25.0 26.3
13-14. Suponga que en el problema 13-13 podran emplearse un gran nmero de ajustes de la potencia y que los dos que se seleccionaron para el experimento se escogieron al azar. Obtener los cuadrados medios esperados para esta situacin suponiendo la forma restringida del modelo mixto y hacer las modificaciones apropiadas al anlisis anterior. 13-15. Analizar nuevamente el experimento del problema 13-14 suponiendo la forma no restringida del modelo mixto. Puede usarse un paquete de software de computadora para hacerlo. Comentar las diferencias entre el anlisis y las conclusiones del modelo restringido y el no restringido. 13-16. Un ingeniero de estructuras est estudiando la resistencia de una aleacin de aluminio adquirida de tres fabricantes. Cada fabricante entrega la aleacin en barras de tamao estndar de 1.0, 1.5 o 2.0 pulgadas. El procesamiento de los diferentes tamaos de las barras a partir de un lingote comn implica tcnicas diferentes de forjado, por lo que este factor puede ser importante. Adems, las barras se forjan de lingotes fabricados en hornadas diferentes. Cada fabricante entrega dos ejemplares de prueba de cada tamao de las barras de tres hornadas. Los datos de la resistencia resultantes se presentan a continuacin. Analizar los datos, suponiendo que los fabricantes y el tamao de las barras son fijos y las hornadas son aleatorias. Usar la forma restringida del modelo mixto.
Fabricante 1 Hornada Tamao de la barra: 1 pulgada 1tpulgadas 2 pulgadas 1 1.230 1.259 1.316 1.300 1.287 1.292 2 1.346 1.400 1.329 1.362 1.346 1.382 3 1.235 1.206 1.250 1.239 1.273 1.215
Fabricante 2 2 1 3 1.301 1.346 1.315 1.263 1.392 1.320 1.274 1.384 1.346 1.268 1.375 1.357 1.247 1.362 1.336 1.215 1.328 1.342
Fabricante 3 1 1.247 1.296 1.273 1.264 1.301 1.262 2 1.275 1.268 1.260 1.265 1.280 1.271 3 1.324 1.315 1.392 1.364 1.319 1.323
13-17. Resolver de nuevo el problema 13-16 utilizando la forma no restringida del modelo mixto. Puede usarse un paquete de software de computadora para hacerlo. Comentar cualquier diferencia entre el anlisis y las conclusiones del modelo restringido y el no restringido. 13-18. Suponga que en el problema 13-16 las barras pueden adquirirse en muchos tamaos y que los tres tamaos que realmente se utilizaron en el experimento fueron seleccionados al azar. Obtener los cuadrados medios esperados para esta situacin y hacer las modificaciones apropiadas al anlisis anterior. Usar la forma restringida del modelo mixto. 13-19. La normalizacin del acero se hace calentndolo arriba de la temperatura crtica, recalentndolo y despus enfrindolo con aire. Este proceso incrementa la resistencia del acero, refina el grano y homogeneiza la estructura. Se lleva a cabo un experimento para determinar el efecto de la temperatura y de la duracin del tratamiento trmico sobre la resistencia del acero normalizado. Se seleccionan dos temperaturas y tres dura-
588
CAPTULO 13
ciones. El experimento se realiza calentando el horno a una temperatura seleccionada aleatoriamente e insertando tres ejemplares de prueba. Despus de 10 minutos se retira uno de ellos, despus de 20 minutos se retira un segundo ejemplar y despus de 30 minutos se retira el ltimo. Entonces se corre la temperatura al otro nivel y se repite el proceso. Se requieren cuatro corrimientos para recabar los datos, los cuales se muestran abajo. Analizar los datos y sacar conclusiones, suponiendo que ambos factores son fijos. Temperatura, F Corrimiento 1 Tiempo, minutos 10 20 30 10 20 30 10 20 30
10
20 30
1500 63 54 61 50 52 59 48 74 71 54 48 59
1600 89
91
62 80 72 69 73 81 69 88
92
64
13-20. Se disea un experimento para estudiar la dispersin de los pigmentos de una pintura. Se estudian cuatro mezclas diferentes de un pigmento particular. El procedimiento consiste en preparar una mezcla particular y en aplicarla despus a un panel utilizando tres mtodos (con brocha, por roco y con rodillo). La respuesta medida es el porcentaje de reflectancia (coeficiente de reflexin) del pigmento. Se necesitan tres das para correr el experimento, y los datos obtenidos se presentan a continuacin. Analizar los datos y sacar conclusiones, suponiendo que las mezclas y los mtodos de aplicacin son fijos.
Da 1
Mtodo de aplicacin 1 2 3 1 2 3 1 2 3
Mezcla 2 3 66.3 74.1 69.5 73.8 73.1 78.0 65.0 73.8 70.3 74.5 72.8 79.1 66.5 72.3 69.0 75.4 74.2 80.1
13-21. Repetir el problema 13-20, suponiendo que las mezclas son aleatorias y que los mtodos de aplicacin son fijos. 13-22. Considere el diseo de parcelas con doble subdivisin del ejemplo 13-3. Suponga que este experimento se conduce como se describe y que se obtienen los datos que se muestran en la siguiente tabla. Analizar los datos y sacar conclusiones.
13-6 PROBLEMAS
589
Rplicas (o bloques)
1 1 95 104 101 108 95 106 103 109 96 105 106 113 90 100 102 114 2
71 82 85 85
3 108 115 117 116 110 109 116 110 107 106 112 117 109 112 115 118
Tcnico 2 2 3 70 84 83 85 72 79 80 86 66 84 87 90 68 81 85 85 108 100 105 109 104 102 108 109 100 101 109 117 106 103 110 116
1 95 102 105 107 92 100 101 108 90 97 100 110 98 102 105 110
3 2 70 81 84 87 69 76 80 86 73 75 82 91 72 78 80 95
3 100 106 113 115 101 104 109 113 98 100 104 112 101 105 110 120
78 84 86 84 70 81 88 90 68 84 85 88
13-23. Resolver nuevamente el problema 13-22, suponiendo que los tcnicos se eligen al azar. Usar la forma restringida del modelo mixto. 13-24. Suponga que en el problema 13-22 se usaron cuatro tcnicos. Suponiendo que todos los factores son fijos, cuntos bloques debern correrse para obtener un nmero adecuado de grados de libertad para probar las diferencias entre los tcnicos? 13-25. Considere el experimento que se describe en el ejemplo 13-3. Demostrar cmo se determinara el orden en que se corren la combinaciones de tratamientos si este experimento se realizara como a) una parcela con doble subdivisin, b) una parcela subdividida, c) un diseo factorial en un bloque aleatorizado y d) un diseo factorial completamente aleatorizado.
El tema de los experimentos diseados estadsticamente es muy amplio. En los captulos previos se ha ofrecido una presentacin introductoria de muchos de los conceptos y mtodos bsicos, aunque en algunos casos slo se ha podido presentar un panorama general. Por ejemplo, hay exposiciones que ocupan un libro sobre tpicos, como la metodologa de superficies de respuesta, los experimentos con mezclas, la estimacin de los componentes de la varianza y los diseos ptimos. En este captulo se presenta un panorama general de varios tpicos ms que el experimentador puede encontrar potencialmente tiles.
14,1 14,1.1
En la seccin 3-4.3 se estudi el problema de una varianza no constante de la variable de respuestay en un experimento diseado, y se seal que se trata de una desviacin de los supuestos del anlisis de varianza estndar. Este problema de la desigualdad de la varianza ocurre con relativa frecuencia en la prctica, muchas veces en conjuncin con una variable de respuesta no normal. Algunos ejemplos incluiran el conteo de defectos o partculas, los datos de proporciones, como el rendimiento o la proporcin de productos defectuosos, o una variable de respuesta que sigue alguna distribucin sesgada (una "cola" de la distribucin de la respuesta es ms larga que la otra). Se introdujo la transformacin de la variable de respuesta como un mtodo apropiado para estabilizar la varianza de la respuesta. Se revisaron dos mtodos para seleccionar la forma de la transformacin, una tcnica grfica emprica y un procedimiento esencialmente de ensayo y error en el que el experimentador simplemente intenta una o ms transformaciones, y selecciona la que produce la grfica ms agradable o satisfactoria de los residuales contra la respuesta ajustada. En general, las transformaciones se usan para tres propsitos: estabilizar la varianza de la respuesta, hacer que la distribucin de la variable de respuesta est ms cerca de la distribucin normal y mejorar el ajuste del modelo a los datos. Este ltimo objetivo podra incluir la simplificacin del modelo, por ejem-
590
591
plo, eliminando trminos de interaccin. En ocasiones, una transformacin ser razonablemente eficaz para conseguir de manera simultnea ms de uno de estos objetivos. Se ha sealado ya que la familia de potencias de las transformacionesy* = es muy til, donde Aes el parmetro de la transformacin que habr de determinarse (por ejemplo A = t significa usar la raz cuadrada de la respuesta original). Box y Cox [15] han indicado cmo puede estimarse el parmetro de la transformacin Aal mismo tiempo que los dems parmetros del modelo (la media global y los efectos de los tratamientos). La teora fundamental en su procedimiento utiliza el mtodo de mxima verosimilitud. El procedimiento de clculo real consiste en efectuar, para varios valores de A, el anlisis de varianza estndar de
y(A)
= A)/-1
ji In y
l-1
A
:t:.
(14-1)
A=O
donde y = ln-1[(1/n) L lny] es la media geomtrica de las observaciones. La estimacin de mxima verosimilitud dd es el valor para el que la suma de cuadrados del error, por ejemplo SSE(A), es un mnimo. Este valor de Ase encuentra generalmente construyendo una grfica de SSE(A) contra Ay leyendo despus en la grfica el valor de Aque minimiza SSE(A). En general, son suficientes entre 10 y 20 valores de Apara estimar el valor ptimo. Si se necesita una estimacin ms precisa de A, podra realizarse una segunda iteracin utilizando un nmero mayor de valores. Observe que no es posible seleccionar el valor de Acomparando directamente las sumas de cuadrados del error obtenidas en los anlisis de varianza de yA, ya que para cada valor de Ala suma de cuadrados del error se mide en una escala diferente. Adems, surge un problema con y cuando A = O; a saber, cuando A tiende a cero, tiende a la unidad. Es decir, cuando A = O, todos los valores de la respuesta son una constante. El componente (i -1 )/A de la ecuacin 14-1 alivia este problema porque cuando Atiende a cero, (y" - 1 )/A tiende a un lmite de In y. El componente del divisor )/ - 1 de la ecuacin 14-1 reescala las respuestas para que las sumas de cuadrados del error sean comparables directamente. Al utilizar el mtodo de Box-Cox, se recomienda que el experimentador use elecciones simples de A, ya que es probable que la diferencia prctica entre A = 0.5 y A = 0.58 sea pequea, pero la transformacin de la raz cuadrada (A = 0.5) es mucho ms fcil de interpretar. Obviamente, los valores de Aprximos a la unidad sugeriran que no es necesaria ninguna transformacin. Una vez que se ha seleccionado un valor de Apor el mtodo de Box-Cox, el experimentador puede analizar los datos utilizando como la respuesta, a menos desde luego que A = O, en cuyo caso se usa In y. Es perfectamente aceptable utilizar y(A) como la respuesta real, aun cuando las estimaciones de los parmetros del modelo tendrn una diferencia de escala y un corrimiento del origen en comparacin con los resultados obtenidos cuando se usa (o In y). Es posible encontrar un intervalo de confianza aproximado de 100(1 - a) por ciento para Acalculando (14-2) donde 11 es el nmero de grados de libertad, y graficando una recta paralela al ejeA a la altura SS* sobre la grfica de SSE(A) contraA. Entonces, allocalizarlos puntos sobre el ejeA donde SS* corta la curva SSE(A), pueden leerse directamente en la grfica los lmites de confianza paraA. Si este intervalo de confianza incluye el valor A = 1, esto implica (como se seal antes) que los datos no soportan la necesidad de una transformacin.
in
,1,
592
CAPTULO 14
14~
EJEMPLO
El procedimiento de Box-Cox se ilustrar utilizando los datos de la descarga pico presentados originalmente en el ejemplo 3-5. Recuerde que se trata de un experimento con un solo factor (ver la tabla 3-7 para los datos originales). Utilizando la ecuacin 14-1 se calcularon los valores de SSE(A) para varios valores de A:
A -1.00 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 1.25 1.50
SSE(A)
7922.11 687.10 232.52 91.96 46.99 35.42 40.61 62.08 109.82 208.12
En la figura 14-1 se muestra una gr~fica de los valores prximos al mnimo, en la que se observa que A =0.52 produce un valor mnimo de aproximadamente SSE(A) = 35.00. Un intervalo de confianza aproximado de 95% paraA se encuentra calculando la cantidad SS* de la ecuacin 14-2 de la siguiente manera:
SS
= SSE(A)
(1+ t~.;~20 )
Algunos programas de computadora incluyen el procedimiento de Box-Cox para seleccionar una transformacin de la familia de potencias. En la figura 14-2 se presenta la salida de este procedimiento como se implementa en Design-Expel1 para los datos de la descarga pico. Los resultados concuerdan en gran medida con los clculos manuales resumidos en el ejemplo 14-1. Observe que la escala vertical de la grfica de la figura 14-2 es ln[SSe(A)].
593
110 100 90 80 70
60 50 40 30 20 10
O
0.00 0.25 /.,-; 0.27 0.50 0.75
/.,+; 0.77
1.00
1.25 /.,
Grfica de Box-Cox transformaciones de potencias Grfica de DESIGN-EXPERT Descarga pico Lambda Corriente=1 Mejor = 0.541377 Intervalo de confianza bajo = 0.291092 Intervalo de confianza alto = 0.791662 Transformacin recomendada Raz cuadrada (Lambda = 0.5) 20.32
16.14
ro
~
--'
11.95
c:
7.76
3.58
-3
-2
-1
o
Lambda
Figura 142
594
14.1.2
CAPTULO 14
Con frecuencia las transformaciones de datos son una forma muy eficaz de abordar el problema de las respuestas no normales y de la desigualdad asociada de la varianza. Como se ha visto en la seccin anterior, el mtodo de Box-Cox es una forma sencilla y eficaz de seleccionar la forma de la transformacin. Sin embargo, puede haber problemas asociados con el uso de una transformacin de datos. Un problema es que el experimentador puede sentirse incmodo al trabajar con la respuesta en la escala transformada. Es decir, el experimentador se interesa en el nmero de defectos, no en la raz cuadrada del nmero de defectos, o en la resistividad en lugar del logaritmo de la resistividad. Por otra parte, si una transformacin en realidad tiene xito y mejora el anlisis y el modelo asociado de la respuesta, los experimentadores adoptarn por lo general con rapidez la nueva mtrica. Un problema ms serio es que una transformacin puede resultar en un valor sin sentido para la variable de respuesta en alguna porcin del espacio de los factores del diseo que es de inters para el experimentador. Por ejemplo, suponga que se ha usado la transformacin de la raz cuadrada en un experimento que incluye el nmero de defectos observados en obleas de semiconductores, y para alguna porcin de la regin de inters la raz cuadrada predicha del conteo de defectos es negativa. Es probable que esto suceda en situaciones en las que el nmero real de defectos observados es pequeo. Por consiguiente, el modelo del experimento ha producido una prediccin evidentemente no confiable justo en la regin donde sera deseable que este modelo tuviera un buen desempeo predictivo. Por ltimo, como se seal en la seccin 14-1.1, es frecuente el uso de transformaciones a fin de estabilizar la varianza, inducir la normalidad y simplificar el modelo. No existe la seguridad de que una transformacin conseguir eficazmente todos estos objetivos al mismo tiempo. Una alternativa del enfoque tpico de la transformacin de datos seguida del anlisis estndar de mnimos cuadrados de la respuesta transformada es usar el modelo lineal generalizado. Se trata de un enfoque desarrollado por Nelder y Wedderburn [87] que en esencia unifica modelos lineales y no lineales con respuestas normales y no normales. McCullagh y Nelder [76] ofrecen un completo estudio de los modelos lineales generalizados y Myers y Montgomery [85b] proporcionan un tutorial. Tambin se presentan detalles adicionales en el material suplementario del texto de este captulo. Se ofrecer un panorama general de los conceptos y se ilustrarn con dos ejemplos breves. Un modelo lineal generalizado es bsicamente un modelo de regresin (el modelo de un diseo experimental tambin es un modelo de regresin). Como todos los modelos de regresin, est constituido por un componente aleatorio (lo que se ha llamado generalmente el trmino del error) y una funcin de los factores del diseo (las x) y algunos parmetros desconocidos (las f3). En un modelo de regresin lineal de la teora normal estndar se escribe (14-3) donde se supone que el trmino del error e tiene una distribucin normal con media cero y varianza constante, y la media de la variable de respuesta y es (14-4) A la parte x'p de la ecuacin 14-4 se le llama predictor lineal. El modelo lineal generalizado contiene la ecuacin 14-3 como un caso especial. En un modelo lineal generalizado, la variable de respuesta puede tener cualquier distribucin que sea un miembro de la familia exponencial. Esta familia incluye las distribuciones normal, de Poisson, bi
595
nomial, exponencial y gamma, por lo que la familia exponencial es una coleccin rica y flexible de distribuciones aplicables en muchas situaciones experimentales. Adems, la relacin entre la media de la respuesta f-l y el predictor lineal x'P se determina por una funcin de enlace.
g(f-l) = x 'fJ
El modelo de regresin que representa la respuesta media est dado entonces por
(14-5)
(14-6)
Por ejemplo, a la funcin de enlace que lleva al modelo de regresin lineal ordinario en la ecuacin 14-3 se le llama enlace identidad, ya quel = g-\x'P) = x'p. Como otro ejemplo, el enlace log (logartmico)
1o(f-l) = x'fJ
produce el modelo
(14-7)
f-l
= ex'P
(14-8)
El enlace logartmico se usa con frecuencia con datos de conteos (respuesta de Poisson) y con respuestas continuas que presentan una distribucin que tiene una cola larga a la derecha (la distribucin exponencial o gamma). Otra funcin de enlace importante que se usa con datos binomiales es el enlace logit
lo (1 f-l) = x'fJ
Esta eleccin de la funcin de enlace lleva al modelo 1 f-l = 1 +ex'P
(14-9)
(14-10)
Hay muchas elecciones posibles de la funcin de enlace, pero debe ser siempre montona y diferenciable. Observe asimismo que en un modelo lineal generalizado, la varianza de la variable de respuesta no tiene que ser una constante; puede ser una funcin de la media (y de las variables predictoras a travs de la funcin de enlace). Por ejemplo, si la respuesta es de Poisson, la varianza de la respuesta es exactamente igual a la media. Para usar un modelo lineal generalizado en la prctica, el experimentador debe especificar una distribucin de la respuesta y una funcin de enlace. Despus se hace el ajuste del modelo o la estimacin de los parmetros por el mtodo de mxima verosimilitud, el cual para la familia exponencial resulta ser una versin iterativa de los mnimos cuadrados ponderados. Para los modelos de regresin lineal o de diseos experimentales ordinarios con una varia1?le de respuesta normal, esto se reduce a los mnimos cuadrados estndares. Utilizando un enfoque que es anlogo al anlisis de varianza de datos de la teora normal, pueden hacerse inferencias y la verificacin de diagnsticos para un modelo lineal generalizado. Referirse a Myers y Montgomery [85b] para los detalles y ejemplos. Dos paquetes de software que soportan el modelo lineal generalizado son SAS (PROC GENMOD) Y S-PLUS.
EJEMPLO
14~
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
\JI
\O 01
Tabla 14-1
Anlisis de mnimos cuadrados y del modelo lineal generalizado para el experimento rejilla de recuadros abiertos Utilizando mtodos de mnimos cuadrados con la transformacin de los datos de la raz cuadrada modificada de Freeman y Tukey Transformados Valor predicho 5.50 3.95 1.52 3.07 1.52 3.07 5.50 3.95 1.08 -0.47 1.96 3.50 1.96 3.50 1.08 -0.47 Intervalo de confianza de 95% (4.14,6.85) (2.60,5.31) (0.17,2.88) (1.71,4.42) (0.17, 2.88) (1.71,4.42) (4.14,6.85) (2.60,5.31) (-0.28,2.43) (-1.82, 0.89) (0.61,3.31) (2.15, 4.86) (0.61,3.31) (2.15, 4.86) (-0.28,2.43) (-1.82,0.89) No transformados Valor predicho 29.70 15.12 1.84 8.91 1.84 8.91 29.70 15.12 0.71 * 3.36 11.78 3.36 11.78 0.71 * Intervalo de confianza de 95% (16.65,46.41) (6.25, 27.65) (1.69,7.78) (2.45, 19.04) (1.69, 7.78) (2.45, 19.04) (16.65,46.41) (6.25, 27.65) (*,5.41) (*,0.36) (0.04, 10.49) (4.13,23.10) (0.04, 10.49) (4.13,23.10) (*,5.41) (*,0.36) Modelo lineal generalizado [respuesta de Poisson, enlace log (logartmico)] Valor predicho 51.26 11.74 1.12 4.88 1.12 4.88 51.26 11.74 0.81 0.19 1.96 8.54 1.96 8.54 0.81 0.19 Intervalo de confianza de 95% (42.45,61.90) (8.14, 16.94) (0.60, 2.08) (2.87, 8.32) (0.60, 2.08) (2.87, 8.32) (42.45, 61.90) (8.14, 16.94) (0.42, 1.56) (0.09, 0.38) (1.16, 3.30) (5.62, 12.98) (1.16, 3.30) (5.62, 12.98) (0.42, 1.56) (0.09, 0.38)
Longitud del intervalo de confianza del 95% Mnimos cuadrados 29.76 21.39 6.09 16.59 6.09 16.59 29.76 21.39 * * 10.45 18.96 10.45 18.97 * * GLM (modelo lineal generalizado) 19.45 8.80 1.47 5.45 1.47 5.45 19.45 8.80 1.13 0.29 2.14 7.35 2.14 7.35 1.13 0.29
Observacin 1 2 3 4 5 6 7 8 9 10
11
12 13 14 15 16
"i~ . .,J
597
diseado. Como se seal en el inciso f del problema 8-29, los autores utilizaron una modificacin de la transformacin de la raz cuadrada que llev al modelo
-1.21x 6
O. 772x 2 x 7
donde, como de costumbre, las x representan los factores del diseo codificados. Esta transformacin hace un excelente trabajo para estabilizar la varianza del nmero de defectos. En las dos primeras secciones de la tabla 14-1 se presenta parte de la informacin acerca de este modelo. Bajo el encabezado "Transformados", la primera columna contiene la respuesta predicha. Observe que hay dos valores predichos negativos. El encabezado "No transformados" presenta los valores predichos no transformados, junto con los intervalos de confianza de 95% para la respuesta media en cada uno de los 16 puntos del diseo. Puesto que hubo algunos valores predichos negativos, as como lmites de confianza inferiores negativos, no fue posible calcular los valores de todas las entradas de esta seccin de la tabla. La respuesta es en esencia una raz cuadrada del conteo de los defectos. Un valor predicho negativo es claramente ilgico. Observe que esto ocurre donde los conteos observados fueron pequeos. Si es importante usar el modelo para predecir el desempeo en esta regin, el modelo puede ser no confiable. Esto no deber tomarse como una crtica del experimento original ni del anlisis de Bisgaard y Fuller. Fue un experimento de exploracin en extremo exitoso que defini con toda claridad las variables importantes del proceso. La prediccin no fue una de las metas originales, y tampoco fue el objetivo del anlisis realizado por Bisgaard y Fuller. Sin embargo, si hubiera sido importante obtener un modelo de prediccin, probablemente un modelo lineal generalizado habra sido una buena alternativa para el enfoque de la transformacin. Myers y Montgomery usan un enlace lag (logartmico) (ecuacin 14-7) y una respuesta de Poisson para ajustar exactamente el mismo predictor lineal dado por Bisgaard y Fuller. Esto produce el modelo y = e (L128-0.896x, - L176x 6 -o. 737 x,x,) La tercera seccin de la tabla 14-1 contiene los valores predichos de este modelo y los intervalos de confianza de 95% para la respuesta media en cada punto del diseo (obtenida con el procedimiento PROC GENMOD de SAS). No hay valores predichos negativos (lo cual se asegura con la eleccin de la funcin de enlace) ni lmites de confianza inferiores negativos. En la ltima seccin de la tabla se comparan las longitudes de los intervalos de confianza de 95% para la respuesta no transformada y el modelo lineal generalizado (GLM). Observe que los intervalos de confianza del modelo lineal generalizado son uniformemente ms C01toS que sus contrapartes de mnimos cuadrados. Esto es un slido indicio de que el enfoque del modelo lineal generalizado ha explicado la variabilidad y ha producido un modelo superior en comparacin con el enfoque de la transformacin.
- 11
EJEMPLO
14~3
598
Tabla 14-2 El experimento del hilado de estambre Ciclos hasta una falla 674 370 292 338 266 210 170 118 90 1414 1198 634 1022 620 438 442 332 220 3636 3184 2000 1568 1070 566 1140 884 360 Logaritmo de los ciclos hasta una falla 2.83 2.57 2.47 253 2.42 2.32 2.23 2.07 1.95 3.15 3.08 2.8 3.01 2.79 2.64 2.65 2.52 2.34 3.56 3.5 3.3 3.19 3.03 2.75 3.06 2.95 2.56
Corrida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Xl
X2
X3
-1 -1 -1 -1 -1 -1 -1 -1 -1 O O O O O O O O O 1 1 1 1 1 1 1 1 1
-1 -1 -1 O O O 1 1 1 -1 -1 -1 O O O 1 1 1 -1 -1 -1 O O O 1 1 1
-1 O 1 -1 O 1 -1 O 1 -1 O 1 -1 O 1 -1 O 1 -1 O 1 -1 O 1 -1 O 1
de los ciclos hasta una falla produce un modelo adecuado en trminos del ajuste global del modelo, as como grficas satisfactorias de los residuales. El modelo es
!;FSHi=Et7F.... ~M
... "r~~
- ,. """'"1 .
'-j
~'-.....
'",4
Tabla 14-3
Anlisis del modelo de mnimos cuadrados y del modelo lineal generalizado para el experimento del hilado de estambre Mtodos de mnimos cuadrados con la transformacin logartmica de los datos Transformados Intervalo de confianza de 95% (2.76,2.91) (2.60,2.73) (2.42, 2.57) (2.50, 2.62) (2.34,2.44) (2.15,2.28) (2.21, 2.36) (2.05, 2.18) (1.87, 2.02) (3.13, 3.26) (2.97, 3.08) (2.79,2.92) (2.87,2.97) (2.72, 2.78) (2.53, 2.63) (2.58,2.71) (2.43, 2.53) (2.24, 2.37) (3.48, 3.63) (3.32, 3.45) (3.14,3.29) (3.22, 3.35) (3.06, 3.16) (2.88,3.01) (2.93, 3.08) (2.77,2.90) (2.59,2.74) No transformados Intervalo de confianza de 95% (573.80,811.52) (397.01, 533.46) (260.98, 369.06) (313.33,421.11) (217.92, 275.30) (142.50, 191.47) (162.55,229.93) (112.46, 151.15) (73.93,104.54) (1353.94, 1819.28) (941.67,1189.60) (615.60,827.37) (743.19, 938.86) (523.24, 606.46) (337.99,426.97) (383.53,515.35) (266.75,336.98) (174.42,234.37) (3034.59, 4292.40) (2099.42, 2821.63) (1380.07, 1951.64) (1656.91, 2226.90) (1152.66, 1455.79) (753.53, 1012.74) (859.81,1215.91) (594.70,799.28) (390.93, 552.97) Modelo lineal generalizado Intervalo de confianza de 95% (583.83, 793.22) (407.05,526.64) (271.49, 365.49) (317.75,412.33) (222.55, 272.51) (147.67,190.10) (165.69,223.70) (115.43, 148.64) (76.87, 103.32) (1390.00, 1797.00) (972.52, 1189.00) (644.35,830.44) (759.65, 930.04) (536.67, 609.38) (351.64,430.51) (393.81,507.54) (275.13, 336.28) (182.03,235.27) (3165.00, 4254.00) (2200.00, 2833.00) (1462.00, 1974.00) (1720.00, 2215.00) (1200.00, 1470.00) (793.15, 1029.00) (894.79, 1205.00) (620.99, 803.43) (412.29,560.15) Longitud del intervalo de confianza del 95% GLM (modelo Mnimos lineal cuadrados generalizado) 237.67 136.45 108.09 107.79 57.37 48.97 67.38 38.69 30.62 465.34 247.92 211.77 195.67 83.22 88.99 131.82 70.23 59.95 1257.81 722.21 571.57 569.98 303.14 259.22 356.10 204.58 162.04 209.39 119.59 94.00 94.58 49.96 42.42 58.01 33.22 26.45 407.00 216.48 186.09 170.39 72.70 78.87 113.74 61.15 53.23 1089.00 633.00 512.00 495.00 270.00 235.85 310.21 182.44 147.86
0;;:;"
Observacin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
\.1l
Valor predicho 2.83 2.66 2.49 2.56 2.39 2.22 2.29 2.12 1.94 3.20 3.02 2.85 2.92 2.75 2.58 2.65 2.48 2.31 3.56 3.39 3.22 3.28 3.11 2.94 3.01 2.84 2.67
Valor predicho 682.50 460.26 310.38 363.25 244.96 165.20 193.33 130.38 87.92 1569.28 1058.28 713.67 835.41 563.25 379.84 444.63 299.85 202.16 3609.11 2433.88 1641.35 1920.88 1295.39 873.57 1022.35 689.45 464.94
\
Valor predicho 680.52 463.00 315.01 361.96 246.26 167.55 192.52 130.98 89.12 1580.00 1075.00 731.50 840.54 571.87 389.08 447.07 304.17 206.95 3670.00 2497.00 1699.00 1952.00 1328.00 903.51 1038.00 706.34 480.57
\O \O
600
CAPTULO 14
puntos del diseo. La comparacin de las longitudes de los intervalos de confianza revela que es posible que el modeo lineal generalizado sea un mejor predictor que el modelo de mnimos cuadrados.
o
Los modelos lineales generalizados han encontrado amplia aplicacin en la investigacin y el desarrollo biomdico y farmacutico. Conforme ms paquetes de software incluyan esta capacidad, encontrar una aplicacin ms amplia en el mbito de la investigacin y el desarrollo industrial general.
14~2
El centro de atencin principal de este libro ha sido el anlisis de diseos factoriales balanceados, es decir, los casos en que en cada celda hay el mismo nmero II de observaciones. Sin embargo, es comn encomrar situaciones en las que el nmero de observaciones en las celdas son desiguales. Estos diseos factoriales no balanceados ocurren por varias razones. Por ejemplo, el experimentador puede haber diseado inicialmente un experimento balanceado, pero debido a problemas imprevistos cuando se corre el experimento, los cuales resultan en la prdida de algunas observaciones, termina trabajando con datos no balanceados. Por otra parte, algunos experimentos no balanceados se disean expresamente de este modo. Por ejemplo, ciertas combinaciones de tratamientos pueden ser ms costosas o ms difciles de correr que otras, por lo que pueden hacerse menos observaciones en esas celdas. De manera alternativa, algunas combinaciones de tratamientos pueden ser de mayor inters para el experimentador debido a que representan condiciones nuevas o no exploradas, por lo que puede optar por obtener rplicas adicionales de dichas celdas. La propiedad de ortogonalidad de los efectos principales y las interacciones, presente en los datos balanceados, no es vlida en el caso no balanceado. Esto significa que las tcnicas del anlisis de varianza usual no son aplicables. Por consiguiente, el anlisis de factoriales no balanceados es mucho ms difcil que el de los diseos balanceados. En esta seccin se ofrece un breve panorama general de los mtodos para abordar los factoriales no balanceados, centrando la atencin en el caso del modelo de efectos fijos con dos factores. Suponga que el nmero de observaciones en la celda ij-sima es nij' Adems, sea lli. = L~=l llij el nmero de observaciones en el rengln i-simo (el nivel i-simo del factor A), sea II J = L ~=1 llij el nmero de observaciones de la columnaj-sima (el nivelj-simo del factor B) y seall.. = L~=l L~=l nij el nmero total de observaciones.
14~2.1
Una de las situaciones que incluye datos no balanceados presenta escasa dificultad para el anlisis; se trata del caso de los datos proporcionales. Es decir, el nmero de observaciones en la celda ij-sima es
ll ..
IJ
=-II
ll. II .). l.
(14-11)
Esta condicin implica que el nmero de observaciones en dos renglones o columnas cualesquiera es proporcional. Cuando ocurren datos proporcionales, puede emplearse el anlisis de varianza estndar. Slo
601
es necesario hacer modificaciones menores en las frmulas del clculo manual de las sumas de cuadrados, las cuales quedan como
SST
= 2:2:2:
i=1 j=1 k=1
nij
SS A
SSB
~ = L.J
i=l
= 2:
j=1
Y.~. - Y.~ nj
11
SS
= L.JL.J ~~
i=1 j=1
SSE
= SST -
SS A
SSB
SS ~
= ~~
i=1 j=1 k=1
Y~k- ~ ~~.
i=1 j=1
ij
Como un ejemplo de datos proporcionales, considere el experimento del diseo de la batera del ejemplo 5-1. En la tabla 14-4 se muestra una versin modificada de los datos originales. Desde luego, los datos son proporcionales; por ejemplo, en la celda 1,1 se tienen _ 111 n 1 _ 10(8) _ 4 1111 11 20 observaciones. Los resultados que se obtienen al aplicar el anlisis de varianza usual a estos datos se presentan en la tabla 14-5. Tanto el tipo de material como la temperatura son significativos, lo cual concuerda con el anlisis del conjunto completo de datos del ejemplo 5-1. Sin embargo, la interaccinque se observ en el ejemplo 5-1 no est presente.
14~2.2
Mtodos aproximados
Cuando los datos no balanceados no se apartan demasiado del caso balanceado, en ocasiones es posible usar procedimientos aproximados que convierten el problema no balanceado en uno balanceado. Esto
70
/1 12
125
/1 13
1 2 3
=4 130 74
= 4 34 80
= 2 58
/11.
= 10
40 75 115 139
70
/1']3
Y1..
/1 21
= 2 159 = 2 138
=
/1 22
= 2 136 = 2
= 1 45
= 896 /1 2. = 5
Y2.. = 581
/1 3. = 5 Y3.. = 683 /1
/1 31
/132
/1 33
150
/1.2 = 8 Y.2. = 769
= 1 96
/1. 1
Y.1. = 1122
n3 = 4 Y.3. = 269
= 20
Y.::
= 2160
:,[
,1
'I
ji
602
11
11
)1
Anlisis de varianza de los datos del diseo de la batera de la tabla 14-4 Suma de cuadrados 8,170.400 16,090.875 5,907.725 8,981.000 39,150.000 Grados de libertad 2 2 4 11 19 Cuadrado medio 4,085.20 8,045.44 1,476.93 816.45
:11
1'1
'[
;
hace, desde luego, que el anlisis sea tan slo aproximado, pero el anlisis de datos balanceados es tan sencillo que con frecuencia el experimentador se ve tentado a usarlo. En la prctica, es necesario decidir cundo los datos no son lo suficientemente diferentes del caso balanceado para hacer que el grado de aproximacin introducido sea relativamente de escasa importancia. A continuacin se describen brevemente algunos de estos mtodos aproximados. Se supone que todas las celdas contienen al menos una observacin (es decir, 11ij 2': 1).
Estimacin de observaciones faltantes
Si slo unas cuantas 11ij son diferentes, un procedimiento razonable es estimar los valores faltantes. Por ejemplo, considere el diseo no balanceado de la tabla 14-6. Evidentemente, estimar el nico valor faltante de la celda 2,2 es un enfoque razonable. Para un modelo con interaccin, la estimacin del valor faltante en la celda ij-sima que minimiza la suma de cuadrados del error es Yij' Es decir, el valor faltante se estima tomando el promedio de las observaciones que estn disponibles en esa celda. El valor estimado se trata como un dato real. La nica modificacin del anlisis de varianza es reducir los grados de libertad del error en el nmero de observaciones faltantes que se han estimado. Por ejemplo, si se estima el valor faltante en la celda 2,2 de la tabla 14-6, se usaran 26 grados de libertad en lugar de 27.
Apartado de datos
Considere los datos de la tabla 14-7. Observe que la celda 2,2 slo tiene una observacin ms que las otras. Estimar los valores faltantes de las ocho celdas restantes quiz no sea una buena idea en este caso, ya que esto resultara en estimaciones equivalentes a cerca de 18% de los datos finales. Una alternativa es apartar una de las observaciones de la celda 2,2, para obtener as un diseo balanceado con 11 = 4 rplicas. La observacin que se aparte deber elegirse al azar. Adems, en lugar de descartar completamente la observacin, podra reintegrarse al diseo, despus elegir al azar otra observacin para apartarla y re-
Tabla 14-6
Renglones 1 2 3
603
Tabla 14-7
Columnas Renglones 1
2 3
1 4 4 4
2 4 5 4
4 4 4
petir el anlisis. Y, se esperara, estos dos anlisis no llevarn a interpretaciones antagnicas de los datos. Si lo hacen, se sospecha que la observacin que se apart es un valor atpico o disparatado y deber manejarse en consecuencia. En la prctica es improbable que ocurra esta confusin cuando slo se aparta un nmero reducido de observaciones y la variabilidad dentro de las celdas es pequea.
Mtodo de las medias no ponderadas
En este enfoque, introducido por Yates [IBa], los promedios de las celdas se tratan como si fueran datos y son objeto de un anlisis de datos balanceados estndar para obtener las sumas de cuadrados de los renglones, las columnas y la interaccin. El cuadrado medio del error se encuentra como
a
nij
MS
E
= _i=_l....:j_=l_k_=_l
11
LLL(Yijk - Yij.)2
_
-ah
(14-12)
Entonces, MS E estima er, la varianza de Yijk, una observacin individual. Sin embargo, se ha realizado un anlisis de varianza de los promedios de las celdas, y como la varianza del promedio de la celda ij-sima es er/11ij' el cuadrado medio del error que se usa en realidad en el anlisis de varianza deber ser una estimacin de la varianza promedio de las Yij, por ejemplo
a
b
2
/11 IJ ..
V(Yij,)=
i=l j=l
ah
= ~ LL
ah
i=l j=l
11ij
(14-13)
MS~=MSE! ~
ah
i=l j=l
11ij
(14-14)
como el cuadrado medio del error (con 11.. -ah grados de libertad) que se usar en el anlisis de varianza. El mtodo de las medias no ponderadas es un procedimiento aproximado porque las sumas de cuadrados de los renglones, las columnas y la interaccin no se distribuyen como una variable aleatoria ji-cuadrada. La ventaja principal del mtodo parece ser la simplicidad de los clculos. Cuando las 11ij no difieren de manera radical, el mtodo de las medias no ponderadas funciona con frecuencia razonablemente bien. Una tcnica relacionada es el mtodo de los cuadrados ponderados de las medias, propuesto tambin por Yates [113a]. Esta tcnica se basa tambin en las sumas de cuadrados de las medias de las celdas, pero los trminos de las sumas de cuadrados se ponderan en proporcin inversa a sus varianzas. Para mayores detalles de este procedimiento, ver Searle [99a] y Speed, as como Hocking y Hackney [106].
604
14~2.3
CAPTULO 14
Mtodo exacto
En situaciones en que los mtodos aproximados no son apropiados, como cuando ocurren celdas vacas (algunas ll ij = O) o cuando las llij presentan diferencias radicales, el experimentador debe usar un anlisis exacto. El enfoque utilizado para desarrollar las sumas de cuadrados para probar los efectos principales y las interacciones consiste en representar el modelo del anlisis de varianza como un modelo de regresin, ajustar ese modelo a los datos y usar el enfoque de la prueba general de significacin de la regresin. Sin embargo, existen varias formas en que puede hacerse esto, y estos mtodos pueden producir valores diferentes para las sumas de cuadrados. Adems, las hiptesis que se estn probando no siempre son anlogos directos de las del caso balanceado, y su interpretacin tampoco es siempre sencilla. Para mayor informacin al respecto, ver el material suplementario del texto de este captulo. Otras buenas referencias son Searle [99a]; Speed y Hocking [105]; Hocking y Speed [58]; Hocking, Hackney y Speed [57]; Speed, Hocking y Hackney [106]; Searle, Speed y Henderson [102]; Searle [99c]; y Milliken y Johnson [79]. El software de estadstica SAS proporciona un excelente enfoque del anlisis de datos no balanceados a travs del procedimiento PROC GLM.
. 14~3
ANLISIS DE COYARIANZA
En los captulos 2 y 4 se introdujo el uso del principio de la formacin de bloques para mejorar la precisin con la que se hacen comparaciones entre tratamientos. La prueba t pareada fue el procedimiento ilustrado en el captulo 2, mientras que en el captulo 4 se present el diseo de bloques aleatorizados. En general, el principio de la formacin de bloques puede usarse para eliminar el efecto de los factores perturbadores controlables. El anlisis de covarianza es otra tcnica que en ocasiones es til para mejorar la precisin de un experimento. Suponga que en un experimento con una variable de respuesta y existe otra variable, por ejemplo x, y que y se relaCiona linealmente conx. Adems, suponga quex no puede ser controlada por el experimentador, pero puede observarse junto con y. A la variable x se le llama variable con comitante o covariable. El anlisis de covarianza implica ajustar la variable de respuesta observada para el efecto de la variable concomitante. Si no se hace este ajuste, la variable concomitante podra inflar el cuadrado medio del error y hacer que sean ms difciles de detectar las verdaderas diferencias en la respuesta debidas a los tratamientos. Por lo tanto, el anlisis de covarianza es un mtodo de ajuste para los efectos de una variable perturbadora no controlable. Como se ver, el procedimiento es una combinacin del anlisis de varianza y del anlisis de regresin. Como un ejemplo de un experimento en ef que puede emplearse el anlisis de covarianza, considere el estudio realizado para determinar si existe una diferencia en la resistencia de una fibra de monofilaTabla 14-8 Datos de la resistencia a la ruptura (y = dimetro en 10-3 pulgadas)
= resistencia en libras
Mquina 3
yx
Mquina 1
y
x
Mquina 2
y
x
36 41 39 42 49 207
20 25 24 25 32 126
40 48 39 45 44 216
22 28
22
30 28 130
35 37 42 34 32 180
21 23 26 21 15 106
~
r
:!
605
50
45
'" ~
15. 40
2
.!!l ro ro c:
::l
'"
';
35
ID
c:
ID
30
10
20
30
40
Dimetro, x
mento producida por tres mquinas diferentes. Los datos de este experimento se muestran en la tabla 14-8. En la figura 14-3 se presenta un diagrama de dispersin de la resistencia (y) contra el dimetro (o grosor) de la muestra. Evidentemente, la resistencia de la fibra tambin se afecta por su grosor; por consiguiente, una fibra ms gruesa ser por lo general ms resistente que una delgada. El anlisis de covarianza podra usarse para eliminar el efecto del grosor (x) sobre la resistencia (y) cuando se prueban las diferencias en la resistencia entre las mquinas.
14~3.1
A continuacin se describe el procedimiento bsico para el anlisis de covarianza, ilustrndolo para un experimento de un solo factor con una covariable. Suponiendo que existe una relacin lineal entre la respuesta y la covariable, un modelo estadstico apropiado es i = 1, 2, ,a (14-15) y.. = fl+'tt +[3(x i .. j -x )+s 1) .. { j= 1, 2, ,n ..
EJ
donde Yij es la observacinj-sima de la variable de respuesta tomada bajo el tratamiento o nivel i-simo del nico factor,x es la medicin hecha de la covariable o variable concomitante correspondiente aY (es decir, la corrida ij-sima), es la media de los valoresx, fl es la media global, 'ti es el efecto del tratamiento i-simo, [3 es el coeficiente de regresin lineal que indica la dependencia de Y dexij y Sij es un componente del error aleatorio. Se supone que los errores Sij son NID(O, if), que la pendiente [3 :; OYque la verdadera relacin entre Yij y xii es lineal, que los coeficientes de regresin de cada tratamiento son idnticos, que la suma de los efectos de los tratamientos es cero (L~=l 'ti = O) Yque la variable concomitantex no se afecta por los tratamientos. Observe, por la ecuacin 14-15, que el modelo del anlisis de covarianza es una combinacin de los modelos lineales empleados en el anlisis de varianza y regresin. Es decir, se tienen efectos de los tratamientos {'tJ, como en un anlisis de varianza de un solo factor, y un coeficiente de regresin [3, como en una ecuacin de regresin. La variable concomitante de la ecuacin 14-15 se expresa como (xij -x.,)
x..
606
en lugar dexij, para que el parmetro f-i se preserve como la media global. El modelo pudo haberse escrito como 1,2, , a (14-16) ] - 1,2, , n
{i.:
donde f-i es una constante diferente de la media global, que para este modelo es f-i + (Ji.,. Es ms comn encontrar la ecuacin 14-15 en la literatura sobre el tema. Para describir el anlisis, se introduce la siguiente notacin:
I I
Sy
y2
a;z
x2
(14-17)
(14-18)
S,u:
= LJLJ ""'"'"
i=l j=l
a
11
(x"IJ - X.. )2
_
J=l
lj
S~y =
LL (Xij -x.. )(Yij - Y.. )= LL XijYij j=l i=l j=l 1 Ty = n"'" LJ (y - Y )2 = -"'" n LJ y L an
11
(X,)(y..) an
i=l
i,
..
i.
1=1
1=1
= n"'" LJ
i=1
(X i, -x.. )2
="'" n LJ
1=1
2 __ Xi. an
'o
X2
= ~!
i=l j=l j=l j=l
= ~!
i=l
= ~!
i=l
S~y -T.TJ'
Observe que, en general, S = T + E, donde los smbolos S, Ty E se usan para denotar las sumas de cuadrados y los productos cruzados del total, los tratamientos y el error, respectivamente. Las sumas de cuadrados dexyy deben ser no negativas; sin embargo, las sumas de los productos cruzados (xy) pueden ser negativas. A continuacin se indica la forma en que el anlisis de covarianza ajusta la variable de respuesta para el efecto de la covariable. Considere el modelo completo (ecuacin 14-15). Los estimadores de mnimos cuadrados de f-i, "i Yf3 son l = Ji.., ri = Yi. - Y.. - ~(Xi. - x.. ), y
f3 = -
Exy
E,,-'I:
(14-26)
SSE
= Ey _(ETJ')2 / Erx;
SSE a(n-1)-1
(14-27)
con a(n - 1) - 1 grados de libertad. La varianza del error experimental se estima con
MS _
E -
607
Suponga ahora que no hay ningn efecto de los tratamientos. El modelo (ecuacin 14-15) sera entonces
Y1)..
(14-28)
y puede demostrarse que los estimadores de mnimos cuadrados de Jl y (3 son fl de cuadrados del error en este modelo reducido es
con an - 2 grados de libertad. En la ecuacin 14-29, la cantidad (Sxy)2/Sxx es la reduccin de la suma de cuadrados de y obtenida a travs de la regresin lineal de y sobre x. Adems, observe que SSE es menor que SS~ [ya que el modelo (ecuacin 14-15) contiene los parmetros adicionales {r}] y que la cantidad SS~ SSE es una reduccin en la suma de cuadrados debida alas {r}. Parlo tanto, la diferencia entre SS~ y SSe. es decir, SS~ - SSE, proporciona una suma de cuadrados con a -1 grados de libertad para probar la hiptesis de que no hay ningn efecto de los tratamientos. Por consiguiente, para probar Ho:r = O, se calcula
F. =..:....( S_S..:::.~ _-_S_SE"-.:)c-/--'. (a_-_1-'...) o SSE /[a(n-1)-1]
(14-30)
que, si la hiptesis nula es verdadera, se distribuye como Fa -1, a(n -1) -1' Por lo tanto, Ho:r = Ose rechaza si o > Fa, a _ 1, a(n _ 1) _ l' Tambin podra usarse el enfoque del valor P. Es instructivo examinar la presentacin de la tabla 14-9. En ella el anlisis de covarianza se ha presentado como un anlisis de varianza "ajustado". En la columna de la fuente de variacin, la variabilidad total se mide por SYY' con an - 1 grados de libertad. La fuente de variacin "regresin" tiene la suma de cuadrados (Sxy?/Sxx con un grado de libertad. Si no hubiera ninguna variable concomitante, se tendra Sxy = Srx; = Exy = E xx = O. Entonces la suma de cuadrados del error sera simplementeEyy y la suma de cuadrados de los tratamientos sera Syy - E yy = Tyy . Sin embargo, debido a la presencia de la variable concomitante, Syy y E yy deben"ajustarse" para la regresin de y sobre x, como se muestra en la trbla 14-9. La suma de cuadrados del error ajustada tiene a(n -1) -1 grados de libertad en lugar de a(n 1) grados de libertad debido a que se ajusta un parmetro adicional (la pendiente (3) a los datos. Los clculos suelen presentarse en una tabla del anlisis de covarianza como la tabla 14-10. Se emplea esta presentacin porque resume de manera conveniente todas las sumas de cuadrados y los productos cruzados requeridos, as como las sumas de cuadrados para probar las hiptesis acerca de los efectos de los tratamientos. Adems de utilizarla para probar la hiptesis de que no hay diferencias en los efectos de los tratamientos, con frecuencia esta tabla se encuentra til en la interpretacin de los datos para presentar las medias de los tratamientos ajustadas. Estas medias ajustadas se calculan de acuerdo con
i=1,2, ... ,a
donde
(14-31)
jJ= Exy / E xx . Esta media de los tratamientos ajustada es el estimador de mnimos cuadrados de Jl + r, i = 1,2, .oo, a, en el modelo (ecuacin 14-15). El error estndar de cualquier media ajustada de los
tratamientos es (14-32)
0\
00
Tabla 14-9
Suma de cuadrados
Grados de libertad
1
Cuadrado medio
SS~
Fa
(SS~
(Sxy?/S;cr
SS~ -SSE =Syy _(Sx,)2 / S;cr -[Eyy -(Exy? / E;cr]
-SSE a-1
-SSE)/(a-1) MSE
Error
Total
Tabla 14-10 Anlisis de covarianza de un experimento de un solo factor con una covariable
Cuadrado medio
T;cr E;cr
S;cr
Tyy EYJ ,
SYJ'
Error
Total Tratamientos ajustados
SSE
SS~
SS~
a(n -1)-1
an-2
a-1
SS~
-SSE a-1
:/J
~
11
609
Por ltimo, cabe recordar que se ha supuesto que el coeficiente de regresin {3 del modelo (ecuacin 14-15) es diferente de cero. La hiptesis H o:{3 = Opuede probarse utilizando el estadstico de prueba
F
a
= (E,-oY / E
MS E
xx
(14-33)
que bajo la hiptesis nula se distribuye como F 1, a(n -1) _ l' Por lo tanto, H o:{3
a(n - 1) -1'
EJEMPLO
14~4
Considere el experimento descrito al principio de la seccin 14-3. Tres mquinas producen una fibra de monofilamento en una fbrica textil. El ingeniero del proceso tiene inters en determinar si existe alguna diferencia en la resistencia a la ruptura de la fibra producida por las tres mquinas. Sin embargo, la resistencia de una fibra se relaciona con su dimetro, con las fibras ms gruesas, siendo stas, en general, ms resistentes que las ms delgadas. Se selecciona una muestra aleatoria de cinco ejemplares de prueba de fibra de cada mquina. En la tabla 14-8 se muestra la resistencia de la fibra (y) y el dimetro correspondiente (x) de cada ejemplar. El diagrama de dispersin de la resistencia a la ruptura contra el dimetro de la fibra (figura 14-3) indica una clara tendencia a una relacin lineal entre la resistencia a la ruptura y el dimetro, y parece apropiado eliminar el efecto del dimetro sobre la resistencia mediante un anlisis de covarianza. Suponiendo que la relacin lineal entre la resistencia a la ruptura y el dimetro es apropiada, el modelo es
" Yl)
l)..
i = 1,2,3 { j= 1,2'00.,5 .
Utilizando las ecuaciones 14-17 a 14-25, pueden calcularse 3 5 2 (603)2 SJY = Y~ -~= (36)2 +(41)2 + +(32)2 - - - = 346.40
oo'
x2
--"
an an
(~(~
(362)2
Sxy =
1=1 )=1
i=l j=l
(3)(5)
xijYij -
(362)(603) (3)(5)
T
,
YJ
1:.
n 1
l_l
i=l
l.
Tu = n
T<y
2: x
3
2
l.
=~
1=1
i=l
5 1
X.Yi. -
~~..) ~[(126)(207)+(130)(216)+(106)(184)]
610
CAPTULO 14
E yy = S yy - Tyy = 346.40 - 140.40 = 206.00 E xx = S.TX -Txx = 261.73- 66.13= 195.60 EX). = S T = 282.60- 96.00 = 186.60
X)' X)'
= Syy -
SSE
= E yy -(EX)')2 / E xx
= 206.00- (186.60)2 /195.60 = 27.99
con a(n - 1) - 1 = 3(5 - 1) - 1 = 11 grados de libertad. La suma de cuadrados para probar H O:7: l = 7:2 = 7:3 = O es
SS~-SSE
=41.27-27.99 = 13.28
con a - 1 = 3 - 1 = 2 grados de libertad. Estos clculos se resumen en la tabla 14-11. Para probar la hiptesis de que las mquinas difieren en la resistencia a la ruptura de la fibra producida, es decir, H o:7: = O, por la ecuacin 14-30 el estadstico de la prueba se calcula como
F
o
= (SS~-SSE)/(a-1)
SSE /[a(n-1)-1]
= 13.28/2 27.99/11
= 6.64 =
2.54
2.61
Al comparar este valor con F O.lO , 2,11 = 2.86, se encuentra que no puede rechazarse la hiptesis nula. El valor P de este estadstico de la prueba es P = 0.1181. Por lo tanto, no hay evidencia slida de que las fibras producidas por las tres mquinas difieran en la resistencia a la ruptura. La estimacin del coeficiente de regresin se calcula con la ecuacin 14-26 como
l3 =
EX)' E xx
= 186.60 = 0.9540
195.60
70.08
y puesto que F O.Ol , 1, 11 = 9.65, se rechaza la hiptesis de que f3 = O. Por lo tanto, existe una relacin lineal entre la resistencia a la ruptura y el dimetro, y el ajuste proporcionado por el anlisis de covarianza fue necesario.
""id,,.
Ajustados para la regin Fuente de variacin Mquinas Error Total Mquinas ajustadas Grados de libertad
2 12 14
y
27.99 41.27 13.28
Grados de libertad
11 13 2
Cuadrado medio
2.54 6.64
Fa Valor P
2.61
0.1181
0\
t-' t-'
,--~
612
CAPTULO 14
Las medias de los tratamientos ajustadas pueden calcularse con la ecuacin 14-31. Estas medias ajustadas son
x.. )
x..)
Al comparar las medias ajustadas con las medias no ajustadas de los tratamientos (las)!;.), se observa que las medias ajustadas se encuentran mucho ms prximas entre s, una indicacin ms de que el anlisis de covarianza fue necesario. Un supuesto bsico en el anlisis de covarianza es que los tratamientos no influyen en la covariablex, ya que la tcnica elimina el efecto de las variaciones en las Xi.' Sin embargo, si la variabilidad en las Xi. se debe en parte a los tratamientos, entonces el anlisis de covarianza elimina parte del efecto de los tratamientos. Por lo tanto, deber tenerse una seguridad razonable de que los tratamientos no afectan los valoresxij En algunos experimentos esto puede ser obvio a partir de la naturaleza de la covariable, mientras que en otros puede ser ms dudoso. En el ejemplo tratado aqu puede haber una diferencia en el dimetro de la fibra (xij ) entre las tres mquinas. En tales casos, Cochran y Cox [26] sugieren la posible utilidad de un anlisis de varianza de los valoresxij para determinar la validez de este supuesto. Para el problema tratado aqu, con este procedimiento se obtiene
, F. = 66.13/2 o 195.60/12
que es menor que F O.10,2,12 = 2.81, por lo que no hay razn para creer que las mquinas producen fibras con dimetros diferentes. La verificacin del diagnstico del modelo de covarianza se basa en el anlisis residual. Para el modelo de covarianza, los residuales son donde los valores ajustados son A.. = t,., l+f.+(3A(x .. -x )=y-_. +[y-.l . -y_(3A(X.l . -x)] tj 1 1].. .. .. Y
Por lo tanto, (14-34) Para ilustrar el uso de la ecuacin 14-34, el residual de la primera observacin de la primera mquina del ejemplo 14-4 es en
14-3 ANLISISDECOVARIANZA
613
En la tabla siguiente se presenta una lista completa de las observaciones, los valores ajustados y los residuales:
Valor observado Yi 36 41 39 42 49 40 48 39 45 44 35 37 42 34 32 Valor ajustado Yi; 36.4392 41.2092 40.2552 41.2092 47.8871 39.3840 45.1079 39.3840 47.0159 45.1079 35.8092 37.7171 40.5791 35.8092 30.0852 Residual ei = Yi -Yi -0.4392 -0.2092 -1.2552 0.7908 1.1129 0.6160 2.8921 -0.3840 -2.0159 -1.1079 -0.8092 -0.7171 1.4209 -1.8092 1.9148
Los residuales se grafican contra los valores ajustados 5\ en la figura 14-4, contra la covariablexij en la figura 14-5 y contra las mquinas en la figura 14-6. En la figura 14-7 se muestra la grfica de probabilidad normal de los residuales. Estas grficas no revelan ninguna desviacin importante de los supuestos, por lo quese concluye que el modelo de covarianza (ecuacin 14-15) es apropiado para los datos de la resistencia a la ruptura. Es interesante observar 10 que habra ocurrido en este experimento si no se hubiera realizado el anlisis de covarianza, es decir, si los datos de la resistencia a la ruptura (y) se hubieran analizado como un experimento de un solo factor en el que se ignorara la covariablex. En la tabla 14-12 se muestra el anlisis de varianza de los datos de la resistencia a la ruptura. Se concluira, con base en este anlisis, que las mquinas difieren significativamente en la resistencia de la fibra producida. Es exactamente la conclusin
+4
+2
25 30
35
45
-2
40
50
Figura 144 Grfica de los residuales contra los valores ajustados del ejemplo 14-4.
614
4
CAPTULO 14
..
:;:.
-2
...
10
20
30
40
50
Figura 14-5 Grfica de los residuales contra el dimetro x de la fibra en el ejemplo 14-4.
opuesta del anlisis de covarianza. Si se sospechara que las mquinas difieren significativamente en su efecto sobre la resistencia de la fibra, entonces se intentara igualar la resistencia producida por las tres mquinas. Sin embargo, en este problema las mquinas no difieren en la resistencia de la fibra producida despus de que se elimina el efecto lineal del dimetro. Sera conveniente reducir la variabilidad del dimetro de la fibra dentro de las mquinas, ya que con esto probablemente se reducira la variabilidad de la resistencia de la fibra.
14~3.2
Se cuenta con varios paquetes de software que pueden realizar el anlisis de covarianza. En la tabla 14-13 se muestra la salida del procedimiento General Linear Models (modelos lineales generales) de Minitab
-2
11
1 -_ _-1-_ _-..1.
.1-._ _
-4
2 Mquina
14-3 ANLI515DECOVARIANZA
615
99 95 90
a ~
80 70 60 50 40 30 20 10 5
ro
"O
E O
c:
:c ro
.c
c..
;g
ro
-4
-2
o
Residuales, eij
Figura 14-7 Grfica de probabilidad normal de los residuales del ejemplo 14-4.
para los datos del ejemplo 14-4. Esta salida es muy similar a las que se presentaron anteriormente. En la seccin de la salida bajo el encabezado "Anlisis de varianza" ("Analysis ofvariance"), "SS Seq" corresponde a la particin "secuencial" de la suma de cuadrados del modelo global, es decir, SS (Modelo) = SS (Dimetro) + SS(Mquina IDimetro) = 305.13+ 13.28 = 318.41 mientras que "SS ajustada" corresponde a la suma de cuadrados "extra" para cada factor, es decir, SS(Mquina IDimetro) = 13. 28
y
SS(Dimetro IMquina) = 178.01 Observe que SS(Mquina IDimetro) es la suma de cuadrados que deber usarse para probar que no hay ningn efecto de la mquina, y que SS(Dimetro IMquina) es la suma de cuadrados corregida que deber usarse para probar la hiptesis de que f3 = O. Los estadsticos de la prueba de la tabla 14-13 difieren ligeramente de los que se calcularon manualmente debido al redondeo.
Tabla 14-12 Anlisis incorrecto de los datos de la resistencia a la ruptura como un experimento de un solo factor
Grados de libertad 2 12 14
Fo
4.09
Valor P 0.0442
616
CAPTULO 14
Tabla 1413 Salida de Minitab (anlisis de covarianza) del ejemplo 14-4 Modelo lineal general
Factor Machine
Analysis of Variance for Strength, using Adjusted SS for Tests Source Diameter Machine Error Total Term Constant Diameter Machine 1 2 DF 1 2 11 14 Coef 17.177 0.9540
0.1824 1.2192
F 69.97 2.61
0.000 0.118
El programa calcula tambin las medias de los tratamientos ajustadas con la ecuacin 14-31 (Minitab hace referencia a stas como las medias de mnimos cuadrados en la salida muestral) y los errores estndar. El programa comparar asimismo todos los pares de medias de tratamientos utilizando losprocedimientas de comparacin mltiple por pares estudiados en el captulo 3.
14..3.3
Es posible desarrollar formalmente el procedimiento para probar H o:7:; = Oen el modelo de covarianza
IJ..
IJ
(14-35)
utilizando la prueba general de significacin de la regresin. Considere la estimacin de los parmetros del modelo (ecuacin 14-15) por mnimos cuadrados. La funcin de mnimos cuadrados es
L=
(14-36)
14-3 ANLlS1SDECOVARIANZA
617
y a partir de aL/at
= aL/ar:i = aL/af3 = O,
t: an.u+ n!
i=l
1 1
fi
= Y.
i = 1, 2, ... ,a
j=l
(14-37b) (14-37c)
(Xi)'
j=l
-X..)+~Sx:<
= Sxy
Al sumar las a ecuaciones de la ecuacin 14-37b, se obtiene la ecuacin 14-37a porque L:=lL;=l (xijx..) = O, por lo que existe una dependencia lineal en las ecuaciones normales. Por lo tanto, es necesario aumentar las ecuaciones 14-37 con una ecuacin linealmente independiente para obtener una solucin. Una condicin lgica es L:=l f i = O. Al utilizar esta condicin, de la ecuacin 14-37a se obtiene (14-38a) .u = Y..
y de la ecuacin 14-37b
fi
a n
(14-38b)
j=l
i=l
j=l
l.
-y-
)~ L"., (x .. -x )= T xy
I}
j=l
i=l
j=l
Por lo tanto, la solucin de la ecuacin 14-37c es Sxy -Txy Exy f3= =Sx:<-Tx:< Ex:<
h
que fue el resultado dado anteriormente en la seccin 14-3.1 en la ecuacin 14-26. La reduccin en la suma de cuadrados total debida al ajuste del modelo (ecuacin 14-15) puede expresarse como
f i Yi.
a
;=1
+ ~S xy
(Exy / Ex:< )(xi. - X.. )]Yi. +(Exy / Ex:< )Sxy
(Xi. -X..)Yi. +(Exy / Ex:<)Sxy
618
a
Esta suma de cuadrados tiene a + 1 grados de libertad porque el rango de las ecuaciones normales es + 1. La suma de cuadrados del error de este modelo es
SSE
! y~ = ! y~
i=l j=l i=l j=l
-R(/-l, T, [3)
- y lan-Tyy _(E"y)2 lE,.,.
(14-39)
con an - (a + 1) = a(n -1) -1 grados de libertad. Esta cantidad se obtuvo anteriormente como la ecuacin 14-27. Considere ahora el modelo restringido a la hiptesis nula, es decir, a H o:T 1 = T2 = ... = Ta = O. Este modelo reducido es
y.. = /-l+[3(x .. -x
lJ
1]..
)+s l}..
i = 1, 2, { j= 1,2,
,a ,n
(14-40)
Se trata de un modelo de regresin lineal simple, y las ecuaciones normales de mnimos cuadrados para este modelo son
anp, = Y.
(14-41a) (14-41b)
Las soluciones de estas ecuaciones son p, = Y .. y jJ debida al ajuste del modelo reducido es
R(/-l, [3) = p,y.
(14-42)
Esta suma de cuadrados tiene dos grados de libertad. La suma de cuadrados apropiada para probar H o:T 1 = T2 = ...
R( TI l, [3) = R(l, T, [3) - R(/-l, [3)
utilizando Tyy = Syy - Eyy . Observe que R(T l/-l, [3) tiene a + 1- 2 = a -1 grados de libertad y que es idntica a la suma de cuadrados dada por SSl,-SSE en la seccin 14-3.1. Por lo tanto, el estadstico de prueba para Ho:T i = O es
F. = R( TI /-l, [3) I (a - 1) = ..:....( S_S",-~ -_SS--=E...:....)I---,(_a------'-1)
o
SSE l[a(n-1)-1]
SSE l[a(n-1)-1]
(14-44)
expresin que se dio anteriormente como la ecuacin 14-30. Por lo tanto, utilizando la prueba general de significacin de la regresin, se ha justificado el desarrollo heurstico del anlisis de covarianza de la seccin 14-3.1.
14-3 ANLISISDECOVARIANZA
619
14~3.4
El anlisis de covarianza puede aplicarse a estructuras de tratamientos ms complejas, como los diseos factoriales. Siempre que existan datos suficientes para cada combinacin de tratamientos, prcticamente cualquier estructura de tratamientos compleja puede analizarse mediante el enfoque del anlisis de covarianza. A continuacin se indica cmo podra usarse el anlisis de covarianza en la familia ms comn de diseos factoriales utilizados en la experimentacin industrial, los factoriales 2k Al establecer el supuesto de que la covariable afecta a la variable de respuesta de manera idntica para todas las combinaciones de tratamientos, podra construirse una tabla del anlisis de covarianza similar al procedimiento dado en la seccin 14-3.1. La nica diferencia sera la suma de cuadrados de los tratamientos. Para un factorial 22 con n rplicas, la suma de cuadrados de los tratamientos (Ty'y) sera (1/n) L;=l L~=l y'~/(2)(2)n. Esta cantidad es la suma de las sumas de cuadrados de los factores A, B y la interaccinAB. Entonces podra hacerse la particin de la suma de cuadrados ajustada de los tratamientos en componentes de los efectos individuales, es decir, la suma de cuadrados de los efectos principales ajustados SSA y SSB' y una suma de cuadrados de la interaccin, SSAB' El nmero de rplicas es un aspecto clave cuando se ampla la estructura de los tratamientos del diseo. Considere un arreglo factorial 23 Se necesita un mnimo de dos rplicas para evaluar todas las combinaciones de tratamientos con una covariable separada para cada combinacin de tratamientos (una covariable por interaccin de tratamientos). Esto es equivalente a ajustar un modelo de regresin simple a cada combinacin de tratamientos o celda del diseo. Con dos observaciones por celda, un grado de libertad se usa para estimar la ordenada al origen (el efecto del tratamiento), y el otro se usa para estimar la pendiente (el efecto de la covariable). Con este modelo saturado, no se cuenta con ningn grado de libertad para estimar el error. Por lo tanto, se necesitan al menos tres rplicas para un anlisis de covarianza completo, suponiendo el caso ms general. Este problema se agudiza cuando se incrementa el nmero de celdas distintas del diseo (combinaciones de tratamientos) y las covariables. Si el nmero de rplicas est limitado, pueden hacerse varios supuestos para permitir un anlisis til. El supuesto ms simple (y tpicamente el peor) que puede hacerse es que la covariable no tiene ningn efecto. Si la covariable, incorrectamente, deja de tomarse en consideracin, el anlisis completo y las conclusiones subsecuentes podran tener graves errores. Otra eleccin es suponer que no hay ningn tratamiento por interaccin de la covariable. Aun cuando este supuesto sea incorrecto, el efecto promedio de la covariable en todos los tratamientos seguir incrementando la precisin de la estimacin y la prueba de los efectos de los tratamientos. Una desventaja de este supuesto es que si varios niveles de los tratamientos interactan con la covariable, los diferentes trminos pueden cancelarse entre s y el trmino de la covariable, si se estima solo sin ninguna interaccin, puede resultar no significativo. Una tercera eleccin sera suponer que algunos de los factores (como algunas interacciones de dos factores y de rdenes superiores) no son significativos. Esto permite usar parte de los grados de libertad para estimar el error. Sin embargo, este curso de accin deber emprenderse con cuidado, y los modelos subsecuentes debern evaluarse a profundidad, ya que la estimacin del error ser relativamente imprecisa a menos que se le asignen suficientes grados de libertad. Con dos rplicas, cada uno de estos supuestos liberar algunos grados de libertad para estimar el error y permitir realizar pruebas de hiptesis tiles. El supuesto que se establecer deber ser dictado por la situacin experimental y por el riesgo que el experimentador est dispuesto a correr. Cabe hacer notar que en la estrategia de construccin del modelo de los efectos, si se elimina el factor de uno de los tratamientos, entonces las dos "rplicas" resultantes de cada factorial 23 original no son en realidad rplicas. Estas "rplicas ocultas" liberan grados de libertad para la estimacin de parmetros, pero no debern usarse como rplicas para estimar el error puro porque la ejecucin del diseo original quiz no se haya aleatorizado para ello.
y:. -
620
CAPTULO 14
Tabla 14-14 Datos de la respuesta y la covariable para un: diseo 23 con: 2 rplicas A x e y B -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 4.05 0.36 5.03 1.96 5.38 8.63 4.10 11.44 3.58 1.06 15.53 2.92 2.48 13.64 -0.67 5.13 -30.73 9.07 39.72 16.30 -26.39 54.58 44.54 66.20 -26.46 10.94 103.01 20.44 -8.94 73.72 15.89 38.57
Para ilustrar algunas de estas ideas, considere el diseo factorial 23 con dos rplicas y una covariable que se muestra en la tabla 14-14. Si la variable de respuesta y se analiza sin tomar en cuenta la covariable, resulta el siguiente modelo:
y= 25.03+11.20A+18.05B+7.24C-18.91AB+ 14.80AC
El modelo global es significativo en el nivel de a = 0.01 con R 2 = 0.786 y MSE = 470.82. El anlisis residual no indica problemas con este modelo, excepto porque la observacin con y = 103.01 es inusual. Si se elige el segundo supuesto, que las pendientes son comunes con ningn tratamiento por interaccin de la covariable, pueden estimarse el modelo de los efectos completo y el efecto de la covariable. La salida de Minitab (de la rutina General Linear Models) se muestra en la tabla 14-15. Observe que MSE se ha reducido considerablemente al tomar en consideracin la covariable. El anlisis final resultante despus de eliminar de manera secuencial cada interaccin no significativa y el efecto principal C se muestra en la tabla 14-16. Este modelo reducido proporciona un MS E todava menor que el modelo completo con la covariable de la tabla 14-15. Por ltimo, podria considerarse un tercer curso de accin, suponiendo que ciertos trminos de interaccin son insignificantes. Se considera el modelo completo que permite pendientes diferentes entre los tratamientos y la interaccin tratamiento por covariable. Se supone que no son significativas las interacciones de tres factores (tantoABC comoABCx) y se usan los grados de libertad asociados con ellas para estimar el error en el modelo de los efectos ms general que pueda ajustarse. ste es con frecuencia un supuesto prctico. Las interacciones de tres factores son porlo general insignificantes en la mayora de los ambientes experimentales. La versin actual de Minitab no puede modelar covariables queinteractan con los tratamientos, por lo que se usa PROC GLM de SAS. Las sumas de cuadrados tipo III son las sumas de cuadrados ajustadas que se necesitan. En la tabla 14-17 se presentan los resultados de SAS para este modelo. Con un modelo casi saturado, la estimacin del error ser bastante imprecisa. Incluso cuando unos cuantos trminos son individualmente significativos en el nivel a = 0.05, el sentido general es que este modelo es mejor que losdos escenarios previos (basados enR 2 y el cuadrado medio del error). Debido a que el aspecto de los efectos de los tratamientos del modelo es de mayor inters, se eliminan de manera secuencial trminos de la porcin de la covariable del modelo a fin de agregar grados de libertad para esti-
621
Tabla 14-15 Anlisis de covarianza de Minitab para el experimento de la tabla 14-14, suponiendo una pendiente com!n Modelo lineal general
14.--
Factor
B C
Analys;s of Var;ance for y, us;ng Adjusted SS for Tests Source x A B C A*B A*C B*C A*B*C Error Total Term Constant x DF 1 1 1 1 1 1 1 1 7 15 Seq SS 12155.9 1320.7 3997.6 52.7 3788.3 10.2 5.2 33.2 628.1 21992.0 StDev 5.454 0.9290 Adj SS 2521.6 1403.8 4066.2 82.3 3641.0 1 .1 8.4 33.2 628.1 T -O .19 5.30 Adj MS 2521.6 1403.8 4066.2 82.3 3641.0 1.1 8.4 33.2 89.7
P
0.858 0.001
mar el error. Si se elimina secuencialmente el trmino ACx seguido de BCx, el MSE decrece a 0.7336 y varios trminos no son significativos. En la tabla 14-18 se muestra el modelo final despus de eliminar secuencialmente ex, AC y Be. Este ejemplo destaca la necesidad de contar con grados de libertad para estimar el error experimental a fin de incrementar la precisin de las pruebas de hiptesis asociadas con los trminos individuales del modelo. Este proceso deber hacerse de manera secuencial para evitar la eliminacin de trminos significativos enmascarados por una estimacin pobre del error.
Tabla 14-16 Anlisis de covarianza de Minitab, modelo reducido parad experimento de la tabla 14-14 Modelo lineal general
Factor A B
DF 1 1 1 1 11 15
Seq SS 12155.9 1320.7 3997.6 3754.5 763.3 21992.0 StDev 3.225 0.4655
0.572 0.000
0\
N N
libIa 14-17
Salida de PROC GLM (anlisis d,: covarianza) de SAS para el experimento de la tabla 14-14
Dependent Variable: Y Source Model Error Corrected Total DF 13 2 15 R-Square 0.999872 Source
A B C
Sum of Squares 21989.20828 2.80406 21992.01234 C.V. 4.730820 Type III SS 4.6599694 13.0525319 35.0087994 17.1013635 0.0277472 0.4437474 49.2741287 33.9024288 95.7747490 0.1283784 336.9732676 0.0020997 0.0672386
Mean Square 1691.47756 1.40203 Root MSE 1.184074 Mean Square 4.6599694 13.0525319 35.0087994 17 .1 013635 0.0277472 0.4437474 49.2741287 33.9024288 95.7747490 0.1283784 336.9732676 0.0020997 0.0672386
F Value 1206.45
Pr > F 0.0008
y Mean 25.02895
F Value
AB AC BC
X
DF 1 1 1 1 1 1 1 1 1 1 1 1 1
3.32 9.31 24.97 12.20 0.02 0.32 35.14 24.18 68.31 0.09 240.35 0.00 0.05
Pr > F 0.2099 0.0927 0.0378 0.0731 0.9010 0.6304 0.0273 0.0390 0.0143 0.7908 0.0041 0.9726 0.8470
'>7
._._.....
',
..
".'MI!!!
Tabla 14-18 Salida de PROC GLM de SAS para el experimento de la tabla 14-14, modelo reducido
Dependent
Vari~ble:
y
[H
7 15
Mean Square 2748.29209 0.81080 Root MSE 0.900444 Mean Square 19.1597158 38.0317496 232.2435668 31.7635098 240.8726525 233.3934567 550.1530561 542.3268940 Pr >
F Value 3389.61
Pr > F 0.0001
Ol\
3.597611 Type 111 SS 19.1597158 38.0317496 232.2435668 31.7635098 240.8726525 233.3934567 550.1530561 542.3268940
y Mean 25.02895
F Value
1 1
AB
X
AX BX ABX
Parameter 1ntercept
A S C AS X
1 1 1 1 1
1
AX BX ABX
Estimate 10.2438830 2.7850330 3.6596279 5.4560862 -3.3636850 2.0471937 2.0632049 3.0340997 -3.D342229
T for HO: Parameter=O 18.74 4.86 6.85 16.92 -6.26 17.24 16.97 26.05 -25.86
IT I
Std Error of Estimate 0.54659908 0.57291820 0.53434356 0.32237858 0.53741264 0.11877417 0.12160595 0.11647826 0.11732045
0'1 N W
624
CAPTULO 14
Al revisar los resultados obtenidos de los tres enfoques, se observa que cada mtodo mejora de manera sucesiva el ajuste del modelo en este ejemplo. Si hay una razn fundada para creer que la covariable no interacta con los factores, quiz sea mejor establecer ese supuesto desde el principio del anlisis. Esta opcin tambin puede ser dictada por el software. Aun cuando los paquetes de software para diseos experimentales quiz slo tengan capacidad para modelar covariables que no interactan con los tratamientos, el analista puede tener una oportunidad razonable de identificar los factores principales que influyen en el proceso, incluso si hay alguna covariable por interaccin de tratamientos. Se observa asimismo que las pruebas usuales de la adecuacin del modelo siguen siendo apropiadas y se recomiendan enrgicamente como parte del proceso de construccin del modelo del anlisis de covarianzaANCOVA.
14~4
MEDICIONES REPETIDAS
En el trabajo experimental de las ciencias sociales y el comportamiento, as como en algunos aspectos de la ingeniera y las ciencias fsicas, las unidades experimentales son con frecuencia personas. Debido a las discrepancias en experiencia, capacitacin o formacin, en algunas situaciones experimentales las diferencias en las respuestas de distintas personas al mismo tratamiento pueden ser muy grandes. A menos que est controlada, esta variabilidad entre las personas se convertir en parte del error experimental, y en algunos casos inflar significativamente el cuadrado medio del error, haciendo ms difcil detectar las diferencias reales entre los tratamientos. Es posible controlar esta variabilidad entre las personas utilizando un diseo en el que cada uno de los a tratamientos se usa en cada persona (o "sujeto"). A ste se le llama diseo de mediciones repetidas. En esta seccin se ofrece una breve introduccin a los experimentos de mediciones repetidas con un solo factor. Suponga que un experimento incluye a tratamientos y que cada tratamiento se va a usar exactamente una sola vez en cada uno de n sujetos. Los datos apareceran como en la tabla 14-19. Vea que la observacin Yij representa la respuesta del sujeto j al tratamiento i y que slo se usan n sujetos. El modelo que se utiliza para este diseo es (14-45) donde ' es el efecto del tratamiento i-simo y f3j es un parmetro asociado con el sujetoj-simo. Se supone que los tratamientos son fijos (de donde L~=l' = O) Yque los sujetos empleados son una muestra aleatoria de alguna poblacin ms grande de individuos potenciales. Por lo tanto, colectivamente los sujetos representan un efecto aleatorio, por lo que se supone que la media de f3j es cero y que la varianza de f3j es a ~ . Puesto que el trmino f3j es comn a todas las a mediciones del mismo sujeto, la covarianza entre Yij YY'j no
Sujeto Tratamiento
1 2 a Totales de los sujetos 1
n
y~
Yn Y?l
Yal Y.l
Yl2 Y?2
Ya2 Y.2
Y211 Yan
Y.lI
YL Y2'
Ya.
Y..
625
es, en general, cero. Se acostumbra suponer que la covarianza entre Yij YYi'j es constante a lo largo de todos los tratamientos y los sujetos. Considere una particin en el anlisis de varianza de la suma de cuadrados total, por ejemplo
(14-46)
i=1 j=1
El primer trmino del miembro derecho de la ecuacin 14-46 puede considerarse como una suma de cuadrados que resulta de las diferencias entre los sujetos, y el segundo trmino es una suma de cuadrados de las diferencias dentro de los sujetos. Es decir, SST
Las sumas de cuadrados SSEntre los sujetos YSSDentro de los sujetos son estadsticamente independientes, con grados de libertad
an-1 = (n-1)+n(a-1)
Las diferencias dentro de los sujetos depende;n tanto de las diferencias en los efectos de los tratamientos como de la variabilidad no controlada (ruido o error). Por lo tanto, la suma de cuadrados resultante de las diferencias dentro de los sujetos puede descomponerse de la siguiente manera:
(14-47)
El primer trmino del miembro derecho de la ecuacin 14-47 mide la contribucin de la diferencia entre las medias de los tratamientos a SSDentro de los sujetoS' Yel segundo trmino es la variacin residual debida al error. Ambos componentes de SSDentro de los sujetos son independientes. Por lo tanto,
SS Dentro de los sujetos
= SSTratamientos + SSE
n(a-1)= (a-1)+(a-1)(n-1)
respectivamente. Para probar la hiptesis de que no hay ningn efecto de los tratamientos, es decir,
H o: 1 =
2
= ... =
H 1 : Al menos una
i :;t:
O O
se usara el cociente
F.
o
(a - 1)(n"""" 1)
MS E
(14-48)
Si los errores del modelo siguen una distribucin normal, entonces bajo la hiptesis nula, H o: i = O, el estadsticoFosigue una distribucin Fa _ 1, (a-1)(n-1)' La hiptesis nula se rechazara siFo > Fa, a-l,(a-1)(n-l)' En la tabla 14-20 se resume el procedimiento del anlisis de varianza, donde se presentan tambin frmulas convenientes de clculo para las sumas de cuadrados. El lector deber identificar el anlisis de varianza de un diseo de un solo factor con mediciones repetidas como el equivalente del anlisis de un diseo de bloques completos aleatorizados, donde los sujetos se consideran como los bloques.
_~,;o
"c-z::~~~=
__
0'1 0'1
Tabla 14-20 Anlisis de varianza del diseo de mediciones repetidas con un solo factor
Fuente de variacin
1. Entre los sujetos
Suma de cuadrados
Grados de libertad
Fa Cuadrado medio
}: Y; _~~
j=l
n-1
11
2:2:y~-2: i=l
j~l
Y.j a
j~l
~ y2 2 LJ ----'-'-_L j~l n an
MSTratamientos
a -1
MSE
4. (Error)
5. Total
2:2: Yj - an
i=l j=l
y.2
, f
14-5 PROBLEMAS
627
14~5
PROBLEMAS
14-1. Considere nuevamente el problema 5-22. Usar el procedimiento de Box-Cox para determinar si es apropiada (o til) una transformacin de la respuesta para analizar los datos de este experimento. 14-2. En el ejemplo 6-3 se seleccion una transformacin logartmica para la respuesta velocidad de avance de una perforadora. Usar el procedimiento de Box-Cox para demostrar que se trata de una transformacin de datos apropiada. 14-3. Considere de nuevo el experimento del proceso de fundicin del problema 8-23, donde se us un diseo factorial fraccionado 26 - 3 para estudiar el peso del material de empaque que se adhiere a nodos de carbono despus de la coccin. Se hicieron tres rplicas de las ocho corridas del diseo, y el peso promedio y el rango de los pesos de cada combinacin de prueba se trataron como las variables de respuesta. Existe algn indicio de que se necesite una transformacin para cualquiera de las dos respuestas? 14-4. En el problema 8-24 se us un diseo factorial fraccionado con rplicas para estudiar el abombamiento o combadura del sustrato en la fabricacin de semiconductores. Se usaron como variables de respuesta tanto la media como la desviacin estndar de las mediciones de la combadura. Existe algn indicio de que se necesite una transformacin para cualquiera de las dos respuestas? 14-5. Considere nuevamente el experimento del recubrimiento fotoprotector del problema 8-25. Usar la varianza del espesor del recubrimiento en cada combinacin de prueba como la variable de respuesta. Existe algn indicio de que se necesite una transformacin? 14-6. En el experimento defectos en la rejilla del problema 8-29 se emple una variante de la transformacin de la raz cuadrada en el anlisis de los datos. Usar el mtodo de Box-Cox para determinar si sta es la transformacin apropiada. 14-7. En el diseo central compuesto del problema 11-14 se obtuvieron dos respuestas, la media y la varianza del espesor del xido. Usar el mtodo de Box-Cox para investigar la utilidad potencial de una transformacin para estas dos respuestas. Es apropiada la transformacin logartmica sugerida en el inciso e de ese problema? 1.4-8. En el diseo factorial 33 del problema 11-33, una de las respuestas es la desviacin estndar. Usar el mtodo de Box-Cox para investigar la utilidad de las transformaciones para esta respuesta. Cambiara su contestacin si se usara la varianza como la respuesta? 14-9. En el problema 11-34 se sugiere usar ln(S2) como la respuesta (referirse al inciso b). El mtodo de Box-Cox indica que. es apropiada una transformacin? 14-10. Un distribuidor de bebidas gaseosas est estudiando la efectividad de los mtodos de descarga. Se han desarrollado tres tipos diferentes de carretillas, y se lleva a cabo un experimento en el laboratorio de ingeniera de mtodos de la compaa. La variable de inters es el tiempo de descarga en minutos (y); sin embargo, el tiempo de descarga tambin guarda una estrecha relacin con el volumen de las cajas descargadas (x). Cada carretilla se us cuatro veces y se obtuvieron los datos siguientes. Analizar estos datos y sacar las conclusiones apropiadas. Utilizar a = 0.05. Tipo de carretilla 1
Y 27 44 33 41
x
24 40 35 40
Y 25 35 46 26
x 26 32 42 25
Y 40 22 53 18
x
38 26 50 20
14-11. Calcular las medias ajustadas de los tratamientos y los errores estndar de stas para los datos del problema 14-10. 14-12. A continuacin se presentan las sumas de cuadrados y los productos de un anlisis de covarianza de un solo factor. Terminar el anlisis y sacar las conclusiones apropiadas. Utilizar a = 0.05.
628
CAPTULO 14
Grados de libertad 3 12 15
14-13. Encontrar los errores estndar de las medias ajustadas de los tratamientos del ejemplo 14-4. 14-14. Se estn probando cuatro formulaciones diferentes de un adhesivo industrial. La resistencia a la tensin del adhesivo cuando se aplica para unir piezas se relaciona tambin con el espesor de la aplicacin. Se obtienen cinco observaciones de la resistencia (y) en libras y del espesor (x) en 0.01 pulgadas para cada formulacin. Los datos se muestran en la siguiente tabla. Analizar estos datos y sacar las conclusiones apropiadas.
2
x 13 14 12 12 14
Y
3
x 12 10 11 12 14
Y
4
x 15 14 11 11 10
Y
x 16 15 10 12 11
14-15. Calcular las medias ajustadas de los tratamientos y sus errores estndar utilizando los datos del problema 14-14. 14-16. Un ingeniero estudia el efecto de la rapidez de corte sobre el ndice de metal eliminado en una operacin de maquinado. Sin embargo, el ndice de metal eliminado se relaciona tambin con la dureza del ejemplar de prueba. Se hacen cinco observaciones de cada rapidez de corte. La cantidad de metal eliminado (y) y la dureza del ejemplar (x) se muestran en la tabla siguiente. Analizar los datos usando un anlisis de covarianza. Utilizar a = 0.05.
1000
Y
1400
Y
68 90 98 77 88
112 94 65 74 85
118 82 73 92 80
14-17. Demostrar que en un anlisis de covarianza de un solo factor con una sola covariable, un intervalo de confianza de 100(1 - a) por ciento para la media ajustada del tratamiento i-simo es
Yi. -
14-5 PROBLEMAS
629
Usando esta frmula, calcular un intervalo de confianza de 95% para la media ajustada de la mquina 1 del ejemplo 14-4. 14-18. Demostrar que en un anlisis de covarianza de un solo factor con una sola covariable, el error estndar de la diferencia entre dos medias ajustadas de los tratamientos cualesquiera es
S",j__
14-19. Comentar la forma en que pueden usarse las curvas de operacin caracterstica para el anlisis de varianza en el anlisis de covarianza.
Bibliografa
Addelman, S. [la.] "Irregular Fractions of the 2n Factorial Experiments", en Technometries, vol. 3, pp. 479-496. Addelman, S. [lb.] "011hogonal Main Effect Plans for Asymmetric Factorial Experiments", en 1eehnometries, vol. 4, pp. 21-46. Addelman, S. [lc.] "Techniques for Constructing Fractional Replicate Plans", en Joumal oftheAmeriean Statistieal Association, vol. 58, pp. 45-71. Anderson, Y.L. y R.A McLean. [2.] Design ofExperiments: A RealistieApproach. Dekker, Nueva York. Anscombe, EJ. [3.] "Rejection of Outliers", en Technometlies, vol. 2, pp. 123-147. Anscombe, EJ. y J.W Tukey. [4.] "The Examination andAnalysis ofResiduals", en Teehnometlies, vol. 5, pp. 141-160. Bainbridge, T.R. [5.] "Staggered, Nested Designs for Estimating Variance Components", en Industlial Quality Contl'ol, vol. 22, pp. 12-20. Bancroft, T.A [6.] Topies in Intennediate Statistieal Methods. Iowa State University Press, Ames, Iowa. Bartlett, M.S. [7.] "The Use of Transformations", en Biometries, vol. 3, pp. 39-52. Barnett, V. y T. Lewis. [8.] Outliers in Statistieal Data. 3a. edicin, Wiley, Nueva York. Bennett, C.A y N.L. Franklin. [9.] StatistiealAnalysis in Chemistly and the Chemicallndustly. Wiley, Nueva York. Bisgaard, S. [10.] "Conditional Inference Chart for Small Unreplicated Two-Level Factorial Experiments", en Quality Engineeling, vol. 11, pp. 267-271. Bowker, AH. y G.J. Lieberman. [11.] Engineeling Statistics. 2a. edicin, Prentice-Hall, Englewood Cliffs, N.J. Box, G.E.P. [12a.] "Some Theorems on Quadratic FormsApplied in the Study of Analysis of Variance Problems: 1. Effect of Inequality of Variance in the One-Way Classification", enAnnals ofMathematieal Statisties , vol. 25, pp. 290-302. Box, G.E.P. [12b.] "Sorne Theorems on Quadratic Forms Applied in the Study of Analysis of Variance Problems: 11. Effect of Inequality of Variance and of Correlation of Errors in the 1Wo-Way Classification", en Annals of Mathematieal Statisties, vol. 25, pp. 484-498. Box, G.E.P. [12c.] "Evolutionary Operation: A Method for Increasing Industrial Productivity", enApplied Statisties, vol. 6, pp. 81-101. Box, G.E.P. [12d.] "Signal-to-Noise Ratios, Performance Criteria, and Transformation", en Teehnometries, vol. 30, pp. 1-40.
630
11
BIBLIOGRAFA
631
Box, G.E.P. [12e.] "Sequential Experimentation and Sequential Assembly of Designs", en Quality Engineering, vol. 5, no. 2, pp. 321-330.
Box, G.E.P. [12f.] "Statistics as a Catalyst to Learning by Scientific Method Part lI-A Discussion" (con comentarios), en Journal of Quality Technology, vol. 31, pp. 16-29. Box, G.E.P. y D.W Behnken. [13.] "Sorne New Three Level Designs for the Study of Quantitative Variables", en Technometrics, vol. 2, pp. 455-476. Box, G.E.P., S. Bisgaard y C.A. Fung. [14.] '~ Explanation and Critique of Taguchi's Contributions to Quality Engineering", en Quality and Reliability Engineering International, vol. 4, pp. 123-131. Box, G.E.P. y D.R Cox. [15.] '~Analysis of Transformations", en Journal ofthe Royal Statistical Society, B, vol. 26, pp. 211-243. Box, G.E.P. y N.R Draper. [16a.] Evolutionary Operation. Wiley, Nueva York. Box, G.E.P. y N.R. Draper. [16b.] Empirical Model Building and Response Swfaces. Wiley, Nueva York. Box, G.E.P. y J.S. Hunter. [17a.] "Multifactor Experimental Designs for Exploring Response Surfaces", en Annals of Mathematical Statistics, vol. 28, pp. 195-242. Box, G.E.P. y J.S. Hunter. [17b.] "The 2k - p Fractional Factorial Designs, Part 1", en Technometrics, vol. 3, pp. 311-352. Box, G.E.P. y J.S. Hunter. [17c.] "The 2k - p Fractional Factorial Designs, Part lI", en TechnometJics, vol. 3, pp. 449-458. Box, G.E.P., WG. Hunter y J.S. Hunter. [18.] Statistics for Experimenters. Wiley, Nueva York. Box, G.E.P. y RD. Meyer. [19.] '~Analysis of Unreplicated Fractional Factorials", en Technometrics, vol. 28, pp. 11-18. Box, G.E.P. y K.G. Wilson. [20.] "On the Experimental Attainment of Optimum Conditions", enJournal of the Royal Statistical Society, B, vol. 13, pp. 1-45. Box, J.E [21.] R.A. Fisher: The Life of a Scientist. Wiley, Nueva York. Burdick, RK. y EA. Graybill. [22.] Confidence Intervals on Variance Components. Dekker, Nueva York. Byrne, D.M. y S. Taguchi. [23.] "The Taguchi Approach to Parameter Design", en Quality Progl'ess, pp. 19-26. Carmer, S.G. y M.R Swanson. [24.] "Evaluation of Ten Pairwise Multiple Comparison Procedures by Monte Carlo Methods", enJournal oftheAmerican StatisticalAssociation, vol. 68, no. 314, pp. 66-74. Cochran, WG. [25a.] "Sorne Consequences when the Assumptions for the Analysis of Variance Are Not Satisfied", en Biometrics, vol. 3, pp. 22-38. Cochran, WG. [25b.] '~alysis of Covariance: Its Nature and Uses", en BiometJics, vol. 13, no. 3, pp. 261-281. Cochran, WG. y G.M. Cox. [26.] Experimental Designs. 2a. edicin, Wiley, Nueva York. Coleman, D.E. y D.C. Montgomery. [27.] ''A Systematic Approach to Planning for a Designed Industrial Experiment" (con comentarios), en TechnometJics, vol. 35, pp. 1-27. Connor WS. y M. Zelen. [28.] Fractional Factorial Expelimental Designs fol' Factors at Three Levels. National Bureau of Standards, Washington, D.C., Applied Mathematics Series, no. 54. Conover, WJ. [29.] Practical Nonparametric Statistics. 2a. edicin, Wiley, Nueva York. Conover, WJ. y RL. Iman. [30a.] "On Sorne Alternative Procedures Using Ranks for the Analysis of Experimental Designs", en Communications in Statistics, vol. AS, pp. 1349-1368.
--632
BIBLIOGRAFA
Conover, WJ. y RL. Iman. [30b.] "Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics" (con comentarios), en The American Statistician, vol. 35, pp. 124-133. Conover, WJ., M.E. Johnson y M.M. Johnson. [31.] ''A Comparative Study of Tests for Homogeneity of Variances, with Applications to the Outer Continental Shelf Bidding Data", en Technometrics, vol. 23, pp. 351-361. Cook, D.R [32a.] "Detection of Influential Observations in Linear Regression", en Technometrics, vol. 19, pp. 15-18. Cook, D.R [32b.] "Influential Observations in Linear Regression", en Joumal oftheAmelican Statistical Association, vol. 74, pp. 169-174. Comell, J.A [33.] Experiments with Mixtures: Designs, Models, and the Analysis of Mixture Data. 2a. edicin, Wiley, Nueva York. Cornfield, J. y J.W Tukey. [34.] ''Average Value of Mean Squares in Factorials", enAnnals ofMathematical Statistics, vol. 27, pp. 907-949. Daniel, C. [35a.] "Use of Half-Normal Plots in Interpreting Factorial Two Level Experiments", en Technometlics, vol. 1, pp. 311-342. Daniel, C. [35b.] Applications of Statistics to Industlial Expelimentation. Wiley, Nueva York. Davies, O.L. [36.] Design andAnalysis ofIndustrial Expeliments. 2a. edicin, Hafner Publishing Company, Nueva York. Derringer, G. y R Suich. [37.] "SimuItaneous Optimization of Several Response Variables", en Joumal of Quality Technology, vol. 12, pp. 214-219. Dolby, J.L. [38.] ''A Quick Method for Choosing a Transformation", en Technometrics, vol. 5, pp. 317-326. Draper, N.R y WG. Hunter. [39.] "Transformations: Sorne Examples Revisited", en Technometrics, vol. 11, pp. 23-40. Duncan, AJ. [40.] Quality Control and Industrial Statistics. 5a. edic}n, Richard D. Irwin, Homewood, 1lI. Duncan, D.B. [41.] "MuItiple Range and MuItiple F Tests", en Biometrics, vol. 11, pp. 1-42. Dunnett, C.W [42.] "New Tables for Multiple Comparisons with a Control", en Biometrics, vol. 20, pp. 482-491. Eisenhart, C. [43.] "The Assumptions Underlying the Analysis of Variance", en Biometrics, vol. 3, pp. 1-21. Fisher, RA [44a.] StatisticalMethodsforResearch Workers.13ava edicin, Oliver & Boyd, Edimburgo. Fisher, RA [44b.] The Design ofExperiments. 8a. edicin, Hafner Publishing Company, Nueva York. Fisher, RA y E Yates. [45.] Statistical Tables for Biological, Agricultural, and Medical Research. 4a. edicin, Oliver & Boyd, Edimburgo. Fries, A y WG. Hunter. [46.] "MinimumAberration 2k -p Designs", en Technometrics, vol. 22, pp. 601-608. Gaylor, D.W y T.D. Hartwell. [47.] "Expected Mean Squares for Nested Classifications", en Biometrics, vol. 25, pp. 427-430. Gaylor, D.W y EN. Hopper. [48.] "Estimating the Degrees of Freedom for Linear Combinations ofMean Squares by Satterthwaite's Formula", en Technometrics, vol. 11, no. 4, pp. 699-706. Graybill, EA y D.L. Weeks. [49.] "Combining Interblock and Intrablock Information in Balanced Incomplete Blocks", en Annals of Mathematical Statistics, vol. 30, pp. 799-805. Graybill, EA [50.] An Introduction to Linear Statistical Models. Vol. 1, McGraw-Hill, Nueva York.
f 1
BIBLIOGRAFA
633
Graybill, F.A y C.M. Wang. [51.] "Confidence Intervals on Nonnegative Linear Combinations ofVariances", en Joumal of the American Statistical Association, vol. 75, pp. 869-873. Hamada, M. y N. Balakrishnan. [52.] ''Analyzing Unreplicated Factorial Experiments: A Review with Sorne New Proposals" (con comentarios), en Statistica Sinica, vol. 8, pp. 1-41. Hamada, M. y c.F.J. Wu. [53.] ''Analysis ofDesigned Experiments with ComplexAliasing", en Joumal of Quality Technology, vol. 24, no. 3, pp. 130-137. Hill, WG. y WG. Hunter. [54.] '~Review of Response Surface Methodology: A Literature Survey", en Technometrics, vol. 8, pp. 571-590. Hines, WW y D.C. Montgomery. [55.] Probability and Statistics in Engineering and Management Science. 3a. edicin, Wiley, Nueva York. Hocking, RR [56.] '~Discussion of the Two-Way MUed Model", en The American Statistician, vol. 27, no. 4, pp. 148-152. Hocking, RR, O.P. Hackney y F.M. Speed. [57.] "The Analysis of Linear Models with Unbalanced Data", en Contributions to Survey Sampling and Applied Statistics, H.A David (ed.), Academic Press, Nueva York. Hocking, RR y F.M. Speed. [58.] '~Full RankAnalysis of Sorne Linear Model Problems", en Joumal of the American Statistical Association, vol. 70, pp. 706-712. Hunter, J.S. [59a.] "Statistical Design Applied to Product Design", en Joumal ofQuality Technology, vol. 17, pp. 210-221. Hunter, J.S. [59b.] "Let's AH Beware the Latin Square", en Quality Engineering, vol. 1, pp. 453-465. John, J.A y P. Prescott. [60.] "Critical Values of a Test to Detect Outliers in Factorial Experiments", en Applied Statistics, vol. 24, pp. 56-59. John, P.WM. [61a.] "The Three-Quarter Replicates of 24 and 25 Designs", en Biometrics, vol. 17, pp. 319-321. John, P.WM. [61b.] "Three-Quarter Replicates of 2n Designs", en Biometrics, vol. 18, pp. 171-184. John, P.WM. [61c.] "Blocking a 3(2n - k) Design", en Technometrics, vol. 6, pp. 371-376. John, P.WM. [61d.] Statistical Design and Analysis of Experiments. Macmillan, Nueva York. Kackar, RN. [62.] "Off-Line Quality Control, Parameter Design, and the Taguchi Method", en Joumal of Quality Technology, vol. 17, pp. 176-188. Kempthome, O. [63.] The Design and Analysis of Experiments. Wiley, Nueva York. Keuls, M. [64.] "The Use ofthe Studentized Range in Connection with anAnalysis ofVariance", enEuphytica, vol. 1, pp. 112-122. Kiefer, J. [65a.] "Optimum Experimental Designs", en Joumal ofthe Royal Statistical Society B, vol. 21, pp. 272-304. Kiefer, J. [65b.] "Optimum Designs in Regression Problems", enAnnals ofMathematical Statistics, vol. 32, pp. 298-325. Kiefer, J. y J. Wolfowitz. [66.] "Optimum Designs in Regression Problems", en Annals of Mathematical Statistics, vol. 30, pp. 271-294. Khuri, Al. y J.A Comell. [67.] Response SUlfaces: Designs andAnalyses. 2a. edicin, Dekker, Nueva York. Kruskal, WH. y WA Wallis. [68.] "Use of Ranks on One Criterion Variance Analysis", en Joumal ofthe American StatisticalAssociation, vol. 47, pp. 583-621 (las correcciones aparecen en el vol. 48, pp. 907-911).
634
BIBLIOGRAFA
Larntz, K. YP. Whitcomb. [69.] "Use of Replication in Almost Unreplicated Factorials", ponencia presentada en la Conferencia Tcnica de Otoo, Corning, N.Y. Lenth, RV [70.] "Quick and Easy Analysis of Unreplicated Factorials", en Technometrics, vol. 31, pp. 469-473. Leon, R V, A. C. Shoemaker y RN. Kackar. [71.] "Performance Measures Independent of Adjustment", en Technometrics, vol. 29, pp. 253-265. Levene, H. [72.] "Robust Test~ for Equality of Variance", en Contributions to Probability and Statistics, Z. O1kin, ed., Stanford University Press, Palo Alto, CA, pp. 278-292. Loughin, T.M. [73.] "Calibration of the Lenth Test for Unreplicated Factorial Designs", en Joumal of Quality Technology, vol. 30, pp. 171-175. Loughin, T.M. y W. Noble. [74.] "A Permutation Test for Effects in an Unreplicated Factorial Design", en Technometrics, vol. 39, pp. 180-190. Margolin, B.H. [75a.] "Systematic Methods of Analyzing 2n 3m Factorial Experiments with Applications", en Technometrics, vol. 9, pp. 245-260. Margolin, B.H. [75b.] "Results on Factorial Designs of Resolution IV for the 2" and 2"3 m Series", en Technometdcs, vol. 11, pp. 431-444. McCullagh, P. y J.A. Nelder. [76.] Generalized LinearModels. 2a. edicin, Chapman & Hall, Nueva York. Miller, RG. [77.] Simultaneous Statistical Inference. Springer-Verlag, Nueva York. Miller, RG., Jr. [78.] "Developments in Multiple Comparisons, 1966-1976", en Joumal oftheAmerican Statistical Association, vol. 72, pp. 779-788. Milliken, G.A. Y D.E. Johnson. [79.] Analysis ofMessy Data, Vol. 1. Van Nostrand Reinhold, Nueva York. Montgomery, D.C. [80a.] Introduction to Statistical Quality Control. 3a. edicin, Wiley, Nueva York. Montgomery, D.C. [80b.] "Experimental Design for Product and Process Design and Development", en Joumal of the Royal Statistical Society, D, vol. 48, pp. 159-177. Montgomery, D.c., C.M. Borror y J.D. Stanley. [81.] "Sorne Cautions in the Use of Plackett-Burman Designs", en Quality Engineering, vol. 10, pp. 371-381. Montgomery, D.C. y E.A. Peck. [82.] Introduction to Linear RegressionAnalysis. 2a. edicin, Wiley, Nueva York. Montgomery, D.C. y G.c. Runger. [83a.] "Gauge Capability Analysis and Designed Experiments. Part 1: Basic Methods", en Quality Engineering, vol. 6, pp. 115-135. Montgomery, D.C. y G.C. Runger. [83b.] "Gauge Capability Analysis and Designed Experiments. Part II: Experimental Design Models and Variance Component Estimation", en Quality Engineering, vol. 6, pp. 289-305. Montgomery, D.C. y G.C. Runger. [83c.] "Foldovers of2k - p Resolution IV Designs", en Joumal ofQuality Technology, vol. 24, pp. 446-450. Montgomery, D.C. y G.c. Runger. [83d.] Probabilidad y estadstica aplicadas para ingenieros. 2a. edicin, Limusa-Wiley, Mxico. Myers, RH. [84.] Classical and Mode171 Regression with Applications. 2a. edicin, PNS-Kent, Boston. Myers, RH. y D.C. Montgomery. [85a.] Response SU/tace Methodology: Process and Product Optimization Using Designed Experiments, Wiley, Nueva York. Myers, RH. y D.C. Montgomery. [85b.] '~ Tutorial on Generalized Linear Models", en Jou171al ofQuality Technology, vol. 29, pp. 274-291.
BIBLIOGRAFA
635
Nair, Y:N. et al. (eds.) [86.] "Thguchi's Parameter Design: A Panel Discussion", en Technometrics, vol. 34, pp. 127-161. Nelder, J.A. y R.W.M. Wedderburn. [87.] "Generalized Linear Models", en Journal ofthe Royal Statistical Society, A, vol. 135, pp. 370-384. Nelson, L.S. [88a.] "Using Nested Designs 1: Estimation of Standard Deviations", en Journal of Quality Technology, vol. 27, no. 2, pp. 169-171. Nelson, L.S. [88b.] "Using Nested Designs II: Confidenee Limits for Standard Deviations", en Journal of Quality Technology, vol. 27, no. 3, pp. 265-267. Nelson, L.S. [88e.] "Varianee Estimation Using Staggered, Nested Designs", en Journal ofQuality Technology, vol. 15, pp. 195-198. Nelson, ER [89.] "Multiple Comparison ofMeans Using Simultaneous Confidenee Intervals", enJournal of Quality Technology, vol. 21, No. 4, pp. 232-241. Newman, D. [90.] "The Distribution of the Range in Samples from a Normal Population, Expressed in Terms of an Independent Estirnate of Standard Deviation", en Biometrika, vol. 31, pp. 20-30. O'Neill, R y G.B. Wetherill. [91.] "The Present State ofMultiple Comparison Methods", en Journal ofthe Royal Statistical Society, B, vol. 33, pp. 218-241. Ostle, B. [92.] Statistics in Research. 2a. edicin, Iowa State Press, Ames, Iowa. Pearson, E.S. y H. O. Hartley. [93a.] Biometrika Tables for Statisticians. Vol. 1, 3a. edicin, Cambridge University Press, Cambridge. Pearson, E.S. y H.O. Hartley. [93b.] Biometrika Tables for Statisticians. Vol. 2, Cambridge University Press, Cambridge. Pignatiello, J.J., Jr. y J.S. Ramberg. [94.] "Top Ten Triumphs and Tragedies of Genichi Thguehi", en Quality Engineering, vol. 4, pp. 211-225. Plaekett, RL. y J.E Burman. [95.] "The Design of Optimum Multifaetorial Experiments", en Biometrika, vol. 33, pp. 305-325. Quenouille, M.H. [96.] The Design andAnalysis ofExperiments. Charles Griffin & Company, Londres. Satterthwaite, F.E. [97.] ''An Approximate Distribution of Estimates of Varianee Components", en Biometrics Bull., vol. 2, pp. 110-112. Seheff, H. [98a.] 40, pp. 87-104.
'~Method
Seheff, H. [98b.] '~ 'Mixed Model' for the Analysis of Varianee", enAnnals ofMathematical Statistics, vol. 27, pp. 23-36. Seheff, H. [98e.] '~ternative Models for the Analysis of Varianee", enAnnals ofMathematical Statistics, vol. 27, pp. 251-271. Seheff, H. [98d.] The Analysis of Variance. Wiley, Nueva York. Searle, S.R [99a.] Linear Models. Wiley, Nueva York. Searle, S.R [99b.] "Topies in Varianee Component Estimation", en Biometrics, vol. 27, pp. 1-76. Searle, S.R [9ge.] Linear Models for Unbalanced Data. Wiley, Nueva York. Searle, S.R, G. Casella y G.E. MeCulloch. [100.] Variance Components. Wiley, Nueva York. Searle, S.R y RF. Faweett. [101.] "Expeeted Mean Squares in Varianee Component Models Having Finite Populations", en Biometrics, vol. 26, pp. 243-254. -
636
BIBLIOGRAFA
Searle, S.R., EM. Speed y H.Y: Henderson. [102.] "Sorne Computational and Model Equivalences in Analyses of Variance of Unequal-Subclass-Numbers Data", en The American Statistician, vol. 35, pp. 16-33. Smith, H.E [103.] "Interpretations of Adjusted Treatment Means and Regressions in Analysis of Covariance", en Biometrics, vol. 13, No. 3, pp. 282-308. Smith, J.R. y J.M. Beverly. [104.] "The Use andAnalysis of Staggered Nested Factorial Designs", enJournal of Quality Technology, vol. 13, pp. 166-173. Speed, EM. y RR Hocking. [105.] "The Use ofthe R( )-Notation with Unbalanced Data", en TheAmerican Statistician, vol. 30, pp. 30-33. Speed, EM., RR Hocldng y O.P. Hackney. [106.] "Methods of Analysis of Linear Models with Unbalanced Data", en Joumal of the Amelican Statistical Association, vol. 73, pp. 105-112. Stefansky, W [107.] "Rejecting Outliers in Factorial Designs", en Technomehics, vol. 14, pp. 469-479. Taguchi, G. [108a.] System ofExpelimental Design. Engineering Methods to Optimize Quality and Minimize Costo UNIPUB, White Plains, Nueva York. Taguchi, G. [108b.] Inh'oduction to Quality Engineering. Asian Productivity Organization, UNIPUB, White Plains, Nueva York. Taguchi, G. y Y. WU. [109.] Introduction to Off-Line Quality Control. Central Japan Quality Control Association, Nagoya, Japn. Ting, N., RK. Burdick, EA. Graybill, S. Jeyaratnam y T.-E C. Lu. [110.] "Confidence Intervals on Linear Combinations of Variance Components That Are Unrestricted in Sign", en Joumal of Statistical Computation and Simulation, vol. 35, pp. 135-143. Tukey, J.W [lIla.] "One Degree ofFreedom for Non-Additivity", en Biomehics, vol. 5, pp. 232-242. Tukey, J.W [l11b.] "Comparing Individual Means in the Analysis ofVariance", en Biomehics, vol. 5, pp. 99-114. Tukey, J.W [111c.] "Quick and Dirty Methods in Statistics, Part 11, Simple Analysis for Standard Designs", en Proceedings ofthe FifthAnnual Convention, American Society for Quality Control, pp. 189-197. Tukey, J.W [111d.] "The Problem of Multiple Comparisons", notas inditas, Princeton University. Winer, RJ. [112.] Statistical Principles in Experimental Design.2a. edicin, McGraw-Hill, Nueva York. Yates, E [IBa.] "The Analysis of Multiple Classifications with Unequal Numbers in the Different Classes", en Joumal of the American Statistical Association, vol. 29, pp. 52-66. Yates, E [l13b.] Design andAnalysis ofFactorial Experiments. Comunicado tcnico No. 35, Imperial Bureau of Soil Sciences, Londres. Yates, E [l13c.] "The Recovery of Interblock Information in Balanced Incomplete Block Designs", en Annals of Eugenics, vol. 10, pp. 317-325. Ye, K. y M. Hamada. [114.] "Critical Values of the Lenth Method for Unreplicated Factorial Designs", en Joumal of Quality Technology, vol. 32, pp. 57-66.
Apndice
I II
III
Distribucin normal estndar acumulada Puntos porcentuales de la distribucin t Puntos porcentuales de la distribucin X2 Puntos porcentuales de la distribucin F Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos fijos Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos aleatorios Rangos significativos para la prueba del rango mltiple de Duncan Puntos porcentuales del estadstico del rango studentizado Valores crticos para la prueba de Dunnett para comparar tratamientos con un control Coeficientes de polinomios ortogonales Nmeros aleatorios Relaciones de alias para diseos factoriales fraccionados 2k Glosario para el uso de Design Expert
- P
IV V VI VII VIII IX
X
XI XII XIII
con k
15 Y n
64
637
638
APNDICE
l.
-1 -
-00
Vfir
"/ 7 e-U' - du .03 .51197 .55172 .59095 .62930 .66640 .70194 .73565 .76730 .79673 .82381 .84849 .87076 .89065 .90824 .92364 .93699 .94845 .95818 .96637 .97320 .97882 .98341 .98713 .99010 .99245 .99430 .99573 .99683 .99767 .99831 .99878 .99913 .99938 .99957 .99970 .99979 .99986 .99990 .99994 .99996 .04 .51595 .55567 .59483 .63307 .67003 .70540 .73891 .77035 .79954 .82639 .85083 .87285 .89251 .90988 .92506 .93822 .94950 .95907 .96711 .97381 .97932 .93882 .98745 .99036 .99266 .99446 .99585 .99693 .99774 .99836 .99882 .99916 .99940 .99958 .99971 .99980 .99986 .99991 .99994 .99996
,:,
z
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
.00 .50000 .53983 .57926 .61791 .65542 .69146 .72575 .75803 .78814 .81594 .84134 .86433 .88493 .90320 .91924 .93319 .94520 .95543 .96407 .97128 .97725 .98214 .98610 .98928 .99180 .99379 .99534 .99653 .99744 .99813 .99865 .99903 .99931 .99952 .99966 .99977 .99984 .99989 .99993 .99995
.01 .50399 .54379 .58317 .62172 .65910 .69497 .72907 .76115 .79103 .81859 .84375 .86650 .88686 .90490 .92073 .93448 .94630 .95637 .96485 .97193 .97778 .98257 .98645 .98956 .99202 .99396 .99547 .99664 .99752 .99819 .99869 .99906 .99934 .99953 .99968 .99978 .99985 .99990 .99993 .99995
.02 .50798 .54776 .58706 .62551 .66276 .69847 .73237 .76424 .79389 .82121 .84613 .86864 .88877 .90658 .92219 .93574 .94738 .95728 .96562 .97257 .97831 .98300 .98679 .98983 .99224 .99413 .99560 .99674 .99760 .99825 .99874 .99910 .99936 .99955 .99969 .99978 .99985 .99990 .99993 .99996
O .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
"Reproducida con permiso de Probability alld Statistics ill Ellgilleerillg alld Mallagemellt Sciellce, 3a. ed., w,w, Hines y D.C. Montgomery, Wiley, Nueva York
Ii'l
APNDICE
639
l.
_1_ e-u'/l du
yr:;.
z
.0 .1 .2 .3 ,4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 1,4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2,4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3,4 3.5 3.6 3.7 3.8 3.9
.05 .51994 .55962 .59871 .63683 .67364 .70884 .74215 .77337 .80234 .82894 .85314 .87493 .89435 .91149 .92647 .93943 .95053 .95994 .96784 .97441 .97982 .98422 .98778 .99061 .99286 .99461 .99598 .99702 .99781 .99841 .99886 .99918 .99942 .99960 .99972 .99981 .99987 .99991 .99994 .99996
.06 .52392 .56356 .60257 .64058 .67724 .71226 .74537 .77637 .80510 .83147 .85543 .87697 .89616 .91308 .92785 .90462 .95154 .96080 .96856 .97500 .98030 .98461 .98809 .99086 .99305 .99477 .99609 .99711 .99788 .99846 .99889 .99921 .99944 .99961 .99973 .99981 .99987 .99992 .99994 .99996
.07 .52790 .56749 .60642 .64431 .68082 .71566 .74857 .77935 .80785 .83397 .85769 .87900 .89796 .91465 .92922 .94179 .95254 .96164 .96926 .97558 .98077 .98500 .98840 .99111 .99324 .99492 .99621 .99720 .99795 .99851 .99893 .99924 .99946 .99962 .99974 .99982 .99988 .99992 .99995 .99996
.08 .53188 .57142 .61026 .64803 .68438 .71904 .75175 _ .78230 .81057 .83646 .85993 .88100 .89973 .91621 .93056 .94295 .95352 .96246 .96995 .97615 .98124 .98537 .98870 .99134 .99343 .99506 .99632 .99728 .99801 .99856 .99897 .99926 .99948 .99964 .99975 .99983 .99988 .99992 .99995 .99997
.09 .53586 .57534 .61409 .65173 .68793 .72240 .75490 .78523 .81327 .83891 .86214 .88297 .90147 .91773 .93189 .94408 .95448 .96327 .97062 .97670 .98169 .98574 .98899 .99158 .99361 .99520 .99643 .99736 .99807 .99861 .99900 .99929 .99950 .99965 .99976 .99983 .99989 .99992 .99995 .99997
z
.0 .1 .2 .3 ,4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 1,4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2,4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3,4 3.5 3.6 3.7 3.8 3.9
640
APNDICE
Sa
1 2 3 4 5 6 7 8 9
n.
.40 .325 .289 .277 .271 .267 .265 .263 .262 .261 .260 .260 .259 .259 .258 .258 .258 .257 .257 .257 .257 .257 .256 .256 .256 .256 .256 .256 .256 .256 .256 .255 .254 .254 .253 .25 1.000 .816 .765 .741 .727 .727 .711 .706 .703 .700 .697 .695 .694 .692 .691 .690 .689 .688 .688 .687 .686 .686 .685 .685 .684 .684 .684 .683 .683 .683 .681 .679 .677 .674 .10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282
.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645
.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2,093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960
.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326
.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576
.0025 127.32 14.089 7.453 5.598 4.773 4.317 4.019 3.833 3.690 3.581 3.497 3.428 3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.135 3.119 3.104 3.091 3.078 3.067 3.057 3.047 3.038 3.030 2.971 2.915 2.860 2.807
.001 318.31 23.326 10.213 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.307 3.232 3.160 3.090
.0005 636.62 31.598 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291
1"0 11 12 13 14
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
00
11
a
= grados de libertad. Adaptada con permiso de Biometrika Tables fol' Statisticians, vol. 1, 3a. ed., E.S. Pearson y H.O. Hartley, Cambridge University Press, Cambridge
APNDICE
641
ID.
.995 0.00 0.01 0.07 0.21 0.41 0.68 0.99 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 10.52 13.79 20.71 27.99 35.53 43.28 51.17 59.20 67.33 .990 .975
a
11
.950
.500
.050 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 37.65 43.77 55.76 67.50 79.08 90.53 101.88 113.14 124.34
.025 5.02 7.38 9.35 11.14 12.38 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 40.65 46.98 59.34 71.42 83.30
.010 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 44.31 50.89 63.69 76.15 88.38
.005 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.96 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 46.93 53.67 66.77 79.49 91.95 104.22 116.32 128.30 140.17
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 50 60 70 80 90 100
0.00 0.02 0.11 0.30 0.55 0.87 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 11.52 14.95 22.16 29.71 37.48 45.44 53.54 61.75 70.06
0.00 0.05 0.22 0.48 0.83 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.27 6.91 7.56 8.23 8.91 9.59 13.12 16.79 24.43 32.36 40.48 48.76 57.15 65.65 74.22
0.00 0.10 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 14.61 18.49 26.51 34.76 43.19 51.74 60.39 69.13 77.93
0.45 1.39 2.37 3.36 4.35 5.35 6.35 7.34 8.34 9.34 10.34 11.34 12.34 13.34 14.34 15.34 16.34 17.34 18.34 19.34 24.34 29.34 39.34 49.33 59.33 69.33 79.33 89.33 99.33
v = grados de libertad
aAdaptada
con permiso de Biometlika Tables for Statisticians, vol. 1, 3a. ed., E.S. Pearson y H.O. Hartley, Cambridge University Press, Cambridge
0\ -\:>.
Iv.
VI
V!
'"
2 3 4 5 6 7 8 9 10 11 12 13 14
....
o
'O
15 16
17
18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
" '"
t:
'O
"
o "' 'O
"
c''" 5
v = grados de libertad aAdaptada con permiso de Biametrika Tables far Statisticians, vol. 1, 3a. ed., E.S. Pearson y R.O. Rartley, Cambridge University Press, Cambridge
......
_.
--,---~-~_.-_._,~
.. .._,
~
~ .--,,-~._-~,~~
Iv.
'" v,'\.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
C10
1 39.86 8.53 5.54 4.54 4.06 3.78 3.59 3.46 3.36 3.29 3.23 3.18 3.14 3.10 3.07 3.05 3.03 3.01 2.99 2.97 2.96 2.95 2.94 2.93 2.92 2.91 2.90 2.89 2.89 2.88 2.84 2.79 2.75 2.71
2 49.50 9.00 5.46 4.32 3.78 3.46 3.26 3.11 3.01 2.92 2.86 2.81 2.76 2.73 2.70 2.67 2.64 2.62 2.61 2.59 2.57 2.56 2.55 2.54 2.53 2.52 2.51 2.50 2.50 2.49 2.44 2.39 2.35 2.30
3 53,59 9.16 5.39 4.19 3.62 3.29 3.07 2.92 2.81 2.73 2.66 2.61 2.56 2.52 2.49 2.46 2.44 2.42 2.40 2.38 2.36 2.35 2.34 2.33 2.32 2.31 2.30 2.29 2.28 2.28 2.23 2.18 2.13 2.08
4 55.83 9.24 5.34 4.11 3.52 3.18 2.96 2.81 2.69 2.61 2.54 2.48 2.43 2.39 236 233 2.31 2.29 2.27 2.25 2.23 2.22 2.21 2.19 2.18 2.17 2.17 2.16 2.15 2.14 2.09 2.04 1.99 1.94
5 57.24 9.29 5.31 4.05 3.45 3.11 2.88 2.73 2.61 2.52 2.45 2.39 2.35 2.31 2.27 2.24 2.22 2.20 2.18 2.16 2.14 2.13 2.11 2.10 2.09 2.08 2.07 2.06 2.06 2.03 2.00 1.95 1.90 1.85
6 58.20 9.33 5.28 4.01 3.40 3.05 2.83 2.67 2.55 2.46 2.39 2.33 2.28 2.24 2.21 2.18 2.15 2.13 2.11 2.09 2.08 2.06 2.05 2.04 2.02 2.01 2.00 2.00 1.99 1.98 1.93 1.87 1.82 1.77
o:::..
.:S ...
'" .
'O 'O 'O 'O
o o
'" " 03
1:: Q)
'O 'O
'"
"
s
'" d
0\
W
~ ~
0\
Iv.
VI
1', '\.
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
1 161.4 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 4.08 4.00 3.92 3.84
2 199.5 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.23 3.15 3.07 3.00
3 215.7 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.84 2.76 2.68 2.60
4 224.6 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.61 2.53 2.45 2.37
5 230.2 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2..55 2.53 2.45 2.37 2.29 2.21
6 234.0 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.34 2.25 2.17 2.10
236.8 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.40 2.39 2.37 2.36 2.35 2.33 2.25 2.17 2.09 2.01
2.22
2.16 2.11 2.06 2.02 1.98 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.79 1.77 1.75 1.74 1.64 1.53 1.43 1.32
....
o
01
-o
" s o " -o
OJ
"i:i -o -o
t::
01 OJ
:= OJ -o
01
.D
-o
:B
.... =- "._.~~~-~._ ~
(continuacin)
,,,
VI
\,
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
30 1001 39.46 14.08 8.46 6.23 5.07 4.36 3.89 3.56 3.31 3.12 2.96 2.84 2.73 2.64 2.57 2.50 2.44 2.39 2.35 2.31 2.27 2.24 2.21 2.18 2.16 2.13 2.11 2.09 2.07 1.94 1.82 1.69 1.57
40 1006 39.47 14.04 8.41 6.18 5.01 4.31 3.84 3.51 3.26 3.06 2.91 2.78 2.67 2.59 2.51 2.44 2.38 2.33 2.29 2.25 2.21 2.18 2.15 2.12 2.09 2.07 2.05 2.03 2.01 1.88 1.74 1.61 1,48
60 1010 39.48 13.99 8.36 6.12 4.96 4.25 3.78 3.45 3.20 3.00 2.85 2.72 2.61 2.52 2.45 2.38 2.32 2.27
2.22
120 1014 39.49 13.95 8.31 6.07 4.90 4.20 3.73 3.39 3.14 2.94 2.79 2.66 2.55 2.46 2.38 2.32 2.26 2.20 2.16 2.11 2.08 2.04 2.01 1.98 1.95 1.93 1.91 1.89 1.87 1.72 1.58 1.43 1.27 1018 39.50 13.90 8.26 6.02 4.85 4.14 3.67 3.33 3.08 2.88 2.72 2.60 2.49 2.40 2.32 2.25 2.19 2.13 2.09 2.04 2.00 1.97 1.94 1.91 1.88 1.85 1.83 1.81 1.79 1.64 1.48 1.31 1.00
-":0
'" s o
:: ::
"C
"C
... o
" ~
"C "C "C "C
'"
'" '" :g
'" O
2.18 2.14 2.11 2.08 2.05 2.03 2.00 1.98 1.96 1.94 1.80 1.67 1.53 1.39
...::..
\JI
0'1
...::..
0'1
Jll
0'1
Iv.
JI:!
'\.
1 4052 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.65 9.33 9.07 8.86 8.68 8.53 8.40 8.29 8.18 8.10 8.02 7.95 7.88 7.82 7.77 7.72 7.68 7.64 7.60 7.56 7.31 7.08 6.85 6.63
2 4999.5 99.00 30.82 18.00 13.27 10.92 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 6.23 6.11 6.01 5.93 5.85 5.78 5.72 5.66 5.61 5.57 5.53 5.49 5.45 5.42 5.39 5.18 4.98 4.79 4.61
3 5403 99.17 29.46 16.69 12.06 9.78 8.45 7.59 6.99 6.55 6.22 5.95 5.74 5.56 5.42 . 5.29 5.18 5.09 5.01 4.94 4.87 4.82 4.76 4.72 4.68 4.64 4.60 4.57 4.54 4.51 4.31 4.13 3.95 3.78
4 5625 99.25 28.71 15.98 11.39 9.15 7.85 7.01 6.42 5.99 5.67 5.41 5.21 5.04 4.89 4.77 4.67 4.58 4.50 4.43 4.37 4.31 4.26 4.22 4.18 4.14 4.11 4.07 4.04 4.02 3.83 3.65 3.48 3.32
5 5764 99.30 28.24 15.52 10.97 8.75 7.46 6.63 6.06 5.64 5.32 5.06 4.86 4.69
6 5859 99.33 27.91 15.21 10.67 8.47 7.19 6.37 5.80 5.39 5.07 4.82 4.62 4.46 4.32 4.20 4.10 4.01 3.94 3.87 3.81 3.76 3.71 3.67 3.63 3.59 3.56 3.53 3.50 3.47 3.29 3.12 2.96 2.80
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
00
5928 99.36 27.67 14.98 10.46 8.26 6.99 6.18 5.61 5.20 4.89 4.64 4.44 4.28 4.14 4.03 3.93 3.84 3.77 3.70 3.64 3.59 3.54 3.50 3.46 3.42 3.39 3.36 3.33 3.30 3.12 2.95 2.79 2.64
~------
01
"'Cl
... o
ro
. o " "
"'Cl
al
4.56 4.44 4.34 4.25 4.17 4.10 4.04 3.99 3.94 3.90 3.85 3.82 3.78 3.75 3.73 3.70 3.51 3.34 3.17 3.02
"'Cl "'Cl
t:
ro
"
"'Cl "'Cl
"
o "'
tJ
E!
APNDICE
647
V.
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos fijosa
1.00 .80 .70 .60 .50 .40 .30 .20
en .;
Q)
:Q a. :2
.!!!
en
a
Q) Q)
10
"
10 10
'O 'O
;g
"-
:5 10 .c
.01
1.5
2.5
<1>(paraa=.01)~
3 2
a. :2 en .!!!
~
'0
.el
.30 .20.
a "
Q)
10
10
Q)
'O 'O
~ :5 10 .c
"-
10
.01
aAdaptada con permiso de Biometl'ika Tables fol' Statisticial1s, vol. 2, E.S. Pearson y R.O. Hartley, Cambridge University Press, Cambridge
648
APNDICE
V.
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos fijos (continuacin)
1.00
,..---~::--___,r------.----_r----_r----.,_--..,
I---'----+~
.80
.70
.60
.50
';;
'0 Q.
"
'"
.40
.30
.201---
:c
U)
15.
"tJ "tJ
ro
.10 1-----W\W~tBr
:c ro
..el
ro
.06 1------t-\M1'"'""""'rWl++-\---\--\-'\-\---\-1\--\-'rl.---'...--t'\,--------j----j
.05
1------+\+\c\-\-M1~r\!--1H-+-'t-\-l-\--\-+_+-'+_-t-+-'------j----j
c..
.01
L-
-l-_---'-~
.......'-'-'.......-'-.l--L.-'-.....,'--.L--'--.l-'_'_'--__>..._
1
(1)(paraa=.01)~
2
1
1.00
,..------,..-------r------------,-----...,----,
.80
.70
.60
.50
.;;
U)
.40
:c
~
'0 Q.
"
.30
.201----\'
'"
ro
15.
"tJ "tJ
.10
1-------\M'ffiWr\Jo1r
I------~MWM..-'\
1-----\-1-\-+\-\-\-'r\--\-=--!-\-\--\-\-\~__I't__\__\_+_-'\+_----__--__I
:c ro
;g
..el
ro
.07
.08
.06
1---------t-1I\T\-V~rT--\-l-\+'H-\-_\t_\_'~~._---k----+---j
e c..
.03 1-------t\-WI++\-\-\--H+-'-\-+-'HrlH-1r-\--\---\l--+-'-----j----j
.02 1------HrH-\-\-+'<+'<+--\--Hrl---\-+--\---\---\---\----t-'r--1,------t------j
.01 '-1
<p(para a= .01)
~
'--..!...!-I....l.-'L.L..~l-\,--'--l-I-'--'---'----'----'---L.--'---''----'L-__'_
_ __'
2
1
APNDICE
649
V.
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos fijos (continuacin)
.10
1-----+'\-\-lAAW\_\~-__\_I_H+_\:ot~"""~"""'t""7'~-_+----____t--__t
.01
L-
J..J...Jt.....L:!-L..L.1...L.1-J.....L..L-.l....,;L...L.L..-..L-..L...L..-.>..l..--1._----''---'-_ _- '
1.00 , . . . - - - - - , . . . - - - - - - , - - - - - , - - - - -...- - - - - , - - - - - ,
.80 .70 .60 .50
<J)
.40
'ji Ql
15 c.
.30
.20
:c
<J)
I'~~~--I-~~\\\~~~--II
l---\-\-\-\1M~~.____--____cI__--+H__I\__\_'\_\-T-T_~_....____---t----_j
.2
15. Ql
ro "
Ql
ro
"C "C
..c
;g :c ro
ro
.10 1---\c-\-\-\-\'H't\-lbll7-'''?'''iF .08 1---\,-\-\W\-\\-V'\,..+.rSoF .07 1----+Jl-+1r*-1r-\-\*-'lr"IO""'-7!'= .06 I-----++\-Wr\-\'"'~IC,..J= .05 1----+++++~~7"F"'i1:= .04 1----t\--\t\-fl>t\,I~'\t=..s!S'---___1~~r.:;\::;tft:t_:'t\;_;"_f\;
.03
1----+\""""':"b'I"\-'~++-----_t\__\_+_r_+__\_I__\__lr__+_+_+;_
2 3 <I>(paraa=.01) _ _ 1
650
APNDICE
V.
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos fijos (continuacin)
.~
en
1:
..!!!
en
15 o-
1-*"'''''
":T'k-----+----4+'M--\l-'.....,,,~~'<_~I_----_I_--_1
l---\-wt\-\~l_\_'\_----/----\--\4r+_\_Jr\__\_J~'t-I-~---+----l
~
Q)
ro " ro
Q)
.10 1---+'t-\--lr\-1l--\\:\-\----\:r':7"'l:= .08 t-:=~~m~\':4Z1~ .071.06 1_--+TH+-Ir\-\c\>'If-:7'b"''"f=.05 1_---H:+-1kt\-\-\-~;\"'-*"'-h.04 r---;ittttl:1~~1= .03 1----~\-j.\.:~\'M~~~----\.f+J~=_+_+.J+_~~+__I_~61--l .02 1-----\-+Jbf'bt'T-\c\-\-t\-----+++-+-\--\t-++-+----\:-j---'\--l
"tJ "tJ
;g :c ro
oC
"-
2 3 <l>(paraa=.01) _ _ 1
en .;
Q)
15 o1:
en ro
~
..!!!
15. Q)
ro "
Q)
"tJ "tJ
;g :c ro
oC
ro
"-
2 3 ~<l>(paraa=.05) <l>(paraa=.01) _ _ 1 2
APNDICE
651
VI.
1.00 .80 .70 .60 .50 .40 .30 .20 .10 .08 .07 .06 .05 .04 .03 .02 1-.01
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos aleatorios"
en .;
al
"""V,
1
1l
:c
..!!!
~
'0 c.
en
1l
~
a
al
c.>
ro
~ -.
.~
!;lo
~ t..~
Q.
'"C '"C
al
:a ro
.o
"~
:s!
ro
10 A(para a= .01) 1.00 .80 .70 .60 .50 .40 .30 .20
11
6 10 20
~
1-:://
~~ -...- r ~ :;y ~
50 30 70 50 90 70 110 90 130 110 150 130 170 150
190~
6 v2 8 10
30
~10
170
A (paraa=.05) 190
en .;
al
'0 C.
..!!!
:c en
a
al
lo
c.>
ro
'"C '"C
al
:B ro
.o
"~
:s!
ro
.01
l--_I-----l_-.l..._--L_-'-_.L.----l_
A(paraa=.01)~1
7 3
9 11 13 15 57911
17 13
19 15
21 17
"Reproducida con permiso de Enginee/'ing Statistics, 2a. ed., A.H. Bowker y G.J. Lieberrnan, Prentiee-Hall, Ine., Englewood Cliffs, NJ.
652
APNDICE
VI.
1.00
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos aleatorios (continuacin)
Ul .;
Ql
:;:
.!!!
Ul
'0 c.
~
o. "
Ql
<O
"O "O
<O Ql
.10
.o "~
;g :c <O
<O
9 10 12 15 20 30 60
.01
I----'I---l_--L_---L_-l.._-L_~....::..~:s:>.;~~..l:>o.~...l'o.....=.......l'o.......::..~.....;:,_.J
4
2
5 3
6 4
7 5
S 6
9 7
10 S
11 9
-+-1I.(parau=.05) 10 11 12 13
~---'r-:---'-"""'. :-...,---.,---,--,----,r---,---,--r---;r--r---,
1-'I~1--1---+
Ul .;
Ql
:;:
.!!!
Ul
'0 C.
-5.
"
<O Ql
Ql
-g ;g :c <O
.o "~
"O
.101--1--' .0sl--1--
.01
1-_1---l_--L_---L~~~~u.....:~_..L-~~'_"'...l...:l'_"'_""_~
........._::..__'__"'....J
5
2
6 3
7 4
S ....... 1I.(parau=.05) 5 6 7 8
10
11
12
APNDICE
653
VI.
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos aleatorios (continuacin)
"-(parau=.Ol)~
5 1
6 2
7 ~ "-(para u= .05) 3 4 5 S
10
1.00 ,.---,--..,--..,--_o:c--r----,-,---,----,--,..---,----r---,---,.-----,
.80 f-l ";=t=~==t=+ .70 .SO .50 .40
.30 .20
.01
L--_L-----JL......ICU..Il'-L.I..UJlU-:L...L._..,.._...u...............J>...~........
.......,.........,L_........._-'-_-'-_.....
7
8 9
12345 "-(pafau=.05)~ 1
S 2
7'-"-(parau=.01) 3 4 5 6
654
APNDICE
VI.
Curvas de operacin caracterstica para el anlisis de varianza del modelo con efectos aleatorios (continuacin)
1.00 C--,--T""::"-,--....::--,------,;------,--,..--,---,-..,---, .80 "rlr---'-j--t--j-l .70 .60 .50 .40 .30 .20
.10 .08 .07 .06 .05 ---i-ftt' .04 ---t-o\\\.03 ---t--\t\-\\' .02 ---i------1n\+\-i
2 3 4 5 ,,(para u= .01) __ 1
6 _ _ ,,(para u= .05) 2 3 4 5 6
Cil .;;
Ql
:c
.!!! i; ro "
Ql Ql
Cil
'0 o.
C.
"O "O
:a ro
..c
;g
ro
a..
6 __ ,,(para u= .01)
,
i
APNDICE
655
Vil.
Rangos significativos para la prueba del rango mltiple de Duncana lO.OI (P, f)
p
f
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 60 100
00
2 90.0 14.0 8.26 6.51 5.70 5.24 4.95 4.74 4.60 4.48 4.39 4.32 4.26 4.21 4.17 4.13 4.10 4.07 4.05 4.02 3.89 3.82 3.76 3.71 3.64
3 90.0 14.0 8.5 6.8 5.96 5.51 5.22 5.00 4.86 4.73 4.63 4.55 4.48 4.42 4.37 4.34 4.30 4.27 4.24 4.22 4.06 3.99 3.92 3.86 3.80
4 90.0 14.0 8.6 6.9 6.11 5.65 5.37 5.14 4.99 4.88 4.77 4.68 4.62 4.55 4.50 4.45 4.41 4.38 4.35 4.33 4.16 4.10 4.03 3.98 3.90
5 90.0 14.0 8.7 7.0 6.18 5.73 5.45 5.23 5.08 4.96 4.86 4.76 4.69 4.63 4.58 4.54 4.50 4.46 4.43 4.40 4.22 4.17 4.12 4.06 3.98
6 90.0 14.0 8.8 7.1 6.26 5.81 5.53 5.32 5.17 5.06 4.94 4.84 4.74 4.70 4.64 4.60 4.56 4.53 4.50 4.47 4.32 4.24 4.17 4.11 4.04
7 90.0 14.0 8.9 7.1 6.33 5.88 5.61 5.40 5.25 5.13 5.01 4.92 4.84 4.78 4.72 4.67 4.63 4.59 4.56 4.53 4.36 4.30 4.23 4.17 '4.09
8 90.0 14.0 8.9 7.2 6.40 5.95 5.69 5.47 5.32 5.20 5.06 4.96 4.88 4.83 4.77 4.72 4.68 4.64 4.61 4.58 4.41 4.34 4.27 4.21 4.14
9 90.0 14.0 9.0 7.2 6.44 6.00 5.73 5.51 5.36 5.24 5.12 5.02 4.94 4.87 4.81 4.76 4.73 4.68 4.64 4.61 4.45 4.37 4.31 4.25 4.17
10 90.0 14.0 9.0 7.3 6.5 6.0 5.8 5.5 5.4 5.28 5.15 5.07 4.98 4.91 4.84 4.79 4.75 4.71 4.67 4.65 4.48 4.41 4.34 4.29 4.20
20 90.0 14.0 9.3 7.5 6.8 6.3 6.0 5.8 5.7 5.55 5.39 5.26 5.15 5.07 5.00 4.94 4.89 4.85 4.82 4.79 4.65 4.59 4.53 4.48 4.41
50 90.0 14.0 9.3 7.5 6.8 6.3 6.0 5.8 5.7 5.55 5.39 5.26 5.15 5.07 5.00 4.94 4.89 4.85 4.82 4.79 4.71 4.69 4.66 4.64 4.60
100 90.0 14.0 9.3 7.5 6.8 6.3 6.0 5.8 5.7 5.55 5.39 5.26 5.15 5.07 5.00 4.94 4.89 4.85 4.82 4.79 4.71 4.69 4.66 4.65 4.68
= grados de libertad Reproducida con permiso de "Multiple Range and Multiple F Tests", D.B. Duncan, Biometrics, vol. 1, no. 1, pp. 1-42 r O05 (p, f)
p
f
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 60 100
00
2 18.0 6.09 4.50 3.93 3.64 3.46 3.35 3.26 3.20 3.15 3.11 3.08 3.06 3.03 3.01 3.00 2.98 2.97 2.96 2.95 2.89 2.86 2.83 2.80 2.77
3 18.0 6.09 4.50 4.01 3.74 3.58 3.47 3.39 3.34 3.30 3.27 3.23 3.21 3.18 3.16 3.15 3.13 3.12 3.11 3.10 3.04 3.01 2.98 2.95 2.92
4 18.0 6.09 4.50 4.02 3.79 3.64 3.54 3.47 3.41 3.37 3.35 3.33 3.30 3.27 3.25 3.23 3.22 3.21 3.19 3.18 3.12 3.10 3.08 3.05 3.02
5 18.0 6.09 4.50 4.02 3.83 3.68 3.58 3.52 3.47 3.43 3.39 3.36 3.35 3.33 3.31 3.30 3.28 3.27 3.26 3.25 3.20 3.17 3.14 3.12 3.09
6 18.0 6.09 4.50 4.02 3.83 3.68 3.60 3.55 3.50 3.46 3.43 3.40 3.38 3.37 3.36 3.34 3.33 3.32 3.31 3.30 3.25 3.22 3.20 3.18 3.15
7 18.0 6.09 4.50 4.02 3.83 3.68 3.61 3.56 3.52 3.47 3.44 3.42 3.41 3.39 3.38 3.37 3.36 3.35 3.35 3.34 3.29 3.27 3.24 3.22 3.19
8 18.0 6.09 4.50 4.02 3.83 3.68 3.61 3.56 3.52 3.47 3.45 3.44 3.42 3.41 3.40 3.39 3.38 3.37 3.37 3.36 3.32 3.30 3.28 3.26 3.23
9 18.0 6.09 4.50 4.02 3.83 3.68 3.61 3.56 3.52 3.47 3.46 3.44 3.44 3.42 3.42 3.41 3.40 3.39 3.39 3.38 3.35 3.33 3.31 3.29 3.26
10 18.0 6.09 4.50 4.02 3.83 3.68 3.61 3.56 3.52 3.47 3.46 3.46 3.45 3.44 3.43 3.43 3.42 3.41 3.41 3.40 3.37 3.35 3.33 3.32 3.29
20 18.0 6.09 4.50 4.02 3.83 3.68 3.61 3.56 3.52 3.48 3.48 3.48 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47
50 18.0 6.09 4.50 4.02 3.83 3.68 3.61 3.56 3.52 3.48 3.48 3.48 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.48 3.53 3.61
100 18.0 6.09 4.50 4.02 3.83 3.68 3.61 3.56 3.52 3.48 3.48 3.48 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.47 3.48 3.53 3.67
0\ iJl 0\
VIll.
--p
10
11
12
13
14
15
16
17
18
19
20
260 282 298 202 1 90.0 135 246 253 266 272 272 286 290 294 164 186 216 227 237 36.0 37.9 2 14.0 22.3 24.7 26.6 32.6 33.4 31.4 34.8 35.4 36.5 37.0 37.5 19.0 28.2 29.5 30.7 31.7 12.2 14.2 17.5 18.2 18.8 19.5 19.8 19.1 3 8.26 10.6 13.3 15.0 15.6 16.7 17.1 17.9 18.5 19.3 16.2 12.8 13.7 13.9 14.2 4 6.51 8.12 9.17 9.96 10.6 11.1 11.5 12.3 12.6 13.1 13.3 13.5 14.1 14.4 11.9 7.80 8.91 9.67 11.93 5 5.70 6.97 8.42 9.32 9.97 10.24 10.48 10.70 10.89 11.08 11.24 11.40 11.55 11.68 11.81 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120
00
5.24 4.95 4.74 4.60 4.48 4.39 4.32 4.26 4.21 4.17 4.13 4.10 4.07 4.05 4.02 3.96 3.89 3.82 3.76 3.70 3.64
6.33 5.92 5.63 5.43 5.27 5.14 5.04 4.96 4.89 4.83 4.78 4.74 4.70 4.67 4.64 4.54 4.45 4.37 4.28 4.20 4.12
7.03 6.54 6.20 5.96 5.77 5.62 5.50 5.40 5.32 5.25 5.19 5.14 5.09 5.05 5.02 4.91 4.80 4.70 4.60 4.50 4.40
7.56 7.01 6.63 6.35 6.14 5.97 5.84 5.73 5.63 5.56 5.49 5.43 5.38 5.33 5.29 5.17 5.05 4.93 4.82 4.71 4.60
7.97 7.37 6.96 6.66 6.43 6.25 6.10 5.98 5.88 5.80 5.72 5.66 5.60 5.55 5.51 5.37 5.24 5.11 4.99 4.87 4.76
8.32 7.68 7.24 6.91 6.67 6.48 6.32 6.19 6.08 5.99 5.92 5.85 5.79 5.73 5.69 5.54 5.40 5.27 5.13 5.01 4.88
8.61 7.94 7.47 7.13 6.87 6.67 6.51 6.37 6.26 6.16 6.08 6.01 5.94 5.89 5.84 5.69 5.54 5.39 5.25 5.12 4.99
8.87 8.17 7.68 7.32 7.05 6.84 6.67 6.53 6.41 6.31 6.22 6.15 6.08 6.02 5.97 5.81 5.65 5.50 5.36 5.21 5.08
9.10 8.37 7.87 7.49 7.21 6.99 6.81 6.67 6.54 6.44 6.35 6.27 6.20 6.14 6.09 5.92 5.76 5.60 5.45 5.30 5.16
9.30 8.55 8.03 7.65 7.36 7.13 6.94 6.79 6.66 6.55 6.46 6.38 6.31 6.25 6.19 6.02 5.85 5.69 5.53 5.38 5.23
9.49 8.71 8.18 7.78 7.48 7.25 7.06 6.90 6.77 6.66 6.56 6.48 6.41 6.34 6.29 6.11 5.93 5.77 5.60 5.44 5.29
9.65 8.86 8.31 7.91 7.60 7.36 7.17 7.01 6.87 6.76 6.66 6.57 6.50 6.43 6.37 6.19 6.01 5.84 5.67 5.51 5.35
9.81 9.00 8.44 8.03 7.71 7.46 7.26 7.10 6.96 6.84 6.74 6.66 6.58 6.51 6.45 6.26 6.08 5.90 5.73 5.56 5.40
9.95 9.12 8.55 8.13 7.81 7.56 7.36 7.19 7.05 6.93 6.82 6.73 6.65 6.58 6.52 6.33 6.14 5.96 5.79 5.61 5.45
10.08 9.24 8.66 8.23 7.91 7.65 7.44 7.27 7.12 7.00 6.90 6.80 6.72 6.65 6.59 6.39 6.20 6.02 5.84 5.66 5.49
10.21 9.35 8.76 8.32 7.99 7.73 7.52 7.34 7.20 7.07 6.97 6.87 6.79 6.72 6.65 6.45 6.26 6.07 5.89 5.71 5.54
10.32 9.46 8.85 8.41 8.07 7.81 7.59 7.42 7.27 7.14 7.03 6.94 6.85 6.78 6.71 6.51 6.31 6.12 5.93 5.75 5.57
10.43 9.55 8.94 8.49 8.15 7.88 7.66 7.48 7.33 7.20 7.09 7.00 6.91 6.84 6.76 6.56 6.36 6.17 5.98 5.79 5.61
10.54 9.65 9.03 8.57 8.22 7.95 7.73 7.55 7.39 7.26 7.15 7.05 6.96 6.89 6.82 6.61 6.41 6.21 6.02 5.83 5.65
f = grados de libertad
"De J.M. May, "Extended and Corrected Thb1es of tbe Upper Percentage Points of the Studentized Range", Biometrika, vol. 39, pp. 192-193. Reproducida con permiso de los fideicomisarios de Biometlika
VIII.
3 26.7 8.28 5.88 5.00 4.60 4.34 4.16 4.04 3.95 3.88 3.82 3.77 3.73 3.70 3.67 3.65 3.62 3.61 3.59 3.58 3.53 3.48 3.44 3.40 3.36 3.32
4 32.8 9.80 6.83 5.76 5.22 4.90 4.68 4.53 4.42 4.33 4.26 4.20 4.15 4.11 4.08 4.05 4.02 4.00 3.98 3.96 3.90 3.84 3.79 3.74 3.69 3.63
5 37.2 10.89 7.51 6.31 5.67 5.31 5.06 4.89 4.76 4.66 4.58 4.51 4.46 4.41 4.37 4.34 4.31 4.28 4.26 4.24 4.17 4.11 4.04 3.98 3.92 3.86
6 40.5 11.73 8.04 6.73 6.03 5.63 5.35 5.17 5.02 4.91 4.82 4.75 4.69 4.64 4.59 4.56 4.52 4.49 4.47 4.45 4.37 4.30 4.23 4.16 4.10 4.03
7 43.1 12.43 8.47 7.06 6.33 5.89 5.59 5.40 5.24 5.12 5.03 4.95 4.88 4.83 4.78 4.74 4.70 4.67 4.64 4.62 4.54 4.46 4.39 4.31 4.24 4.17
8 45.4 13.03 8.85 7.35 6.58 6.12 5.80 5.60 5.43 5.30 5.20 5.12 5.05 4.99 4.94 4.90 4.86 4.83 4.79 4.77 4.68 4.60 4.52 4.44 4.36 4.29
9 47.3 13.54 9.18 7.60 6.80 6.32 5.99 5.77 5.60 5.46 5.35 5.27 5.19 5.13 5.08 5.03 4.99 4.96 4.92 4.90 4.81 4.72 4.63 4.55 4.47 4.39
10 49.1 13.99 9.46 7.83 6.99 6.49 6.15 5.92 5.74 5.60 5.49 5.40 5.32 5.25 5.20 5.15 5.11 5.07 5.04 5.01 4.92 4.83 4.74 4.65 4.56 4.47
11 50.6 14.39 9.72 8.03 7.17 6.65 6.29 6.05 5.87 5.72 5.61 5.51 5.43 5.36 5.31 5.26 5.21 5.17 5.14 5.11 5.01 4.92 4.82 4.73 4.64 4.55
12 51.9 14.75 9.95 8.21 7.32 6.79 6.42 6.18 5.98 5.83 5.71 5.61 5.53 5.46 5.40 5.35 5.31 5.27 5.23 5.20 5.10 5.00 4.90 4.81 4.71 4.62
13
53.2 15.08 10.16 8.37 7.47 6.92 6.54 6.29 6.09 5.93 5.81 5.71 5.63 5.56 5.49 5.44 5.39 5.35 5.32 5.28 5.18 5.08 4.98 4.88 4.78 4.68
14 54.3 15.38 10.35 8.52 7.60 7.04 6.65 6.39 6.19 6.03 5.90 5.80 5.71 5.64 5.57 5.52 5.47 5.43 5.39 5.36 5.25 5.15 5.05 4.94 4.84 4.74
15 55.4 15.65 10.52 8.67 7.72 7.14 6.75 6.48 6.28 6.12 5.98 5.88 5.79 5.72 5.65 5.59 5.55 5.50 5.46 5.43 5.32 5.21 5.11 5.00 4.90 4.80
16 56.3 15.91 10.69 8.80 7.83 7.24 6.84 6.57 6.36 6.20 6.06 5.95 5.86 5.79 5.72 5.66 5.61 5.57 5.53 5.50 5.38 5.27 5.17 5.06 4.95 4.84
17
18 58.0 16.36 10.98 9.03 8.03 7.43 7.01 6.73 6.51 6.34 6.20 6.09 6.00 5.92 5.85 5.79 5.74 5.69 5.65 5.61 5.50 5.38 5.27 5.15 5.04 4.93
19 58.8 16.57 11.12 9.14 8.12 7.51 7.08 6.80 6.58 6.41 6.27 6.15 6.06 5.98 5.91 5.84 5.79 5.74 5.70 5.66 5.55 5.43 5.32 5.20 5.09 4.97
20 59.6 16.77 11.24 9.24 8.21 7.59 7.16 6.87 6.65 6.47
~::
57.2 16.14 10.84 8.92 7.93 7.34 6.93 6.65 6.44 6.27 6.14 6.02 5.93 5.86 5.79 5.73 5.68 5.63 5.59 5.56 5.44 5.33 5.22 5.11 5.00 4.98
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120
00
3.46 3.34 3.26 3.20 3.15 3.11 3.08 3.06 3.03 3.01 3.00 2.98 2.97 2.96 2.95 2.92 2.89 2.86 2.83 2.80 2.77
~L-
6.33 6.21 6.11 6.03 5.96 5.90 5.84 5.79 5.75 5.71 5.59 5.48 5.36 5.24 5.13 5.01
0'\
-..]
U1
658
APNDICE
IX. Valores crticos para la prueba de Dunnett para comparar tratamientos con un controla do.os(a -1, f)
Comparaciones de dos colas
f
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120
00
1 2.57 2.45 2.36 2.31 2.26 2.23 2.20 2.18 2.16 2.14 2.13 2.12 2.11 2.10 2.09 2.09 2.06 2.04 2.02 2.00 1.98 1.96
2 3.03 2.86 2.75 2.67 2.61 2.57 2.53 2.50 2.48 2.46 2.44 2.42 2.41 2.40 2.39 2.38 2.35 2.32 2.29 2.27 2.24 2.21
3 3.29 3.10 2.97 2.88 2.81 2.76 2.72 2.68 2.65 2.63 2.61 2.59 2.58 2.56 2.55 2.54 2.51 2.47 2.44 2.41 2.38 2.35
4 3.48 3.26 3.12 3.02 2.95 2.89 2.84 2.81 2.78 2.75 2.73 2.71 2.69 2.68 2.66 2.65 2.61 2.58 2.54 2.51 2.47 2.44
5 3.62 3.39 3.24 3.13 3.05 2.99 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.75 2.73 2.70 2.66 2.62 2.58 2.55 2.51
6 3.73 3.49 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 2.89 2.87 2.85 2.83 2.81 2.80 2.76 2.72 2.68 2.64 2.60 2.57
7 3.82 3.57 3.41 3.29 3.20 3.14 3.08 3.04 3.00 2.97 2.95 2.92 2.90 2.89 2.87 2.86 2.81 2.77 2.73 2.69 2.65 2.61
8 3.90 3.64 3.47 3.35 3.26 3.19 3.14 3.09 3.06 3.02 3.00 2.97 2.95 2.94 2.92 2.90 2.86 2.82 2.77 2.73 2.69 2.65
9 3.97 3.71 3.53 3.41 3.32 3.24 3.19 3.14 3.10 3.07 3.04 3.02 3.00 2.98 2.96 2.95 2.90 2.86 2.81 2.77 2.73 2.69
f = grados de libertad aReproducida co~permiso de c.w. Dunnett, "New Thbles for Multip1e Comparison with a Control", Biometrics, vol. 20, no. 3, y de C.w. Dunnett, '1\ Multip1e Comparison Procedure for Comparing Severa! 1Teatments with a Control",Joumal oftheAmerican StatisticalAssociation, vol. SO
ti
APNDICE
659
IX.
Valores crticos para la prueba de Dunnett para comparar tratamientos con un controla
do .01 (a -1, f)
Comparaciones de dos colas (continuacin)
f
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120
00
2 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.05 3.01 2.98 2.95 2.92 2.90 2.88 2.86 2.85 2.80 2.75 2.70 2.66 2.62 2.58 4.63 4.21 3.95 3.77 3.63 3.53 3.45 3.39 3.33 3.29 3.25 3.22 3.19 3.17 3.15 3.13 3.07 3.01 2.95 2.90 2.85 2.79
3 4.98 4.51 4.21 4.00 3.85 3.74 3.65 3.58 3.52 3.47 3.43 3.39 3.36 3.33 3.31 3.29 3.22 3.15 3.09 3.03 2.97 2.92
4 5.22 4.71 4.39 4.17 4.01 3.88 3.79 3.71 3.65 3.59 3.55 3.51 3.47 3.44 3.42 3.40 3.32 3.25 3.19 3.12 3.06 . 3.00
5 5.41 4.87 4.53 4.29 4.12 3.99 3.89 3.81 3.74 3.69 3.64 3.60 3.56 3.53 3.50 3.48 3.40 3.33 3.26 3.19 3.12 3.06
6 5.56 5.00 4.64 4.40 4.22 4.08 3.98 3.89 3.82 3.76 3.71 3.67 3.63 3.60 3.57 3.55 3.47 3.39 3.32 3.25 3.18 3.11
7 5.69 5.10 4.74 4.48 4.30 4.16 4.05 3.96 3.89 3.83 3.78 3.73 3.69 3.66 3.63 3.60 3.52 3.44 3.37 3.29 3.22 3.15
8 5.80 5.20 4.82 4.56 4.37 4.22 4.11 4.02 3.94 3.88 3.83 3.78 3.74 3.71 3.68 3.65 3.57 3.49 3.41 3.33 3.26 3.19
9 5.89 5.28 4.89 4.62 4.43 4.28 4.16 4.07 3.99 3.93 3.88 3.83 3.79 3.75 3.72 3.69 3.61 3.52 3.44 3.37 3.29 3.22
do.os (a -1, f)
Comparaciones de una cola
a -1
f
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120
00
2 2.02 1.94 1.89 1.86 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.75 1.74 1.73 1.73 1.72 1.71 1.70 1.68 1.67 1.66 1.64 2.44 2.34 2.27 2.22 2.18 2.15 2.13 2.11 2.09 2.08 2.07 2.06 2.05 2.04 2.03 2.03 2.01 1.99 1.97 1.95 1.93 1.92
660
APNDICE
IX.
Valores crticos para la prueba de Dunnett para comparar tratamientos con un control d o.ol (a -1, f) Comparaciones de una cola (continuacin)
a -1
f
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 . 60 120
00
2 3.37 3.14
~.OO
2.90 2.82 2.76 2.72 2.68 2.65 2.62 2.60 2.58 2.57 2.55 2.54 2.53 2.49 2.46 2.42 2.39 2.36 2.33
3.90 3.61 3.42 3.29 3.19 3.11 3.06 3.01 2.97 2.94 2.91 2.88 2.86 2.84 2.83 2.81 2.77 2.72 2.68 2.64 2.60 2.56
X.
n=3 n=4
n=5
n=6
n=7
Xj
1 2 3 4 5 6 7
PI
-1
O
P2
1 -2 1
PI
-3 -1 1 3
P2
1 -1 -1 1
P3
-1 3 -3 1
PI
-2 1
O
P2
2 -1 -2 -1 2
P3
-1 2
O
P4
PI
P2
5 -1 -4 -4 -1 5 84
2
3
P3
-5 7 4 -4 -7 5 180
3
S
P4
1 -3 2 2 -3 1 28
7
Ps
-1 5
-10 10
PI
-3 -2 -1
O
P2
5
O
P3
-1 1 1
O
P4
3 -7 1 6 1 -7 3 154
T2
7
Ps
-1 4 -5
O
P6
1 -6 15 -20 15 '" -:;:6 1 924
60
77
1 2
-2 1
-5 1 -3 -4 -1 6 -4 . 1 1 3 5 70
i2
35
-5 1 252
T
21
1 2 3 28 1
-3 -4 -3
O
5 84 1
n = 10
-1 -1 1 6
1
5 -4 1 84
20
7
2:
j~1
"
{p(XjW
A
2 1
6 3
20 2
n= 8
4 1
20
10
10
14 1
10
S (;
70 2
n=9
"3
12
(;
Xj
1 2 3 4 5 6 7 8 9
10
PI
-7 -5 -3 -1 1 3 5 7
P2
7 1 -3 -5 -5 -3 1 7
P3
-7 5 7 3 -3 -7 -5 7
P4
7 -13 -3 9 9 -3 -13 7
Ps
-7 23 -17 -15 15 17 -23 7
P6
1 -5 9 -5 -5 9 -5 1
PI
P2
28 7 -8 -17 -20 -17 -8 7 28 2772 3
P3
-14 7 13 9
O
P4
14 -21
-11
Ps
-4
11
P6
4 -17 22 1 -20 1 22 -17 4 1980
60
11
PI
P2
6 2 -1 -3 -4 -4 -3 -1 2 6 132
2
I
P3
-42 14 35 31 12 -12 -31 -35 -14 42 8580
3
S
P'I
18 -22 -17 3 18 18 3 -17 -22 18
Ps
-6 14 -1
-11
P6
3
-11
10
-4 -3 -2 -1
O
1 2 3 4 60 1
-9 -13 -7 14 990
(;
9 18 9
-11
-4 -9
O
9 4
-11
-21 14 2002
12
7
4 468
W
3
-9 -7 -5 -3 -1 1 3 5 7 9 330 2
-6 6
11
6 -8 -8
6
10
1 -14 6
-11
3 660
11
2:
j~1
"
{P(X)}2
A
168 2
168 1
264
1
616
12
7
2184
T
7
264
60
11
2860 780
12
S
TO
40
"Adaptada con penniso de Biometrika Tables for Statisticians, vol. 1, 3a. ed., E.S. Pearson y H.O. Hartley, Cambridge University Press, Cambridge
0\ 0\
~
662
APNDICE
XI.
Nmeros aleatoriosa
10480 22368 24130 42167 37570 77921 99562 96301 89579 85475 28918 63553 09429 10365 07119 51085 02368 01011 52162 07056 48663 54164 32639 29334 02488 81525 29676 00742 05366 91921 00582 00725 69011 25976 09763 91567 17955 46503 92157 14577
15011 46573 48360 93093 39975 06907 72905 91977 14342 36857 69578 40961 93969 61129 97336 12765 21382 54092 53916 97628 91245 58492 32363 27001 33062 72295 20591 57392 04213 26418 04711 69884 65795 57948 83473 42595 56349 18584 89634 62765
01536 25595 22527 06243 81837 11008 56420 05463 63661 53342 88231 48235 52636 87529 71048 51821 52404 33362 46369 33787 85828 22421 05597 87637 28834 04839 68086 39064 25669 64117 87917 62797 95876 29888 73577 27958 90999 18845 94824 35605
02011 85393 97265 61680 16656 42751 69994 07972 10281 53988 33276 03427 92737 85689 08178 51259 60268 94904 58586 09998 14346 74103 24200 87308 07351 96423 26432 66432 26422 94305 77341 56170 55293 88604 12908 30134 49127 49618 78171 81263
87647 30995 76393 07856 06121 27756 98872 18876 17453 53060 70997 49626 88974 48237 77233 77452 89368 31273 23216 42698 09172 47070 13363 58731 19731 24878 46901 84673 44407 26766 42206 86324 18988 67917 30883 04024 20044 02304 84610 39667
91646 89198 64809 16376 91782 53498 31016 20922 18103 59533 79936 69445 33488 52267 13976 16308 19885 04146 14513 06691 30168 25306 38005 00256 92420 82651 20849 40027 44048 25940 35126 88072 27354 48708 18317 86385 59931 51038 82834 47358
69179 27982 15179 39440 60468 18602 71194 94595 57740 38867 56865 18663 36320 67689 47564 60756 55322 18594 83149 76988 90229 76468 94342 45834 60952 66566 89768 32832 37937 39972 74087 76222 26575 18912 28290 29880 06115 20655 09922 56873
14194 53402 24830 53537 81305 70659 18738 56869 84378 62300 05859 72695 17617 93394 81056 92144 44819 29852 98736 13602 04734 26384 28728 15398 61280 14778 81536 61362 63904 22209 99547 36086 08625 82271 35797 99730 20542 58727 25417 56307
62590 93965 49340 71341 49684 90655 44013 69014 25331 08158 90106 52180 30015 01511 97735 49442 01188 71585 23495 51851 59193 58151 35806 46557 50001 76797 86645 98947 45766 71500 81817 84637 40801 65424 05998 55536 18059 28168 44137 67607
aReproducida con permiso de Probability and Statistics in Engineering and Management Science, 3a. ed., Hines y D.C. Montgomery, Wiley, Nueva York
w.w.
APNDICE
663
XlI.
Relaciones de alias para diseos factoriales fraccionados 2k -p con k :5 15 Yn :5 64 Diseos con 3 factores
Resolucin ID
C=AB
Relacin de definicin: Alias
1 = ABC
D=ABC
Relacin de definicin: 1 = ABCD Alias
A = BCD B=ACD C=ABD D=ABC AB=CD AC=BD AD=BC Diseos con 5 factores
e) 25- 2; fraccin 1/4 de 5 factores en 8 corridas
Resolucin 111
D=AB E=AC
Relacin de definicin: 1 = ABD Alias
= ACE = BCDE
E=ABCD
Relacin de definicin: 1 = ABCDE Alias Cada efecto principal es alias de una sola interaccin de 4 factores
2 bloques de 8:
0\ 0\ ...::,..
Relaciones de alias para diseos factoriales fraccionados 2'<-P con k :5 15 Yn :5 64 (continuacin) Diseos con 6 factores e) 26-3; fraccin 1/8 de 6 factores en 8 corridas Generadores del diseo D=AB E=AC F=BC Relacin de definicin: 1 = ABD = ACE = BCDE = BCF = ACDF = ABEF = DEF Alias A = BD = CE = CDF = BEF E = AC = DF = BCD = ABF B = AD = CF = CDE = AEF F = BC = DE = ACD = ABE C = AE = BF = BDE = ADF CD = BE = AF = ABC = ADE = BDF = CEF D = AB = EF = BCE = ACF Xll.
Resolucin ID
Resolucin IV
g) 26-1; fraccin 1/2 de 6 factores en 32 corridas Generadores del diseo F=ABCDE Relacin de definicin: 1 = ABCDEF Alias Cada efecto principal es alias de una sola interaccin de 5 factores. Cada interaccin de 2 factores es alias de una sola interaccin de 4 factores ABC = DEF ACE = BDF ABD = CEF ACF = BDE ABE = CDF ADE = BCF ABF = CDE ADF = BCE ACD = BEF AEF = BCD 2 bloques de 16:ABC = DEF 4 bloques de 8: AB = CDEF ACD=BEF AEF=BCD Diseos con 7 factores
h) 27-4; fraccin 1/16 de 7 factores en 16 corridas
Resolucin VI
<l\
Resolucin ID
Relacin de definicin:
Generadores del diseo D=AB E=AC F=BC G=ABC 1 = ABD = ACE = BCDE = BCF = ACDF = ABEF = DEF = ABCG
= CDG
0\ 0\
\JI
0\ 0\ 0\
xn.
en 16 corridas
Resolucin IV
Resolucin IV
Resolucin VD
en 64 corridas Generadores del diseo G=ABCDEF Relacin de definicin: 1 = ABCDEFG Alias Cada efecto principal es alias de una sola interaccin de 6 factores Cada interaccin de 2 factores es alias de una sola interaccin de 5 factores Cada interaccin de 3 factores es alias de una sola interaccin de4 factores 4 bloques de 16: ABC 2 bloques de 32: ABC CEF CDG Diseos con 8 factores
Resolucin IV
Relacin de definicin:
Alias A = CDF = BEF = BCG = DEG = BDH = CEH = FGH B = CDE = AEF = ACG = DFG = ADH = CFH = EGH C = BDE = ADF = ABG = EFG = AEH = BFH = DGH D = BCE = ACF = AEG = BFG = ABH = EFH = CGH E = BCD = ABF = ADG = CFG = ACH = DFH = BGH F = ACD = ABE = BDG = CEG = BCH = DEH = AGH
G=ABC=ADE=~F=crF=rnH=~H=AFH
---:t
0\ 0\
0\ 0\
00
XII.
Resolucin V
Generadores del diseo G=ABCD H=ABEF Relacin de definicin: 1 = ABCDG = ABEFH = CDEFGH Alias AB=CDG=EFH BG=ACD EF=ABH ADH= BFG= AC=BDG BH=AEF EG= AEG= BGH= AD = BCG CD = ABG EH = ABF AFG = CDE = FGH AE=BFH CE= FG= AGH= CDF=EGH AF=BEH CF= FH=ABE BCE= CDH=EFG AG=BCD CG=ABD GH= BCF= CEF=DGH AH=BEF CH= ACE= BCH= CEG=DFH BC=ADG DE= ACF= BDE= CEH=DFG BD=ACG DF= ACH= BDF= CFG=DEH BE = AFH DG = ABC ADE = BDH = CFH = DEG BF=AEH DH= ADF= BEG= CGH=DEF 2 bloques de 32: CDE
'Il\
= FGH
0\ 0\
\O
0'1
-...l
xn.
en 16 corridas
Resolucin ID
Generadores del diseo E=ABC F=BCD G=ACD H=ABD J=ABCD Relacin de definicin: 1 = ABCE = BCDF = ADEF = ACDG = BDEG = ABFG = CEFG = ABDH = CDEH = ACFH = BEFH = BCGH = AEGH = DFGH = ABCDEFGH = ABCDJ = DEl = AFJ = BCEFJ = BGJ = ACEGJ = CDFGJ = ABDEFGJ = CHJ = ABEHJ = BDFHJ = ABCDEFHJ = ADGHJ = BCDEFGHJ = ABCFGHJ = EFGHJ Alias A=FJ B=GJ C=HJ D=El E=DJ F=AJ G=BJ H=CJ J=DE=AF=BG=CH AB=CE=FG=DH AC=BE=DG=FH AD=EF=CG=BH AE=BC=DF=GH AG=CD=BF=EH AH=BD=CF=EG 2 bloques de 8: AB
= CE = FG = DH
-J
Resolucin IV
= ABCEl
'ilt
= CEH = DEJ
-J
0'1
1-'
--..)
0\
xn.
9- 3 ;
15 y n
64 (continuacin)
Resolucin IV
Generadores del diseo G=ABCD H=ACEF J=CDEF Relacin de definicin: I = ABCDG = ACEFH = BDEFGH = CDEFJ = ABEFGJ = ADHJ = BCGHJ Alias A=DHJ AC=BDG=EFH BF= B= AD=BCG=HJ BG=ACD=CHJ AE=CFH C= BH=CGJ D=AHJ AF=CEH BJ=CGH AG=BCD E= CD=ABG=EFJ F= AH=CEF=DJ CE=AFH=DFJ AJ=DH G= CF=AEH=DEJ H=ADJ BC=ADG=GHJ CG= ABD = BHJ J=ADH BD=ACG CH=AEF=BGJ AB=CDG BE= CJ=DEF=BGH DE=CFJ GJ=BCH AFJ = BEG = DFH DF=CEJ ABE=FGJ AGH=DGJ DG=ABC ABF=EGJ AGJ = BEF = DGH EF=ACH=CDJ ABH=BDJ BCE= EG= ABJ = EFG = BDH BCF= EH=ACF ACJ = CDH BDE = FGH EJ=CDF ADE = EHJ BDF = EGH FG= ADF=FHJ BEH=DFG FH=ACE AEG=BFJ BFG=DEG FJ=CDE AEJ = BFG = DEH CEG= GH=BCJ AFG=BEJ CFG= 2 bloques de 32: CFG 4 bloques de 16: CFG AGJ = BEF = DGH ADE=EHJ
Resolucin ID
en 16 corridas Generadores del diseo E=ABC F=BCD G=ACD H=ABD J=ABCD K=AB Relacin de definicin: 1 = ABCE = BCDF = ADEF = ACDG = BDEG = ABFG = CEFG = ABDH = CDEH = ACFH = BEFH = BCGH = AEGH = DFGH = ABCDEFGH = ABCDJ = DEl = AFJ = BCEFJ = BGJ = ACEGJ = CDFGI = ABDEFGJ = CHJ = ABEHJ = BDFHJ = ACDEFHJ = ADGHJ = BCDEGHJ = ABCFGHJ = EFGHJ = ABK = CEK = ACDFK = BDEFK = BCDGK = ADEGK = FGK = ABCEFGK = DHK = ABCDEHK = BCFHK = AEFHK = ACGKH = BEGHK = ABDFGHK = CDEFGHK = CDJK = ABDElK = BFJK = ACEFJK = AGJK = BCEGJK = ABCDFGJK = DEFGJK = ABCHJK = EHJK = ADFHJK = BCDEFHJK = BDGHJK = ACDEGHJK = CFGHJK = ABEFGHJK
2 bloques de 8: AG
= CD = BF = EH = JK
--.J
0'\
(,,J
...::..
--.]
0\
XII. Relaciones de alias para diseos factoriales fraccionados 2k-p con k s) fraccin 1132 de 10 factores en 32 corridas Generadores del diseo
2 10-5;
:5
15 Yn
:5
64 (continuacin)
Resolucin IV
F=ABCD G=ABCE H=ABDE J=ACDE K=BCDE Relacin de definicin: 1 = ABCDF = ABCEG = DEFG = ABDEH = CEFH = CDGH = ABFGH = ACDE! = BEFJ = BDGJ = ACFGJ = BCHJ = ADFHJ = AEGHJ = BCDEFGHJ = BCDEK = AEFK = ADGK = BCFGK = ACHK = BDFHK = BEGHK = ACDEFGHK = ABJK = CDFJK = CEGJK = ABDEFGJK = DEHJK = ABCEFHJK = ABCDGHJK = FGHJK Alia's AH = BDE = BFG = DFJ = EGJ = CK A = EFK = DGK = CHK = BJK Al = CDE = CFG = DFH = EGH = BK B = EFJ = DGJ = CHJ = AlK C = EFH = DGH = BHJ = AHK AK = EF = DG = CH = BJ D = EFG = CGH = BGJ = AGK BC = ADF = AEG = HJ = DEK = FGK E=DFG=CFH =BFJ=AFK BD = ACF = AEH = GJ = CEK = FHK F = DEG = CEH = BE! = AEK BE = ACG = ADH = FJ = CDK = GHK G = DEF = CDH = BDJ = ADK BF = ACD = AGH = E! = CGK = DHK H = CEF = CDG = BCJ = ACK BG = ACE = AFH = DJ = CFK = EHK J = BEF = BDG = BCH = ABK BH = ADE = AFG = CJ = DFK = EGK K = AEF = ADG = ACH = ABJ CD = ABF = GH = AET = BEK = FJK CE = ABG = FH = ADJ = BDK = GJK AB = CDF = CEG = DEH = FGH = JK CF = ABD = EH = AGJ = BGK = DJK AC = BDF = BEG = DE! = FGJ = HK CG=ABE=DH =AFJ =BFK =ElK AD = BCF = BEH = CE! = FHJ = GK AE = BCG = BDH = CDJ = GHJ = FK DE = FG = ABH = ACJ = BCK = HlK AF = BCD = BGH = CGJ = DHJ = EK DF = ABC = EG = AHl = BHK = CJK AG = BCE = BFH = CFJ = EHJ = DK
2 bloques de 16: AK = EF = DG = CH = Bl 4 bloques de 8:AK = EF = DG = CH = Bl Al = CDE = CFG = DFH = EGH = BK AB = CDF = CEG = DEH = FGH = lK
Resolucin IV
Alias AD=CFH=BEl AE=BDJ=BCK AF=CDH=HJK AG=BH AH=CDF=BG=FJK AJ=BDE=FHK AK=BCE=FHJ BC=DFG=AEK BD=CFG=AEJ BE=ADJ=ACK BF=CDG=GJK BJ=ADE=FGK GJ=DEH=BFK GK = CEH = BFJ HJ = DEG = AFK HK = CEG = AFJ ABF = FGH ACG = BCH = EFJ ACJ = EFG = ADK ADG = BDH = EFK AEF = CGJ = DGK
BK=ACE=FGJ CD=BFG=AFH=JK CE=ABK=GHK CF=BDG=ADH CG = BDF = EHK CH=ADF=EGK CJ=DK CK = ABE = EGH =DJ DE=ABJ=GHJ DF=BCG=ACH DG=BCF=EHJ DH=ACF=EGJ AEG=BEH=CFJ=DFK AEH = BEG AFG = BFH = CEl = DEK AGJ = CEF = BHJ AGK = DEF = BHK BCJ = EFH = BDK BEF = CHJ = DHK CDE = ElK CFK = DFJ
...
= BHJ
--..)
0\
U1
-...J
0'1 0'1
XII.
Relaciones de alias para diseos factoriales fraccionados 2t(p con k :5 15 Yn :5 64 (continuacin) Diseos con 11 factores
Resolucin ID
Generadores del diseo E=ABC F=BCD G=ACD H=ABD J=ABCD K=AB L=AC Relacin de definicin: 1= ABCE = BCDF = ADEF= ACDG = BDEG = ABFG = CEFG = ABDH = CDEH = ACFH = BEFH = BCGH = AEGH = DFGH = ABCDEFGH = ABCDJ = DEl = AFJ = BCEFJ = BGJ = ACEGJ = CDFGJ = ABDEFGJ = CHJ = ABEHJ = BDFHJ = ACDEFHJ = ADGHJ = BCDEGHJ = ABCFGHJ = EFGHJ = ABK = CEK = ACDFK = BDEFK = BCDGK = ADEGK = FGK = ABCEFGK = DHK = ABCDEHK = BCFHK = AEFHK = ACGHK = BEGHK = ABDFGHK = CDEFGHK = CDJK = ABDElK = BFJK = ACEFJK = AGJK = BCEGJK = ABCDFGJK = DEFGJK = ABCHJK = EHJK = ADFHJK = BCDEFHJK = BDGHJK = ACDEGHJK = CFGHJK = ABEFGHJK = ACL = BEL = ABDFL = CDEFL = DGL = ABCDEGL= BCFGL = AEFGL = BCDHL - = ADEHL = FHL = ABCEFHL = ABGHL = CEGHL = ACDFGHL = BDEFGHL = BDJL = ACDElL = CFJL = ABEFJL =ABCGJL = EGJL = ADFGJL = BCDEFGJL = AHJL = BCEHJL = ABCDFHJL = DEFHJL = CDGHJL = ABDEGHJL = BFGHJL = ACEFGHJL = BCKL = AEKL = DFKL = ABCDEFKL = ABDGKL = CDEGKL = ACFGKL = BEFGKL = ACDHKL = BDEHKL = ABFHKL = CEFHKL = GHKL = ABCEGHKL = BCDFGHKL = ADEFGHKL = ADJKL = BCDElKL = ABCFJKL = EFJKL = CGJKL = ABEGJKL = BDFGJKL = ACDEFGJKL = BHJKL = ACEHJKL = CDFHJKL = ABDEFHJKL = ABCDGHJKL = DEGHJKL = AFGHJKL = BCEFGHJKL A=FJ=BK =CL B=GJ=AK=EL C=HJ=EK=AL D=El=HK=GL E=DJ=CK=BL F=AJ=GK=HL G=BJ=FK=DL H=CJ=DK=FL 2 bloques de 8:AE Alias J=DE=AF=BG=CH K = AB = CE = FG = DH L=AC=BE=DG=FH AD=EF=CG=BH AE = BC = DF = GH = KL AG = CD = BF = EH = JK AH = BD = CF = EG = JL
= BC = DF = GH = KL
Resolucin IV
Generadores del diseo F=ABC G=BCD H=CDE J=ACD K=ADE L=BDE Relacin de definicin: 1 = ABCF = BCDG = ADFG = CDEH = ABDEFH = BEGH = ACEFGH = ACDJ = BDFJ == ABGJ = CFGJ =AEHJ=BCEFHJ=ABCDEGHJ=DEFGHJ=ADEK=BCDEFK=ABCiGK=EFGK=ACHK=BFHK = ABDGHK = CDFGHK = CElK = ABEFJK = BDEGJK = ACDEFG.JK = DHJK == ABCDFHJK = BCGHJK = AFGHJK = BDEL = ACDEFL = CEGL == ABEFGL = BCHL = AFHL = DGHL = ABCDFGHL = ABCEJL = EFJL = ADEGJL = BCDEFGJL = ABDHJL = CDFHJL = ACGHJL = BFGHJL = ABKL = CFKL = ACDGKL = BDFGKL = ABCDEHKL = DEFHKL = AEGHKL = BCEFGHKL = BCDJKL = ADFJKL = GJKL = ABCFGJKL = BEHJKL = ACEFHJKL = CDEGHJKL = ABDEFGHJKL Alias A = BCF = DFG = CDJ = BGJ = EHJ = DEK = CHK = FHL = BKL B = ACF = CDG = EGH = DFJ == AGJ = FHK = DEL = CHL = AKL C = ABF = BDG == DEH = ADJ = FGJ = AHK = ElK = EGL = BHL = FKL D =BCG = AFG = CEH = ACJ = BFJ = AEK = HJK = BEL = GHL E = CDH = BGH = AHJ = ADK = FGK = CJK = BDL = CGL = FJL F = ABC = ADG = BDJ == CGJ = EGK = BHK = AHL = ElL = CKL G = BCD = ADF = BEH = ABJ = CFJ = EFK = CEL = DHL = JKL H = CDE = BEG = AEJ = ACK = BFK = DJK = BCL = AFL = DGL J = ACD= BDF = ABG = CFG = AEH = CEK = DHK = EFL = GKL K = ADE = EFG = ACH = BFH = CEl = DHJ = ABL = CFL = GJL L = BDE = CEG = BCH = AFH = DGH = EPJ = ABK = CFK = GJK AB=cr=W=KL AE=m=~ AH=El=IT=R ~=m=H ~=m=a=H ~=M=lli=~ AF=OC=OO=& N=m=OO=ffl ~=oo=FJ=a cr=~=~==~ AD=FG=CJ=EK AG=DF=BJ AK =DE=CH =BL BE=GH =DL EF=GK =JL ABD = CDF = ACG = BFG == EFH = BCJ =AFJ = DGJ = BEK = G~ = AEL = HJL = DKL ABE = CEF = DFH = AGH = EGJ = BH! = BDK = CGK = F~ = ADL = FGL = CJL = EKL ABH = DEF = AEG = CFH = BEJ = GHJ = BCK = AFK = DGK = ACL = BFL = DJL = HKL ACE = BEF = ADH = FGH = DEl = CHJ = CDK = BGK = EHK = ~ = DFL = AGL = BJL AEF = BCE = DEG = BDH = CGn = FHJ = DFK = AGK = BJK = CDL = BGL = EHL = NL 2 bloques de16: AB = CF = GJ = KL 4 bloques de 8: AB = CF = GJ = KL AD = FG = CJ = EK BD = CG =FJ=EL
...
-..].
0'1
-..]
678
APNDICE
XII.
12
Relaciones de alias para diseos factoriales fraccionados 2"-P con k :s; 15 Yn :s; 64 (continuacin)
Generadores del diseo E=ABC F=ABD G=ACD H=BCD l=ABCD K=AB L=AC M=AD Alias A = Hl = BK = CL = DM B = Gl = AK = EL = FM C = Fl = EK = AL = GM D = El = FK = GL = AM E = Dl = CK = BL = HM F = CJ = DK = HL = BM G = Bl = HK = DL = CM H = Al = GK = FL = EM l=DE=CF=BG=AH K = AB = CE = DF = GH L=AC=BE=DG=FH M=AD=BF=CG=EH AE = BC = FG = DH = KL = 1M AF = BD = EG = CH = lL = KM AG= EF = CD = BH = lK = LM 2 bloques de 8:AE = BC = FG = DH = KL = 1M Diseos con 13 factores x) 2 13- 9 ; fraccin 1/512 de 13 factores en 16 corridas Generadores del diseo E=ABC F=ABD G=ACD H=BCD l=ABCD K=AB L=AC M=AD N=BC Alias A = Hl = BK = CL = DM = EN B= Gl = AK = EL = FM = CN C = FJ = EK = AL = GM = BN D=El=FK =GL =AM =HN E = Dl = CK = BL = HM = AN F = CJ = DK = HL = BM = GN G = Bl = HK = DL = CM = FN H = Al = GK = FL = EM = DN 1 = DE = CF = BG = AH = MN K = AB = CE = DF = GH = LN L=AC=BE=DG=FH =KN M = AD = BF = CG = EH = JN N = BC = AE = FG = DH = KL = 1M AF = BD = EG = CH = lL = KM AG = EF = CD = BH = lK = LM 2 bloques de 8:AF = BD = EG = CH = lL = KM
Resolucin ID
APNDICE
679
Xli.
Relaciones de alias para diseos factoriales fraccionados 2k-p con k :5 15 Yn < 64 (continuacin)
Resolucin ID
Resolucin ID
Generadores del diseo E=ABC F=ABD G=ACD H=BCD l=ABCD K=AB L=AC M=AD N=BC O=BD P=CD Alias A = Hl = BK = CL = DM = EN = FO = GP B = Gl ,,; AK = EL = FM = CN = DO = HP C = Fl = EK = AL = GM = BN = HO = DP D = El = FK = GL = AM = HN =BO = CP E = Dl = CK = BL = HM = AN = GO = FP F = CJ = DK = HL = BM = GN = AO = EP G = Bl = HK = DL = CM = FN = EO = AP H = Al = GK = FL = EM = DN = CO = BP 1 = DE = CF = BG = AH = MN = LO = KP K = AB = CE = DF = GH = LN = MO = JP L = AC = BE = DG = FH = KN = JO = MP M =AD = BF = CG = EH = JN = KO = LP N = BC = AE = FG = DH = KL = 1M = OP 0= BD = AF = EG = CH = lL = KM = NP P = CD = EF = AG = BH = lK = LM = NO
Glosario. para el uso d.e Design Expert Valor real Precisin adecuada Cuadrado medio ajustado E. cuadrada ajustada Suma de cuadrados ajustada (SS ajustada) Anlisis de varianza Estimacin del coeficiente Coeficiente de variacin Intervalo de confianza Distancia de Cook Total corregido. Suma de los valores de respuesta, corregidos. por la media.. Se. llama com:nInente !uma de cuadI'ados totales DF (degrees, of freedom) Grados de libertad' DDF (denominator degrees of freedom) Grados de libertad de.! denominador Diagnostic case statistics Estad!ticos de diagnstico del caso Trmino del error E/Tor teml Media estimada Estimated mean Expected mean. square Cuadrado medio esperado Lack offit Falta de ajuste Least squares means, for strength Medias de mnimos cuadrados de la resistencia Accin de palanca. Potencial de lln punto del Leverage diseo para influir en los coeficientes del: ajuste del modelo., Deben evitarse valores cercanos a, uno Mean Media Mean difference Diferencia media Mean square Cuadrado medio Medias de las covariables Means for covl1liates Grados, de libertad, del' numerador NDF (numerator degrees of freedom) Operador fijo, Operatorfixed' Operator' random, Operador aleatorio Outlier t Punto atpico. t 13. cuadrada predicha Pred 13.-squared Predicted value Valor predicho PRESS (Prediction enw sum of squares) Suma de cuadrados del error de prediccin Pure en"Dr Brrorpuro R cuadrada 13.-squared 13.oot MSE (root mean square enw) Raz cuadrada del cuadrado medio del: errar Seq, SS (sequential SlP11 , of squares) Suma de cuadrados secuencial' Std: Dev. (standard deviation) Desviacin estndar Error estndar, Standard enw (SE) SE,of difference (standm:d e/ror of difference) Error estndard de la diferencia Error estndar de la estimacin Std. e/ror of estimation SE mean, (standarde/ror ofthe mean) Error estndar de la media Standard order Orden estndar Residual. de Student Student residual Suma de cuadrados Sum of squares Villiance component Componente de la varianza
Tabla XTIl.
ActuaI value Adi3q precision Adj MS (adjusted mean square) Adj 13."squared Adj SS (adjusted SUI1.1' of squares) Analysis of vanance Coefficient estimate c.y (coefficient of vqriation) Cl (confidence interval) Cook's distance COl' total (cOlTected fotal) ,
" Indice
Aberracin, 326 Aditividad del modelo, de bloques aleatorizados, 136. Ver tambin Prueba de interacciones (no aditividad) Aleatorizacin, 12; 13, 61, 126, 148 AlgoriJmo de anlisis, para el diseo 2~, 242 Algoritmo de intercambio; 469 Alias; 304 Alias parciales, 344, 380, 383 Anlisis cannico, del modelo de superficie de respuesta de sewndo orden, 440 AnliSis de covarianza, 15, 126, 604 Anlisis de residuales, 76, 79, 185, 224, 400; 416, 563 Anlisis de varianza, 60, 63, 66 Anlisis de varianza, de dos. factores, 177 Anlisis: de varianza de un solo factor, 64 Anlisis de varianza simple Q; de, una variable, 64 Anlisis, interbloques, 161 Anlisis intrabloqes, 161 Arreglo exterior; 491 Arreglo interiOl:,. 49:1; Ascenso ms. prOlmnciad(), 227, 430, 435 Aumento del diseo, 409, Ver tambin S.eparacin de alias en las interacciones y Contl'accin de diseos facto" riales fraccionados.
Bloque principal; 291, 297, 373. Bloq)les. completos, 127 Bloques incompletos, 154
Clc)llos. en, d anlisis de; varianza, 70; 72' Cambio, en'. el: efecto de la media en. una operacin. evoluti~ va; (EVOP), 484', 488 Carcter iterativo de. la experimentacin, 11, 20, Ven tmnbill\ Experimentacin secuencial] Ciclo. en, la operacin evolutiva, (EV0P), 484. Codificacin. de los datos en un. anlisis: de varian:;:a, 72 CoeficieJlte de c.onfianza, 42: (i;oeficiente' de variacin; 104 Coeficientes. de regresin, parcial. 393 Combinacin de fra::cione<s para estimar efectos, 303,.306, 315, 339, 347; 348
Combinacin de informacin interbloques e intrabloques, 162 Combinacin de los cuadrados medios para estimar el error, 535 Comparacin de medias por pares, 96-104 Comparacin de todos los contrastes, 95 Comparacin de tratamientos con un control, 103 Comparacin grfica de medias, 89 Comparaciones mltiples, 88, 133, 182 Componente 1 de una interaccin, 366 Componente J de una interaccin, 366 Componente W de una interaccin, 372 Componente X de una interaccin, 372 Componente Y de una interaccin, 372 Componente Z de una interaccin, 372 Componentes de la varianza, 65, 511, 512, 518, 565 Componentes de una interaccin, 204, 366 Condiciones ptimas, 427, 429, 430, 436 Conexin entre anlisis de varianza y regresin, 112 Confusin completa, 299 Confusin en el diseo 2k , 288 cuatro bloques, 296 dos bloques, 289 ms. de cuatro bloques, 297 Confusin en el diseo 3k , 373 ms de nueve bloques, 378 nueve bloques, 377 tres bloques,. 373 Confusin parcial, 299 Construccin de diseos factoriales fraccionados, 307, 318, 337!, 379c 381 Contraccin completa:, 340 Contraccin parciaI, 349 Contraste estandarizado, 92 Contraste ortogonal" 93, 221, 231 Contl'astes, 90; 93, 221, 231, 290 Cordillera creciente, 448' Cordillera estacionaria, 448 Corridas axiales"274, 365, 478 Covariable; 604 Covarianza:, 26 Crite<rio. de prediccin adecuada, 104 Criterio para sele.ccionar un diseo, 455
681
682
NDICE
Criterios de diseo, 455 Cuadrado latino estndar, 148 Cuadrados latinos ortogonales, 151, 365 Cuadrados medios, 68, 179 Cubo con centros en las caras, 459 Curioseo o sondeo d~ datos, 94 Curva de operacin caracterstica, 40, 107, 139, 189, 529 Curva Oc. Ver Curva de operacin caracterstica Curvatura, 174,272,432
D de Cook, 420
Datos no balanceados en el anlisis de varianza, 75, 600 Datos proporcionales en un diseo factoral no balanceado, 600 Definicin de contrastes, 290, 296, 373 Desviacin estndar muestral, 27 Determinacin analtica de una transformacin, 590 Determinacin del tamao de la muestra, 40, 107-110,139, 189,529 Diagrama de caja, 23, 62 Diagrama. de dispersin, 662 Diagrama de puntos, 21, 22 Direccin del ascenso ms pronunciado. Ver Ascenso ms pronunciado Diseo anidado de dos etapas, 557 Diseo anidado de m etapas, 566 Diseo anidado de tres etapas, 566 Diseo balanceado, 154, 558, 600 Diseo bsico, 307, 317, 381 Diseo central compuesto, 11, 274, 275, 365, 441, 456 Diseo de aberracin mnima, 326 Diseo de arreglo combinado, 492, 494 Diseo de arreglo cruzado, 491 Diseo de bloques aleatorizados, 50, 126, 207 bloques completos, 127 bloques incompletos, 154 Diseo de Box-Behnken, 458 Diseo de comparaciones pareadas, 47, 50 Diseo del cuadrado latino, 144, 148, 209, 365 Diseo en parcelas subdivididas, 557, 573, 578 Diseo en parcelas subdivididas en franjas, 583 Diseo experimental completamente aleatorizado, 33, 64, 176,207 Diseo experimental y diseo de productos, 8, 11 Diseo factorial 22, 5, 219 Diseo factorial 23 , 6, 228 Diseo factorial 24, 7, 246 Diseo factorial 2k , 7, 218, 242 Diseo factorial anidado, 569 Diseo factorial no balanceado, 600 Diseo hexagonal, 461 Diseo jerrquico. Ver Diseos anidados Diseo no balanceado, 75, 144, 600 Diseo no replicado. Ver Rplica nica Diseo optimal A, 468 Diseo optimal D, 468
Diseo optimal G, 468 Diseo optimal V, 468 Diseo pentagonal, 461 Diseo robusto, 488. Ver tambin Estudios de robustez de procesos Diseo rotable, 457 Diseo smplex para el modelo de primer orden, 456 Diseos 2k-1, 304-317 Diseos 2k - Z, 317 Diseos 2k- p , 326 Diseos 3k, 363, 372 Diseo 3k-1, 379 Diseos 3k-p, 382 Diseos alternados o entrecruzados, 150 Diseos anidados, 557-568 Diseos anidados por etapas. escalonados, 566 Diseos centrales compuestos pequeos, 461 Diseos cuboidales, 450 Diseos de bloques incompletos balanceados, 154 Diseos de cuadrados grecolatinos, 151, 383 Diseos de puntos frontera, 478 Diseos de resolucin ID, 306, 337 Diseos de resolucin Iv, 306, 347 Diseos de resolucin V, 307, 347 Diseos de segundo orden, 456 Diseos de superficie de respuesta, 11, 364, 429 Diseos en parcelas con doble subdivisin, 580 Diseos equirradiales, 461 Diseos esfricos, 457 Diseos generados por computadora, 409, 466, 479 Diseos hbridos, 461 Diseos mnimos de resolucin Iv, 347 Diseos no geomtricos, 343 Diseos optimales, 468 Diseos optimales alfabticos, 468-469 Diseos ortogonales, 231, 404, 455 Diseos para modelos de primer orden, 455 Diseos Plackett-Burman, 343-347 'Diseos saturados, 337 Diseos simtricos, 155 Diseos smplex de centroide para mezclas, 475 Diseos smplex de retcula para mezclas, 474 Distribucin de muestreo, 29 Distribucin de probabilidad, 23 Distribucin de probabilidad continua, 24 Distribucin de probabilidad discreta, 24 Distribucin de referencia, 35 Distribucin F, 32 Distribucin ji-cuadrada, 30 Distribucin normal, 29 Distribucin normal estndar, 29 Distribucin sesgada, 30 Distribucin t, 31 Doblez de diseos factoriales fraccionados, 339, 340, 347, 348. Ver tambin Separacin de alias en las interacciones
NDICE
683
Ecuaciones normales de mnimos cuadrados, 112, 151, 159, 186-187, 395 Ecuaciones normales. ~r Ecuaciones normales de mnimos cuadrados Efecto del tratamento, 64 Efecto principal, 5, 170, 220 Efecto total de un factor, 221 Efectos cuadrticos, 88, 204, 432 Efectos cbicos, 88 Efectos de dispersin, 110, 241, 260, 264, 323 Efectos de localizacin, 111, 260, 323 Efectos de los factores, 5, 6, 220 Efectos de los tratamentos ajustados, 157, 161 Efectos ortogonales, 221, 231 Efectos residuales de tratamentos, 150 Eficiencia relativa de los diseos factoriales, 174 Eigenvalores (valores propios), 440 Eigenvectores (vectores propios), 446 Elemento identidad, 231 Enfoque de grupo en el diseo de experimentos, 14 Enfoque de la mejor conjetura para la experimentacin, 3 Enfoque no paramtrico del anlisis de varianza, 116 Error, 22 Error de la parcela completa, 575, 579, 584 Error de la subparcela, 575, 579, 584 Error estadstico, 22, 64, 412 Error estndar de los efectos en un diseo 2k , 241 Error estndar de un coeficiente de regresin, 239, 412 Error experimental, 11, 12, 34, 64 Error intrabloques, 163 Error puro, 239 Escala codificada, 172 Espacio inferencial de un experimento, 511 Estadstico del rango studentizado, 97, 102 Estadstico R2 ajustada, 104, 411. ~r tambin R2 Estimacin, 27 Estimacin de los componentes de la varianza, 513 mxima verosimlitud, 547 mtodo de mxima verosimilitud con restricciones, 549 mtodo del anlisis de varianza, 513, 518, 524 Estimacin de los parmetros del modelo en el anlisis de varianza, 74, 112, 185 Estimacin de mxima verosimlitud, 547, 549, 595 Estimacin de mnimos cuadrados de parmetros, 88, 112, 141, 159, 186, 394 Estimacin de valores faltantes, 139, 148, 602 Estimaciones de efectos, 220 magnitud y direccin, 221 Estimador, 27 Estimador de la varianza mnima, 27 Estimador de momentos, 547 Estimador insesgado, 27 Estrategia de experimentacin, 1, 3 Estudios de capacidad o aptitud de los instrumentos de medicin, 519, 524 Estudios de robustez de procesos, 1, 127, 176, 488
Experimentacin secuencial, 10, 17, 18,20, 303, 315, 365, 429,456 Experimentador, 2 Experimento aleatorizado. Ver Diseo experimental completamente aleatorizado Experimento comparativo, 21 Experimento con mediciones repetidas, 624 Experimento de caracterizacin, 8. ~r tambin Experimento de tamzado Experimento de tamzado, 9, 15, 218, 303 Experimento factorial, 4, 170, 218 en bloques, 207, 287 en parcelas subdivididas, 578 Experimento factorial fraccionado, 7, 303, 379 Experimentos con un factor a la vez, 4 Experimentos de mezclas, 472 Experimentos de seguimento. ~r Pruebas de confirmacin Experimentos industriales y experimentos agrcolas, 18 Experimentos no planeados, 392 Factor cruzado, 170. ~r tambin' Experimento factorial Factores, 1, 2, 3, 5, 14, 21, 60 Factores controlables, 2, 14, 15, 489, 493 Factores cualitativos, 86, 201, 275, 368 Factores cuantitativos, 86, 171, 201, 272, 363, 368, 511 Factores de ruido. lir Factores no controlables Factores no controlables, 2, 15, 489 Factores que se mantienen constantes, 14 Falta de ajuste, 239, 272, 431 Familia de potencias de transformaciones, 84, 591 Famlia exponencial de distribuciones, 594 Familia factorial fraccionada, 306 Fase en una operacin evolutiva (EVOP), 484 Forma no restringida del modelo mixto, 526, 540, 573 Forma restringida del modelo mixto, 523, 531, 539, 559, 569 Formacin de bloques, 12, 13, 15, 50, 126, 127, 130, 207, 209, 287, 289, 296, 298, 315, 331, 373, 462, 574, 576, 579, 580, 604 Formacin de bloques de diseos de superficie de respuesta, 462-466 Fraccin alterna, 305, 319 Fraccin complementaria. ~r Fraccin alterna Fraccin irregular, 346 Fraccin principal, 305 Fraccin un medio, 7, 304 Fuerza de una transformacin, 84 Funcin de enlace, 595 Funciones con condicin de deseables, 451-454 Funciones estimables, 113, 114, 188, 189 Generador de diseos. lir Generador de diseos factoriales fraccionados Generador de diseos factoriales fraccionados, 304, 318 Grados de libertad, 29, 30, 31 Grfica de contorno, 10, 204
684
NDICE
Grfica de cubo, 242, 262 Grfica de inferencia condicional para diseos factoriales no replicados, 253 Grfica de probabilidad normal de los efectos, 246, 264 Graficacin de residuales, 76-86 Grficas de probabilidad normal, 38, 72 Herencia de la agricultura, 17, 18 Hipercuadrados, 154 Hiptesis alternativa, 34 Hiptesis alternativa de dos colas, 34 Hiptesis alternativa de una cola, 35 Hiptesis nula, 34 Histograma, 23 Importancia de los conocimientos no estadsticos, 19 ndice de error en el modo del experimento, 75 Influencia y accin de palanca, 419, 420 Informacin relativa para efectos confundidos, 300 Interaccin, 4, 137, 171, 174 Interaccin entre tratamientos y bloques, 137 Interaccin generalizada, 296, 299, 377 Intervalo de confianza, 42 Intervalo de confianza para la media de un tratamiento, 74, 75,100 Intervalo de confianza para la respuesta promedio en el modelo de regresin, 416 Intervalo de confianza simultneo, 75 Intervalo de prediccin, 416 Intervalos de confianza aproximados para los componentes de la varianza, 543 Intervalos de confianza para los componentes de la varianza, 516, 491 intervalos aproximados tipo Satterthwaite, 543 intervalos exactos, 516, 543 mtodo de grandes muestras modificado, 545 procedimientos de mxima verosimilitud, 552 Intervalos de confianza simultneos, 75, 95 Intervalos de confianza uno a la vez, 75 Jerarqua del modelo, 203, 286 Lmites de confianza, 42 Localizacin, como en la tendencia central, 22 Matriz de covarianza, 397 Matriz del diseo, 228 Matriz gorro, 417 Media, 12, 25 Media global, 64 Media muestral, 12, 26, 27 Medias ajustadas de los tratamientos en anlisis de covarianza, 607 Mediciones duplicadas en la respuesta, 265 Mtodo de Bonferroni de intervalos de confianza simultneos, 75
Mtodo de Box-Cox, 590 Mtodo de grandes muestras modificado, 545 Mtodo de la diferencia significativa mnima (LSD) para comparar medias, 99 Mtodo de Lenth para diseos sin rplicas, 254 Mtodo de los cuadrados de las medias ponderados, 603 Mtodo de medias no ponderadas, 603 Mtodo de mnimos cuadrados. ~r Estimacin de mnimos cuadrados de parmetros Mtodo de momentos, 547 Mtodo de Satterthwaite. ~r Pruebas F aproximadas Mtodo del ascenso ms pronunciado. ~r Ascenso ms pronunciado Metodologa de superficies de respuesta (MSR), 11, 427 Mtodos de medias no ponderadas en el anlisis de varianza, 603 Mezclado lineal, 476 Mezclado sinrgico en mezclas, 476 Mezclas antagnicas en mezclas, 476 Mezclas binarias, 472 Mezclas de verificacin, 478 Mezclas puras, 474 Mnimos cuadrados esperados, 68, 179 reglas para, 531 Mnimos cuadrados ponderados, 595 Mitad de grfica normal de los efectos, 253 Modelo completo, 115, 116, 142, 413 Modelo con efectos aleatorios, 65, 511, 512, 557 Modelo con efectos fijos, 65, 511 Modelo de la respuesta o de reaccin de un diseo robusto,492 Modelo de las medias, 64, 128, 177 Modelo de los efectos, 64, 128, 145, 177 Modelo de primer orden, 226, 427, 455 Modelo de regresin, 87, 172, 177, 201, 204, 223, 235, 364, 392,604 Modelo de regresin lineal mltiple, 393 Modelo de superficie de respuesta de segundo orden, 429 Modelo emprico, 17, 87, 392 Modelo estadstico, 34, 48, 64, 87, 128, 155, 177, 190, 191, 194, 207, 210, 393, 427, 429, 436, 476, 492, 493, 512, 517, 522, 526, 558, 567, 569, 575, 576, 578, 581, 584, 594, 605, 624 Modelo factorial sin interacciones, 190 Modelo jerrquico, 203, 286 Modelo lineal, 64. ~r tambin Modelo estadstico Modelo lineal generalizado, 594 Modelo mixto, 522, 559, 569 error estndar de la media con efectos fijos, 524 estimacin de los componentes de la varianza, 524 formas alternativas, 526 modelo con restricciones, 523 modelo sin restricciones, 5126 Modelo reducido, 116, 143, 413, 520 Modelos aditivos, 135, 145, 432 Modelos con mezclas, 476
NDICE
685
Muestreo aleatorio, 26 Navaja de Ockham, 310 Nivel de significacin, 34, 37 Niveles de los factores, 14, 21, 60, 245 Niveles de los factores naturales, 224, 226, 431 Niveles imprecisos de los factores del diseo, 405 Niveles mixtos de los factores en un diseo factorial, 383 Notacin geomtrica para experimentos factoriales, 228 Observaciones faltantes en un diseo de bloques aleatorizados, 139 Observaciones faltantes en un diseo de cuadrado latino, 148 Observaciones faltantes en un diseo factorial 2k , 404 Operacin evolutiva (EVOP), 484-488 Operador de la varianza, 25 Operador del valor esperado, 25 Optimizacin de un proceso, 9, 427 Orden de Yates. Ver Orden estndar Orden estndar, 223, 228, 242 Ortogonalidad, 93, 221, 231 Palabras en la relacin de definicin, 318 Parcelas completas, 574, 579, 583 Pautas generales para el diseo de experimentos, 13 Pendiente de la superficie de respuesta, 493 Planeacin previa al experimento, 14, 16 Potencia, 34 Predictor lineal, 594 PRESS (Prediction Error Sum of Squares, Prediccin de suma de cuadrados de error), 104 Principio de efectos esparcidos, 245, 303 Principio jerrquico en la constlllccin de modelos, 203, 286 Procesos robustos, 1. Ver tambin Estudios de robustez de procesos Programacin no lineal, 451 Propagacin del error, 495 .~ Propiedad de reduccin de ruido con la formacin d bloques, 51, 132-133 Propiedades de los estimadores de mnimos cuadrados, 397 Proyeccin de diseos factoriales, 246, 303, 307, 331 Proyeccin del diseo, 247, 303, 310 Proyectividad, 345 Prueba de Bartlett para la igualdad de varianzas, 81 Prueba de Dunnett, 103 Prueba de hiptesis, 21, 33, 409 Prueba de interacciones (no aditividad), 192 Prueba de Kruskal-Wallis, 116 Prueba de Levene modificada. Ver Prueba de Levene Prueba de Levene para la igualdad de la varianza, 82 Prueba de Newman-Keuls, 102 Prueba de Scheff, 95 Prueba de significacin. Ver Prueba de hiptesis Prueba de significacin de una regresin, 409
Prueba de Tukey, 96 Prueba del rango mltiple de Duncan, 100 Prueba F parcial, 413 Prueba general de la significacin de la regresin, 114, 141, 626 Prueba t combinada. Ver Prueba t de dos muestras Prueba t de dos muestras, 35 varianzas diferentes, 44 Prueba t pareada, 49 Pruebas de aleatorizacin, 40, 73 Pruebas de confirmacin, 17, 317 Pruebas F aproximadas, 535, 539, 540 Pseudocomponentes, 479 Pseudopruebas F. Ver Pruebas F aproximadas Punto de respuesta mxima, 436, 437 Punto de respuesta mnima, 436, 438 Punto estacionario, 436, 440 Punto silla, 436, 439 Puntos atpicos, 78, 417 Puntos centrales, 271, 365, 431, 458, 461 Puntos de accin de palanca, 420. Ver tambin Influencia y accin de palanca
R2, 104, 411. Ver tambin Estadstico R2 ajustada R2 para prediccin, 104, 419 Realizacin de rplicas, 5, 12, 16, 60, 247 Regin crtica, 34 Regin de rechazo. Ver Regin crtica Reglas para expectativas, 26 Reglas para los cuadrados medios esperados, 531 Relacin de definicin para un diseo factorial fraccionado, 304, 318, 379 Relacin generadora, 318 Relacin seal a ruido, 491 Repetibilidad, 519 Rplica oculta, 247, 619 Rplica nica, 191, 244. Ver tambin Una observacin por celda Rplicas de cuadrados latinos, 148 Reproducibilidad, 519 Residuales escalados, 417 Residuales estandarizados, 78, 417 Residuales PRESS, 418 Residuales studentizados, 418 Resolucin del diseo, 308 Resolucin de un diseo factorial fraccionado. Ver Resolucin del diseo Respuestas mltiples, 448 Restriccin sobre la aleatorizacin, 130, 145, 207, 209 Restriccin sobre la aletorizacin. Ver Restriccin sobre la aleatorizacin; ver tambin Formacin de bloqiles R-Student, 419
9 'NOV. 2005
o
HOJA DE DEVOLUCION
686
NDICE
:J 2 AGO 2e
Separacin de alias en las inteJ 407. Ver tambin Doblez cionados Significacin prctica vs signifi( Sistemas de cordilleras, 447 Submuestreo, 578 Subparcelas,574, 579 Suma de cuadrados corregida, ; Suma de cuadrados de los resid Sumas de cuadrados extras, 412 Sumas de cuadrados tipo nI, 6; Superficie de respuesta, 10, 173 393, 427 Supuesto de desigualdad de la , Supuesto de independencia en 1 varianza, 38-40, 79 Supuesto de normalidad en las J varianza, 38, 77 Tendencia central, 22 Teorema de Cochran, 69 Teorema del lmite central, 30 Totales de los tratamientos ajust; Transformacin de datos, 40, 81, Transformacin de rangos, 117, J Transformacin para corregir la ' 40, 81, 84-86, 257, 590 Transformaciones para estabilizal 257 'fransmisin del error, 493, 495 Tratamiento de control, 103 'fratamientos, 21, 60 .."
9 SEP 20l~
a
ales a los bloques, 139 ,o ms pronunciado. f.i!r Ascenso ms celda, 191 13,64,126
un tratamiento, 66 tratamientos, 66 inua,22 'eta, 22 , central, 107 604 392 l, 2, 14, 15, 392 192 392 13, 126 ependientes, 26 72, 223,431 D3 In como criterio de diseo, 455,
...
..L
VUELTO DENTRO DE UN TRMINO s, ESTE LIBRO DEBERFSEEC~~~ARCADA POR EL LTIMO SELLO, , QUE EXPIRA EN LA ~AGAR $ DE NO SER ASI, EL LECTOR SE OBLIGA A r" . POR CADA OlA DE DEMORA.
W ~\"JI:iJ\S\m~0 . lljl'."\> \!W;\l \.l\~. \;, 11Ml\.. i\,\\\I"r.. ~;r ,1:. 'e ',," Fac\l\\(I,;e Il '{J) .
.' o
.1fI~ { ' s\y~lG EDICiN, COMPOSICiN, DI~EO E IMPRESiN DE ESTA OBRA FUERON RE"1LIZAOOS
BAJO LA SUPERVISION DE GRUPO NORIEGA EDITORES. BALOERAS 95, COL. CENTRO. MEXICO, D.F. C.P. 06040 2218770000104658DP9200IE
e\\ ..,;,