Sie sind auf Seite 1von 275

Universidad Central de Venezuela

Facultad de Agronoma

W1

FRANILIN CHACIN
CONTENIDO

CAPITULO 1.- OBJETIVOS Y FUNDAMENTOS DE LA


METODOLOGIA DE SUPERFICIES DE
RESPUESTA (MSR)
Introduccin 1
Fundamentos de la MSR 7
Codificacin de las variables controladas o regresoras 8
Objetivos de la MSR 9
Supuestos de la MSR 10

CAPITULO 2.- INTRODUCCION AL ALGEBRA DE MATRICES


Introduccin 11
Matriz- Conceptos y Definiciones 11
Matrices Iguales 12
Traza de una Matriz 13
Matriz Traspuesta 13
Operaciones con Matrices 14
Suma y Resta de Matrices 14
Producto de una Matriz por un Escalar 15
Producto de Vectores 16
Producto de Matrices 17
Tipos de Matrices : 18
Matriz Nula 18
Matriz Identidad 18
Matriz Diagonal. 19
Matriz Inversa 19
Determinantes 19
Matriz Inversa 22
Independencia Lineal de vectores 23
Rango de una Matriz 23
Matriz ortogonal.: 24
Races y Vectores Caractersticos 24
Forma Cuadrtica Real 27
Tipos de Formas Cuadrticas 29
Diferenciacin usando Matrices 31
Reglas de Derivacin 32
Uso de Notacin Matricial para Medias y Varianzas de Vectores
Aleatorios 33 Autocorrelacin 93
Matriz de Varianza-Covarianza 33 Definicin 93
Algunas reglas para encontrar Medias y Varianzas 34 Tipos de auto correlacin 94
Frmula de Taylor 35 Consecuencia de la autocorrelacin 94
Frmula de Taylor para una Variable con remanente 35 Deteccin de la autocorrelacin 95
Campo Escalar y Campo Vectorial 37 Prueba de Durbin-Watson 95
Bolas Abiertas 37 Prueba de las Rachas 97
Gradiente de un Campo Escalar 37 Uso de transformaciones para corregir Autocorrelacin .98
Continuidad para Campos Escalares 38 Multicolinealidad 100
Polnomo de Taylor en R ......38 Seleccin de variables en la ecuacin de regresin mltiple 101
Frmula de Taylor de 2 orden para campos Modelo de regresin 102
Escalares. Teorema 38 Consecuencias de la eliminacin de variables 103
Ejercicios de Aplicacin .. .... 43 Efectos de la especificacin incorrecta del modelo sobre
la estimacin 107
CAPITULO 3.- MODELO DE DISEO EXPERIMENTAL .45 Consideraciones importantes 109
Definicin A . .. 47 Usos de la ecuacin de regresin 109
Estimacin puntual .. .. .. 49 Descripcin y construccin de modelos 109
Definicin B 50 Estimacin y prediccin 110
Teorema. Funciones estimables .. 52 Control 110
D e finici
Clon C , ...52 Criterios para seleccionar Ecuaciones de Regresin 111
Inversa generalizada , : 57 Coeficiente de Determinacin Mltiple R2 113
Algoritmo para el clculo de la inversa generalizada 59 Coeficiente de Determinacin Mltiple ajustado 114
Inversa generalizada de Moore- Penrose Y condicional 61 . Cuadrado Medio de Residuales CMEp 116
Inversa de Moore-Penrose (Am) 61 Uso del Estadstico Cp de Mallows 118
Inversa condicional (Ac) 64 Interpretacin Grfica del Cp 124
Matriz X'X .. .. 65 Mtodos de Seleccin de Variables 125
Todas las Regresiones Posibles 126
CAPITULO 4.- ANALISIS DE REGRESION 71 Procedimientos de Seleccin de Variables por Pasos
Modelo de regresin lineal mltiple 71 (Forward, Backward, Stepwise) 129
Descripcin de los datos y del modelo 73 Ventajas del uso de la distribucin F 132
Supuestos del modelo poblacional .. 75 Desventajas 132
Mtodos de los mnimos cuadrados 76 Pasos prcticos para la utilizacin del Mtodo de
Prueba de hiptesis en el Modelo de Regresin 81 Seleccin Progresiva 133
Estimador de cr2 83 Ventajas 135
Anlisis de Residuales 85 Desventajas 135
Grficos total de residuales 86 Seleccin Regresiva, eliminacin hacia atrs
Secuencia grfica del tiempo 87 (Backward) 136
Grficos contra Y 89 Pasos prcticos del procedimiento
Ventajas
136
136
Grficos contra las variables independientes 91
Desventajas 136
Otros Grficos de residuales .. 92 Seleccin paso a paso (Stepwise) 137
Procedimientos bsico 137
Uso de Notacin Matricial para Medias y Varianzas de Vectores
Aleatorios 33 Autocorrelacin 93
Matriz de Varianza-Covarianza 33 Definicin 93
Algunas reglas para encontrar Medias y Varianzas 34 Tipos de auto correlacin 94
Frmula de Taylor 35 Consecuencia de la autocorrelacin 94
Frmula de Taylor para una Variable con remanente 35 Deteccin de la autocorrelacin 95
Campo Escalar y Campo Vectorial 37 Prueba de Durbin-Watson 95
Bolas Abiertas 37 Prueba de las Rachas 97
Gradiente de un Campo Escalar 37 Uso de transformaciones para corregir Autocorrelacin .98
Continuidad para Campos Escalares 38 Multicolinealidad 100
Polnomo de Taylor en R ......38 Seleccin de variables en la ecuacin de regresin mltiple 101
Frmula de Taylor de 2 orden para campos Modelo de regresin 102
Escalares. Teorema 38 Consecuencias de la eliminacin de variables 103
Ejercicios de Aplicacin .. .... 43 Efectos de la especificacin incorrecta del modelo sobre
la estimacin 107
CAPITULO 3.- MODELO DE DISEO EXPERIMENTAL .45 Consideraciones importantes 109
Definicin A . .. 47 Usos de la ecuacin de regresin 109
Estimacin puntual .. .. .. 49 Descripcin y construccin de modelos 109
Definicin B 50 Estimacin y prediccin 110
Teorema. Funciones estimables .. 52 Control 110
D e finici
Clon C , ...52 Criterios para seleccionar Ecuaciones de Regresin 111
Inversa generalizada , : 57 Coeficiente de Determinacin Mltiple R2 113
Algoritmo para el clculo de la inversa generalizada 59 Coeficiente de Determinacin Mltiple ajustado 114
Inversa generalizada de Moore- Penrose Y condicional 61 . Cuadrado Medio de Residuales CMEp 116
Inversa de Moore-Penrose (Am) 61 Uso del Estadstico Cp de Mallows 118
Inversa condicional (Ac) 64 Interpretacin Grfica del Cp 124
Matriz X'X .. .. 65 Mtodos de Seleccin de Variables 125
Todas las Regresiones Posibles 126
CAPITULO 4.- ANALISIS DE REGRESION 71 Procedimientos de Seleccin de Variables por Pasos
Modelo de regresin lineal mltiple 71 (Forward, Backward, Stepwise) 129
Descripcin de los datos y del modelo 73 Ventajas del uso de la distribucin F 132
Supuestos del modelo poblacional .. 75 Desventajas 132
Mtodos de los mnimos cuadrados 76 Pasos prcticos para la utilizacin del Mtodo de
Prueba de hiptesis en el Modelo de Regresin 81 Seleccin Progresiva 133
Estimador de cr2 83 Ventajas 135
Anlisis de Residuales 85 Desventajas 135
Grficos total de residuales 86 Seleccin Regresiva, eliminacin hacia atrs
Secuencia grfica del tiempo 87 (Backward) 136
Grficos contra Y 89 Pasos prcticos del procedimiento
Ventajas
136
136
Grficos contra las variables independientes 91
Desventajas 136
Otros Grficos de residuales .. 92 Seleccin paso a paso (Stepwise) 137
Procedimientos bsico 137
Determinacin de los polinomios 176
Mtodo del mximo coeficiente de determinacin Ejemplo ilustrativo del uso de los polinomios
(Mximo R2) 137 ortogonales en regresin. . 177
Mtodo de mnimo coeficiente de determinacin 138 Ejemplo ilustrativo. Construccin de un modelo de
Procesamiento electrnico 138 prediccin del rendimiento del cultivo de soya. .. 180
Vana. bl es D ummy o falsas (ti .. 138
Uso de variables falsas en regresin mltiple 13: CAPITULO 5.- DETERMINACION DE LAS CONDICIONES
Variables falsas en un grupo de datos 13 OPTIMAS DE OPERACIN 209
Validacin de modelos de regresin :141 Anlisis de la Superficie Fijada 210
Procesamiento usados para validar modelos de Anlisis Cannico 215
Regresin : 142 Interpretacin del Sistema 219
Chequeo de las predicciones Y coeficientes del Ejemplo Ilustrativo 221
modelo 143 Anlisis de Aristas o Cordilleras 225
Recoleccin de datos nuevos 144- Sistema de Lomas 227
Comparacin de los resultados con la teora y datos Mtodos utilizados para estudiar Superficies de Respuesta y
simulados 144 determinar condiciones ptimas de operacin 229
Validacin cruzada 145 Mtodo del factor nico 230
.
Valores atipicos (Out lier)er y resridua 1es ..146 Ejemplo Ilustrativo 232
Outliers: Definicin 14 6 Mtodo del Ascenso ms pronunciado o
Mtodos grficos para detectar outliers 147 Pendiente en ascenso 237
Procedimiento estadsticos para detectar Fundamentacin terica 237
outliers 149 Ejemplo Ilustrativo 243
Definicin de residual 151 Mtodo del experimento nico 254
Tipos de residuales 156 Seleccin al azar de puntos de prueba 254
Estadsticos utilizados para el anlisis de Comparacin de los mtodos 255
residuales 158 Mtodo secuencial sugerido por el autor
. . d
Criterios e eclslond .. , . 162 para Experimentos agrcolas y otros campos
Ejemplo ilustrativo del anlisis de residuales 162 de la ciencia 257
, .
Modelos matemticos y su cons ruccion trucci . 164 Ejemplo Ilustrativo 260
Planificacin del proceso de construccin de modelos
Definicin del problema
165
165
Referencias Bibliogrficas 269 j
Accesibilidad de las variables 166
Matnz. de corre Iaci acin . 166
Establecimiento de metas 166
Desarrollo del modelo matemtico 167 1
Recoleccin de datos .... ..167
Validacin del modelo matemtico 167
Tcnicas de validacin 167
Falta de ajustes sistemticos 172
Mantenimiento del modelo 172
Polinomios ortogonales 173
Modelo supuesto cuando utilizamos polinomios
ortogonales 173
Determinacin de los polinomios 176
Mtodo del mximo coeficiente de determinacin Ejemplo ilustrativo del uso de los polinomios
(Mximo R2) 137 ortogonales en regresin. . 177
Mtodo de mnimo coeficiente de determinacin 138 Ejemplo ilustrativo. Construccin de un modelo de
Procesamiento electrnico 138 prediccin del rendimiento del cultivo de soya. .. 180
Vana. bl es D ummy o falsas (ti .. 138
Uso de variables falsas en regresin mltiple 13: CAPITULO 5.- DETERMINACION DE LAS CONDICIONES
Variables falsas en un grupo de datos 13 OPTIMAS DE OPERACIN 209
Validacin de modelos de regresin :141 Anlisis de la Superficie Fijada 210
Procesamiento usados para validar modelos de Anlisis Cannico 215
Regresin : 142 Interpretacin del Sistema 219
Chequeo de las predicciones Y coeficientes del Ejemplo Ilustrativo 221
modelo 143 Anlisis de Aristas o Cordilleras 225
Recoleccin de datos nuevos 144- Sistema de Lomas 227
Comparacin de los resultados con la teora y datos Mtodos utilizados para estudiar Superficies de Respuesta y
simulados 144 determinar condiciones ptimas de operacin 229
Validacin cruzada 145 Mtodo del factor nico 230
.
Valores atipicos (Out lier)er y resridua 1es ..146 Ejemplo Ilustrativo 232
Outliers: Definicin 14 6 Mtodo del Ascenso ms pronunciado o
Mtodos grficos para detectar outliers 147 Pendiente en ascenso 237
Procedimiento estadsticos para detectar Fundamentacin terica 237
outliers 149 Ejemplo Ilustrativo 243
Definicin de residual 151 Mtodo del experimento nico 254
Tipos de residuales 156 Seleccin al azar de puntos de prueba 254
Estadsticos utilizados para el anlisis de Comparacin de los mtodos 255
residuales 158 Mtodo secuencial sugerido por el autor
. . d
Criterios e eclslond .. , . 162 para Experimentos agrcolas y otros campos
Ejemplo ilustrativo del anlisis de residuales 162 de la ciencia 257
, .
Modelos matemticos y su cons ruccion trucci . 164 Ejemplo Ilustrativo 260
Planificacin del proceso de construccin de modelos
Definicin del problema
165
165
Referencias Bibliogrficas 269 j
Accesibilidad de las variables 166
Matnz. de corre Iaci acin . 166
Establecimiento de metas 166
Desarrollo del modelo matemtico 167 1
Recoleccin de datos .... ..167
Validacin del modelo matemtico 167
Tcnicas de validacin 167
Falta de ajustes sistemticos 172
Mantenimiento del modelo 172
Polinomios ortogonales 173
Modelo supuesto cuando utilizamos polinomios
ortogonales 173
PROLOGO

El presente texto es una contribucin del autor al conocun.iento


de la Teora y Aplicaciones de la Metodologa de la Superficie de
Respuesta. Basado en los conocimientos impartidos en asignaturas
que dicta el autor a nivel del Postgrado de Estadstica, en los ltimos
10 aos.
Fundamentalmente los cursos: Anlisis de Regresin, Diseo y
Anlisis de Experimentos 1 y Il y Metodologa de la Superficie de
Respuesta. Los estudiantes han ayudado mucho para poder adquirir
los conocimientos, incluso algunos de los ejercicios ilustrativos, han
sido gracias a su colaboracin. Tambin el libro refleja los Mtodos de
Superficies de Respuesta que han sido tiles al autor en su prctica
profesional, como investigador y consultor en el rea de Estadstica
para muchos profesionales en Venezuela.
Este libro "Anlisis de Regresin y Superficies de Respuesta",
puede ser til para los investigadores y docentes con conocimientos
del Diseo y Anlisis de Experimentos, Teora Estadstica y Anljsis
de Regresin y para el primer curso de Postgrado en el rea de
Superficies de Respuesta y Anlisis de Regresin.
Se presentan algunos ejemplos prcticos ilustrativos que ayudan
a la compresin de los-aspectos tericos.

Franklin. Chacn
Captulo 1

DEFINICION, OBJETIVOS
Y FUNDAMENTOS DE LA METODOLOGIA
DE SUPERFICIES DE RESPUESTA

INTRODUCCION

La Metodologa de Superficies de Respuesta tal como lo refiere


Box y Hunter (1957), Myers (1971) y Martnez (1988), es un conjunto
de mtodos y procesamientos estadsticos y matemticos, utilizados
por los investigadores para resolver ciertos tipos de problemas
cientficos, procesos industriales y de ingeniera. Su mayor aplicacin
ha sido en el rea industrial, qumica y agrcola. En esta ltima rea
tiene un futuro inmenso, por la situacin particular de que es parte de
la ciencia fctica.
En la experimentacin agrcola generalmente una o varias
respuestas estn influenciadas por una gran cantidad de variables
regresoras. Por supuesto, la metodologa debe considerar las
caractersticas propias en este campo incluyendo una mayor
variabilidad y complejidad que en el campo industrial; es por eso, que
es necesario introducir cambios evidentes en los procedimientos para
la estimacin vlida y reduccin del error experimental.
La variable' respuesta se mide normalmente en una escala
continua e indudablemente representa la funcin de mayor
importancia en la metodologa, lo cual no descarta la posibilidad de
Chacn I Anlisis de Regresin y Superficies de Respuesta 3
Chacn I Anlisis de Regresin y Superficies de Res'puesta
2
El supuesto principal del trabajo de Box y Wilson, se refiere a
estudiar varias respuestas. El procesamiento incluye las variables qu~ la respue~ta obtenida puede ser aproximada por un polinomio de
independientes o regresoras las cuales producen posibles efectos sobre bajo ~rd~n. Diferentes diseos experimentales son luego comparados
las respuestas y est sujeta al control del investigador, por consi- en .termmos de la Matriz Varianza-Covarianza de los parmetros
guiente, son variables experimentales o de tratamiento, manipuladas estimados.
por el investigador.
Las ideas de Box y Wilson fueron extendidas y discutidas
La Metodologa de Superficies de Respuesta contiene o envuelve adici?nalmente por Box (1954), Box y Youle (1955); en esos trabajos se
estrategias experimentales, mtodos matemticos e inferencias refera .que aunque ~a experimentacin fuera bajo un proceso
estadsticas, las cuales al ser adecuadamente combinadas, capacitan secue~cIal, se tendra que definir claramente los perodos
al investigador para realizar una eficiente exploracin emprica del ex~erlmentales durante los cuales, los procesos industriales estaran
sistema bajo estudio. sujetos a experimentacin completa.
Box y Wilson (1951), introdujeron las ideas originales de la Los principales desarrollos de inters general de los trabajos de
Metodologa de Superficies de Respuesta (MSR), y ha ido exten- Box y. sus colaboradores, fueron en la parte referente a los diseos
dindose principalmente a travs de Box, Wilson, Hunter, Draper y experimentales donde Box y Wilson, sugieren el uso de los diseos
otros, y que han sido muy bien resumidas en Myers (1971), las comp~~stos. ~ox y Hunter (1957), introducen el concepto de la
publicaciones de Box y sus asociados, Wilson, Hunter, Draper, y otros, r~ta~illdad; sin embargo uno de los trabajos ms importantes en
constituyen las ms poderosas fuentes de ideas en la investigacin de diseos .de superfici~ de respuestas es el de Box y Draper (1959),
superficies de respuesta. donde .dlscuten las difer~ntes ~azones para elegir un diseo con el que
Box y Wilson (1951), discuten los diseos experimentales, con el posteriormente puedan investigar una "Superficie de Respuesta". Las
fin de encontrar, usando el menor nmero posible de tratamientos, el raz.ones., mcluy.en desde el simple inters en la superficie, la
punto en el cual se obtiene la mxima respuesta. Estos autores, e~tlI~ac~on ~ficlente de ~os parmetros de un modelo, hasta posible
comparan algunos diseos experimentales e introducen el concepto de discriminaciones entre diferentes ecuaciones.
diseos compuestos por primera vez. Se refieren tambin al uso del Una de las ms importantes y tiles investigaciones de la
Mtodo del Ascenso ms pronunciado en la bsqueda de la regin escuela de Box a partir de los modelos polnomiales, es la que hacen
estacionaria alrededor del ptimo. Box y Wilson confieren principal
Box y Lucas (1959), ellos consideraron la fijacin de una funcin
importancia a los problemas de estimacin de condiciones ptimas en
ge~~ral que envuelve "k" variables y "k" parmetros; el criterio
la investigacin qumica pero expresan la esperanza de que el mtodo
ut~zado para la seleccin de un diseo, es la minimizacin de la
sea de gran valor en otros campos donde la experimentacin sea
varianza generalizada de los parmetros estimados.
secuencial, y los errores pequeos, la ms fructfera aplicacin de los
mtodos de Box y Wilson, ha sido en el campo de la qumica y en la .. Ex:,cuanto al estmulo que ha provedo la escuela de Box, en la
ingeniera qumica, donde los diseos experimentales y la tcnica del U~iliz~cI.onde estos mtodos, se puede expresar que en el campo
ascenso ms pronunciado han sido usados. blOmetn~o ~e han usado los nuevos mtodos y, en particular los
nuevos diseos, aunque no con la intensidad prevista.
Los biometrstas en la bioqumica y en las ciencias farmaco-
lgicas han usado y desarrollado el mtodo del ascenso ms pronun- En cuanto a las lneas de investigacin estadsticas de la MSR
ciado. En contraste, las ideas de este mtodo no se han utilizado en se P~dr~a en P~imer trmino hacer referencia a la aproximaci~
agricultura; y esto es obvio, ya que se sabe que en investigacin estocstica, las ld~as originales aparecen en trabajos de Robbins y
agrcola, especficamente en experimentacin de campo, los errores ~?x:ro (1951) y Kiefe: ~ Wolfowitz (1952, 1959 y 1960), donde se
son relativamente grandes, no cnsono s con los supuestos de la tili~an reglas de optimizar en la presencia de errores; stas fueron
experimentacin secuencial; no obstante, muchos de los diseos referidas por Box y Wilson y parecen aplicables a problemas prcticos
desarrollados tienen sus races en los primeros diseos propuestos por
Box y Wilson.
Chacn I Anlisis de Regresin y Superficies de Respuesta 3
Chacn I Anlisis de Regresin y Superficies de Res'puesta
2
El supuesto principal del trabajo de Box y Wilson, se refiere a
estudiar varias respuestas. El procesamiento incluye las variables qu~ la respue~ta obtenida puede ser aproximada por un polinomio de
independientes o regresoras las cuales producen posibles efectos sobre bajo ~rd~n. Diferentes diseos experimentales son luego comparados
las respuestas y est sujeta al control del investigador, por consi- en .termmos de la Matriz Varianza-Covarianza de los parmetros
guiente, son variables experimentales o de tratamiento, manipuladas estimados.
por el investigador.
Las ideas de Box y Wilson fueron extendidas y discutidas
La Metodologa de Superficies de Respuesta contiene o envuelve adici?nalmente por Box (1954), Box y Youle (1955); en esos trabajos se
estrategias experimentales, mtodos matemticos e inferencias refera .que aunque ~a experimentacin fuera bajo un proceso
estadsticas, las cuales al ser adecuadamente combinadas, capacitan secue~cIal, se tendra que definir claramente los perodos
al investigador para realizar una eficiente exploracin emprica del ex~erlmentales durante los cuales, los procesos industriales estaran
sistema bajo estudio. sujetos a experimentacin completa.
Box y Wilson (1951), introdujeron las ideas originales de la Los principales desarrollos de inters general de los trabajos de
Metodologa de Superficies de Respuesta (MSR), y ha ido exten- Box y. sus colaboradores, fueron en la parte referente a los diseos
dindose principalmente a travs de Box, Wilson, Hunter, Draper y experimentales donde Box y Wilson, sugieren el uso de los diseos
otros, y que han sido muy bien resumidas en Myers (1971), las comp~~stos. ~ox y Hunter (1957), introducen el concepto de la
publicaciones de Box y sus asociados, Wilson, Hunter, Draper, y otros, r~ta~illdad; sin embargo uno de los trabajos ms importantes en
constituyen las ms poderosas fuentes de ideas en la investigacin de diseos .de superfici~ de respuestas es el de Box y Draper (1959),
superficies de respuesta. donde .dlscuten las difer~ntes ~azones para elegir un diseo con el que
Box y Wilson (1951), discuten los diseos experimentales, con el posteriormente puedan investigar una "Superficie de Respuesta". Las
fin de encontrar, usando el menor nmero posible de tratamientos, el raz.ones., mcluy.en desde el simple inters en la superficie, la
punto en el cual se obtiene la mxima respuesta. Estos autores, e~tlI~ac~on ~ficlente de ~os parmetros de un modelo, hasta posible
comparan algunos diseos experimentales e introducen el concepto de discriminaciones entre diferentes ecuaciones.
diseos compuestos por primera vez. Se refieren tambin al uso del Una de las ms importantes y tiles investigaciones de la
Mtodo del Ascenso ms pronunciado en la bsqueda de la regin escuela de Box a partir de los modelos polnomiales, es la que hacen
estacionaria alrededor del ptimo. Box y Wilson confieren principal
Box y Lucas (1959), ellos consideraron la fijacin de una funcin
importancia a los problemas de estimacin de condiciones ptimas en
ge~~ral que envuelve "k" variables y "k" parmetros; el criterio
la investigacin qumica pero expresan la esperanza de que el mtodo
ut~zado para la seleccin de un diseo, es la minimizacin de la
sea de gran valor en otros campos donde la experimentacin sea
varianza generalizada de los parmetros estimados.
secuencial, y los errores pequeos, la ms fructfera aplicacin de los
mtodos de Box y Wilson, ha sido en el campo de la qumica y en la .. Ex:,cuanto al estmulo que ha provedo la escuela de Box, en la
ingeniera qumica, donde los diseos experimentales y la tcnica del U~iliz~cI.onde estos mtodos, se puede expresar que en el campo
ascenso ms pronunciado han sido usados. blOmetn~o ~e han usado los nuevos mtodos y, en particular los
nuevos diseos, aunque no con la intensidad prevista.
Los biometrstas en la bioqumica y en las ciencias farmaco-
lgicas han usado y desarrollado el mtodo del ascenso ms pronun- En cuanto a las lneas de investigacin estadsticas de la MSR
ciado. En contraste, las ideas de este mtodo no se han utilizado en se P~dr~a en P~imer trmino hacer referencia a la aproximaci~
agricultura; y esto es obvio, ya que se sabe que en investigacin estocstica, las ld~as originales aparecen en trabajos de Robbins y
agrcola, especficamente en experimentacin de campo, los errores ~?x:ro (1951) y Kiefe: ~ Wolfowitz (1952, 1959 y 1960), donde se
son relativamente grandes, no cnsono s con los supuestos de la tili~an reglas de optimizar en la presencia de errores; stas fueron
experimentacin secuencial; no obstante, muchos de los diseos referidas por Box y Wilson y parecen aplicables a problemas prcticos
desarrollados tienen sus races en los primeros diseos propuestos por
Box y Wilson.
ChacnI Anlisisde Regresiny Superficiesde Respuesta 5
ChacnI Anlisisde RegresinYSuperficiesde Respuesta
4
.. .. n esta rea desde los parmetros de modelos no lineales, Box (1971), sesgamiento en
de la MSR. Kiefer realiz vanas mvestlgaclOneS e estimaciones no lineales, y Boyd (1972), en desarrollo de curvas de
1958 al 1962. 1 respuesta en estudios de fertilidad de suelos.
bi se realizaroninvestigaciones tericas sobre as
Tam ien bil t D arrollo s poste- Tambin en los ltimos aos se ha producido un buen nmero
diferentes formas de convergenc!~~o!~o~e: ~:oc:~icas no contri- de revisiones tales como la de Hill y Hunter (1966), sobre la
riores. en lo que se refiere ~ a~e la metodologa de superficies de metodologa de superficies de respuesta, sin entrar a las definiciones
referidas con anterioridad por otros autores, Box y Draper (1959)
~~::~~~ta~ ~:o l~~::~:r;r;ctica dedinvesti~a~int'eSMlaucr~!:re:ete
l~! describen la prctica de MSR y su filosofa; Wasan (1969), hace una
., d urvas e crecimien o.
anlisis y compa~aclOn e e d bid s a Rao (1958, 1959, 1965), el revisin bibliogrfica de aproximacin estocstica; Herzberh y Cox
trabajos en esta area fueron ~ 1 a, multivariada basada en la (1969) dan una revisin bibliogrfica de recientes trabajos en diseos
. . d ' una aproxlmaclon de . experimentos con reas especficamente concernientes a
investiga or genero ., li ios ortogonales Y
fijacin inicial de coeficientes de ~egreslOnde pOfnomt de regresin. exploracin de superficie de respuesta; Villasmil, Casanova y Timm
lisi e inferenclas de esos coe icien es
subsecuentes ana SlS f .'n de respuesta es (1972), presentan un trabajo sobre replicacin del diseo rotable
Como en otras investigaciones en MSR, la uncio li . de bajo central compuesto en un ensayo de fertilizacin con el pasto guinea,
asumida y sera adecuadamente descrita po~ ~n 1PO(l~~~r Y Elston en el que presentan el anlisis estadstico del rotable replicado;
orden; otros trabajos son los de Elston y rizz e Federer y Balaam (1973) dan una revisin de diseos experimentales
(1964). hasta al ao 1968. Bliss (1970), discute el uso de funciones de
Otros aspectos tericos desarrollados son l.os referentes .a dla respuesta con un magnfico rango de ejemplos; Finney (1964, 1965),
Ki ~ WOlfOWltzen una serie e da una revisin de ensayos biolgicos. Sprent (1969), discute con
teora estadstica, propuesta por eder y 11 h sido inevitable-
trabaios entre 1958 Y 1962. Otros esarro os an . _ algn detalle el uso de funciones de respuesta en el anlisis de curvas
ment~ extensiones. de previas investigaciones en el diseo de .ex~,e- de crecimiento. Willey y Heath (1969), revisan mtodos de fijacin de
. t tales como la forma de las superficies de respuesta, fijacin curvas que muestran las relaciones entre poblaciones de plantas y
rimen os, b . , d d tos
de curvas de respuesta y el campo general de o tencion e a . rendimiento.
Nuevas reas de especial vala son tratadas por ~sc~mbe l En el campo biomtrico, la evidencia indica que la MSR se ha
Tuk ey, (1963) sobre residuales '1 Y el desarrollo de ~eto os el
l .t d gradlentes en e
utilizado poco hasta el momento. En el campo agronmico se ha
minimizacin de funciones sin el ca1cu o exp Cl o e 1965) venido evidenciando un aumento progresivo en su uso, debido a los
cual los trabajos ms importantes son los de Powell. (1~64, ctu~ estudios cada vez mayores de varios factores en conjunto, Se han
Nelder y Mead (1965). Todos estos trabajos, ~an contnbUldo al a h desarrollado inclusive varios diseos, tal es el caso de los diseos San
Los trabaj os postenores a estas etapas an
desarro 11o de la MSR . .. al t al Cristbal (Rojas, 1962), especficamente para ser utilizados en
hecho nfasis en modelos no lineales, debido ~rmcIp men e investigacin con fertilizantes, partiendo de la premisa principal de
desarrollo de la computacin electrnica ..qu.e,ha sido un factor muy incluir un tratamiento testigo. Rojas (1962), presenta una descripcin
importante en la eleccin de mtodos de fi)aCl0n y discusin de la eficiencia del diseo San Cristbal considerando
Los procedimientos han sido desarrollados en todos ~os camt~s necesario el establecimiento de una relacin matemtica entre el
discutidos anteriormente, pero hasta el presente. no ha sido post t e rendimiento y los nutrimentos agregados al suelo. Expresa en su
encontrar una nueva rea de investigacin te~lca en ~ste a.spe~o~ trabajo que el San Cristbal presenta una "regin de exploracin
Muchos de los trabajos recientes son trabajOS de .mvestlgacl mayor que la de un factorial completo 33"; aumentando su eficiencia
aplicada en reas especficas, los que han intr.oduc~do.conceptos cuando el nmero de repeticiones es mayor o igual a 2. Explican que
nuevos. Nelder (1966) introdujo aportes sobre polinomios mv~~~ ~ los diseos rotables generados en la investigacin qumica industrial
funciones de respuestas, Herzberg (1966), propiedades de rota .1 1 a no cumplen con ciertos requisitos agronmicos como el de no incluir
cilndrica en algunos diseos de superficie de respuesta.' At~son y un tratamiento testigo, al compararlo con el factorial 33 establece que
Hunter (1968), diseos de experimentos para la estlmaclOn de este diseo provee informacin sobre interacciones que no interesan.
ChacnI Anlisisde Regresiny Superficiesde Respuesta 5
ChacnI Anlisisde RegresinYSuperficiesde Respuesta
4
.. .. n esta rea desde los parmetros de modelos no lineales, Box (1971), sesgamiento en
de la MSR. Kiefer realiz vanas mvestlgaclOneS e estimaciones no lineales, y Boyd (1972), en desarrollo de curvas de
1958 al 1962. 1 respuesta en estudios de fertilidad de suelos.
bi se realizaroninvestigaciones tericas sobre as
Tam ien bil t D arrollo s poste- Tambin en los ltimos aos se ha producido un buen nmero
diferentes formas de convergenc!~~o!~o~e: ~:oc:~icas no contri- de revisiones tales como la de Hill y Hunter (1966), sobre la
riores. en lo que se refiere ~ a~e la metodologa de superficies de metodologa de superficies de respuesta, sin entrar a las definiciones
referidas con anterioridad por otros autores, Box y Draper (1959)
~~::~~~ta~ ~:o l~~::~:r;r;ctica dedinvesti~a~int'eSMlaucr~!:re:ete
l~! describen la prctica de MSR y su filosofa; Wasan (1969), hace una
., d urvas e crecimien o.
anlisis y compa~aclOn e e d bid s a Rao (1958, 1959, 1965), el revisin bibliogrfica de aproximacin estocstica; Herzberh y Cox
trabajos en esta area fueron ~ 1 a, multivariada basada en la (1969) dan una revisin bibliogrfica de recientes trabajos en diseos
. . d ' una aproxlmaclon de . experimentos con reas especficamente concernientes a
investiga or genero ., li ios ortogonales Y
fijacin inicial de coeficientes de ~egreslOnde pOfnomt de regresin. exploracin de superficie de respuesta; Villasmil, Casanova y Timm
lisi e inferenclas de esos coe icien es
subsecuentes ana SlS f .'n de respuesta es (1972), presentan un trabajo sobre replicacin del diseo rotable
Como en otras investigaciones en MSR, la uncio li . de bajo central compuesto en un ensayo de fertilizacin con el pasto guinea,
asumida y sera adecuadamente descrita po~ ~n 1PO(l~~~r Y Elston en el que presentan el anlisis estadstico del rotable replicado;
orden; otros trabajos son los de Elston y rizz e Federer y Balaam (1973) dan una revisin de diseos experimentales
(1964). hasta al ao 1968. Bliss (1970), discute el uso de funciones de
Otros aspectos tericos desarrollados son l.os referentes .a dla respuesta con un magnfico rango de ejemplos; Finney (1964, 1965),
Ki ~ WOlfOWltzen una serie e da una revisin de ensayos biolgicos. Sprent (1969), discute con
teora estadstica, propuesta por eder y 11 h sido inevitable-
trabaios entre 1958 Y 1962. Otros esarro os an . _ algn detalle el uso de funciones de respuesta en el anlisis de curvas
ment~ extensiones. de previas investigaciones en el diseo de .ex~,e- de crecimiento. Willey y Heath (1969), revisan mtodos de fijacin de
. t tales como la forma de las superficies de respuesta, fijacin curvas que muestran las relaciones entre poblaciones de plantas y
rimen os, b . , d d tos
de curvas de respuesta y el campo general de o tencion e a . rendimiento.
Nuevas reas de especial vala son tratadas por ~sc~mbe l En el campo biomtrico, la evidencia indica que la MSR se ha
Tuk ey, (1963) sobre residuales '1 Y el desarrollo de ~eto os el
l .t d gradlentes en e
utilizado poco hasta el momento. En el campo agronmico se ha
minimizacin de funciones sin el ca1cu o exp Cl o e 1965) venido evidenciando un aumento progresivo en su uso, debido a los
cual los trabajos ms importantes son los de Powell. (1~64, ctu~ estudios cada vez mayores de varios factores en conjunto, Se han
Nelder y Mead (1965). Todos estos trabajos, ~an contnbUldo al a h desarrollado inclusive varios diseos, tal es el caso de los diseos San
Los trabaj os postenores a estas etapas an
desarro 11o de la MSR . .. al t al Cristbal (Rojas, 1962), especficamente para ser utilizados en
hecho nfasis en modelos no lineales, debido ~rmcIp men e investigacin con fertilizantes, partiendo de la premisa principal de
desarrollo de la computacin electrnica ..qu.e,ha sido un factor muy incluir un tratamiento testigo. Rojas (1962), presenta una descripcin
importante en la eleccin de mtodos de fi)aCl0n y discusin de la eficiencia del diseo San Cristbal considerando
Los procedimientos han sido desarrollados en todos ~os camt~s necesario el establecimiento de una relacin matemtica entre el
discutidos anteriormente, pero hasta el presente. no ha sido post t e rendimiento y los nutrimentos agregados al suelo. Expresa en su
encontrar una nueva rea de investigacin te~lca en ~ste a.spe~o~ trabajo que el San Cristbal presenta una "regin de exploracin
Muchos de los trabajos recientes son trabajOS de .mvestlgacl mayor que la de un factorial completo 33"; aumentando su eficiencia
aplicada en reas especficas, los que han intr.oduc~do.conceptos cuando el nmero de repeticiones es mayor o igual a 2. Explican que
nuevos. Nelder (1966) introdujo aportes sobre polinomios mv~~~ ~ los diseos rotables generados en la investigacin qumica industrial
funciones de respuestas, Herzberg (1966), propiedades de rota .1 1 a no cumplen con ciertos requisitos agronmicos como el de no incluir
cilndrica en algunos diseos de superficie de respuesta.' At~son y un tratamiento testigo, al compararlo con el factorial 33 establece que
Hunter (1968), diseos de experimentos para la estlmaclOn de este diseo provee informacin sobre interacciones que no interesan.
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta
6 7

Rojas (1971) al presentar el San Cristbal Ortogonalizado c.- Los dos diseos son igualmente eficientes en la estimacin de los
expresa que el diseo San Cristbal no ortogonal hace ms dificil el coeficientes de regresin que corresponden a las interacciones.
anlisis, pero no altera la validez de las conclusiones.
Villasmil (1978a), hace una descripcin general de los diseos de
Martnez (1971), describe mtodos para determinar dosis tratamiento compuesto central y diseo compuesto no central, la
econmicamente ptimas cuando se obtienen funciones de produccin ortogonalizacin del diseo compuesto central de donde se obtiene el
anmalas. El mtodo consiste en estimar las producciones para diseo compuesto central ortogonal. En el trabajo tambin aparecen
diferentes combinaciones de los elementos dentro de la regin de las varianzas y covarianzas de los estimadores en el diseo compuesto
exploracin y conseguir los beneficios netos que se generan, central ortogonal y la comparacin de este con el diseo factorial
seleccionando los que provocan los mayores beneficios econmicos. completo y con el diseo San Cristbal ortogonalizado basado en el
criterio de la eficiencia relativa. De acuerdo con la comparacin con el
Villasmil, Martnez y Segura (1972), presentan un trabajo sobre
factorial 33 expresa que el diseo compuesto central ortogonal es
el diseo San Cristbal y su utilizacin en ensayos de fertilizacin en
recomendable para estimar un modelo polinmico de segundo orden.
caa de azcar, realizan descripcin del diseo, anlisis econmicos.y
funciones de produccin anmalas que se obtuvieron. Chacn (1980), presenta la descripcin terica de los diseos
rotables y la aplicacin y anlisis estadstico para el diseo no
Cochran y Cox (1980), presentan una descripcin de algunos
replicado y replicado, con una proposicin sobre la divisin de los
diseos utilizados en el estudio de "superficies de respuesta";
errores.
aparecen ejemplos de anlisis estadsticos de diseos rotables de
segundo orden para dos y tres variables. Ruiz (1981), presenta la construccin, propiedades y
comparaciones del Diseo Compuesto Central Doble Estrella.
En Latinoamrica y especficamente en Venezuela a partir de
1970 se han realizado algunas investigaciones importantes, de las Chacn y Villasmil (1983), presentan comparaciones tericas y
cuales referiremos las siguientes: Montano (1972), presenta una prcticas de varios diseos d Superficies de Respuesta.
discusin general de un ejemplo del diseo rotable central compuesto
en experimentos con fertilizantes en algodn. Se describen las carac- Chacn (1988), presenta algunas proposiciones sobre al anlisis
tersticas y la determinacin de dosis .ptimas de fertilizantes, se so- de los diseos de Superficies de Respuesta, para mediciones repetidas.
meten al proceso 14 experimentos dando algunos respuesta y otros no. Machado y Chacn (1992), realizan comparaciones de varios
diseos de Superficies de Respuesta, incluyendo un nuevo diseo al
Villasmil (1978b), hace una descripcin del diseo San Cristbal
doble estrella con adicin de un nuevo ncleo estrella propuesto por
Ortogonalizado, mencionando algunos planes experimentales con este
Villasmil (1986).
diseo para diferentes nmeros de variables. Tambin realiza la
comparacin del diseo con el factorial completo mediante el criterio
de la eficiencia relativa. Las conclusiones a las que llega son las
siguientes: FUNDAMENTOS DE LA METO DO LOGIA
a.- El diseo San Cristbal Ortogonalizado ( k = 3, a = 1, e = 2
DE SUPERFICIES DE RESPUESTA
m = 1 ), es ms eficiente que el factorial 33 en la estimacin de los
coeficientes de regresin correspondientes a los efectos lineales. Supongamos que el investigador est interesado en examinar
b.- El diseo San Cristbal Ortogonalizado ( k = 3, a = 1, e = 2, una respuesta "11", la cual depende de las variables controladas o
m = 1 ), es ms eficiente que el factorial 33 en la estimacin de los regresoras, SPS2'''''Sp bajo el control del experimentador y con un
coeficientes de regresin correspondientes a los trminos mnimo error se denota:
cuadrticos.
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta
6 7

Rojas (1971) al presentar el San Cristbal Ortogonalizado c.- Los dos diseos son igualmente eficientes en la estimacin de los
expresa que el diseo San Cristbal no ortogonal hace ms dificil el coeficientes de regresin que corresponden a las interacciones.
anlisis, pero no altera la validez de las conclusiones.
Villasmil (1978a), hace una descripcin general de los diseos de
Martnez (1971), describe mtodos para determinar dosis tratamiento compuesto central y diseo compuesto no central, la
econmicamente ptimas cuando se obtienen funciones de produccin ortogonalizacin del diseo compuesto central de donde se obtiene el
anmalas. El mtodo consiste en estimar las producciones para diseo compuesto central ortogonal. En el trabajo tambin aparecen
diferentes combinaciones de los elementos dentro de la regin de las varianzas y covarianzas de los estimadores en el diseo compuesto
exploracin y conseguir los beneficios netos que se generan, central ortogonal y la comparacin de este con el diseo factorial
seleccionando los que provocan los mayores beneficios econmicos. completo y con el diseo San Cristbal ortogonalizado basado en el
criterio de la eficiencia relativa. De acuerdo con la comparacin con el
Villasmil, Martnez y Segura (1972), presentan un trabajo sobre
factorial 33 expresa que el diseo compuesto central ortogonal es
el diseo San Cristbal y su utilizacin en ensayos de fertilizacin en
recomendable para estimar un modelo polinmico de segundo orden.
caa de azcar, realizan descripcin del diseo, anlisis econmicos.y
funciones de produccin anmalas que se obtuvieron. Chacn (1980), presenta la descripcin terica de los diseos
rotables y la aplicacin y anlisis estadstico para el diseo no
Cochran y Cox (1980), presentan una descripcin de algunos
replicado y replicado, con una proposicin sobre la divisin de los
diseos utilizados en el estudio de "superficies de respuesta";
errores.
aparecen ejemplos de anlisis estadsticos de diseos rotables de
segundo orden para dos y tres variables. Ruiz (1981), presenta la construccin, propiedades y
comparaciones del Diseo Compuesto Central Doble Estrella.
En Latinoamrica y especficamente en Venezuela a partir de
1970 se han realizado algunas investigaciones importantes, de las Chacn y Villasmil (1983), presentan comparaciones tericas y
cuales referiremos las siguientes: Montano (1972), presenta una prcticas de varios diseos d Superficies de Respuesta.
discusin general de un ejemplo del diseo rotable central compuesto
en experimentos con fertilizantes en algodn. Se describen las carac- Chacn (1988), presenta algunas proposiciones sobre al anlisis
tersticas y la determinacin de dosis .ptimas de fertilizantes, se so- de los diseos de Superficies de Respuesta, para mediciones repetidas.
meten al proceso 14 experimentos dando algunos respuesta y otros no. Machado y Chacn (1992), realizan comparaciones de varios
diseos de Superficies de Respuesta, incluyendo un nuevo diseo al
Villasmil (1978b), hace una descripcin del diseo San Cristbal
doble estrella con adicin de un nuevo ncleo estrella propuesto por
Ortogonalizado, mencionando algunos planes experimentales con este
Villasmil (1986).
diseo para diferentes nmeros de variables. Tambin realiza la
comparacin del diseo con el factorial completo mediante el criterio
de la eficiencia relativa. Las conclusiones a las que llega son las
siguientes: FUNDAMENTOS DE LA METO DO LOGIA
a.- El diseo San Cristbal Ortogonalizado ( k = 3, a = 1, e = 2
DE SUPERFICIES DE RESPUESTA
m = 1 ), es ms eficiente que el factorial 33 en la estimacin de los
coeficientes de regresin correspondientes a los efectos lineales. Supongamos que el investigador est interesado en examinar
b.- El diseo San Cristbal Ortogonalizado ( k = 3, a = 1, e = 2, una respuesta "11", la cual depende de las variables controladas o
m = 1 ), es ms eficiente que el factorial 33 en la estimacin de los regresoras, SPS2'''''Sp bajo el control del experimentador y con un
coeficientes de regresin correspondientes a los trminos mnimo error se denota:
cuadrticos.
8 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
9
Donde la forma de la funcin es muy complicada y/o es donde n es el nmero de puntos experimentales.
desconocida, normalmente la funcin "j " desconocida se expresa en Para la codificacin de valores, se toma:
trminos de las variables especificadas Xi, X2, ... , Xp, las cuales son
funciones lineales simples de las variables originales. Como la funcin i = 1,2, ..., n
generalmente se desconoce, es necesario y comn que se aproxime en
j = 1,2, .", p
trminos de un polinomio de bajo orden; si la funcin se aproxima
mediante una funcin lineal de las variables independientes, en
trminos de las variables codificadas, se crea una funcin de
respuesta de primer orden y se puede escribir as: 2
Sj =
n
kj -~j~
y <;j =
1 n
- <;ij
i=l n
n i=l

y esta forma se obtiene la condicin deseada de los Xij


Los modelos de primer orden, slo son tiles cuando se explore
una regin relativamente pequea de Xi , X2 , ... , Xp, dependiendo por ~n trminos de las variables codificadas los n puntos
supuesto, del problema y de la regin de exploracin de las variables expenmentales pueden ser representados por la matriz de diseo:
bajo estudio; generalmente, estas regiones exhiben ninguna o muy
poca curvatura. En caso contrario, es necesario aproximar, mediante
un polinomio de segundo orden, denotado de la siguiente manera:
p p p p

11 = ~o +
j=1
Pj Xj +
je l
Pjj x~ +
j=1 ue l
Pju X jXu

j<u

OBJETIVOS DE LA METODOLOGIA
En general, se puede utilizar polinomios de mayor orden, ya que DE SUPERFICIES DE RESPUESTA
" j " , se considera una funcin continua de Xi, X2, ... , Xp con
derivadas sucesivas continuas, siendo posible obtener una expansin
de "f" de la serie de Taylor con respecto a Xi = 0, X2 = ,...,
Xp =
del orden deseado.
1.- Aproximar convenientemente
prediccin de Y.
la funcin f para usarla en la

2.- Optimizar a 11,a travs de la funcin de Y.


CODIFICACION DE LAS VARIABLES 3.- Describir la superficie de respuesta y estudiar su naturaleza.
CONTROLADAS O REGRESO RAS

SUPUESTOS DE LA METODOLOGIA
Los valores de las variables codificadas se eligen de modo que se DE SUPERFICIES DE RESPUESTA
tenga:
i = 1,2, ..., n
1.- La funcin j, debe ser conocida y compleja, o desconocida.
n

L., lJ = n '
"X~ j = 1, 2, ..., P 2.- La. funcin j, puede ser aproximada a un modelo polinmico de
;=1
bajo orden, como se demostrar, al estudiar la serie de Taylor.
8 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
9
Donde la forma de la funcin es muy complicada y/o es donde n es el nmero de puntos experimentales.
desconocida, normalmente la funcin "j " desconocida se expresa en Para la codificacin de valores, se toma:
trminos de las variables especificadas Xi, X2, ... , Xp, las cuales son
funciones lineales simples de las variables originales. Como la funcin i = 1,2, ..., n
generalmente se desconoce, es necesario y comn que se aproxime en
j = 1,2, .", p
trminos de un polinomio de bajo orden; si la funcin se aproxima
mediante una funcin lineal de las variables independientes, en
trminos de las variables codificadas, se crea una funcin de
respuesta de primer orden y se puede escribir as: 2
Sj =
n
kj -~j~
y <;j =
1 n
- <;ij
i=l n
n i=l

y esta forma se obtiene la condicin deseada de los Xij


Los modelos de primer orden, slo son tiles cuando se explore
una regin relativamente pequea de Xi , X2 , ... , Xp, dependiendo por ~n trminos de las variables codificadas los n puntos
supuesto, del problema y de la regin de exploracin de las variables expenmentales pueden ser representados por la matriz de diseo:
bajo estudio; generalmente, estas regiones exhiben ninguna o muy
poca curvatura. En caso contrario, es necesario aproximar, mediante
un polinomio de segundo orden, denotado de la siguiente manera:
p p p p

11 = ~o +
j=1
Pj Xj +
je l
Pjj x~ +
j=1 ue l
Pju X jXu

j<u

OBJETIVOS DE LA METODOLOGIA
En general, se puede utilizar polinomios de mayor orden, ya que DE SUPERFICIES DE RESPUESTA
" j " , se considera una funcin continua de Xi, X2, ... , Xp con
derivadas sucesivas continuas, siendo posible obtener una expansin
de "f" de la serie de Taylor con respecto a Xi = 0, X2 = ,...,
Xp =
del orden deseado.
1.- Aproximar convenientemente
prediccin de Y.
la funcin f para usarla en la

2.- Optimizar a 11,a travs de la funcin de Y.


CODIFICACION DE LAS VARIABLES 3.- Describir la superficie de respuesta y estudiar su naturaleza.
CONTROLADAS O REGRESO RAS

SUPUESTOS DE LA METODOLOGIA
Los valores de las variables codificadas se eligen de modo que se DE SUPERFICIES DE RESPUESTA
tenga:
i = 1,2, ..., n
1.- La funcin j, debe ser conocida y compleja, o desconocida.
n

L., lJ = n '
"X~ j = 1, 2, ..., P 2.- La. funcin j, puede ser aproximada a un modelo polinmico de
;=1
bajo orden, como se demostrar, al estudiar la serie de Taylor.
10 Chacn I Anlisis de Regresin y Superiicies de Respuesta

3.- Los valores Xi, Xs,..., Xp, deben ser variables controladas y
medidas con mnimo error, tan pequeo, que se puede decir que
se mide sin error.
Captulo 2
4.- Se pueden desarrollar experimentos para valores combinados de
los X.obtenindose un valor de Y "respuesta" para cada uno de INTRODUCCION AL ALGEBRA
las combinaciones, dependiendo de cuales niveles son DE MATRICES
seleccionados, las combinaciones elegidas determinan el diseo
de tratamiento a utilizar.
5.- Los coeficientes del modelo poblacional (parmetros) pueden ser
estimados a travs de procedimientos de estimacin de
parmetros estadsticos (mnimos cuadrados ordinarios, INTRODUCCION
estimadores mximo verosmiles, entre otros) sin embargo, se
prefieren los estimadores mnimos cuadrados ordinarios, por
sus caractersticas ventajosas en la fijacin del Modelo de El uso del lgebra de matrices es fundamental para comprender
Regresin, los cuales se describen en captulos posteriores. las tcnicas de Superficie de Respuesta. En este captulo se har una
6.- Mediante un anlisis polinomial, se pueden encontrar algunas revisin general de algunas definiciones, propiedades y teoremas
caractersticas importantes en el modelo de superficie (el lector importantes para desarrollar la MSR y bsicamente estudiaremos
aspectos del lgebra de matrices y la frmula de Taylor.
puede estudiar en captulos posteriores estas caractersticas).

CONCEPTOS Y DEFINICIONES

Matriz

Es un arreglo de nmeros reales en forma rectngular

ll l2
Azx 3
= la a al31
a2l a22 a23
A = ( au ) = [aij
10 Chacn I Anlisis de Regresin y Superiicies de Respuesta

3.- Los valores Xi, Xs,..., Xp, deben ser variables controladas y
medidas con mnimo error, tan pequeo, que se puede decir que
se mide sin error.
Captulo 2
4.- Se pueden desarrollar experimentos para valores combinados de
los X.obtenindose un valor de Y "respuesta" para cada uno de INTRODUCCION AL ALGEBRA
las combinaciones, dependiendo de cuales niveles son DE MATRICES
seleccionados, las combinaciones elegidas determinan el diseo
de tratamiento a utilizar.
5.- Los coeficientes del modelo poblacional (parmetros) pueden ser
estimados a travs de procedimientos de estimacin de
parmetros estadsticos (mnimos cuadrados ordinarios, INTRODUCCION
estimadores mximo verosmiles, entre otros) sin embargo, se
prefieren los estimadores mnimos cuadrados ordinarios, por
sus caractersticas ventajosas en la fijacin del Modelo de El uso del lgebra de matrices es fundamental para comprender
Regresin, los cuales se describen en captulos posteriores. las tcnicas de Superficie de Respuesta. En este captulo se har una
6.- Mediante un anlisis polinomial, se pueden encontrar algunas revisin general de algunas definiciones, propiedades y teoremas
caractersticas importantes en el modelo de superficie (el lector importantes para desarrollar la MSR y bsicamente estudiaremos
aspectos del lgebra de matrices y la frmula de Taylor.
puede estudiar en captulos posteriores estas caractersticas).

CONCEPTOS Y DEFINICIONES

Matriz

Es un arreglo de nmeros reales en forma rectngular

ll l2
Azx 3
= la a al31
a2l a22 a23
A = ( au ) = [aij
12 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
13

donde: Traza de una matriz

i Y son sub ndices


Dada una matriz
i = Fila

= Columna
El 2x3 indica el orden de la matriz, que de manera general
podemos denotarlo con m x n, es decir:

A = [aij]m xn S.edefine l~ tr~za de una matriz como la suma de los elementos


d e 1a diagonal prmclpal : .
Cuando se tiene una matriz de orden 1 x n, se denomina como
Vector Fila, pues solamente tendr una fila. As: Tr(A) = "a..

i=j
1J

A=[1348]
ejemplo:
Cuando el orden es de m x 1, se denomina Vector Columna. As:

A=
Sea
A ~ [; ~ :1
[il La traza de la matriz A ser; Tr(A)
Propiedades de la traza de una matriz
= 1 + 5 + 9-= 15

Una matriz 1 x 1 se llama comnmente escalar


Tr(A+B) = Tr( A) + Tr( B )
Si una matriz es de orden n x n entonces A ser una matriz
cuadrada y se denotar como: Tr(A B) Tr( A) Tr( B)

Matriz traspuesta

Matrices iguales Sea

Sean: A = [aij] A = [aijJm x D

A =B SI Se define la matriz traspuesta de A como:

A' = [aij Jnxm


Se cambian filas por columnas.
12 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
13

donde: Traza de una matriz

i Y son sub ndices


Dada una matriz
i = Fila

= Columna
El 2x3 indica el orden de la matriz, que de manera general
podemos denotarlo con m x n, es decir:

A = [aij]m xn S.edefine l~ tr~za de una matriz como la suma de los elementos


d e 1a diagonal prmclpal : .
Cuando se tiene una matriz de orden 1 x n, se denomina como
Vector Fila, pues solamente tendr una fila. As: Tr(A) = "a..

i=j
1J

A=[1348]
ejemplo:
Cuando el orden es de m x 1, se denomina Vector Columna. As:

A=
Sea
A ~ [; ~ :1
[il La traza de la matriz A ser; Tr(A)
Propiedades de la traza de una matriz
= 1 + 5 + 9-= 15

Una matriz 1 x 1 se llama comnmente escalar


Tr(A+B) = Tr( A) + Tr( B )
Si una matriz es de orden n x n entonces A ser una matriz
cuadrada y se denotar como: Tr(A B) Tr( A) Tr( B)

Matriz traspuesta

Matrices iguales Sea

Sean: A = [aij] A = [aijJm x D

A =B SI Se define la matriz traspuesta de A como:

A' = [aij Jnxm


Se cambian filas por columnas.
14 Chacn I Anlisis de Regresin Y Superficies de Respuesta Chacn I Anlisis de Regresin y Superfices de Respuesta 15

Ejemplo: Ejemplo:

A=
[; ;~] y B = [! ~~]
A + B = [H:]
Propiedades de la suma de matrices
Propiedades de la matriz traspuesta
A+B = B+A
(A + B )' = A' + B' A + (B+C)=(A+B) +C
( K A )' = K A' A+O= 0+ A=A
(A' )' = A A + (-A) =( -A) + A = o
( A B )' = B' A' donde Oes la Matriz Nula .

Producto de una matriz por escalar


OPERACIONES CON MATRICES
Sean: A = [aij]m x n una matriz
y a un escalar donde a E R

Suma y resta de matrices entonces:

a A = a [aij]m xn = [a a-- ] 1) ID X n
Sean:
A = (aij] m xn y B = (bij] ID x n Ejemplo:
AB=(aij)mxn (bij ]mxn
A B = (aij bij] mx n A = [:~] y a = 2
14 Chacn I Anlisis de Regresin Y Superficies de Respuesta Chacn I Anlisis de Regresin y Superfices de Respuesta 15

Ejemplo: Ejemplo:

A=
[; ;~] y B = [! ~~]
A + B = [H:]
Propiedades de la suma de matrices
Propiedades de la matriz traspuesta
A+B = B+A
(A + B )' = A' + B' A + (B+C)=(A+B) +C
( K A )' = K A' A+O= 0+ A=A
(A' )' = A A + (-A) =( -A) + A = o
( A B )' = B' A' donde Oes la Matriz Nula .

Producto de una matriz por escalar


OPERACIONES CON MATRICES
Sean: A = [aij]m x n una matriz
y a un escalar donde a E R

Suma y resta de matrices entonces:

a A = a [aij]m xn = [a a-- ] 1) ID X n
Sean:
A = (aij] m xn y B = (bij] ID x n Ejemplo:
AB=(aij)mxn (bij ]mxn
A B = (aij bij] mx n A = [:~] y a = 2
Chacn I Anlisis de Regresin YSuperficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 17
16
Producto de matrices
Producto de vectores

Sean A Y B dos matrices, el producto de la misma (A x B ) es


Si se tienen
posible o est bien definido, solamente, si el nmero de columnas de A
es igual al nmero de filas de B; en cualquier otro caso, la operacin
no podr definirse; es decir, cuando A =[
aij ] es de orden m x p y
B = [ bu ] es de orden p x n entonces es posible definir la operacin de
productos matricial, y resulta de orden mxn.
Ejemplo:

l: ;l
O

Entonces A x B ser:
Sean: A=

Como A es de orden 3x2 y B de orden


y B =
l: 2 :1
2x3, entonces es posible

l
realizar el producto.
bl
b2 CII e12
A B = ( al az ... as ] b3 A x B. = e2l e22
COl
e23

r e3l e32 e33

donde:
A B = [al bi + aa bs + ... + an bn )lxl = [Cij) cu = 1 xl + 3x4 = 13

donde Cij es la suma de los productos de los elementos C12 = 1xO + 3x2 = 6
correspondientes en el vector fila (A) y el vector columna (B). C13 = 1x3 + 3x1 = 6
Ejemplo: C21 = 4x1 + 2x4 = 12
1 C22 = 4xO + 2x2 = 4

A=[1324] y B =
5 C23 = 4x3 + 2x1 = 14
4 C3l = 6x1 + 1x4 = 10
O
C32 = 6xO + 1x2 = 2

Ax B = [1 x 1 + 3 x 5 + 2 x 4 + 4 x O ) = 24 C33 = 6x3 + 1x 1 = 19
Chacn I Anlisis de Regresin YSuperficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 17
16
Producto de matrices
Producto de vectores

Sean A Y B dos matrices, el producto de la misma (A x B ) es


Si se tienen
posible o est bien definido, solamente, si el nmero de columnas de A
es igual al nmero de filas de B; en cualquier otro caso, la operacin
no podr definirse; es decir, cuando A =[
aij ] es de orden m x p y
B = [ bu ] es de orden p x n entonces es posible definir la operacin de
productos matricial, y resulta de orden mxn.
Ejemplo:

l: ;l
O

Entonces A x B ser:
Sean: A=

Como A es de orden 3x2 y B de orden


y B =
l: 2 :1
2x3, entonces es posible

l
realizar el producto.
bl
b2 CII e12
A B = ( al az ... as ] b3 A x B. = e2l e22
COl
e23

r e3l e32 e33

donde:
A B = [al bi + aa bs + ... + an bn )lxl = [Cij) cu = 1 xl + 3x4 = 13

donde Cij es la suma de los productos de los elementos C12 = 1xO + 3x2 = 6
correspondientes en el vector fila (A) y el vector columna (B). C13 = 1x3 + 3x1 = 6
Ejemplo: C21 = 4x1 + 2x4 = 12
1 C22 = 4xO + 2x2 = 4

A=[1324] y B =
5 C23 = 4x3 + 2x1 = 14
4 C3l = 6x1 + 1x4 = 10
O
C32 = 6xO + 1x2 = 2

Ax B = [1 x 1 + 3 x 5 + 2 x 4 + 4 x O ) = 24 C33 = 6x3 + 1x 1 = 19
Chacn I Anlisis de Regresin y Superficies de Respuesta 19
Chacn I Anlisis de Regresin Y Superficies de Respuesta
18
Matriz diagonal

d O O
O d22 O
Dn =
Propiedades del producto de matrices O O dnn

AB "# BA
Matriz inversa
A ( B C ) =(AB)C

De acuerdo a las propiedades de los nmeros reales, todo real b


Pre o postmultiplicacin corresponde -otro ( -b ) tal que b + ( -b ) =
O. En cuanto a la
multiplicacin, a cualquier nmero real que sea distinto de cero,
En la operacin BA -> B premultiplica a A

En la operacin AB -> B postmultiplica a A b ~ 0, corresponde otro bl tal que b x bl = 1 donde 1 es el elemento


identidad de la multiplicacin.
En matrices; si B Bl = Bl B = 1 entonces B:' es inversa de B
TIPO DE MATRICES y 1 = matriz identidad.

Propiedades de la matriz inversa

Matriz nula ( Al )-1 = ( A-l )1


( Al )-1 = A

Omxn =
O O
O O ~l ( A B )-1 = B-l A-1

O O .. , ~j ( KA )-1 = ~. A-1
K

Matriz identidad
DETERMINANTES

1 O O
O 1 O Existe un nmero real asociado a una matriz cuadrada que se
conoce con el nombre de determinante y es denotado por I A l.
In =
Considrense una matriz cuadrada 2 x 2
O O 1
Chacn I Anlisis de Regresin y Superficies de Respuesta 19
Chacn I Anlisis de Regresin Y Superficies de Respuesta
18
Matriz diagonal

d O O
O d22 O
Dn =
Propiedades del producto de matrices O O dnn

AB "# BA
Matriz inversa
A ( B C ) =(AB)C

De acuerdo a las propiedades de los nmeros reales, todo real b


Pre o postmultiplicacin corresponde -otro ( -b ) tal que b + ( -b ) =
O. En cuanto a la
multiplicacin, a cualquier nmero real que sea distinto de cero,
En la operacin BA -> B premultiplica a A

En la operacin AB -> B postmultiplica a A b ~ 0, corresponde otro bl tal que b x bl = 1 donde 1 es el elemento


identidad de la multiplicacin.
En matrices; si B Bl = Bl B = 1 entonces B:' es inversa de B
TIPO DE MATRICES y 1 = matriz identidad.

Propiedades de la matriz inversa

Matriz nula ( Al )-1 = ( A-l )1


( Al )-1 = A

Omxn =
O O
O O ~l ( A B )-1 = B-l A-1

O O .. , ~j ( KA )-1 = ~. A-1
K

Matriz identidad
DETERMINANTES

1 O O
O 1 O Existe un nmero real asociado a una matriz cuadrada que se
conoce con el nombre de determinante y es denotado por I A l.
In =
Considrense una matriz cuadrada 2 x 2
O O 1
20 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta
21
vii)
Cofactor de un determinante de orden n es el correspondiente
menor de -orden n - 1 con signo + - d d
expresin: e acuer o a la
En forma general, para una matriz cuadrada puede darse la
frmula siguiente: Cij = (-1 )i+j I A ij I
viii)
El ~alor del determinante no se altera cuando a cualquier fila
IAI = fC-l)P+iapjIApil co
o umlna, se le suma un mltiple constante de cualquier otra
fil a o co umna. Esto es:
j~1

all + A a2! a!2 + 1\,


'\ a22
donde p toma un valor desde 1, 2, ..., n, y Apj representa, la matriz
que se forma partiendo de A, eliminando la hilera i y la columna j de
A. Como I A I es nico, no importa el valor que se use para p.

Propiedades de los determinantes

i) IA'I =IAI Ejemplo:


ii) El intercambio de dos columnas ( o filas ) cualesquiera de A Sea A una matriz 3 x 3
cambia el signo del determinante.
iii ) El determinante de una matriz con dos columnas ( o filas)
iguales es cero.
iv) Si cada elemento de una fila ( o columna) de A se multiplica
por la cantidad escalar A para que resulte una nueva matriz
B, entonces: Entonces:
IBI=AIAI
IAI = (_1)1+1(3)1 Au ] + (-1)1+2 (1)IA121 +
v) Si todos los elementos de una matriz Anxn se multiplican por ( -1 ) 1+3( O) I Al3 I
A, entonces: donde;
I A Al = An lA I
vi) El menor de un determinante de orden n, es un determinante
de orden n-1 que resulta de suprimir en el primero una fila y
una columna.
An ~ ~J
[~

I Aij I -c-Notacin para el determinante del menor de orden


n-1 que resulta de suprimir la fila i y la columna j A" ~ G ~J
20 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta
21
vii)
Cofactor de un determinante de orden n es el correspondiente
menor de -orden n - 1 con signo + - d d
expresin: e acuer o a la
En forma general, para una matriz cuadrada puede darse la
frmula siguiente: Cij = (-1 )i+j I A ij I
viii)
El ~alor del determinante no se altera cuando a cualquier fila
IAI = fC-l)P+iapjIApil co
o umlna, se le suma un mltiple constante de cualquier otra
fil a o co umna. Esto es:
j~1

all + A a2! a!2 + 1\,


'\ a22
donde p toma un valor desde 1, 2, ..., n, y Apj representa, la matriz
que se forma partiendo de A, eliminando la hilera i y la columna j de
A. Como I A I es nico, no importa el valor que se use para p.

Propiedades de los determinantes

i) IA'I =IAI Ejemplo:


ii) El intercambio de dos columnas ( o filas ) cualesquiera de A Sea A una matriz 3 x 3
cambia el signo del determinante.
iii ) El determinante de una matriz con dos columnas ( o filas)
iguales es cero.
iv) Si cada elemento de una fila ( o columna) de A se multiplica
por la cantidad escalar A para que resulte una nueva matriz
B, entonces: Entonces:
IBI=AIAI
IAI = (_1)1+1(3)1 Au ] + (-1)1+2 (1)IA121 +
v) Si todos los elementos de una matriz Anxn se multiplican por ( -1 ) 1+3( O) I Al3 I
A, entonces: donde;
I A Al = An lA I
vi) El menor de un determinante de orden n, es un determinante
de orden n-1 que resulta de suprimir en el primero una fila y
una columna.
An ~ ~J
[~

I Aij I -c-Notacin para el determinante del menor de orden


n-1 que resulta de suprimir la fila i y la columna j A" ~ G ~J
Chacn I Anlisis de Regresin y Superficies de Respuesta 23
Chacin I Anlisis de Regresin Y Superficies de Respuesta
22

Al3 = l~~J (2 xl) = -2


IAnl = (O x 4)

I Al2 I = (2 x 4) (2 xl) = 6 INDEPENDENCIA LINEAL DE VECTORES

I Al3 I = (2 xl) (O xl) = 2

Si se tiene un conjunto de vectores


Por lo tanto
I Al = 3 x ( -2 ) - 1 x 6 + O x 2 = -12 {x, X2, ... .x, }
donde
MATRIZ INVERSA
x, = { xs. Xi2, ... , Xin }

Sea A una matriz cuadrada entonces i = 1, 2, ..., m

Adj (A) = [cid' Se dice que los vectores son linealmente independientes si la
expresin:
La adjunta de A es la traspuesta de la matriz de cofactores.
A.l Xi + A.2 X2 + ... + A.m Xm = 0n
Se puede definir a la matriz inversa como:
1
ocurre solamente si A.l A.2 = = ... = A.n = O, de no ser as los vectores son
A-l = - adj (A) linealmente dependientes
\A\ Donde;

Ejemplo: sea A o =
n Vector n x 1 cuyos elementos son ceros
f... = nmeros reales
2 31
A =
U 5
-4 -:J
IAI = 1

RANGO DE UNA MATRIZ

[-5 O Para una matriz m x n existe un nmero entero que representa


el nmero mximo de vectores columnas o hileras de la matriz que
A-l = ~ -2
ll_5
1
1 :J sean linealmente independientes y el cual denotaremos como r y que
significa el rango de la matriz.
Chacn I Anlisis de Regresin y Superficies de Respuesta 23
Chacin I Anlisis de Regresin Y Superficies de Respuesta
22

Al3 = l~~J (2 xl) = -2


IAnl = (O x 4)

I Al2 I = (2 x 4) (2 xl) = 6 INDEPENDENCIA LINEAL DE VECTORES

I Al3 I = (2 xl) (O xl) = 2

Si se tiene un conjunto de vectores


Por lo tanto
I Al = 3 x ( -2 ) - 1 x 6 + O x 2 = -12 {x, X2, ... .x, }
donde
MATRIZ INVERSA
x, = { xs. Xi2, ... , Xin }

Sea A una matriz cuadrada entonces i = 1, 2, ..., m

Adj (A) = [cid' Se dice que los vectores son linealmente independientes si la
expresin:
La adjunta de A es la traspuesta de la matriz de cofactores.
A.l Xi + A.2 X2 + ... + A.m Xm = 0n
Se puede definir a la matriz inversa como:
1
ocurre solamente si A.l A.2 = = ... = A.n = O, de no ser as los vectores son
A-l = - adj (A) linealmente dependientes
\A\ Donde;

Ejemplo: sea A o =
n Vector n x 1 cuyos elementos son ceros
f... = nmeros reales
2 31
A =
U 5
-4 -:J
IAI = 1

RANGO DE UNA MATRIZ

[-5 O Para una matriz m x n existe un nmero entero que representa


el nmero mximo de vectores columnas o hileras de la matriz que
A-l = ~ -2
ll_5
1
1 :J sean linealmente independientes y el cual denotaremos como r y que
significa el rango de la matriz.
24 Chacn I Anlisis de Regresin Y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 25

Propiedades Si A es simtrica (A' = A) las RC de A son reales.


Sea rango de A denotamos por p(A) Las RC de una matriz definida positiva son positivas (>0).
p(AB) s p(A) Las RC de una matriz semi-definida positiva son negativas (~O).
s p( B)
Para toda matriz simtrica A, hay una matriz ortogonal C tal
p(A+B) s peA) + p(B)
que C'AC = D, donde D es una matriz diagonal cuyos elementos en la
Si A es una matriz de orden n y \ A \ = O entonces p( A) < n diagonal son las RC de A.
Sea Amx n Sea Cnx n dada por:
Si p (A) = m => Habr m filas linealmente independientes
CII CI2 cln cI
Si p (A) = n => Habr n filas linealmente independientes
c2\ c22 c2n c2
c= =
MATRIZ ORTOGONAL cn \ cn2 Con cn

C i es la i-sima fila de e
Sea una matriz A, A es ortogona l si
SI Y solo
o si
SI A' = A-I
e. es la traspuesta de ci, un vector columna
J

RAICES y VECTORES CARACTERISTICOS Las condiciones necesarias y suficientes para que C sea
ortogonal son:

Una raz caracterstica ( RC. ) de una matriz An x n es un


i) Ci c.
J
= O Vi*- j

escalar Atal que AX = AXpara algn vector X *- O.


El vector X se denomina vector caracterstico (V. C: ) de la
) Ci ci = 1 V i

matrizA. Si A n x n y C n X n son dos matrices de orden n (\ C \ *- O), las


De la ecuacin anterior se sigue que: matrices A, C -IAC, CACo! tienen las mismas RC. Los VC de una
matriz simtrica son ortogonales. Si una RC se presenta k veces
AX - A X = O (A-Al) X=O habr k vectores caractersticos ortogonales correspondientes a esa
O, lo cual RC.
y para que tenga solucin debe cumplirse \ A - A ~ \
polinomio
=
representa un polinomio de grado n en A, de.nommado Si se tiene los VC de A como columnas de una matriz X, y se
caracterstico. Sus races son las R C. ~e la matriz A: realiza el producto X'AX se obtiene una matriz diagonal con las Re de
A en la diagonal principal. Este proceso se conoce como
El nmero de R C. *- O de una matriz es igual al rango de A diagonalizacin de una matriz simtrica, y se cumple:
Si C es una matriz ortogonal Y An x n se cumple: t r (X' AX) = Ai = t r (AXX' ) = t r (A)
RC (A) = RC (C' AC)
24 Chacn I Anlisis de Regresin Y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 25

Propiedades Si A es simtrica (A' = A) las RC de A son reales.


Sea rango de A denotamos por p(A) Las RC de una matriz definida positiva son positivas (>0).
p(AB) s p(A) Las RC de una matriz semi-definida positiva son negativas (~O).
s p( B)
Para toda matriz simtrica A, hay una matriz ortogonal C tal
p(A+B) s peA) + p(B)
que C'AC = D, donde D es una matriz diagonal cuyos elementos en la
Si A es una matriz de orden n y \ A \ = O entonces p( A) < n diagonal son las RC de A.
Sea Amx n Sea Cnx n dada por:
Si p (A) = m => Habr m filas linealmente independientes
CII CI2 cln cI
Si p (A) = n => Habr n filas linealmente independientes
c2\ c22 c2n c2
c= =
MATRIZ ORTOGONAL cn \ cn2 Con cn

C i es la i-sima fila de e
Sea una matriz A, A es ortogona l si
SI Y solo
o si
SI A' = A-I
e. es la traspuesta de ci, un vector columna
J

RAICES y VECTORES CARACTERISTICOS Las condiciones necesarias y suficientes para que C sea
ortogonal son:

Una raz caracterstica ( RC. ) de una matriz An x n es un


i) Ci c.
J
= O Vi*- j

escalar Atal que AX = AXpara algn vector X *- O.


El vector X se denomina vector caracterstico (V. C: ) de la
) Ci ci = 1 V i

matrizA. Si A n x n y C n X n son dos matrices de orden n (\ C \ *- O), las


De la ecuacin anterior se sigue que: matrices A, C -IAC, CACo! tienen las mismas RC. Los VC de una
matriz simtrica son ortogonales. Si una RC se presenta k veces
AX - A X = O (A-Al) X=O habr k vectores caractersticos ortogonales correspondientes a esa
O, lo cual RC.
y para que tenga solucin debe cumplirse \ A - A ~ \
polinomio
=
representa un polinomio de grado n en A, de.nommado Si se tiene los VC de A como columnas de una matriz X, y se
caracterstico. Sus races son las R C. ~e la matriz A: realiza el producto X'AX se obtiene una matriz diagonal con las Re de
A en la diagonal principal. Este proceso se conoce como
El nmero de R C. *- O de una matriz es igual al rango de A diagonalizacin de una matriz simtrica, y se cumple:
Si C es una matriz ortogonal Y An x n se cumple: t r (X' AX) = Ai = t r (AXX' ) = t r (A)
RC (A) = RC (C' AC)
26 Chacn / Anlisis de Regresin y Superficies de Respuesta Chacn / Anlisis de Regresin y Superficies de Respuesta 27

Sea Zn x 1 es un vector constituido por variables normales


El V. C para A = 5 ser:
independientes con media O y varianza constante (j 2, es decir: 2
E (Zi) = O .J5
i = 1,2, ...,n
E ( Z~) = (j2
XI=
1
j = 1,2, ..., n
.J5
i *j
La matriz de varianza-covarianza se define: El V. C. para A.= O es:

I E(Z~) E(ZlZn)] 1

E (ZZ') =
I E(Z?Zl) E(Z2Zn) .J5
I ~
lE(ZnZ1 ) E(~!) J
Ejemplo:

Observe que X; X 2 = O => Los V. C. son ortogonales.


Al = 5

FORMA CUADRATICA REAL


SI. Al = 5 ----> A - Al =
[-12 _ 2]4 ~ {-X1+2X2=O ~ Xi = 2Xz
2X] - 4X2 = O
Defin~c~n: una funcin f de "n" variables reales, digamos Xi,
En Xi = 2Xz hay un elemento arbitrario, en consecuencia si X Xz, ... Xn definidas por:
satisface dicha igualdad, tambin la satisface kX.
Se puede normalizar
unidad:
el vector haciendo que su mdulo sea la f ( x., x, ...,Xn) = II
;=1 j=I

1 Se le conoce como forma cuadrtica, donde:


= 1
-J5
al2
X= A=

r
a21

anl
a22

an2 ...
aa,"~
2n

a:"
26 Chacn / Anlisis de Regresin y Superficies de Respuesta Chacn / Anlisis de Regresin y Superficies de Respuesta 27

Sea Zn x 1 es un vector constituido por variables normales


El V. C para A = 5 ser:
independientes con media O y varianza constante (j 2, es decir: 2
E (Zi) = O .J5
i = 1,2, ...,n
E ( Z~) = (j2
XI=
1
j = 1,2, ..., n
.J5
i *j
La matriz de varianza-covarianza se define: El V. C. para A.= O es:

I E(Z~) E(ZlZn)] 1

E (ZZ') =
I E(Z?Zl) E(Z2Zn) .J5
I ~
lE(ZnZ1 ) E(~!) J
Ejemplo:

Observe que X; X 2 = O => Los V. C. son ortogonales.


Al = 5

FORMA CUADRATICA REAL


SI. Al = 5 ----> A - Al =
[-12 _ 2]4 ~ {-X1+2X2=O ~ Xi = 2Xz
2X] - 4X2 = O
Defin~c~n: una funcin f de "n" variables reales, digamos Xi,
En Xi = 2Xz hay un elemento arbitrario, en consecuencia si X Xz, ... Xn definidas por:
satisface dicha igualdad, tambin la satisface kX.
Se puede normalizar
unidad:
el vector haciendo que su mdulo sea la f ( x., x, ...,Xn) = II
;=1 j=I

1 Se le conoce como forma cuadrtica, donde:


= 1
-J5
al2
X= A=

r
a21

anl
a22

an2 ...
aa,"~
2n

a:"
Chacn I Anlisis de Regresin y Superficies de Respuesta 29
28 Chacn I Anlisis de Regresin Y Superficies de Respuesta

Luego se puede afirmar que toda forma cuadrtica X'AX tiene


La matriz A de la forma cuadrtica no es nica. asociada una matriz A simtrica.
Ejemplo: Tambin una forma cuadrtica puede escribirse de la siguiente
manera:

Si X = y A= n n n n n

I I aijXi x, = I aii X; + I I (aij + aji) x. x,


j=1 j=1 i=1 i=1 j=1

Entonces:
X'AX = X~ + 3X2 Xi + 4XilXI + 2XlX2 + 8X~ + 9X3 X2 - Xi X3
2
TIPOS DE FORMAS CUADRATICAS
+ 2X2 X3 - X3

X'AX = X~ + 5XI X2 + 3X3Xl + 8X; + 11X2 X3 - X;


El rango" r de una forma cuadrtica Q = X'AX es igual al
nmero de races caractersticas distintas de cero. Tambin es el
X'AX = X + (8-3) x. X2 + (5-2) X3 x, + 8X 2
2

rango de la matriz A.
2
+ (7 + 4) X2 X3- X3 El ndice" u" de una forma cuadrtica Q es el nmero de races
positivas de la ecuacin caracterstica de A.
X' AX = X ~ + 8X2 Xl - 3Xl X2 + 5X3 X. - 2Xl X3 + 8X; + 7Xz X3
2. Usando las definiciones anteriores, se tiene que:
+ 4X3 X2 - X 3
L Cuando la ecuacin caracterstica de A contiene races
positivas y negativas; esto es en trminos de r y u, 1:S; u :s; r,
= X'BX la forma cuadrtica Q es indefinida.
lI. Si Q es de rango r = n y adems u = r = n entonces Q es
definida positiva.
pero, A "* B
lII. Si Q es de rango r = n, pero u = 0, entonces Q es definida
Sin embargo, si a los coeficientes de Xi X2, Xi X3 y X2 X3 los negativa.
dividimos por 2, se tiene que:
IV. Si r < n y adems u = r, entonces Q es semidefinida positiva.
3 3 2
- Xi X3 + - X3Xi + 8X 2 + V. Si r < n y adems u = 0, se dice que Q es semidefinida negati-
2 2
va.

5/2
X' AX = i x, X2 Xa ] 8
11/2
Chacn I Anlisis de Regresin y Superficies de Respuesta 29
28 Chacn I Anlisis de Regresin Y Superficies de Respuesta

Luego se puede afirmar que toda forma cuadrtica X'AX tiene


La matriz A de la forma cuadrtica no es nica. asociada una matriz A simtrica.
Ejemplo: Tambin una forma cuadrtica puede escribirse de la siguiente
manera:

Si X = y A= n n n n n

I I aijXi x, = I aii X; + I I (aij + aji) x. x,


j=1 j=1 i=1 i=1 j=1

Entonces:
X'AX = X~ + 3X2 Xi + 4XilXI + 2XlX2 + 8X~ + 9X3 X2 - Xi X3
2
TIPOS DE FORMAS CUADRATICAS
+ 2X2 X3 - X3

X'AX = X~ + 5XI X2 + 3X3Xl + 8X; + 11X2 X3 - X;


El rango" r de una forma cuadrtica Q = X'AX es igual al
nmero de races caractersticas distintas de cero. Tambin es el
X'AX = X + (8-3) x. X2 + (5-2) X3 x, + 8X 2
2

rango de la matriz A.
2
+ (7 + 4) X2 X3- X3 El ndice" u" de una forma cuadrtica Q es el nmero de races
positivas de la ecuacin caracterstica de A.
X' AX = X ~ + 8X2 Xl - 3Xl X2 + 5X3 X. - 2Xl X3 + 8X; + 7Xz X3
2. Usando las definiciones anteriores, se tiene que:
+ 4X3 X2 - X 3
L Cuando la ecuacin caracterstica de A contiene races
positivas y negativas; esto es en trminos de r y u, 1:S; u :s; r,
= X'BX la forma cuadrtica Q es indefinida.
lI. Si Q es de rango r = n y adems u = r = n entonces Q es
definida positiva.
pero, A "* B
lII. Si Q es de rango r = n, pero u = 0, entonces Q es definida
Sin embargo, si a los coeficientes de Xi X2, Xi X3 y X2 X3 los negativa.
dividimos por 2, se tiene que:
IV. Si r < n y adems u = r, entonces Q es semidefinida positiva.
3 3 2
- Xi X3 + - X3Xi + 8X 2 + V. Si r < n y adems u = 0, se dice que Q es semidefinida negati-
2 2
va.

5/2
X' AX = i x, X2 Xa ] 8
11/2
30 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 31
Ejemplo:
a.- Para la matriz:
o

A= r~~
l-2 1
-~l
1
[W W2 ... Wn]

= 1
1\. W21 + 1
1\.2 w2 2
+
O
O
An
+ AnW II
Wn
2

donde, Al = 4, A2= 2 Y A3= -2. El rango de Q = X'AX es de 3 y el


Esto es, la forma cuadrtica Q es transformada en otra forma
=
ndice u es 2. Por lo tanto la forma cadrtica Q X'AX es indefinida. cuadrtica cuya matriz es diagonal, los elementos de la diagonal son
b.- Para la matriz: las races caracteristicas de la matriz A.

II ~J
r2
B= DIFERENCIACION USANDO MATRICES

donde, Al =

Como r = n
5
2
=
+

2 Y u
H =
y A2

2,
5
-
2 -H Supngase que se requiere diferenciar f( Z, Z2, ..., Zn) con res-
pecto a Zi, Z2, ... Zn. Considerando los Z' s en forma de vector, sto es:

entonces la forma cuadrtica P = X'BX es definida positiva.


Z =
Reduccin de formas cuadrticas a formas cannicas
Una manipulacin extremadamente til en la descripcin de la Zn
naturaleza de una superficie de respuesta y localizacin de regiones Por la derivada O / az, escribimos el vector columna:
de condiciones ptimas es la reduccin de una forma cuadrtica a una
forma cannica. El siguiente teorema describe la naturaleza de esta
importante transformacin.

TEOREMA 8f
-=
Si Al, A2.... , An son races caractersticas (todas reales) de la 8Z
matriz simtrica A, existe una transformacin ortogonal X = PW, tal
que la forma cuadrtica real Q = X'AX es transformada en una
expresin cannica:

Esto es, el vector columna de derivadas parciales. Por otro lado,


( O / OZ ) es el vector fila de derivadas parciales.
I
30 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 31
Ejemplo:
a.- Para la matriz:
o

A= r~~
l-2 1
-~l
1
[W W2 ... Wn]

= 1
1\. W21 + 1
1\.2 w2 2
+
O
O
An
+ AnW II
Wn
2

donde, Al = 4, A2= 2 Y A3= -2. El rango de Q = X'AX es de 3 y el


Esto es, la forma cuadrtica Q es transformada en otra forma
=
ndice u es 2. Por lo tanto la forma cadrtica Q X'AX es indefinida. cuadrtica cuya matriz es diagonal, los elementos de la diagonal son
b.- Para la matriz: las races caracteristicas de la matriz A.

II ~J
r2
B= DIFERENCIACION USANDO MATRICES

donde, Al =

Como r = n
5
2
=
+

2 Y u
H =
y A2

2,
5
-
2 -H Supngase que se requiere diferenciar f( Z, Z2, ..., Zn) con res-
pecto a Zi, Z2, ... Zn. Considerando los Z' s en forma de vector, sto es:

entonces la forma cuadrtica P = X'BX es definida positiva.


Z =
Reduccin de formas cuadrticas a formas cannicas
Una manipulacin extremadamente til en la descripcin de la Zn
naturaleza de una superficie de respuesta y localizacin de regiones Por la derivada O / az, escribimos el vector columna:
de condiciones ptimas es la reduccin de una forma cuadrtica a una
forma cannica. El siguiente teorema describe la naturaleza de esta
importante transformacin.

TEOREMA 8f
-=
Si Al, A2.... , An son races caractersticas (todas reales) de la 8Z
matriz simtrica A, existe una transformacin ortogonal X = PW, tal
que la forma cuadrtica real Q = X'AX es transformada en una
expresin cannica:

Esto es, el vector columna de derivadas parciales. Por otro lado,


( O / OZ ) es el vector fila de derivadas parciales.
I
32 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 33
REGLAS DE DERIVACION
USO DE NOTACION MATRICIAL PARA MEDIAS
Y VAR1ANZAS DE VECTORES ALEATORIOS
REGLA 1: Dado el vector columna a conteniendo "n"
constantes, y el vector Z tambin con "n" constantes consideremos el
escalar a' Z;

aa'Z
a
Sea: y =
az

un vector aleatorio conteniendo "n" variables.


aa'Z
-- = a' = [al, a2, ..., an]
Media de Y
az'
REGLA 2: Dado el vector Z con "n" elementos. Consideremos
el escalar Z' Z;

.OZ'Z
--= 2Z y --
eaz = 2Z'
az az'
es decir, .ti = E (Yr ), i = 1, 2, ..., n

REGLA 3: Consideremos el vector:


Matriz de varianza covarianza
Z' = [Zl Z2 ... z, ]
y la matriz A de orden "u". La derivada del escalar Z'AZ con respecto
al vector columna Z es dada por:

a(Z'AZ) = AZ + A'Z = (A + A' ) Z


az donde:
En particular, si A es simtrica (i. e. A = A' ) V e Y) = E (Y. - .ti )2
V e Y) = E e Y; ) - e .ti)2
a(z' AZ) = 2 AZ
V e Y, ) = o ~ = e 2, 1 = 1 2
az 11 i ,'o .. , n
Coy e Y, , Yj ) = E [e Y, - .ti) e Yj - .tj)]
COy e v., Yj) = E e Y, Yj ) - .ti J.!j
COy e Yr , Yj ) = crij, (i ~ j), j = 1, 2, ... , n
32 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 33
REGLAS DE DERIVACION
USO DE NOTACION MATRICIAL PARA MEDIAS
Y VAR1ANZAS DE VECTORES ALEATORIOS
REGLA 1: Dado el vector columna a conteniendo "n"
constantes, y el vector Z tambin con "n" constantes consideremos el
escalar a' Z;

aa'Z
a
Sea: y =
az

un vector aleatorio conteniendo "n" variables.


aa'Z
-- = a' = [al, a2, ..., an]
Media de Y
az'
REGLA 2: Dado el vector Z con "n" elementos. Consideremos
el escalar Z' Z;

.OZ'Z
--= 2Z y --
eaz = 2Z'
az az'
es decir, .ti = E (Yr ), i = 1, 2, ..., n

REGLA 3: Consideremos el vector:


Matriz de varianza covarianza
Z' = [Zl Z2 ... z, ]
y la matriz A de orden "u". La derivada del escalar Z'AZ con respecto
al vector columna Z es dada por:

a(Z'AZ) = AZ + A'Z = (A + A' ) Z


az donde:
En particular, si A es simtrica (i. e. A = A' ) V e Y) = E (Y. - .ti )2
V e Y) = E e Y; ) - e .ti)2
a(z' AZ) = 2 AZ
V e Y, ) = o ~ = e 2, 1 = 1 2
az 11 i ,'o .. , n
Coy e Y, , Yj ) = E [e Y, - .ti) e Yj - .tj)]
COy e v., Yj) = E e Y, Yj ) - .ti J.!j
COy e Yr , Yj ) = crij, (i ~ j), j = 1, 2, ... , n
Chacn I Anlisis de Regresin y Superficies de Respuesta 35
34 Chacn I Anlisis de Regresin y Superficies de Respuesta

El vector de variables aleatorias:


Y' = (Yl,Y2, ... .Ys ] FORMULA DE TAYLOR
donde las variables son normalmente distribuidas (conjuntamente)
con vector media Jl y matriz de varianza-covarianza L, sto es:
El conocimiento de la Frmula de Taylor es indispensable para
Y ~ N (Jl, L) entender la metodologa de la Superficie de Respuesta, ya que se ha
expresado, como supuesto de la metodologa, que el modelo real, que
Cuando las variables aleatorias no estn correlacionadas y generalmente no se conoce o es muy complicado, es conveniente
tienen igual varianza, es decir 0'2 In. entonces: aproximarlo a un polinomio de bajo orden y esta demostracin se basa
fundamentalmente en la Frmula de Taylor.
Y ~N ( 1.1, 0'2 In)
. Los valores de funciones polinmicas se obtienen efectuando un
Algunas reglas para encontrar medias y varianzas nmero finito de sumas y multiplicaciones. Estas funciones, llamadas
analticas son derivables en un entorno en la vecindad de un punto
REGLA 1: Dado el vector Y que contiene "n" variables
"p" del dominio de la funcin. Uno de los mtodos ms utilizados para
aleatorias, se cumple que entonces: aproximar una funcin por un polinomio es la Frmula de Taylor.
E ( AY ) = A Jl
Frmula de Taylor para una variable con remanente
donde A es cualquier matriz k x n de constantes.
REGLA 2: Dado un vector Y el cual tiene media O, matriz de Si se tiene y = f (a) una funcin, tal que "f" y sus primeras
varianza-covarianza 0'2 1, y una matriz simtrica B entonces: derivadas existen en el intervalo cerrado [a, x].
E (y' BY) = 0'2 t r (B) Tambin la funcin f(x)n+l existe para toda x en el intervalo
abierto ( a, x ), luego existe un nmero x en el intervalo abierto (a, x)
REGLA 3: Si Y es un vector de n-variables aleatorias con tal que:
media Jl , cov Y = L, y A una matriz k x n de constantes entonces,
definiendo Z = AY, ' () (x-a) (x_a)2
f ()x = f a + -- fea) + f"(a) + ...
1! 2!
CovZ = A L A'
1
En particular, para una combinacin lineal de variables + (x- a)" fn + -O.(x_-_a-,-t_+_
f(x)n+l
aleatorias: a'Y, donde Y es un vector de n-variables aleatorias y n! (a) Cn+n!
a' = [ al, aa, ... , as ], tenemos que:
f(x) = Pn(x) + Rn(x)
V (a' Y) = a' L a

en notacin escalar se tiene que: Este teorema puede ser generalizado para funciones de varias
variables. Si se tiene por ejemplo una funcin de tres variables en
torno al punto "p"( xi, yi, Zl )
V(a'Y) = I a~O'2+2I IaajO'ij
i=l i=l je I
i"j
Chacn I Anlisis de Regresin y Superficies de Respuesta 35
34 Chacn I Anlisis de Regresin y Superficies de Respuesta

El vector de variables aleatorias:


Y' = (Yl,Y2, ... .Ys ] FORMULA DE TAYLOR
donde las variables son normalmente distribuidas (conjuntamente)
con vector media Jl y matriz de varianza-covarianza L, sto es:
El conocimiento de la Frmula de Taylor es indispensable para
Y ~ N (Jl, L) entender la metodologa de la Superficie de Respuesta, ya que se ha
expresado, como supuesto de la metodologa, que el modelo real, que
Cuando las variables aleatorias no estn correlacionadas y generalmente no se conoce o es muy complicado, es conveniente
tienen igual varianza, es decir 0'2 In. entonces: aproximarlo a un polinomio de bajo orden y esta demostracin se basa
fundamentalmente en la Frmula de Taylor.
Y ~N ( 1.1, 0'2 In)
. Los valores de funciones polinmicas se obtienen efectuando un
Algunas reglas para encontrar medias y varianzas nmero finito de sumas y multiplicaciones. Estas funciones, llamadas
analticas son derivables en un entorno en la vecindad de un punto
REGLA 1: Dado el vector Y que contiene "n" variables
"p" del dominio de la funcin. Uno de los mtodos ms utilizados para
aleatorias, se cumple que entonces: aproximar una funcin por un polinomio es la Frmula de Taylor.
E ( AY ) = A Jl
Frmula de Taylor para una variable con remanente
donde A es cualquier matriz k x n de constantes.
REGLA 2: Dado un vector Y el cual tiene media O, matriz de Si se tiene y = f (a) una funcin, tal que "f" y sus primeras
varianza-covarianza 0'2 1, y una matriz simtrica B entonces: derivadas existen en el intervalo cerrado [a, x].
E (y' BY) = 0'2 t r (B) Tambin la funcin f(x)n+l existe para toda x en el intervalo
abierto ( a, x ), luego existe un nmero x en el intervalo abierto (a, x)
REGLA 3: Si Y es un vector de n-variables aleatorias con tal que:
media Jl , cov Y = L, y A una matriz k x n de constantes entonces,
definiendo Z = AY, ' () (x-a) (x_a)2
f ()x = f a + -- fea) + f"(a) + ...
1! 2!
CovZ = A L A'
1
En particular, para una combinacin lineal de variables + (x- a)" fn + -O.(x_-_a-,-t_+_
f(x)n+l
aleatorias: a'Y, donde Y es un vector de n-variables aleatorias y n! (a) Cn+n!
a' = [ al, aa, ... , as ], tenemos que:
f(x) = Pn(x) + Rn(x)
V (a' Y) = a' L a

en notacin escalar se tiene que: Este teorema puede ser generalizado para funciones de varias
variables. Si se tiene por ejemplo una funcin de tres variables en
torno al punto "p"( xi, yi, Zl )
V(a'Y) = I a~O'2+2I IaajO'ij
i=l i=l je I
i"j
Chacin I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 37
36
Con:
-x*
= Xl + t* ( X -xi )
y* = Yl + t* ( Y -yi )
z* = Zl + t* ( Z -zi )
Donde:
o < t* < 1, el punto ( x*, s", z* ) se encuentra entre, (Xl, yi, zr )
Y ( X, y, Z ).

El trmino general de la serie, puede interpretarse en funcin de


Por lo tanto para n = 1 la frmula se transforma en:
una diferencial ensima d=f, de la funcin f(x, y). F ( x, y, z) = F( xi, yi, zi ) + (X - xi ) Fx( x*, s". z* )
+( y yr ) Fy( x*,y*,z*)
v + (z-z) Fz(z*,y*,z*)
anf
d=f = (X-Xl) a Xn +... que se conoce como teorema del valor medio para funciones de tres
variables.
Para indicar la dependencia de d=f sobre xi, yi, Zl y las Explicaremos algunos conceptos fundamentales para analizar el
diferencias (x -xi), (y -yi), (Z -zi). polinomio de Taylor en el espacio R
d=F = dnF( xi, yi, Zl, X -xi, y-yi, Z-Zl )
Campo escalar y campo vectorial
Cuando n = 1
af af af Consideremos funciones con el dominio en el espacio R n-dimen-
d'F = d'F( xi, yi, zr, dx, dy, dz, ) = -dx+-dy+-dz sional (Rn) y con recorrido en el espacio R m-dimensional (Rm); es
ax ay az decir f: Rn ~ Rm; cuando n = m = 1, tal funcin se llama funcin real
con X - Xl = dx y - yi = dy Z - Zl = dz de variable real; cuando n =1 y m > 1, se llama funcin vectorial de
una variable real; cuando n> 1 y m =1, la funcin se llama funcin
La serie puede escribirse como:
real de una variable vectorial, o ms brevemente, un campo escalar
F( x, y, z ) = F( xi, yi, zi ) + dF( xr, Y1,Zl, X -xi, Y -yi, Z -zr ) ( f: Rn ~ R ) Y si n = 1 y m > 1, se llama campo vectorial (f: R ~ Rm).
1
+ - d2F( xi, yi, zr, X -xi, Y -yi, Z -zr ) + ... Bolas abiertas
2!
Sea "a" un punto dado en Rn y "x" un nmero positivo dado. El
1
+- dn F( xi, yi, Zl, X -xi, Y -yi, Z -zi) conjunto de todos los puntos X E Rn, tales que 11 X - a 11 < r se llama
n! n-bola abierta de radio r y centro a; y la denotamos por B(a ; r).
+ Rn (X, y, Z)
Gradiente de un campo escalar
1
Con Rn (X, y, Z) = ( \. dn+l F( x*, s", z", X -xi, Y -yl, Z -zr )
El vector cuyas componentes son las derivadas parciales de una
n+ lJ!
funcin escalar f, calculadas en el punto "a" se llama gradiente;

V fea) = (Dtf(a), ... , Dnf(a) )


Chacin I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 37
36
Con:
-x*
= Xl + t* ( X -xi )
y* = Yl + t* ( Y -yi )
z* = Zl + t* ( Z -zi )
Donde:
o < t* < 1, el punto ( x*, s", z* ) se encuentra entre, (Xl, yi, zr )
Y ( X, y, Z ).

El trmino general de la serie, puede interpretarse en funcin de


Por lo tanto para n = 1 la frmula se transforma en:
una diferencial ensima d=f, de la funcin f(x, y). F ( x, y, z) = F( xi, yi, zi ) + (X - xi ) Fx( x*, s". z* )
+( y yr ) Fy( x*,y*,z*)
v + (z-z) Fz(z*,y*,z*)
anf
d=f = (X-Xl) a Xn +... que se conoce como teorema del valor medio para funciones de tres
variables.
Para indicar la dependencia de d=f sobre xi, yi, Zl y las Explicaremos algunos conceptos fundamentales para analizar el
diferencias (x -xi), (y -yi), (Z -zi). polinomio de Taylor en el espacio R
d=F = dnF( xi, yi, Zl, X -xi, y-yi, Z-Zl )
Campo escalar y campo vectorial
Cuando n = 1
af af af Consideremos funciones con el dominio en el espacio R n-dimen-
d'F = d'F( xi, yi, zr, dx, dy, dz, ) = -dx+-dy+-dz sional (Rn) y con recorrido en el espacio R m-dimensional (Rm); es
ax ay az decir f: Rn ~ Rm; cuando n = m = 1, tal funcin se llama funcin real
con X - Xl = dx y - yi = dy Z - Zl = dz de variable real; cuando n =1 y m > 1, se llama funcin vectorial de
una variable real; cuando n> 1 y m =1, la funcin se llama funcin
La serie puede escribirse como:
real de una variable vectorial, o ms brevemente, un campo escalar
F( x, y, z ) = F( xi, yi, zi ) + dF( xr, Y1,Zl, X -xi, Y -yi, Z -zr ) ( f: Rn ~ R ) Y si n = 1 y m > 1, se llama campo vectorial (f: R ~ Rm).
1
+ - d2F( xi, yi, zr, X -xi, Y -yi, Z -zr ) + ... Bolas abiertas
2!
Sea "a" un punto dado en Rn y "x" un nmero positivo dado. El
1
+- dn F( xi, yi, Zl, X -xi, Y -yi, Z -zi) conjunto de todos los puntos X E Rn, tales que 11 X - a 11 < r se llama
n! n-bola abierta de radio r y centro a; y la denotamos por B(a ; r).
+ Rn (X, y, Z)
Gradiente de un campo escalar
1
Con Rn (X, y, Z) = ( \. dn+l F( x*, s", z", X -xi, Y -yl, Z -zr )
El vector cuyas componentes son las derivadas parciales de una
n+ lJ!
funcin escalar f, calculadas en el punto "a" se llama gradiente;

V fea) = (Dtf(a), ... , Dnf(a) )


38 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 39

Continuidad para campos escalares o equivalente

Una funcin escalar f, se dice que es continua en un punto" a" n n


1
si se cumple:
lim f( a + h y) =
f( a )
f( a + y ) - f( a ) = Vf(a). y + -
2! LL
j= l je l
n, f( a)

h~O + 11 y 112 E2( a, y )


o equivalente donde E2( a, y ) ~ O cuando y~ O
lim f( x) = f ( a ) Prueba:
x~a
. Sea y, un vector definido por y = (yr, ..., yn ). Definimos una
Polinomio de Taylor en R funcin g( I! ), para I! real, mediante la ecuacin:

La idea es tratar de aproximar una funcin f(x), la cual es g( I!) = f( a + I! Y ); -1 s I! s 1


contnua y derivable, por un polinomio de grado n, dado por:
SI I! = 1, tenemos que:

pn(X)= f(a) + f'(a) (x-a) + f"(a) (x_a)2 + ... g(1) = f( a +y )


1! 2!
SI I! = O, tenemos que:

+ fn( a)
( r
x-a g( O) = f( a)
n! por lo tanto,
donde el trmino error o residuo, viene dado por la frmula:
g(1) - g( O) = f( a + y) - f( a )
fn+1(C) ( )n+1 ahora, como g es derivable y continua, por definicin, entonces
pn( x) - f( x) = En( x) = x- a , a < e < x
(n+ 1)! podemos aplicar el polinomio de Taylor para nmeros reales, en este
caso, el de grado uno, centrado en a:

Frmula de Taylor de segundo orden para campos (x- a)'


escalares g( x) = g( a) + g' ( a ) -- + Error.
1!
TEOREMA: Si f es un campo escalar con derivadas segundas, pero si a = O,entonces
Dij f, continuas en una n-Bola B (a; r ), entonces, para todo" y" de Rn,
tal que a + y E B (a; r), tenemos que: g( x) = g( O) + g' ( O) x + Error
1 n n donde el error viene dado por la expresin
f(a + y) - f(a) = V f(a) . y + -
2!
LL
;=1 j=I
Dij f( a + e y ) yi yj
g(c)n+l (x- a)n+l
Error = a < c< x
(n+ 1)!
38 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 39

Continuidad para campos escalares o equivalente

Una funcin escalar f, se dice que es continua en un punto" a" n n


1
si se cumple:
lim f( a + h y) =
f( a )
f( a + y ) - f( a ) = Vf(a). y + -
2! LL
j= l je l
n, f( a)

h~O + 11 y 112 E2( a, y )


o equivalente donde E2( a, y ) ~ O cuando y~ O
lim f( x) = f ( a ) Prueba:
x~a
. Sea y, un vector definido por y = (yr, ..., yn ). Definimos una
Polinomio de Taylor en R funcin g( I! ), para I! real, mediante la ecuacin:

La idea es tratar de aproximar una funcin f(x), la cual es g( I!) = f( a + I! Y ); -1 s I! s 1


contnua y derivable, por un polinomio de grado n, dado por:
SI I! = 1, tenemos que:

pn(X)= f(a) + f'(a) (x-a) + f"(a) (x_a)2 + ... g(1) = f( a +y )


1! 2!
SI I! = O, tenemos que:

+ fn( a)
( r
x-a g( O) = f( a)
n! por lo tanto,
donde el trmino error o residuo, viene dado por la frmula:
g(1) - g( O) = f( a + y) - f( a )
fn+1(C) ( )n+1 ahora, como g es derivable y continua, por definicin, entonces
pn( x) - f( x) = En( x) = x- a , a < e < x
(n+ 1)! podemos aplicar el polinomio de Taylor para nmeros reales, en este
caso, el de grado uno, centrado en a:

Frmula de Taylor de segundo orden para campos (x- a)'


escalares g( x) = g( a) + g' ( a ) -- + Error.
1!
TEOREMA: Si f es un campo escalar con derivadas segundas, pero si a = O,entonces
Dij f, continuas en una n-Bola B (a; r ), entonces, para todo" y" de Rn,
tal que a + y E B (a; r), tenemos que: g( x) = g( O) + g' ( O) x + Error
1 n n donde el error viene dado por la expresin
f(a + y) - f(a) = V f(a) . y + -
2!
LL
;=1 j=I
Dij f( a + e y ) yi yj
g(c)n+l (x- a)n+l
Error = a < c< x
(n+ 1)!
40 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
41

En particular, tenemos que:


g"(c) x2
si a =O Error = O < e< x
2! g' ( e) = V' f( a ). y
y SI X = 1, entonces: y si volvemos a derivar a g' tenemos que:
gil (e)
Error = , O < e < x V' f[ r(J.l) ]' .y + V' f [ r(J.l) ] . r"(J.l)
2!

luego, tenemos que:

g' (O) g" (e)


g(1 ) = g(O) +--+--
1! 2!
n .n

1 gil (u) = II Dii f [ r( J.l) ] . Yi. Yi


g( 1) - g( O) = g' ( O) + - g" ( e ) ie l je I
2!
I y SI J.l = e, tenemos:
Por otra parte, como g es una funcin compuesta dada por: I n n
g( U) = f [re J.l)], donde: r( J.l ) = a + J.lY g"(c) = II
ie I j=l
Dii f[r(c)]. Yi.Yi O < e < 1
derivando mediante la regla de la cadena, tenemos que: .
n n

= II
i=1 j=I
n, f( a + cy ). yi . vr : O < e < 1

Por otra parte, tenemos que para demostrar el teorema se debe


definir E2 ( a, y ) por la ecuacin:

1 n n

pero es de notar que f: Rn ~ R y r: R ~ Rn y g = for : R ~ R; as 11 y 112 E2 (a, y) = 2! ~ ~ Dji f( a + cy) yi Yi


que:

g' (J.l) = V' f [r(J.l) ]. y 1 n n

= {Di f [r( J.l)], oo , D, f [r( J.l )]}. ( yi, oo., ye )


2f I i=l
I
j=l
Dii f( a ) Yi Yi

n si y '* O.
= I Di f [ r( J.l) ] . Yi
Despejando, nos queda:
j=1

1 n n .
B (a; r ).
2f I I
con tal que r( J.l) E
n, f( a + e y ) yi Yi =
i=l j=1

l
40 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
41

En particular, tenemos que:


g"(c) x2
si a =O Error = O < e< x
2! g' ( e) = V' f( a ). y
y SI X = 1, entonces: y si volvemos a derivar a g' tenemos que:
gil (e)
Error = , O < e < x V' f[ r(J.l) ]' .y + V' f [ r(J.l) ] . r"(J.l)
2!

luego, tenemos que:

g' (O) g" (e)


g(1 ) = g(O) +--+--
1! 2!
n .n

1 gil (u) = II Dii f [ r( J.l) ] . Yi. Yi


g( 1) - g( O) = g' ( O) + - g" ( e ) ie l je I
2!
I y SI J.l = e, tenemos:
Por otra parte, como g es una funcin compuesta dada por: I n n
g( U) = f [re J.l)], donde: r( J.l ) = a + J.lY g"(c) = II
ie I j=l
Dii f[r(c)]. Yi.Yi O < e < 1
derivando mediante la regla de la cadena, tenemos que: .
n n

= II
i=1 j=I
n, f( a + cy ). yi . vr : O < e < 1

Por otra parte, tenemos que para demostrar el teorema se debe


definir E2 ( a, y ) por la ecuacin:

1 n n

pero es de notar que f: Rn ~ R y r: R ~ Rn y g = for : R ~ R; as 11 y 112 E2 (a, y) = 2! ~ ~ Dji f( a + cy) yi Yi


que:

g' (J.l) = V' f [r(J.l) ]. y 1 n n

= {Di f [r( J.l)], oo , D, f [r( J.l )]}. ( yi, oo., ye )


2f I i=l
I
j=l
Dii f( a ) Yi Yi

n si y '* O.
= I Di f [ r( J.l) ] . Yi
Despejando, nos queda:
j=1

1 n n .
B (a; r ).
2f I I
con tal que r( J.l) E
n, f( a + e y ) yi Yi =
i=l j=1

l
42 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
43

sustituyendo se obtiene que: EJERCICIOS DE APLICACION


g(1) - g(O) = f(a+y) - fea)
1 n n
= Vf( a ). y + -
2' '. .
n, f( a ) Yi yj Sea la siguiente funcin escalar
1=1 J=1
f( x, Xz, X3) = /30+ fh Xl + /32X2 + /33X3 + /34X + /35X;
2 a; y )
+ lIy 11E2( 3
+ /36X3 + /37 Xi X3
Ahora falta mostrar que E2( a; y ) ~ O, cuando y ~ O.
Por definicin:

1 n n
11yl12 E2( a, y) = -21. . [Dij f( a + e y) - Dij f ( a) ]. yi . yj
1=1 J=1 donde:

1 n n 8 f(a)
s -
2
1Dij f ( a + c y ) - n, f ( a ) 11y. yj 1 8X
' 1=1 J=1
.
por desigualdad: triangular: 8fea)
1 n n
8X2
::;
,
2.
i=1 j=1
I"Dij f( a + e y) - Dij f( a )111y 112
afea)
y dividiendo por 11y 112,ya que asumimos v= O, obtenemos que:
8X3
y las derivadas segundas son:
1 n n

IE2(a, y )1s -
2'1=1
1 Dij f( a + e y) - Dij f ( a ) 1 82 fea) 82 fea)
.
J=1 = =
8 21x 8 X 8 X2
O =
pero cada derivada Dij es continua. Por hiptesis en el punto a,
tenemos que: 82 fea) 2
8 fea)
= = /37 =
n, f ( a + e y) ~ Dij f ( a ), cuando y ~ O 8X8X3 8X38X
por lo tanto, E2( a, y) ~ O, cuando y ~ O; demostrando as el
82 fea) 2
8 fea)
teorema.
8X28X3
= O = 8X38X2

r_
42 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta
43

sustituyendo se obtiene que: EJERCICIOS DE APLICACION


g(1) - g(O) = f(a+y) - fea)
1 n n
= Vf( a ). y + -
2' '. .
n, f( a ) Yi yj Sea la siguiente funcin escalar
1=1 J=1
f( x, Xz, X3) = /30+ fh Xl + /32X2 + /33X3 + /34X + /35X;
2 a; y )
+ lIy 11E2( 3
+ /36X3 + /37 Xi X3
Ahora falta mostrar que E2( a; y ) ~ O, cuando y ~ O.
Por definicin:

1 n n
11yl12 E2( a, y) = -21. . [Dij f( a + e y) - Dij f ( a) ]. yi . yj
1=1 J=1 donde:

1 n n 8 f(a)
s -
2
1Dij f ( a + c y ) - n, f ( a ) 11y. yj 1 8X
' 1=1 J=1
.
por desigualdad: triangular: 8fea)
1 n n
8X2
::;
,
2.
i=1 j=1
I"Dij f( a + e y) - Dij f( a )111y 112
afea)
y dividiendo por 11y 112,ya que asumimos v= O, obtenemos que:
8X3
y las derivadas segundas son:
1 n n

IE2(a, y )1s -
2'1=1
1 Dij f( a + e y) - Dij f ( a ) 1 82 fea) 82 fea)
.
J=1 = =
8 21x 8 X 8 X2
O =
pero cada derivada Dij es continua. Por hiptesis en el punto a,
tenemos que: 82 fea) 2
8 fea)
= = /37 =
n, f ( a + e y) ~ Dij f ( a ), cuando y ~ O 8X8X3 8X38X
por lo tanto, E2( a, y) ~ O, cuando y ~ O; demostrando as el
82 fea) 2
8 fea)
teorema.
8X28X3
= O = 8X38X2

r_
44 Chacn I Anlisis de Regresin y Superficies de Respuesta

por lo tanto:
1 3 3
f( a + y) - f( a ) = Vf( a ). y + ,.
2.
II
i=l je I
Dij f( a ) Yi yj

+ 11 y 112 E2( a, y )

= ( Pl + 2P4Xl + P7X3 ) yi + (pz + 2P5M ) yz + (P3 + 3P6X; + P7Xl ) ys Captulo 3

+ ~ (2~4Y ~ + P7 yi ys + 2P5 y; + P7 ya yi + 6P6X3Y ; )


2! MODELO DE DISEO EXPERIMENTAL
en particular si consideramos a = (1,2, O), entonces:
f [ ( 1, 2, O ) + ( yi, yz, Y3)] - f ( 1, 2, O) =
= (Pl + 2P4 ) yi + (pz + 4P5 ) yz + (P3 + P7) ys Un modelo en estadstica, es una descripcin de una observacin
en trminos de sus componentes, en otras palabras, consiste de una
+ ~ (2 P4 Y ~ + P7 yr Y3 + 2P5 y; .+ P7 Y3 y: ) descripcin algebraica junto con los supuestos concernientes a los
2! componentes. La consideracin del modelo, conduce al clculo
que correspondera a la forma cuadrtica que aproxima a f en el apropiado, pruebas y procedimientos inferenciales.
punto (1, 2, O). Los modelos que se consideran en el diseo, corresponden a
modelos aditivos que describen cada observacin, como la suma de
una media y un componente aleatorio. La media, dependiendo del
modelo, consiste de una suma de componentes asociados con fuentes
de variacin.
Con los modelos, se trata de establecer relaciones entre
cantidades. Desde este punto de vista existen cuatro tipos de modelos:

Modelo lineal general


Modelos cuantitativos
Modelo de regresin

Modelo de diseo experimental


Modelos cualitativos
[
Modelo de componentes de varianza
44 Chacn I Anlisis de Regresin y Superficies de Respuesta

por lo tanto:
1 3 3
f( a + y) - f( a ) = Vf( a ). y + ,.
2.
II
i=l je I
Dij f( a ) Yi yj

+ 11 y 112 E2( a, y )

= ( Pl + 2P4Xl + P7X3 ) yi + (pz + 2P5M ) yz + (P3 + 3P6X; + P7Xl ) ys Captulo 3

+ ~ (2~4Y ~ + P7 yi ys + 2P5 y; + P7 ya yi + 6P6X3Y ; )


2! MODELO DE DISEO EXPERIMENTAL
en particular si consideramos a = (1,2, O), entonces:
f [ ( 1, 2, O ) + ( yi, yz, Y3)] - f ( 1, 2, O) =
= (Pl + 2P4 ) yi + (pz + 4P5 ) yz + (P3 + P7) ys Un modelo en estadstica, es una descripcin de una observacin
en trminos de sus componentes, en otras palabras, consiste de una
+ ~ (2 P4 Y ~ + P7 yr Y3 + 2P5 y; .+ P7 Y3 y: ) descripcin algebraica junto con los supuestos concernientes a los
2! componentes. La consideracin del modelo, conduce al clculo
que correspondera a la forma cuadrtica que aproxima a f en el apropiado, pruebas y procedimientos inferenciales.
punto (1, 2, O). Los modelos que se consideran en el diseo, corresponden a
modelos aditivos que describen cada observacin, como la suma de
una media y un componente aleatorio. La media, dependiendo del
modelo, consiste de una suma de componentes asociados con fuentes
de variacin.
Con los modelos, se trata de establecer relaciones entre
cantidades. Desde este punto de vista existen cuatro tipos de modelos:

Modelo lineal general


Modelos cuantitativos
Modelo de regresin

Modelo de diseo experimental


Modelos cualitativos
[
Modelo de componentes de varianza
ChacnI Anlisisde Regresiny Superficiesde Respuesta 47
46 Chacn I Anlisisde Regresiny Superficiesde Respuesta

donde:
En los modelos de regresin es de inters primordial encontrar
una ecuacin que permita predecir los valores de un factor en estudio, i = 1, 2, 3 -
mediante otros factores relacionados con l. Por ejemplo, predecir el
rendimiento de un cultivo como maz, a partir de factores tales como:
j = 1, 2
nmero de mazorcas, nmero de granos por mazorca, peso de los Con notacin matricial, esta ecuacin puede ser escrita de la
granos, etc. En este caso el modelo sera: siguiente forma:

Yll 1 1 O O cll

En el caso de los modelos de diseo experimental, existe una


Y12 1 1 O O c12

situacin diferente, ya que el inters no se centra en predecir el valor Y21 1 O 1 O 1>21

de un factor sino en comparar el efecto de dos o ms factores.


Por ejemplo, el modelo de diseo para tres tratamientos Y dos
Y22
Y31
1 O 1 O
1 O O 1
[f:l +
c22

c31
repeticiones, podra escribirse de la siguiente manera: Y32 1 O O 1 c32

Yll ~ + TI + cll
c12
Donde y es un vector 6 x 1 de observaciones, es un vector 4 x 1
Y12 = ~ + TI +
Y21 ~ + T2 + c21 de parmetros desconocidos, Q es un vector 6 x 1 de errores no
Y22 = ~ + T2 + c22 observables y X es una matriz cuyos elementos son ceros y unos. Al
Y31 = ~ + T3 + c31 calcular, se tendr que X es una matriz de rango 3 (incompleto), yen
Y32 = ~ + T3 + c32 consecuencia, carecer de inversa, lo cual constituye cierta dificultad
que en general no se plantea en la teora de Modelos Lineales
donde: Generales.
es la j-sima observacin del i-simo tratamiento Definicin A: Sea y un vector aleatorio observable n x 1 tal
media poblacional que:

efecto del i-simo tratamiento Y=X-+...Q

cij error aleatorio no observable. Donde X es una matriz n x p conocida que contiene slo ceros y
En un modelo de diseo, se le puede incluir la restriccin de: unos; 12 es un vector de parmetros desconocidas y f un vector de
variables aleatorias no observables. Por definicin este es un modelo
de Diseo Experimental. Dado que el rango de X no es completo
[~~~~- Yii]
(

I Ti
;=}
= O ~ ti + t2 + ts O y ~= E
n
i=l je l
tampoco lo ser el de X' X, por lo que esta ltima no tendr inversa.
En general, un modelo de Diseo Experimental se escribir de la
siguiente forma:
El modelo se expresa en forma ms compacta de la siguiente
manera:
yij...m = Jlij...m + c ij...m

~ + Ti + cij
ChacnI Anlisisde Regresiny Superficiesde Respuesta 47
46 Chacn I Anlisisde Regresiny Superficiesde Respuesta

donde:
En los modelos de regresin es de inters primordial encontrar
una ecuacin que permita predecir los valores de un factor en estudio, i = 1, 2, 3 -
mediante otros factores relacionados con l. Por ejemplo, predecir el
rendimiento de un cultivo como maz, a partir de factores tales como:
j = 1, 2
nmero de mazorcas, nmero de granos por mazorca, peso de los Con notacin matricial, esta ecuacin puede ser escrita de la
granos, etc. En este caso el modelo sera: siguiente forma:

Yll 1 1 O O cll

En el caso de los modelos de diseo experimental, existe una


Y12 1 1 O O c12

situacin diferente, ya que el inters no se centra en predecir el valor Y21 1 O 1 O 1>21

de un factor sino en comparar el efecto de dos o ms factores.


Por ejemplo, el modelo de diseo para tres tratamientos Y dos
Y22
Y31
1 O 1 O
1 O O 1
[f:l +
c22

c31
repeticiones, podra escribirse de la siguiente manera: Y32 1 O O 1 c32

Yll ~ + TI + cll
c12
Donde y es un vector 6 x 1 de observaciones, es un vector 4 x 1
Y12 = ~ + TI +
Y21 ~ + T2 + c21 de parmetros desconocidos, Q es un vector 6 x 1 de errores no
Y22 = ~ + T2 + c22 observables y X es una matriz cuyos elementos son ceros y unos. Al
Y31 = ~ + T3 + c31 calcular, se tendr que X es una matriz de rango 3 (incompleto), yen
Y32 = ~ + T3 + c32 consecuencia, carecer de inversa, lo cual constituye cierta dificultad
que en general no se plantea en la teora de Modelos Lineales
donde: Generales.
es la j-sima observacin del i-simo tratamiento Definicin A: Sea y un vector aleatorio observable n x 1 tal
media poblacional que:

efecto del i-simo tratamiento Y=X-+...Q

cij error aleatorio no observable. Donde X es una matriz n x p conocida que contiene slo ceros y
En un modelo de diseo, se le puede incluir la restriccin de: unos; 12 es un vector de parmetros desconocidas y f un vector de
variables aleatorias no observables. Por definicin este es un modelo
de Diseo Experimental. Dado que el rango de X no es completo
[~~~~- Yii]
(

I Ti
;=}
= O ~ ti + t2 + ts O y ~= E
n
i=l je l
tampoco lo ser el de X' X, por lo que esta ltima no tendr inversa.
En general, un modelo de Diseo Experimental se escribir de la
siguiente forma:
El modelo se expresa en forma ms compacta de la siguiente
manera:
yij...m = Jlij...m + c ij...m

~ + Ti + cij
48 Chacn I Anlisis de Regresin y Superficies de Respuesta
49
Chacn I Anlisis de Regresin y Superficies de Respuesta

As por ejemplo se tendr:


Tambin se tiene que:
a.- Para un diseo completamente aleatorio:

b.- Para un diseo de bloques al azar: Los estimadores mximos verosmiles, tienen las siguientes
propiedades:
I.l.ij = I.l. + Ti + ~j

1.- Estimadores asintticamente eficientes y ptimos, asintomti-


c.- Para un diseo en bloques al azar con submuestreo: camente normales.
2.- Estimadores consistentes simples y consistentes con error cua-
drtico.
d.- Para un diseo cuadrado latino:
3.- Tienen la propiedad de ser estadsticos suficientes, mnimos,
adems de poseer la propiedad de invarianza.

Se plantean entonces dos hiptesis: Los estimadores mnimos cuadrados, presentan las siguientes
propiedades:
A.- son variables aleatorias, normales, no correlacionadas, con
eij

media cero y varianza 0-2. 1.- Estimadores insesgados.

B.- son variables aleatorias, correlacionadas ( no necesariamente


eij
2.- Con varianzas mnimas.
normales) con media Oy varianza 0-2. Al deducir las ecuaciones normales para l, nos encontramos
Estimacin puntual: Tanto si se utiliza mxima verosimilitud con que X'X carece de inversa (ya que es de rango incompleto).
en el caso A, como si se emplea mnimos cuadrados ordinarios en el Cuando X'X tiene inversa, las ecuaciones normales poseen solucin
caso B, se obtiene el mismo sistema de ecuaciones al igualar a cero las nica, que son las estimaciones de los elementos de ~. Cuando X'X
derivadas respecto a ~j. no tiene inversa, se presentan dos situaciones:
Deducciones: 1.- No existe ningn vector ~ que satisfaga la ecuacin:
Y X~ + e
X'X~ X'Y
e'e = (Y X~)' (Y - X~)
2.- Existe un nmero infinito de vectores que satisfacen la ecuacin.
Y'Y = - Y'X~- (X~ )'Y + (X~)'(X~)
s'e Y'Y 2 (X~ )'Y Puede demostrarse que se verifica el ltimo caso. Esto se
prueba, utilizando un teorema de lgebra de matrices en el cual, si
derivando con respecto a ~
una matriz cuadrada X' X no tiene inversa y su rango es igual al de la
&' e matriz aumentada X'XIX'Y, existe entonces un nmero infinito de
=- 2X'Y + 2X'X~ O vectores que satisfacen la ecuacin X'X ~ = X' Y. La matriz X'XIX'Y
o~
es la propia matriz X'X con X'Y como columna adicional.
X'X 6 X'Y Ecuaciones Normales
El hecho de que existan infinito nmeros de vectores, que
satisfagan la ecuacin, no es una situacin muy satisfactoria, ya que
an utilizando el mismo modelo e idnticas observaciones, llega-
48 Chacn I Anlisis de Regresin y Superficies de Respuesta
49
Chacn I Anlisis de Regresin y Superficies de Respuesta

As por ejemplo se tendr:


Tambin se tiene que:
a.- Para un diseo completamente aleatorio:

b.- Para un diseo de bloques al azar: Los estimadores mximos verosmiles, tienen las siguientes
propiedades:
I.l.ij = I.l. + Ti + ~j

1.- Estimadores asintticamente eficientes y ptimos, asintomti-


c.- Para un diseo en bloques al azar con submuestreo: camente normales.
2.- Estimadores consistentes simples y consistentes con error cua-
drtico.
d.- Para un diseo cuadrado latino:
3.- Tienen la propiedad de ser estadsticos suficientes, mnimos,
adems de poseer la propiedad de invarianza.

Se plantean entonces dos hiptesis: Los estimadores mnimos cuadrados, presentan las siguientes
propiedades:
A.- son variables aleatorias, normales, no correlacionadas, con
eij

media cero y varianza 0-2. 1.- Estimadores insesgados.

B.- son variables aleatorias, correlacionadas ( no necesariamente


eij
2.- Con varianzas mnimas.
normales) con media Oy varianza 0-2. Al deducir las ecuaciones normales para l, nos encontramos
Estimacin puntual: Tanto si se utiliza mxima verosimilitud con que X'X carece de inversa (ya que es de rango incompleto).
en el caso A, como si se emplea mnimos cuadrados ordinarios en el Cuando X'X tiene inversa, las ecuaciones normales poseen solucin
caso B, se obtiene el mismo sistema de ecuaciones al igualar a cero las nica, que son las estimaciones de los elementos de ~. Cuando X'X
derivadas respecto a ~j. no tiene inversa, se presentan dos situaciones:
Deducciones: 1.- No existe ningn vector ~ que satisfaga la ecuacin:
Y X~ + e
X'X~ X'Y
e'e = (Y X~)' (Y - X~)
2.- Existe un nmero infinito de vectores que satisfacen la ecuacin.
Y'Y = - Y'X~- (X~ )'Y + (X~)'(X~)
s'e Y'Y 2 (X~ )'Y Puede demostrarse que se verifica el ltimo caso. Esto se
prueba, utilizando un teorema de lgebra de matrices en el cual, si
derivando con respecto a ~
una matriz cuadrada X' X no tiene inversa y su rango es igual al de la
&' e matriz aumentada X'XIX'Y, existe entonces un nmero infinito de
=- 2X'Y + 2X'X~ O vectores que satisfacen la ecuacin X'X ~ = X' Y. La matriz X'XIX'Y
o~
es la propia matriz X'X con X'Y como columna adicional.
X'X 6 X'Y Ecuaciones Normales
El hecho de que existan infinito nmeros de vectores, que
satisfagan la ecuacin, no es una situacin muy satisfactoria, ya que
an utilizando el mismo modelo e idnticas observaciones, llega-
50 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 51

ramos a las mismas ecuaciones normales, pero con estimaciones ~j


Particionando la matriz X en la forma:
diferentes.
Es interesante ver si los estimadores ~j son insesgados, y por lo
tanto observar si las soluciones de las ecuaciones normales son
estimadores insesgados.
Cualquier solucin de X'X~ = X'Y debe ser una funcin lineal
de las Y por lo que se escribira:
~= AY
donde A es una matriz de orden p x n constante, la cual puede Donde X, es un vector 1 x p que forma la i-sima fila de X.
depender de los elementos de X. Interesa saber si Xi~ es estimable para toda i. Por la definicin B el
conjunto de Xl~, X2~, ..., Xn~ constituye un conjunto de funciones
Por ser insesgadas, se debera cumplir la condicin: estimables, si existen n vectores Al, A2,..., An tales que:
~= E (~) = E (A Y) = EA (X~ + E) = E (AX~) + E (AE)

~ = AX~ + AE (E) = AX~ Ya que E (E) = O En otras palabras, si existe una matriz A, de dimensin n x p,
Luego AX se cumple para todos los valores de ~j por lo que tal que E(AY) = X~, ya que si A, es la i-sima fila de A y Xi~ es
AX = 1. Pero I es la matriz identidad p x p cuyo rango es p, y el rango estimable, se tendr:
del producto de dos matrices no puede ser mayor que la de
cualquiera de ambos. De acuerdo ala definicin A, el rango de X es k E(A1 Y)
< p por lo tanto, el rango de X es menor que el rango de A tal que E E(A2Y)
(AY) *- ~ y por lo tanto, no hay un estimador insesgado de ~. E (AY) = E E(AY) =
En la mayora de los casos, en el diseo del Modelo
Experimental se est interesado en estimar ciertas combinaciones
lineales de los parmetros, por lo tanto:
Definicin B: sea A un vector de p x 1 de constantes conocidas, Xl~ Xl
se dir que la combinacin lineal de ~ dada por
X2~ X2
n
E(AY) = E = ~
X'~= IXi ~i
i=1 Xn~ Xn

ser una funcin estimable, si existe una combinacin lineal de las Y Si A = 1 entonces:
cuyo valor esperado sea A~, en otras palabras A' ~ es estimable si
existe un vector a de dimensin n x 1 tal que: E (I Y) es = E (Y) = E(X~ + E)= E (X~)+ E (E)= X~

E(a'Y) = A'~
50 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 51

ramos a las mismas ecuaciones normales, pero con estimaciones ~j


Particionando la matriz X en la forma:
diferentes.
Es interesante ver si los estimadores ~j son insesgados, y por lo
tanto observar si las soluciones de las ecuaciones normales son
estimadores insesgados.
Cualquier solucin de X'X~ = X'Y debe ser una funcin lineal
de las Y por lo que se escribira:
~= AY
donde A es una matriz de orden p x n constante, la cual puede Donde X, es un vector 1 x p que forma la i-sima fila de X.
depender de los elementos de X. Interesa saber si Xi~ es estimable para toda i. Por la definicin B el
conjunto de Xl~, X2~, ..., Xn~ constituye un conjunto de funciones
Por ser insesgadas, se debera cumplir la condicin: estimables, si existen n vectores Al, A2,..., An tales que:
~= E (~) = E (A Y) = EA (X~ + E) = E (AX~) + E (AE)

~ = AX~ + AE (E) = AX~ Ya que E (E) = O En otras palabras, si existe una matriz A, de dimensin n x p,
Luego AX se cumple para todos los valores de ~j por lo que tal que E(AY) = X~, ya que si A, es la i-sima fila de A y Xi~ es
AX = 1. Pero I es la matriz identidad p x p cuyo rango es p, y el rango estimable, se tendr:
del producto de dos matrices no puede ser mayor que la de
cualquiera de ambos. De acuerdo ala definicin A, el rango de X es k E(A1 Y)
< p por lo tanto, el rango de X es menor que el rango de A tal que E E(A2Y)
(AY) *- ~ y por lo tanto, no hay un estimador insesgado de ~. E (AY) = E E(AY) =
En la mayora de los casos, en el diseo del Modelo
Experimental se est interesado en estimar ciertas combinaciones
lineales de los parmetros, por lo tanto:
Definicin B: sea A un vector de p x 1 de constantes conocidas, Xl~ Xl
se dir que la combinacin lineal de ~ dada por
X2~ X2
n
E(AY) = E = ~
X'~= IXi ~i
i=1 Xn~ Xn

ser una funcin estimable, si existe una combinacin lineal de las Y Si A = 1 entonces:
cuyo valor esperado sea A~, en otras palabras A' ~ es estimable si
existe un vector a de dimensin n x 1 tal que: E (I Y) es = E (Y) = E(X~ + E)= E (X~)+ E (E)= X~

E(a'Y) = A'~
52 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 53

Teorema Suponiendo que se tienen k funciones estimables linealmente


independientes;dadas por:
A.- Xp representa un conjunto de n funciones estimables, es decir
cada elemento de E(Y) es estimable. El teorema expresa que
E (Yij... m) es estimable. Si E( Yij) es estimable para toda i y i. Este conjunto puede escribirse as:
J..I. + ti, J..I. + tz, J..I. + ts son estimables.
B.- (X'XP) representa un conjunto de p funciones estimables.

X'
Demostracin

Donde e' es una matriz k p de rango k < r. Por las definiciones


x
Si se particiona la matriz X' de dimensin p x n, en p filas; y B y C existe una matriz A de dimensin kxn, tal que E(AY) e' p. =
sea Xi el vector que figura como i-sima fila, entonces: Sin embargo E(AY) = AXP, por lo tanto AX = e', pero AX tiene rango
menor o igual que el rango r de X, lo que contradice el supuesto de
x'1 que k < r. Queda as demostrado el siguiente teorema:
X2 En el modelo lineal general Y = Xp + e, existen exactamente
X'=
r funciones estimables, linealmente independientes, si r es la
Xn caracterstica de X.
Ejemplo:
En consecuencia: Suponiendo que partimos de un diseo completamente
E( X*Y) = X* E( Y) = X* (X P) = X*Xp aleatorizado con dos tratamientos y dos repeticiones.
Los modelos seran:
Luego XXp es estimable, puesto que E( Xy ) = X Xp, pero
Yu J..I. + TI + su
el i-simo elemento de X'Xp, es X;Xp por lo tanto X'Xp forma parte
Y12 = J..I. + TI + e12
de p funciones estimables.
Y21 J..I. + T2 + e21

Definicin C: Sean el, e2, ..., et vectores p x 1 tales que elp,


y 22 = J..I. + T2 + e22
ezp, ..., etp, son estimables y que la caracterstica desarrollando la ecuacin:
de la matriz de orden p x t (t ::; p) es t
y. = X12 + ~
Se dice entonces que e1~, e2p, ..., etp, son funciones estimables
linealmente independientes. Esto es, puesto que X'Xp es un conjunto
de p funciones estimables y dado que XIX posee rango t < p, en el
modelo lineal general hay al menos t funciones estimables lineal-
mente independientes.
52 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 53

Teorema Suponiendo que se tienen k funciones estimables linealmente


independientes;dadas por:
A.- Xp representa un conjunto de n funciones estimables, es decir
cada elemento de E(Y) es estimable. El teorema expresa que
E (Yij... m) es estimable. Si E( Yij) es estimable para toda i y i. Este conjunto puede escribirse as:
J..I. + ti, J..I. + tz, J..I. + ts son estimables.
B.- (X'XP) representa un conjunto de p funciones estimables.

X'
Demostracin

Donde e' es una matriz k p de rango k < r. Por las definiciones


x
Si se particiona la matriz X' de dimensin p x n, en p filas; y B y C existe una matriz A de dimensin kxn, tal que E(AY) e' p. =
sea Xi el vector que figura como i-sima fila, entonces: Sin embargo E(AY) = AXP, por lo tanto AX = e', pero AX tiene rango
menor o igual que el rango r de X, lo que contradice el supuesto de
x'1 que k < r. Queda as demostrado el siguiente teorema:
X2 En el modelo lineal general Y = Xp + e, existen exactamente
X'=
r funciones estimables, linealmente independientes, si r es la
Xn caracterstica de X.
Ejemplo:
En consecuencia: Suponiendo que partimos de un diseo completamente
E( X*Y) = X* E( Y) = X* (X P) = X*Xp aleatorizado con dos tratamientos y dos repeticiones.
Los modelos seran:
Luego XXp es estimable, puesto que E( Xy ) = X Xp, pero
Yu J..I. + TI + su
el i-simo elemento de X'Xp, es X;Xp por lo tanto X'Xp forma parte
Y12 = J..I. + TI + e12
de p funciones estimables.
Y21 J..I. + T2 + e21

Definicin C: Sean el, e2, ..., et vectores p x 1 tales que elp,


y 22 = J..I. + T2 + e22
ezp, ..., etp, son estimables y que la caracterstica desarrollando la ecuacin:
de la matriz de orden p x t (t ::; p) es t
y. = X12 + ~
Se dice entonces que e1~, e2p, ..., etp, son funciones estimables
linealmente independientes. Esto es, puesto que X'Xp es un conjunto
de p funciones estimables y dado que XIX posee rango t < p, en el
modelo lineal general hay al menos t funciones estimables lineal-
mente independientes.
54 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 55

entonces:

Yll 1 1 O En
- [4~+2tl+2t2Jl
21l+2tl =
fYij
Y1i j1
2ft+2t2 Y2i
YI2 1 1 O EI2
= + Aplicando la restriccin I Ti = O ---+ ti + t2 = O
Y21
Y22
1 O 1
1 O 1
[~ 1 E2I

E22
Entonces:

~ =Y..

de acuerdo a la ecuacin normal


X'X~ = X'Y
tenemos que: lo cual implica tI = Yii - Y.. Y t2 = Y2i - Y..
11 O

~] r~ ~]
1 1 2
11 O Sustituyendo:
X'X =
[i 1 O
O 1
101
101
= 2
O Yn =!l + TI +Eu = Y + (Ylj-Y'.) + En

Y12 = !l + TI + 12 = Y + (Ylj - y ..) + E12


El determinante de esta matriz es cero, por lo tanto, carece de
inversa.
Y21 = !l + T2 + E21 = Y + (Y2j - Y..) + E21

'1 Y (Y
r~ ~]
2
l~~ 2
O
r
t2 J
X'Y
Y22 = !l + T2 + E22

II(Yij)= IIY.. + II(Y.j


=

+ Y..)+ IIcij
+ 2j
- Y ..) + E22

donde: II(Yij) == II[Y .. + (y.j - Y..)+ Cij]

[IIY;;l Y;l

ri ~]
1 1 Restando a cada trmino y .. y elevando al cuadrado; tenemos:
YI2
X'Y = 1 O = Ylj
Y21
O 1 Y2j
Y22
desarrollando tenemos:
54 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 55

entonces:

Yll 1 1 O En
- [4~+2tl+2t2Jl
21l+2tl =
fYij
Y1i j1
2ft+2t2 Y2i
YI2 1 1 O EI2
= + Aplicando la restriccin I Ti = O ---+ ti + t2 = O
Y21
Y22
1 O 1
1 O 1
[~ 1 E2I

E22
Entonces:

~ =Y..

de acuerdo a la ecuacin normal


X'X~ = X'Y
tenemos que: lo cual implica tI = Yii - Y.. Y t2 = Y2i - Y..
11 O

~] r~ ~]
1 1 2
11 O Sustituyendo:
X'X =
[i 1 O
O 1
101
101
= 2
O Yn =!l + TI +Eu = Y + (Ylj-Y'.) + En

Y12 = !l + TI + 12 = Y + (Ylj - y ..) + E12


El determinante de esta matriz es cero, por lo tanto, carece de
inversa.
Y21 = !l + T2 + E21 = Y + (Y2j - Y..) + E21

'1 Y (Y
r~ ~]
2
l~~ 2
O
r
t2 J
X'Y
Y22 = !l + T2 + E22

II(Yij)= IIY.. + II(Y.j


=

+ Y..)+ IIcij
+ 2j
- Y ..) + E22

donde: II(Yij) == II[Y .. + (y.j - Y..)+ Cij]

[IIY;;l Y;l

ri ~]
1 1 Restando a cada trmino y .. y elevando al cuadrado; tenemos:
YI2
X'Y = 1 O = Ylj
Y21
O 1 Y2j
Y22
desarrollando tenemos:
Chacn I Anlisis de Regresin y Superficie de Respuestas 57
56 Chacn I Anlisis de Regresin y Superficies de Respuesta

Este pue~e ser escrito en notacin matricial como AX B,


Restando a cada trmino Y .. y elevando al cuadrado; tenemos: donde:

A = [a"
a~1

ami
al2
a22

am2
...
... :~"
aln

mn
1
mxn

de manera que AX es conformable en el producto.


Podemos adems considerar los siguientes casos respecto a m y
n, esto es:
I.- Si m = n, A es una matriz n x n ( m x m), una matriz cuadrada,
que tendr SOLUCION UNICA si y solo si su determinante es
distinto de cero, esto es:
Suma de = Suma de + Suma de det. (A) "# O. la funcin es X = AI.B
cuadrados cuadrados de cuadrados
del error exp.
n. Si m> n y rango de A es "n" y adems I A'A I "# O el sistema
total tratamiento
tiene solucin nica dada por:
La restriccin LTi- = O puede obviarse hallando la inversa de la X = (A'A)'!. A'B, este resultado es fcil de ver ya que AX = B,
matriz X'X mediante la inversa generalizada o por algn otro multiplicamos ambos lados de la ecuacin por A', sto es A'AX
procedimiento para resolver matrices de rango incompleto. = A'B, como I A'A I "# O, A'A posee inversa" ordinaria" , por
lo tanto:
(A'A)-l_(A'A) X = (A'A)-l. A'B ~ IX = (A'A)-l. A'B
INVERSA GENERALIZADA
En el sistema de ecuaciones dado, si existe alguna relacin entre
ecuaciones, tambin debe existir entre los trminos independientes
del sistema para que tenga solucin, sto define un sistema
Un procedimiento alternativo que se puede utilizar para
"CONSISTENTE". Enunciemos el siguiente teorema:
resolver sistemas de ecuaciones cuyas matrices sean de rango
incompleto es el de la inversa generalizada, que se describe a Teorema: Un conjunto de ecuaciones lineales puede ser
continuacin. resuelto si solo si, es "consistente".
Considrese el siguiente sistema de ecuaciones lineales: Ocurre que en muchos problemas o situaciones se nos presenta
= un sistema de ecuaciones de la forma (matricial) AX = B, donde A es
anXl + alzM + a13Xa + + alnXn bi
de orden m x n, no cuadrada, y es necesario encontrar su "inversa";
aZlXl + aZ2M + a23X3 + + aznXn = ba sta ya no es la inversa "ordinaria", sino la inversa "generalizada".
amlXl + am2X2 + am3Xa + + amnXn =bm
Chacn I Anlisis de Regresin y Superficie de Respuestas 57
56 Chacn I Anlisis de Regresin y Superficies de Respuesta

Este pue~e ser escrito en notacin matricial como AX B,


Restando a cada trmino Y .. y elevando al cuadrado; tenemos: donde:

A = [a"
a~1

ami
al2
a22

am2
...
... :~"
aln

mn
1
mxn

de manera que AX es conformable en el producto.


Podemos adems considerar los siguientes casos respecto a m y
n, esto es:
I.- Si m = n, A es una matriz n x n ( m x m), una matriz cuadrada,
que tendr SOLUCION UNICA si y solo si su determinante es
distinto de cero, esto es:
Suma de = Suma de + Suma de det. (A) "# O. la funcin es X = AI.B
cuadrados cuadrados de cuadrados
del error exp.
n. Si m> n y rango de A es "n" y adems I A'A I "# O el sistema
total tratamiento
tiene solucin nica dada por:
La restriccin LTi- = O puede obviarse hallando la inversa de la X = (A'A)'!. A'B, este resultado es fcil de ver ya que AX = B,
matriz X'X mediante la inversa generalizada o por algn otro multiplicamos ambos lados de la ecuacin por A', sto es A'AX
procedimiento para resolver matrices de rango incompleto. = A'B, como I A'A I "# O, A'A posee inversa" ordinaria" , por
lo tanto:
(A'A)-l_(A'A) X = (A'A)-l. A'B ~ IX = (A'A)-l. A'B
INVERSA GENERALIZADA
En el sistema de ecuaciones dado, si existe alguna relacin entre
ecuaciones, tambin debe existir entre los trminos independientes
del sistema para que tenga solucin, sto define un sistema
Un procedimiento alternativo que se puede utilizar para
"CONSISTENTE". Enunciemos el siguiente teorema:
resolver sistemas de ecuaciones cuyas matrices sean de rango
incompleto es el de la inversa generalizada, que se describe a Teorema: Un conjunto de ecuaciones lineales puede ser
continuacin. resuelto si solo si, es "consistente".
Considrese el siguiente sistema de ecuaciones lineales: Ocurre que en muchos problemas o situaciones se nos presenta
= un sistema de ecuaciones de la forma (matricial) AX = B, donde A es
anXl + alzM + a13Xa + + alnXn bi
de orden m x n, no cuadrada, y es necesario encontrar su "inversa";
aZlXl + aZ2M + a23X3 + + aznXn = ba sta ya no es la inversa "ordinaria", sino la inversa "generalizada".
amlXl + am2X2 + am3Xa + + amnXn =bm
58 Chacin I Anlisis de Regresin y Superficie de Respuestas Chacin I Anlisis de Regresin y Superficie de Respuestas 59

Enunciemos el teorema siguiente: De aqu se puede definir lo siguiente:


TEOREMA: AG es una inversa generalizada de A si y solo si DEFINICIN: una inversa generalizada de A que tambin
AAGA=A. satisface AGAAG= AGse denomina inversa generalizada "Reflexiva".
Probaremos este teorema y para ello particionemos la matriz A Cuando AG es UNICA? Se dice que AG es nica si satisface
como sigue: adems las condiciones siguientes:
1.- AAGA = A
2.- AGAAG = AG (Reflexiva)
3.- (AAG)' = AAG
4.- (AGA), = AGA

TEOREMA: Toda matriz A tiene inversa generalizada (AG)


es una columna de A con i = 1, 2, ..., n UNICA.
1.- Si A es cuadrada y adems I A I "# O, entonces posee inversa
all al2 a1n
"ordinaria" Al = AG (UNICA).
a21 a22 ~n
de manera que A = 2.- Si A = Onxm,entonces AG = Omxn. Se puede probar aqu la
propiedad AAGA= A
ami am2 amn 3.- Si Amx ny el rango de A es r, se hace una factorizacin de rango
completo:
Hgase AX = a, con i = 1,2,3, ..., n, de tal manera que si
existe alguna relacin lineal entre las filas de la matriz A tambin A = Al. A2, donde Al(m x r) rango completo por columnas y
debe existir entre las filas del vector ai. A2(r x n) rango completo por filas.
Probemos en este sentido:' Como I A~. Al I "# O, existe (A~ Al ).1, adems
1.- Supngase que AGes una inversa generalizada de A entonces por
ser AX = a. consistente para todo i, se tiene que AGAX = AGai, I A~. A2 I "# O Y existe (A~ As ):'
Vi ~ X = AGaitiene solucin.
Algoritmo para el clculo de la inversa generalizada
Multiplicando ambos miembros por A, tenemos que AX = AAGai
~ A=AAGA.
Para calcular la inversa generalizada de una matriz A (no
2.- Supngase que AAGA = A Y AX = Y es consistente. nica), veamos el siguiente algoritmo sencillo:
AAGA = A ~ AAG(AX)= AX, como AX = Y, AAGY = AX; ello Sea A una matriz de orden m x n y r (A) = r particionemos a la
indica que Al existe ya que AX = Y es consistente. matriz A como sigue:
As Al AAGY = Al AX ~ IAGY = IX ~ AGY = X, donde AGY
A 11 A 12 ] / / d
es una solucin del problema, as AGes una inversa "generalizada". A= [ A A 'supongase I Au I "# O Y es de orden r, esto es e
21 22
Hagamos la siguiente observacin: Si AG es una matriz que rango completo (r), en caso contrario se hacen operaciones fundamen-
satisface solo AAGA= A (no es nica).
58 Chacin I Anlisis de Regresin y Superficie de Respuestas Chacin I Anlisis de Regresin y Superficie de Respuestas 59

Enunciemos el teorema siguiente: De aqu se puede definir lo siguiente:


TEOREMA: AG es una inversa generalizada de A si y solo si DEFINICIN: una inversa generalizada de A que tambin
AAGA=A. satisface AGAAG= AGse denomina inversa generalizada "Reflexiva".
Probaremos este teorema y para ello particionemos la matriz A Cuando AG es UNICA? Se dice que AG es nica si satisface
como sigue: adems las condiciones siguientes:
1.- AAGA = A
2.- AGAAG = AG (Reflexiva)
3.- (AAG)' = AAG
4.- (AGA), = AGA

TEOREMA: Toda matriz A tiene inversa generalizada (AG)


es una columna de A con i = 1, 2, ..., n UNICA.
1.- Si A es cuadrada y adems I A I "# O, entonces posee inversa
all al2 a1n
"ordinaria" Al = AG (UNICA).
a21 a22 ~n
de manera que A = 2.- Si A = Onxm,entonces AG = Omxn. Se puede probar aqu la
propiedad AAGA= A
ami am2 amn 3.- Si Amx ny el rango de A es r, se hace una factorizacin de rango
completo:
Hgase AX = a, con i = 1,2,3, ..., n, de tal manera que si
existe alguna relacin lineal entre las filas de la matriz A tambin A = Al. A2, donde Al(m x r) rango completo por columnas y
debe existir entre las filas del vector ai. A2(r x n) rango completo por filas.
Probemos en este sentido:' Como I A~. Al I "# O, existe (A~ Al ).1, adems
1.- Supngase que AGes una inversa generalizada de A entonces por
ser AX = a. consistente para todo i, se tiene que AGAX = AGai, I A~. A2 I "# O Y existe (A~ As ):'
Vi ~ X = AGaitiene solucin.
Algoritmo para el clculo de la inversa generalizada
Multiplicando ambos miembros por A, tenemos que AX = AAGai
~ A=AAGA.
Para calcular la inversa generalizada de una matriz A (no
2.- Supngase que AAGA = A Y AX = Y es consistente. nica), veamos el siguiente algoritmo sencillo:
AAGA = A ~ AAG(AX)= AX, como AX = Y, AAGY = AX; ello Sea A una matriz de orden m x n y r (A) = r particionemos a la
indica que Al existe ya que AX = Y es consistente. matriz A como sigue:
As Al AAGY = Al AX ~ IAGY = IX ~ AGY = X, donde AGY
A 11 A 12 ] / / d
es una solucin del problema, as AGes una inversa "generalizada". A= [ A A 'supongase I Au I "# O Y es de orden r, esto es e
21 22
Hagamos la siguiente observacin: Si AG es una matriz que rango completo (r), en caso contrario se hacen operaciones fundamen-
satisface solo AAGA= A (no es nica).
60 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficie de Respuestas 61

tales por fila, para obtener una matriz Bn tal que I Bn * o. II.- Si r(A) = m (rango completo por filas) entonces:
Entonces definase AGcomo: -
AG = A'(AA')l y AAG = AA' (AA')l =1
AG = A-lO]
11 Con estos teoremas expuestos y demostrados, se tiene la
[ O O herramienta para resolver sistemas de ecuaciones donde la matriz de
coeficientes no es cuadrada.
Otra consideracin es como calcular la inversa generalizada de
un producto de dos matrices, digamos B.C, donde Bmxr y r(B) = r,
Crxn y r(C) = =
r. Bajo estas condiciones (BC)G CG.BG.
La utilizacin de este tipo de inversa es muy comn en
problemas de regresin y modelos lineales donde con frecuencia se
hace necesario su uso para estimaciones de parmetros.

Inversa generalizadas Moore-Penrose y condicional

AAGA=[Al1 AI2] La dependencia lineal entre los vectores columnas de la matriz


A21 . A21A~11AI2 X'X, ha trado como resultado que ella sea no ortogonal, impidiendo
Dado que existe una matriz de escalares digamos K, tal que K
la solucin a las ecuaciones lineales de la forma y X~ + = ,,
para la
estimacin, ~ = (X'X)l X'Y, en los modelos de regresin mltiple.
[AnA12] = [AztAz2] -~ KAn = Azl y KAl2 = Az2, pero como A~i
Esto se debe, particularmente, a que la matriz de X'X no posee
existe, implica que K = AzI. A~i por lo tanto Az2 = A21 A~i. A12. inversa regular, por ser singular y/o rectangular; sin embargo, se han
Ahora bien, si no es posible particionar a A de manera que desarrollado procedimientos algebraicos capaces de resolver el
I An I *
0, entonces de tomar las matrices P y Q no singulares tal que: problema a travs del clculo de inversa generalizada, las cuales
juegan un papel importante en muchas aplicaciones estadsticas.

PAQ = [Bu B12


B21 B22
J, con Bn de orden r x r, y I Bll I * 0, as
Inversa Moore-Penrose ( Am )

En 1995 Penrose desarroll la experiencia de una matriz inversa


unica
nica Ampara cualquier matriz A dada.
Definicin. Sea A una matriz de orden p x q y Am una matriz
Consideremos a la matriz Amxn y enunciemos el siguiente
inversa nica de A de orden q x p; tal que satisface las siguientes
teorema:
condiciones:
TEOREMA: Sea Arox n, entonces:
1.- AAmA = A
1.- Si r (A) = n (rango completo por columnas) entonces:
AG= (A'A)lA' AGA = 1, por otro lado; (3.1)

IIL- AAm es simtrica


60 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficie de Respuestas 61

tales por fila, para obtener una matriz Bn tal que I Bn * o. II.- Si r(A) = m (rango completo por filas) entonces:
Entonces definase AGcomo: -
AG = A'(AA')l y AAG = AA' (AA')l =1
AG = A-lO]
11 Con estos teoremas expuestos y demostrados, se tiene la
[ O O herramienta para resolver sistemas de ecuaciones donde la matriz de
coeficientes no es cuadrada.
Otra consideracin es como calcular la inversa generalizada de
un producto de dos matrices, digamos B.C, donde Bmxr y r(B) = r,
Crxn y r(C) = =
r. Bajo estas condiciones (BC)G CG.BG.
La utilizacin de este tipo de inversa es muy comn en
problemas de regresin y modelos lineales donde con frecuencia se
hace necesario su uso para estimaciones de parmetros.

Inversa generalizadas Moore-Penrose y condicional

AAGA=[Al1 AI2] La dependencia lineal entre los vectores columnas de la matriz


A21 . A21A~11AI2 X'X, ha trado como resultado que ella sea no ortogonal, impidiendo
Dado que existe una matriz de escalares digamos K, tal que K
la solucin a las ecuaciones lineales de la forma y X~ + = ,,
para la
estimacin, ~ = (X'X)l X'Y, en los modelos de regresin mltiple.
[AnA12] = [AztAz2] -~ KAn = Azl y KAl2 = Az2, pero como A~i
Esto se debe, particularmente, a que la matriz de X'X no posee
existe, implica que K = AzI. A~i por lo tanto Az2 = A21 A~i. A12. inversa regular, por ser singular y/o rectangular; sin embargo, se han
Ahora bien, si no es posible particionar a A de manera que desarrollado procedimientos algebraicos capaces de resolver el
I An I *
0, entonces de tomar las matrices P y Q no singulares tal que: problema a travs del clculo de inversa generalizada, las cuales
juegan un papel importante en muchas aplicaciones estadsticas.

PAQ = [Bu B12


B21 B22
J, con Bn de orden r x r, y I Bll I * 0, as
Inversa Moore-Penrose ( Am )

En 1995 Penrose desarroll la experiencia de una matriz inversa


unica
nica Ampara cualquier matriz A dada.
Definicin. Sea A una matriz de orden p x q y Am una matriz
Consideremos a la matriz Amxn y enunciemos el siguiente
inversa nica de A de orden q x p; tal que satisface las siguientes
teorema:
condiciones:
TEOREMA: Sea Arox n, entonces:
1.- AAmA = A
1.- Si r (A) = n (rango completo por columnas) entonces:
AG= (A'A)lA' AGA = 1, por otro lado; (3.1)

IIL- AAm es simtrica


62 Chacn I Anlisis de Regresin y Superficie de Respuestas
Chacn I Anlisis de Regresin y Superficie de Respuestas 63

IV.- AmAes simtrica

Una manera de obtener Amest basada en la factorizacin de A, (3.5)


de orden p x q, como:

A = KL (3.2)

Donde K y L tienen rangos completos por columnas y filas


respectivamente, igual al x Entonces de (3.4) y (3.5) se obtiene que:
Entonces Am se defme como: Aai = TAn &2 = TA12
A12 = AuH A22 = A12H,respectivamente
Am = L' (K' AV)l K' (3.3)
como I An ] * O existe A~ll por lo tanto;
Para obtener K y L utilizamos el siguiente procedimiento:
Dada la matriz (3.6)

r aa
ll

21
al2
a12
a1q
a2q
lI
A= ahora:
I I
lap1 ap2 apq J A

Para hallar la matriz inversa s, es necesario obtener K y L a


travs de la factorizacin de rango completo. Para ello, supngase que A (3.7)
Ap x q tiene rango r y luego particionemos a la matriz A en :

Donde "K" es de orden p x r y de rango r y "L" de orden r x q


A12] .

A22
, donde Au es de orden r y I Al1 I

* O de rango r.
Propiedades de Am:
Como las filas [A21 A22] son dependientes de las filas [An A12],
1.- La inversa de la traspuesta de A, es la traspuesta de la inversa
existe una matriz T nica de escalares tal que: AmdeA:

= T (3.4)
2.- La inversa de Ames igual a A:

De manera similar como las columnas [


A12l
A
22
J son dependientes
3.- El rango de la inversa de A es igual al rango de A:
r
de las columnas l J ; una matriz H, de escalares nica, tal que:
Alll
r (Am) = r (A)
A 12
62 Chacn I Anlisis de Regresin y Superficie de Respuestas
Chacn I Anlisis de Regresin y Superficie de Respuestas 63

IV.- AmAes simtrica

Una manera de obtener Amest basada en la factorizacin de A, (3.5)


de orden p x q, como:

A = KL (3.2)

Donde K y L tienen rangos completos por columnas y filas


respectivamente, igual al x Entonces de (3.4) y (3.5) se obtiene que:
Entonces Am se defme como: Aai = TAn &2 = TA12
A12 = AuH A22 = A12H,respectivamente
Am = L' (K' AV)l K' (3.3)
como I An ] * O existe A~ll por lo tanto;
Para obtener K y L utilizamos el siguiente procedimiento:
Dada la matriz (3.6)

r aa
ll

21
al2
a12
a1q
a2q
lI
A= ahora:
I I
lap1 ap2 apq J A

Para hallar la matriz inversa s, es necesario obtener K y L a


travs de la factorizacin de rango completo. Para ello, supngase que A (3.7)
Ap x q tiene rango r y luego particionemos a la matriz A en :

Donde "K" es de orden p x r y de rango r y "L" de orden r x q


A12] .

A22
, donde Au es de orden r y I Al1 I

* O de rango r.
Propiedades de Am:
Como las filas [A21 A22] son dependientes de las filas [An A12],
1.- La inversa de la traspuesta de A, es la traspuesta de la inversa
existe una matriz T nica de escalares tal que: AmdeA:

= T (3.4)
2.- La inversa de Ames igual a A:

De manera similar como las columnas [


A12l
A
22
J son dependientes
3.- El rango de la inversa de A es igual al rango de A:
r
de las columnas l J ; una matriz H, de escalares nica, tal que:
Alll
r (Am) = r (A)
A 12
64 Chacn / Anlisis de Regresin y Superficie de Respuestas

4.- Si A es una matriz simtrica, la inversa Ames tambin simtrica,


es decir:
Si A' = A ~ (Am)' = Am

Se ha demostrado que la inversa generalizada de una matriz


posee varias de las propiedades de la inversa de una matriz no
singular. Estas propiedades pueden ser muy usadas en varias reas
de la estadstica, especialmente en la solucin de sistemas de
ecuaciones lineales. As, la teora de sistemas de ecuaciones lineales
juega un papel muy importante en estadstica como en muchos otros
campos cientficos. Se puede discutir otro tipo de inversa, la cual es
llamada inversa condicional Ac (tambin llamada inversa genera-
lizada normalizada). Una inversa condicional Ac de una matriz, es
generalmente ms fcil de calcular que la inversa Moore-Penrose
(A).

Inversa condicional ( A e )

Anteriormente se defini la matriz Am,a travs de las cuatro


condiciones de Moore-Penrose. En las ecuaciones (3.1) se define Am,
como la matriz inversa nica de A, pero existen muchas matrices Ac
que slo satisfacen:

AAcA=A (3.8)

La inversa de Moore-Penrose de una matriz A, es tambin una


inversa condicional de A, pero una inversa condicional de A no
necesariamente es la inversa Moore-Penrose de A.
Una inversa condicional se caracteriza por ser no-nica y slo
satisface la condicin I en (3.1).
A continuacin daremos dos derivaciones de la matriz inversa
condicional a travs de un algoritmo sencillo y otro en forma general.
Supngase que en Apxqla submatriz principal Ai i es no singular de
rango rA entonces, la inversa generalizada condicional se obtiene a
partir de la particin de A como:

(3.9)

donde las matrices nulas en Ac tienen rdenes apropiados para hacer


que Acsea de orden q x p.
64 Chacn I Anlisis de Regresin y Superficie de Respuestas Chacn I Anlisis de Regresin y Superficie de Respuestas 65

4.- SiAes una matriz simtrica, la inversa Ames tambin simtrica, No es necesario que la submatriz no singular de orden est
es decir: ubicada en la posicin An , sta puede estar en cualquier lugar en A.
i A' = A ~ (Am)' = Am El siguiente algoritmo, entonces, puede ser desarrollado:

Se ha demostrado que la inversa generalizada de una matriz En A encuentre cualquier submatriz de orden igual al rango de A.
posee vmas de las propiedades de la inversa de una matriz no Dentelo mediante W.
singular, Estas propiedades pueden ser muy usadas en varias reas
de la estadstica, especialmente en la solucin de sistemas de Invierta y transponga (W-1),.
ecuacioIJeslineales. As, la teora de sistemas de ecuaciones lineales
juega UJ papel muy importante en estadstica como en muchos otros En A reemplace cada elemento de W mediante los elementos
campos ientficos. Se puede discutir otro tipo de inversa, la cual es correspondientes de (W-1),.
llamada inversa condicional Ac (tambin llamada inversa genera-
lizada Iormalizada). Una inversa condicional Ac de una matriz, es Reemplace todos los otros elementos de A por ceros.
generallllente ms fcil de calcular que la inversa Moore-Penrose
(A).
Transponga la matriz resultante.

Inversa condicional ( A e ) El resultado es Ac,una inversa generalizada de A.


A teriormente se defini la matriz Am, a travs de las cuatro
condiciones de Moore-Penrose. En las ecuaciones (3.1) se define Am,
La matriz XI X
como la matriz inversa nica de A, pero existen muchas matrices Ac
que slosatisfacen: La matriz (X' X) tiene una funcin importante en los
procedimientos estadsticos donde se utilizan ecuaciones mnimas
(3.8) cuadrticas X'Xb =X'y, las' siguientes, son las propiedades de. la
inversa condicional de X'X,esto es; (X'X)c:
L&inversa de Moore-Penrose de una matriz A, es tambin una
inversa condicional de A, pero una inversa condicional de A no
necesar'amente es la inversa Moore-Penrose de A.
[ W- ),)c]'
1
es tambin una inversa condicional de X'X.

Ulla inversa condicional se caracteriza por ser no-nica y slo X(X'X)c X'X = X; por lo tanto (X'X)c es una inversa generalizada de
satisface la condicin 1 en (3.1). X.
A Continuacin daremos dos derivaciones de la matriz inversa
X(X'X)cX' es simtrica, si (X' X)c lo es.
condiciOnala travs de un algoritmo sencillo y otro en forma generaL
Supngase que en Apxqla submatriz principal An es no singular de
Ejemplo
ran~o rA.entonces, la inversa generalizada condicional se obtiene a
partir de la particin de A como:
Se tienen los resultados de un experimento donde el
rendimiento en fruto es una funcin de la materia seca en hojas (Xi) y
es A e
qxp
= [AllO -1 00] (3.9) en races (X2). Se desea estimar un modelo de regresin mltiple.

donde 1 s matrices nulas en Ac tienen rdenes apropiados para hacer


que Aceade orden q x p.
66 Chacin I Anlisis de Regresin y Superficie de Respuestas Chacn I Anlisis de Regresin y Superficies de Respuesta 67
Expresado matricialmente: Modelo estimad:

y = X~ + ~
A

~ = (X'X)-l X'Y (3.10)

y x donde:
.J, .J,

2055
1928
1 5 10
1 6 12
X'X = [1~~112
658
224J
1316
224 1316 2632

1887 148
2181 1 8 16 Verificamos que:
2602 1 7 14
1940 1 5 10 20 112 22~
IX' Xl = 112 658 1316
1900 148 224 1316 263
3322 1 8 16
2000 1 5 10 IX'XI = 34.637.120 + 33.015.808 + 33.015.808
2670 1 7 14
(33.015.808 + 33.015.808 + 34.637.120) = O
2550
= 1 6 12 [::] + Como IX' Xl = O, supone dependencia lineal entre las columnas
2021 1 4 12
de la matriz 3 x 3, en consecuencia la inversa de X' X:
1946 1 5 10
2042 1 5 10 1
O ol
2462 (X'X)-l = -- .C 2464
1 6 12 X'X -1232]
2220 1 5 10 -1232 616
3121 1 7 14 donde C es la matriz de cofactores. Evidentemente, (X' X)-l ser
1914 148 indeterminado, por lo tanto, la matriz as formada no tendr inversa
regular. En este caso se puede resolver el sistema de ecuaciones
1981 1 5 10 desarrollando el uso de la matriz inversa generalizada de Moore-
1830 1 6 12 Penrose o condicional.
66 Chacin I Anlisis de Regresin y Superficie de Respuestas Chacn I Anlisis de Regresin y Superficies de Respuesta 67
Expresado matricialmente: Modelo estimad:

y = X~ + ~
A

~ = (X'X)-l X'Y (3.10)

y x donde:
.J, .J,

2055
1928
1 5 10
1 6 12
X'X = [1~~112
658
224J
1316
224 1316 2632

1887 148
2181 1 8 16 Verificamos que:
2602 1 7 14
1940 1 5 10 20 112 22~
IX' Xl = 112 658 1316
1900 148 224 1316 263
3322 1 8 16
2000 1 5 10 IX'XI = 34.637.120 + 33.015.808 + 33.015.808
2670 1 7 14
(33.015.808 + 33.015.808 + 34.637.120) = O
2550
= 1 6 12 [::] + Como IX' Xl = O, supone dependencia lineal entre las columnas
2021 1 4 12
de la matriz 3 x 3, en consecuencia la inversa de X' X:
1946 1 5 10
2042 1 5 10 1
O ol
2462 (X'X)-l = -- .C 2464
1 6 12 X'X -1232]
2220 1 5 10 -1232 616
3121 1 7 14 donde C es la matriz de cofactores. Evidentemente, (X' X)-l ser
1914 148 indeterminado, por lo tanto, la matriz as formada no tendr inversa
regular. En este caso se puede resolver el sistema de ecuaciones
1981 1 5 10 desarrollando el uso de la matriz inversa generalizada de Moore-
1830 1 6 12 Penrose o condicional.
Chacn I Anlisis de Regresin y Superficie de Respuestas 69
68 Chacin I Anlisis de Regresin y Superficie de Respuestas

112944 379680J
(X' X) = A, por lo tanto: - Y K' AL' = l76384 2240700

(X'X)m =L' (K'X'XLT1 K' entonces la matriz X'X = A, puede ser


particionada:
as de (3.3)
-l
A-1 20 112
20 112J ~
[ 112 658 11 [ 112 658 J A- = (X'X)- = [~ 1,045
-0,035
-0,177]
0,006
20 112 O ]
[ 112 658 2

por lo tanto, obtenemos una inversa nica de (X'X):

A21= [224 1316] Y A12 =


224] r 1,068 0,527 -0,354l

r 1316
(X'X)m =
l
-0,036 -0,018
-0,073 -0,035
0,012
0,024
j
a travs de (3.6) obtenemos T y H
Se deja como ejercicio probar que AAmA = A.
-1
20 112 La solucin de 3.10 ser:
T1x2 =[224 1316lx2 = [O 2]
[
112 658 2x2
]

1. P =
r 1,068 0~27 -0~54] [ 44572]
-0,036 -0,018 0,012 257203
20 112J-1
[ 112 658
224J
. [ 1316
l -0,073 -0,035 0,024 514406

ahora, la particin de X' X = A quedar ~ = r8::::~1


20 98,55J

K = ( 11~ As el Modelo de Regresin mltiple estimado es:


A

Y = 849,94 + 49,27Xl + 98,55X2

L = [1 H] = [~
O
1 ~l No hay duda que los valores obtenidos de los ~, dependern de la
inversa generalizada que se utilice, por esta razn los coeficientes
PO,Pl,P2, sern estimaciones sesgadas de ~o, ~1 y ~2 respectivamente.
entonces:
Es de notar que en este problema se truncaron el nmero de
decimales en su transcripcin. Se recomienda al estudiante utilizar
11
20 112 al lo todos los decimales posibles para mayor exactitud al chequear las
K' = L'= respuestas.
112 658 2J
lo rl
Chacn I Anlisis de Regresin y Superficie de Respuestas 69
68 Chacin I Anlisis de Regresin y Superficie de Respuestas

112944 379680J
(X' X) = A, por lo tanto: - Y K' AL' = l76384 2240700

(X'X)m =L' (K'X'XLT1 K' entonces la matriz X'X = A, puede ser


particionada:
as de (3.3)
-l
A-1 20 112
20 112J ~
[ 112 658 11 [ 112 658 J A- = (X'X)- = [~ 1,045
-0,035
-0,177]
0,006
20 112 O ]
[ 112 658 2

por lo tanto, obtenemos una inversa nica de (X'X):

A21= [224 1316] Y A12 =


224] r 1,068 0,527 -0,354l

r 1316
(X'X)m =
l
-0,036 -0,018
-0,073 -0,035
0,012
0,024
j
a travs de (3.6) obtenemos T y H
Se deja como ejercicio probar que AAmA = A.
-1
20 112 La solucin de 3.10 ser:
T1x2 =[224 1316lx2 = [O 2]
[
112 658 2x2
]

1. P =
r 1,068 0~27 -0~54] [ 44572]
-0,036 -0,018 0,012 257203
20 112J-1
[ 112 658
224J
. [ 1316
l -0,073 -0,035 0,024 514406

ahora, la particin de X' X = A quedar ~ = r8::::~1


20 98,55J

K = ( 11~ As el Modelo de Regresin mltiple estimado es:


A

Y = 849,94 + 49,27Xl + 98,55X2

L = [1 H] = [~
O
1 ~l No hay duda que los valores obtenidos de los ~, dependern de la
inversa generalizada que se utilice, por esta razn los coeficientes
PO,Pl,P2, sern estimaciones sesgadas de ~o, ~1 y ~2 respectivamente.
entonces:
Es de notar que en este problema se truncaron el nmero de
decimales en su transcripcin. Se recomienda al estudiante utilizar
11
20 112 al lo todos los decimales posibles para mayor exactitud al chequear las
K' = L'= respuestas.
112 658 2J
lo rl
Captulo 4

ANALISIS DE REGRESION
El modelo de regresin lineal mltiple

En los trabajos de investigacin es necesario emplear tcnicas


estadsticas que permitan interpretar los resultados y de esta forma
poder llegar a conclusiones valederas que permitan al investigador
aceptar o rechazar las hiptesis planteadas inicialmente e inclusive
formular nuevas hiptesis, una de esas tcnicas estadsticas de gran
utilidad en los investigadores es el anlisis de regresin, el cual es
necesario cuando se quiere encontrar relaciones entre las variables o
establecer ecuaciones de prediccin.
Mallows (1973), menciona los siguientes usos de la ecuacin de
regresin:
a.- Descripcin
b.- Prediccin y estimacin
c.- Extrapolacin
d.- Estimacin de parmetros
e.- Control
f.- Construccin del modelo.
El Anlisis de Regresin requiere el cumplimiento de una serie
de supuestos necesarios para su aplicacin siendo stos de gran
importancia para evitar conclusiones erradas. Dichos supuestos han
sido ampliamente discutidos por muchos autores (Linares y Chacn
1986).
72 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 73
Estos supuestos seran resumidamente: real es un modelo y aunque la relacin no sea exacta sino aproximada
a.- Homogeneidad de la varianza de errores es invalorable -la prediccin, por consiguiente cuando se dice que una
relacin funcional existe entre un grupo de variables es en forma muy
b.- Normalidad de los errores aproximada.
c.- Independencia
La funcin del modelo es simular el comportamiento de un
d.- Aditividad de los efectos. sistema bajo ciertas condiciones. La simulacin puede encontrarse
mediante un modelo matemtico que puede ser una ecuacin o
Para el estudio del cumplimiento de los supuestos y alternativas
sistema de ecuaciones que representan cuantitativamente la hiptesis
de soluciones se tendr que realizar algunos anlisis como seran:
formulada en relacin al sistema bajo consideracin y que envuelve
a.- Examen de residuales variables aleatorias y parmetros. Si la ecuacin es lineal en los
parmetros el modelo se convierte en un modelo lineal, dentro de
b.- Estudios y anlisis de la autocorrelacin
estos modelos, el modelo de regresin lineal es uno de los ms
c.- Estudio y anlisis de la multicolinealidad. importantes.

Estos procedimientos han sido ampliamente discutidos por


muchos autores Linares y Chacn (1986) y Chacn y Meneses (1984).
DESCRIPCION DE LOS DATOS Y DEL MODELO
En la investigacin agrcola cuando el investigador mide el
efecto que pueda producir determinado tratamiento sobre algunas
caractersticas particulares que son de su inters (rendimiento,
Los datos consisten de n observaciones sobre una variable
nmero de frutos; grosor del tallo, dimetros de la copa, etc.), no
dependiente y y de p variables independientes Xi, X2, ... , Xp. Las
descarta la posibilidad de que pueda existir alguna relacin o
observaciones son usualmente presentadas de la siguiente manera:
asociacin entre una variable dependiente y algunas variables
independientes o regresaras que en algunos casos son controladas y Observaciones y x, X2 X3 x,
en otras aleatorias o ambos casos. 1 Yl Xll X2l X3l Xpl
Por ejemplo, en un ensayo con ctricas donde se evala la 2 Y2 Xl2 M2 X32 Xp2
dosificacin de Nitrgeno (N), Fsforo (P) y Potasio (K), se podra
establecer un modelo que relacione el rendimiento con las variables 3 Y3 Xl3 X23 X33 Xp3
regresaras (N,P,K), en este' caso, estas variables regresaras son
controladas pero tambin se podra establecer relaciones entre el
rendimiento con nmero de frutos, grosor del tallo y dimetro de la n Yn Xln X2n X3n Xpn
copa, que son variables aleatorias e inclusive establecer la relacin del
rendimiento con ambos tipos de variables. El anlisis de regresin nos Las relaciones entre la variable Y con las variables Xi, M, Xa, ... ,
permitir estudiar esas relaciones con el fin de llegar a conclusiones Xp se formula por el modelo lineal general de regresin de la siguiente
de inters para los investigadores. forma:

Graybill (1961), expresa que uno de los propsitos de la ciencia Y=XP+:; (4.1)
es describir y predecir los eventos en el mundo en que vivimos y una
forma es mediante modelos que relacionen cualidades del mundo real. y = vector (n x 1) de respuesta
Chacn y Meneses (1984) y Cobo (1976), sealan algunas ideas X = matriz (n x p) de variables independientes
expresadas por Bunge, Kempthorne, .Federer, Gill, Fisher, Neter y P = vector (p x 1) de constante desconocidas
Graybill. Una relacin funcional entre grupos de eventos en el mundo :; = vector .(n x 1) aleatorio de errores supuestos
72 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 73
Estos supuestos seran resumidamente: real es un modelo y aunque la relacin no sea exacta sino aproximada
a.- Homogeneidad de la varianza de errores es invalorable -la prediccin, por consiguiente cuando se dice que una
relacin funcional existe entre un grupo de variables es en forma muy
b.- Normalidad de los errores aproximada.
c.- Independencia
La funcin del modelo es simular el comportamiento de un
d.- Aditividad de los efectos. sistema bajo ciertas condiciones. La simulacin puede encontrarse
mediante un modelo matemtico que puede ser una ecuacin o
Para el estudio del cumplimiento de los supuestos y alternativas
sistema de ecuaciones que representan cuantitativamente la hiptesis
de soluciones se tendr que realizar algunos anlisis como seran:
formulada en relacin al sistema bajo consideracin y que envuelve
a.- Examen de residuales variables aleatorias y parmetros. Si la ecuacin es lineal en los
parmetros el modelo se convierte en un modelo lineal, dentro de
b.- Estudios y anlisis de la autocorrelacin
estos modelos, el modelo de regresin lineal es uno de los ms
c.- Estudio y anlisis de la multicolinealidad. importantes.

Estos procedimientos han sido ampliamente discutidos por


muchos autores Linares y Chacn (1986) y Chacn y Meneses (1984).
DESCRIPCION DE LOS DATOS Y DEL MODELO
En la investigacin agrcola cuando el investigador mide el
efecto que pueda producir determinado tratamiento sobre algunas
caractersticas particulares que son de su inters (rendimiento,
Los datos consisten de n observaciones sobre una variable
nmero de frutos; grosor del tallo, dimetros de la copa, etc.), no
dependiente y y de p variables independientes Xi, X2, ... , Xp. Las
descarta la posibilidad de que pueda existir alguna relacin o
observaciones son usualmente presentadas de la siguiente manera:
asociacin entre una variable dependiente y algunas variables
independientes o regresaras que en algunos casos son controladas y Observaciones y x, X2 X3 x,
en otras aleatorias o ambos casos. 1 Yl Xll X2l X3l Xpl
Por ejemplo, en un ensayo con ctricas donde se evala la 2 Y2 Xl2 M2 X32 Xp2
dosificacin de Nitrgeno (N), Fsforo (P) y Potasio (K), se podra
establecer un modelo que relacione el rendimiento con las variables 3 Y3 Xl3 X23 X33 Xp3
regresaras (N,P,K), en este' caso, estas variables regresaras son
controladas pero tambin se podra establecer relaciones entre el
rendimiento con nmero de frutos, grosor del tallo y dimetro de la n Yn Xln X2n X3n Xpn
copa, que son variables aleatorias e inclusive establecer la relacin del
rendimiento con ambos tipos de variables. El anlisis de regresin nos Las relaciones entre la variable Y con las variables Xi, M, Xa, ... ,
permitir estudiar esas relaciones con el fin de llegar a conclusiones Xp se formula por el modelo lineal general de regresin de la siguiente
de inters para los investigadores. forma:

Graybill (1961), expresa que uno de los propsitos de la ciencia Y=XP+:; (4.1)
es describir y predecir los eventos en el mundo en que vivimos y una
forma es mediante modelos que relacionen cualidades del mundo real. y = vector (n x 1) de respuesta
Chacn y Meneses (1984) y Cobo (1976), sealan algunas ideas X = matriz (n x p) de variables independientes
expresadas por Bunge, Kempthorne, .Federer, Gill, Fisher, Neter y P = vector (p x 1) de constante desconocidas
Graybill. Una relacin funcional entre grupos de eventos en el mundo :; = vector .(n x 1) aleatorio de errores supuestos
74 Chacin I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 75
, 2
V(E)=
2
donde: E(E) = O Y E(E E) =0' In O' Si se obtiene la matriz (X'X)-l, y la llamamos C entonces, se
puede denotar al elemento Cjj, donde j = 1, 2, ... p, en la matriz de
Expandiendo la expresin matricial del modelo nos queda:
suma de productos y cuadrados corregidos.
(4.2)
[Cl!C12
C12
C22
1)

i = 1, 2, 3, ... , n. Los valores de Xi son fijos (X'X)-l = C = Cl i , j = 1,2, ..., p


Las constantes ~o, lh, ~2, ..., pp son los coeficientes de regresin, e, Cpp
los cuales en su expresin clsica son interpretados como el
incremento en la variable Y que- se corresponde a una unidad de La varianza del estimador mnimo cuadrado ser:
incremento en Xi cuando las otras variables se mantienen constantes.
Los coeficientes ~i son estimados haciendo mnimo la suma de
cuadrados de residuales, lo cual es conocido como el mtodo de los
mnimos cuadrados. Formalmente, el mtodo consiste en minimizar la
expresin:
. SUPUESTOS DEL MODELO POBLACIONAL
n n

LE~ = L(Yi - Po - ~1 X1i- P2 X2i - .. -pp Xp)2 (4.3)


ie l ie l Sea el modelo lineal general descrito en la ecuacin (4.2)_ En el
se deben cumplir los siguientes supuestos:
donde las ecuaciones normales para los estimadores mnimos
cuadrados seran: a.- Homogeneidad de varianza de errores:

(X'X)~= X'Y (4.4) Ei - N(O,O'2I), con E (Ei) = O Y


V(E;) = 0'2
Este sistema tiene solucin nica si y solo si la matriz X'X tiene
inversa. b.- Independencia de errores:

(X'X)-l (X'X)~ = (X'X)-l X'Y (4.5) Cov (si, Ej) = O i:f; J

c_-Homogeneidad de varianza de las observaciones


con lo cual se tiene:
C.l.- E(Y;) = E(po + PIXli + P2X2i+ + PpXp;)
~ = (X'X)-l X'Y (4.6)
debido a que: E (Ei) = O

1 Xll X21 XPI c.2_- V(Yi = V(Ei) = 0'2, debido a que:


~o
131 1 X12 X22 XP2 V(po) = V(PIXl;) = V(P2Xz;) = = V(PpXp;)= O
P = X 1 X13 X23 Xp3 y =
P2
d.- Independencia de los Yi
Pp 1 x., X2rr Xpn Cov ('Yj) = O i :f; j
74 Chacin I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 75
, 2
V(E)=
2
donde: E(E) = O Y E(E E) =0' In O' Si se obtiene la matriz (X'X)-l, y la llamamos C entonces, se
puede denotar al elemento Cjj, donde j = 1, 2, ... p, en la matriz de
Expandiendo la expresin matricial del modelo nos queda:
suma de productos y cuadrados corregidos.
(4.2)
[Cl!C12
C12
C22
1)

i = 1, 2, 3, ... , n. Los valores de Xi son fijos (X'X)-l = C = Cl i , j = 1,2, ..., p


Las constantes ~o, lh, ~2, ..., pp son los coeficientes de regresin, e, Cpp
los cuales en su expresin clsica son interpretados como el
incremento en la variable Y que- se corresponde a una unidad de La varianza del estimador mnimo cuadrado ser:
incremento en Xi cuando las otras variables se mantienen constantes.
Los coeficientes ~i son estimados haciendo mnimo la suma de
cuadrados de residuales, lo cual es conocido como el mtodo de los
mnimos cuadrados. Formalmente, el mtodo consiste en minimizar la
expresin:
. SUPUESTOS DEL MODELO POBLACIONAL
n n

LE~ = L(Yi - Po - ~1 X1i- P2 X2i - .. -pp Xp)2 (4.3)


ie l ie l Sea el modelo lineal general descrito en la ecuacin (4.2)_ En el
se deben cumplir los siguientes supuestos:
donde las ecuaciones normales para los estimadores mnimos
cuadrados seran: a.- Homogeneidad de varianza de errores:

(X'X)~= X'Y (4.4) Ei - N(O,O'2I), con E (Ei) = O Y


V(E;) = 0'2
Este sistema tiene solucin nica si y solo si la matriz X'X tiene
inversa. b.- Independencia de errores:

(X'X)-l (X'X)~ = (X'X)-l X'Y (4.5) Cov (si, Ej) = O i:f; J

c_-Homogeneidad de varianza de las observaciones


con lo cual se tiene:
C.l.- E(Y;) = E(po + PIXli + P2X2i+ + PpXp;)
~ = (X'X)-l X'Y (4.6)
debido a que: E (Ei) = O

1 Xll X21 XPI c.2_- V(Yi = V(Ei) = 0'2, debido a que:


~o
131 1 X12 X22 XP2 V(po) = V(PIXl;) = V(P2Xz;) = = V(PpXp;)= O
P = X 1 X13 X23 Xp3 y =
P2
d.- Independencia de los Yi
Pp 1 x., X2rr Xpn Cov ('Yj) = O i :f; j
76 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 77

Los supuestos de Y son consecuencia de los supuestos de e , ya Y1 Xu X21 XkI


que este trmino es el que transforma a Y en variable aleatoria y toda
Y2 X12 X22 Xk2
funcin de variable aleatoria tambin es aleatoria.
e.- Aditividad de los efectos
Esta aditividad de los efectos aparece intrnseca en la expresin Yn X1n, X2n Xkn
del modelo descrito en la ecuacin (4.2)
donde n > k. La combinacin de niveles experimentales en los X es
llamado el diseo experimental.
METODO DE LOS MINIMOS CUADRADOS El modelo que fue asumido por el experimentador puede ser
":;'
escrito como:

Este procedimiento es bsico para el desarrollo de los


estimadores del Modelo de Regresin y por supuesto, para la (i = 1, 2, ..., n)
Metodologa de Superficies de Respuesta (MSR), ya que a travs de la
MSR se generan modelos de regresin. Fundamentalmente en la MSR donde ei es una variable ale atoria , Se asume que e es independiente,
se est interesado en obtener una respuesta TI, el cul es una funcin con media cero y varianza 0-2, sto es en trminos del siguiente
de k variables independientes que sera de la forma siguiente: vector de errores:

TI = f(XI, X2, ... , Xi) (4.8)

La forma "TI" es usualmente desconocida o muy compleja; es


necesario aproximarla mediante un polinomio de bajo orden. Por E =
ejemplo si se tienen tres variables (Xi, X2, X3). El modelo asumido
sera:

E(e) = 0, y Covie) =0-21. El modelo de la ecuacin (4.9)


puede ser escrito muy convenientemente en la form~:
(4.9)
y = X~ + e (4.10)
donde ~o, ~l, ... , ~23, son coeficientes de regresin, "Y" es la variable
de respuesta y e es el error experimental. Las variables Xi, Xz, ... Xs,
son cuantitativas y medidas en escala continua. donde:

Suponiendo que la funcin f en la ecuacin (4.8) es aproxi-


madamente un modelo lineal en los X. Asumimos que para nuestra 1 Xn XZI
PI
discusin que esta aproximacin es adecuada, aunque de acuerdo a la
discusin general siguiente, puede ser alterada fcilmente para ser
consistente con una aproximacin de alto orden. Suponiendo que para
varias combinaciones de los X, los datos son escritos en la forma
y= [~:

Yn
P r"
P2 Y X=
1 Xl2

1 x.,
X22

XZn
siguiente: l~k
76 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 77

Los supuestos de Y son consecuencia de los supuestos de e , ya Y1 Xu X21 XkI


que este trmino es el que transforma a Y en variable aleatoria y toda
Y2 X12 X22 Xk2
funcin de variable aleatoria tambin es aleatoria.
e.- Aditividad de los efectos
Esta aditividad de los efectos aparece intrnseca en la expresin Yn X1n, X2n Xkn
del modelo descrito en la ecuacin (4.2)
donde n > k. La combinacin de niveles experimentales en los X es
llamado el diseo experimental.
METODO DE LOS MINIMOS CUADRADOS El modelo que fue asumido por el experimentador puede ser
":;'
escrito como:

Este procedimiento es bsico para el desarrollo de los


estimadores del Modelo de Regresin y por supuesto, para la (i = 1, 2, ..., n)
Metodologa de Superficies de Respuesta (MSR), ya que a travs de la
MSR se generan modelos de regresin. Fundamentalmente en la MSR donde ei es una variable ale atoria , Se asume que e es independiente,
se est interesado en obtener una respuesta TI, el cul es una funcin con media cero y varianza 0-2, sto es en trminos del siguiente
de k variables independientes que sera de la forma siguiente: vector de errores:

TI = f(XI, X2, ... , Xi) (4.8)

La forma "TI" es usualmente desconocida o muy compleja; es


necesario aproximarla mediante un polinomio de bajo orden. Por E =
ejemplo si se tienen tres variables (Xi, X2, X3). El modelo asumido
sera:

E(e) = 0, y Covie) =0-21. El modelo de la ecuacin (4.9)


puede ser escrito muy convenientemente en la form~:
(4.9)
y = X~ + e (4.10)
donde ~o, ~l, ... , ~23, son coeficientes de regresin, "Y" es la variable
de respuesta y e es el error experimental. Las variables Xi, Xz, ... Xs,
son cuantitativas y medidas en escala continua. donde:

Suponiendo que la funcin f en la ecuacin (4.8) es aproxi-


madamente un modelo lineal en los X. Asumimos que para nuestra 1 Xn XZI
PI
discusin que esta aproximacin es adecuada, aunque de acuerdo a la
discusin general siguiente, puede ser alterada fcilmente para ser
consistente con una aproximacin de alto orden. Suponiendo que para
varias combinaciones de los X, los datos son escritos en la forma
y= [~:

Yn
P r"
P2 Y X=
1 Xl2

1 x.,
X22

XZn
siguiente: l~k
78 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 79
El modelo de la ecuacin (4.10) se refiere al modelo lineal
general. El lector puede realmente observar que el modelo lineal La suma ~e los cuadrados de los errores o desviaciones a partir
general es fcilmente aplicable a modelos polinomiales, mayores a las de la respuesta observada para el valor. estimado L puede ser escrito
de primer orden. Por ejemplo, supngase que el modelo asumido es un as:
modelo cuadrtico en dos variables, sto es, la respuesta en el i-simo
tratamiento que envuelve los niveles (Xu, X2i) es dado por:
.L = r:y - XP)' r:y XP) (4.12)
entonces:

L = Y'Y - (XP )'Y - Y'Xp + CXP)' Xp


Y'Y -p 'X'Y - Y'Xp +p 'X'X P
donde i = 1, 2, .., n > 6. La matriz X y el vector P pueden ser escritas Y'Y - 2P 'X'Y +p 'X'X P (4.13)
as:
Para encontrar p:
Po
aL
Xll X21 X~l X~l Xll X21 P1
ap
= -2X'Y + 2(X'X) P
X12,X22
X = X12 X22
[ X~2 X~2 P2
p=
Pu igualando a cero:
X1n X2n X1n X2n P22
X~n X~n
P12 (X'X) P = X'Y (4.14)

Asumiendo que XIX es un matriz no singular, se tendr que:


En el modelo general la atencin se centra en la estimacin de
los parmetros del vector p. El mtodo de los mnimos cuadrados es P= (X'X):l X'Y (4.15)
un procedimiento de estimacin til, particularmente para los
modelos de la forma de la ecuacin (4.10). Las ecuaciones dadas por (4.14) son llamadas "ecuaciones
normales" para la estimacin de p. Para el modelo de regresin de
Dada la matriz X, una funcin de los niveles preseleccionados, y primer orden de la ecuacin. (4.8) estas ecuaciones son:
el vector Y de respuesta; el mtodo de los mnimos cuadrados utiliza
como estimador de p , al vector que resulta en un valor mnimo: r
In . X2i , 1 Po~ 1I
PI
rV. 1
X'liYi I
n
I xii XliX2i XliX"
X2iXh
j P2 = X2>Yij (4.16)
L = 2)~=E'E I X;i
j=L
l X~i Pk l~kiYi
78 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 79
El modelo de la ecuacin (4.10) se refiere al modelo lineal
general. El lector puede realmente observar que el modelo lineal La suma ~e los cuadrados de los errores o desviaciones a partir
general es fcilmente aplicable a modelos polinomiales, mayores a las de la respuesta observada para el valor. estimado L puede ser escrito
de primer orden. Por ejemplo, supngase que el modelo asumido es un as:
modelo cuadrtico en dos variables, sto es, la respuesta en el i-simo
tratamiento que envuelve los niveles (Xu, X2i) es dado por:
.L = r:y - XP)' r:y XP) (4.12)
entonces:

L = Y'Y - (XP )'Y - Y'Xp + CXP)' Xp


Y'Y -p 'X'Y - Y'Xp +p 'X'X P
donde i = 1, 2, .., n > 6. La matriz X y el vector P pueden ser escritas Y'Y - 2P 'X'Y +p 'X'X P (4.13)
as:
Para encontrar p:
Po
aL
Xll X21 X~l X~l Xll X21 P1
ap
= -2X'Y + 2(X'X) P
X12,X22
X = X12 X22
[ X~2 X~2 P2
p=
Pu igualando a cero:
X1n X2n X1n X2n P22
X~n X~n
P12 (X'X) P = X'Y (4.14)

Asumiendo que XIX es un matriz no singular, se tendr que:


En el modelo general la atencin se centra en la estimacin de
los parmetros del vector p. El mtodo de los mnimos cuadrados es P= (X'X):l X'Y (4.15)
un procedimiento de estimacin til, particularmente para los
modelos de la forma de la ecuacin (4.10). Las ecuaciones dadas por (4.14) son llamadas "ecuaciones
normales" para la estimacin de p. Para el modelo de regresin de
Dada la matriz X, una funcin de los niveles preseleccionados, y primer orden de la ecuacin. (4.8) estas ecuaciones son:
el vector Y de respuesta; el mtodo de los mnimos cuadrados utiliza
como estimador de p , al vector que resulta en un valor mnimo: r
In . X2i , 1 Po~ 1I
PI
rV. 1
X'liYi I
n
I xii XliX2i XliX"
X2iXh
j P2 = X2>Yij (4.16)
L = 2)~=E'E I X;i
j=L
l X~i Pk l~kiYi
Chacn I Anlisis de Regresin y Superficies de Respuesta 81
Chacn I Anlisis de Regresin Y Superficies de Respuesta
80
Sesgo y varianza de los estimadores mnimos cuadrados l}
. X2i . -1

Se revisar brevemente el sesgo y la varianza del estimador del XliXki


., y - X~ + s y al X~i XliX2i 2
vector ~, considerando el modelo d e regresin - ~ = o
X~i ... X2iXk.i
estimador de ~:
X~
~ =(X'X)lX'Y
E(~) =
E{( X'X ).l[X' (X~ + c)1)
= ~ + E[ (X'X ).lX'c]
PRUEBA DE HIPOTESIS
Si la E(ci) = O para 1 = '1, 2, ... , n EN EL MODELO DE REGRESION
E[ (X'X)lX'c] = O

E (~) = ~ Para la realizacin de las pruebas de hiptesis es necesario


establecer los siguientes supuestos:
Esto implica que cada uno de los elementos de ~ son
a.- e - N (O, O'21n)
estimadores insesgados de 13
En el desarrollo del Diseo de Experimentos aplicados a la b.- Los Yi son funciones lineales de los E , de modo que tambin se
Metodologa de Superficies de respuesta es conveni:nte mvestl~ar las distribuyen normalmente.
caractersticas d~ la matriz varianza-covarianza de 13, stas senan: c.- ~- N [~, 0'2 (X'X)-l]
Cov(~) = E(~-~)(~-I3)'
Para este caso, la matriz X tiene rango p, donde p = k+ 1 y k es el
= COy[ (X'X)l X'Y] nmero variables independientes del modelo, el esquema del anlisis
de la varianza sera:
Si se considera que (X'X)lX' contiene slo valores fijos y la COy
y = O'2In, se obtiene: Tabla 4. L Anlisis de la varianza para el modelo de regresin

COy(~) = [(X'X)lX'] O'2In [(X'X)lX'] '. F. de V. G. de L. SC. CM


Regresin p ~ 'X'Y ~'X'Y
realizando la simplificacin correspondiente
p
COy(~) = O'2(X'X)1 (4.17)
Residual n - p Y'Y -I3'X'Y

Esta ecuacin (4.17) es muy importante, ya que implica que la n-p


varianza de los estimadores en ~ est dada por los elementos de la Total n Y'Y
diagonal de la matriz (X'X)l y cada trmino multiplicado por 0'2 y la
varianza de los elementos del vector ~ que se encuentran fuera de la En el caso de un modelo de regresin polinomial, el investigador
diagonal principal multiplicando por 0'2 son las covarianzas. estara ms interesado en realizar una particin adicional del modelo
de regresin. Supongamos por ejemplo un modelo de una funcin de
regresin polinomial. cuadrtica, en este caso es necesario dividir la
suma de cuadrados de la regresin, en los efectos lineales cuadrticos
Chacn I Anlisis de Regresin y Superficies de Respuesta 81
Chacn I Anlisis de Regresin Y Superficies de Respuesta
80
Sesgo y varianza de los estimadores mnimos cuadrados l}
. X2i . -1

Se revisar brevemente el sesgo y la varianza del estimador del XliXki


., y - X~ + s y al X~i XliX2i 2
vector ~, considerando el modelo d e regresin - ~ = o
X~i ... X2iXk.i
estimador de ~:
X~
~ =(X'X)lX'Y
E(~) =
E{( X'X ).l[X' (X~ + c)1)
= ~ + E[ (X'X ).lX'c]
PRUEBA DE HIPOTESIS
Si la E(ci) = O para 1 = '1, 2, ... , n EN EL MODELO DE REGRESION
E[ (X'X)lX'c] = O

E (~) = ~ Para la realizacin de las pruebas de hiptesis es necesario


establecer los siguientes supuestos:
Esto implica que cada uno de los elementos de ~ son
a.- e - N (O, O'21n)
estimadores insesgados de 13
En el desarrollo del Diseo de Experimentos aplicados a la b.- Los Yi son funciones lineales de los E , de modo que tambin se
Metodologa de Superficies de respuesta es conveni:nte mvestl~ar las distribuyen normalmente.
caractersticas d~ la matriz varianza-covarianza de 13, stas senan: c.- ~- N [~, 0'2 (X'X)-l]
Cov(~) = E(~-~)(~-I3)'
Para este caso, la matriz X tiene rango p, donde p = k+ 1 y k es el
= COy[ (X'X)l X'Y] nmero variables independientes del modelo, el esquema del anlisis
de la varianza sera:
Si se considera que (X'X)lX' contiene slo valores fijos y la COy
y = O'2In, se obtiene: Tabla 4. L Anlisis de la varianza para el modelo de regresin

COy(~) = [(X'X)lX'] O'2In [(X'X)lX'] '. F. de V. G. de L. SC. CM


Regresin p ~ 'X'Y ~'X'Y
realizando la simplificacin correspondiente
p
COy(~) = O'2(X'X)1 (4.17)
Residual n - p Y'Y -I3'X'Y

Esta ecuacin (4.17) es muy importante, ya que implica que la n-p


varianza de los estimadores en ~ est dada por los elementos de la Total n Y'Y
diagonal de la matriz (X'X)l y cada trmino multiplicado por 0'2 y la
varianza de los elementos del vector ~ que se encuentran fuera de la En el caso de un modelo de regresin polinomial, el investigador
diagonal principal multiplicando por 0'2 son las covarianzas. estara ms interesado en realizar una particin adicional del modelo
de regresin. Supongamos por ejemplo un modelo de una funcin de
regresin polinomial. cuadrtica, en este caso es necesario dividir la
suma de cuadrados de la regresin, en los efectos lineales cuadrticos
82 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 83

e interacciones de primer orden de los estimadores de los parmetros y el estimador ~o sera:


13, con el objeto de explorar la significacin de cada uno de los efectos.
n
Para ilustrar los clculos necesarios en la construccin de la
Tabla 4.1 consideremos el siguiente modelo;
Yi
130 =~=y
= 130 + I3lXl + 132M + + I3kM + Ei n

y la siguiente transformacin: para los estimadores ~1' ~2' '~k

1
r
Yi = 130 + I3l(Xli - Xl) + 132~2i - X2) + ... + I3K{Xki - Xk) + Ei l 811 812 Slk ,1 [SIY

lj
822 82k I 82y
donde los Xi son los valores promedios de los Xi en la muestra donde COy ~2
j= 1, 2,..,k. .. II .
Si realizamos la estimacin: l~k
8
kk
J . 8ky

~o 1 n O O
El Anlisis de Varianza con la particin de los grados de libertad
para la regresin sera la siguiente:
131 811 812
Tabla 4.2. Anlisis de Varianza del Modelo de Regresin de primer
COy 132- 822 (4.18) orden
F. deV G.deL. 8C
Regresin debido a Po 1 -2
nY

donde 811 es la suma de cuadrados corregidos de la columna de los Xl Regresin de Xi, X2 ... , Xn k ~1 81y+ ~2 82y +...+ I3k 8kY

n Residual n-k-1 diferencia


811 = (Xu- X)2 '" n
i= Y2
Total n
i=l
La suma de productos entre Xi y Xi, por ejemplo seran para Xi y M
n
Un cuadro similar puede construrse para el easo de la regresin
812 = L(XIi- X)(X2i- X2) polinomial cuadrtica.
i=

Los trminos 8iY seran productos entre los Xi y los Y por


ejemplo, para Xl y Y ESTIMADOR DE cr2
n

8lY = (Xi- X)(Y- Y) Inherente al problema de la regresin, es importante encontrar


i=
el estimador de la varianza del error o residuaL Describiremos este
estimador en base al modelo lineal general de la seccin anterior.
82 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 83

e interacciones de primer orden de los estimadores de los parmetros y el estimador ~o sera:


13, con el objeto de explorar la significacin de cada uno de los efectos.
n
Para ilustrar los clculos necesarios en la construccin de la
Tabla 4.1 consideremos el siguiente modelo;
Yi
130 =~=y
= 130 + I3lXl + 132M + + I3kM + Ei n

y la siguiente transformacin: para los estimadores ~1' ~2' '~k

1
r
Yi = 130 + I3l(Xli - Xl) + 132~2i - X2) + ... + I3K{Xki - Xk) + Ei l 811 812 Slk ,1 [SIY

lj
822 82k I 82y
donde los Xi son los valores promedios de los Xi en la muestra donde COy ~2
j= 1, 2,..,k. .. II .
Si realizamos la estimacin: l~k
8
kk
J . 8ky

~o 1 n O O
El Anlisis de Varianza con la particin de los grados de libertad
para la regresin sera la siguiente:
131 811 812
Tabla 4.2. Anlisis de Varianza del Modelo de Regresin de primer
COy 132- 822 (4.18) orden
F. deV G.deL. 8C
Regresin debido a Po 1 -2
nY

donde 811 es la suma de cuadrados corregidos de la columna de los Xl Regresin de Xi, X2 ... , Xn k ~1 81y+ ~2 82y +...+ I3k 8kY

n Residual n-k-1 diferencia


811 = (Xu- X)2 '" n
i= Y2
Total n
i=l
La suma de productos entre Xi y Xi, por ejemplo seran para Xi y M
n
Un cuadro similar puede construrse para el easo de la regresin
812 = L(XIi- X)(X2i- X2) polinomial cuadrtica.
i=

Los trminos 8iY seran productos entre los Xi y los Y por


ejemplo, para Xl y Y ESTIMADOR DE cr2
n

8lY = (Xi- X)(Y- Y) Inherente al problema de la regresin, es importante encontrar


i=
el estimador de la varianza del error o residuaL Describiremos este
estimador en base al modelo lineal general de la seccin anterior.
Chacn I Anlisisde Regresin y Superficiesde Respuesta 85
84 Chacn I Anlisisde Regresin Y Superficiesde Respuesta
El valor del estadstico F para la prueba de hiptesis sera
SC Residual = Y'Y _ n.'X'Y
r' entonces:

= Y'Y - [(X'X)-lX'Y)' X'Y CM Regresion


Fcalc =
= Y'Y.- Y'X(X'X)-lX'Y CM Residual
= Y' [In - X(X'X)-lX']V
p =k + 1
Se nota que SC Residual es una forma cuadrtica de los y~ k = N de variables Independientes
cuya matriz sera:
Ftab = Fk,n-p
P = 1: - X (X'X)-lX'

Si consideramos el valor esperado de la SC Residual y ANALISIS DE RESIDUALES


sustituimos;
Y = X~ + e
El anlisis presentado en esta parte es muy usado y vlido no
E(Y'PY) = E(e' Pe)
solamente en modelos de Regresin Lineal y No Lineal sino tambin
E(e' Ps) = 0'2 Traza P en modelos de Componentes de Varianza, De hecho este anlisis es
aplicable a cualquier situacin donde un modelo es ajustado a las
la traza de Ip es p, por lo tanto medidas de variacin no explicadas (en forma de conjunto de
- Tr X(X'X)-lX' = Tr X'X(X'X)-l residuales), estn disponibles para examinarlas,
= Tr Ip = P Los residuales se definen como las diferencias ei = Yi - V, i = 1,
2, __o, n, donde Yi es una observacin y Vi' es el correspondiente valor
y resulta traza P = traza (In -X(X'X)-l X')
fijo obtenido por el uso de la ecuacin de regresin ajustadas.
traza P = n- p . Se puede ver de la definicin que los residuales son las
diferencias entre lo que es observado y lo que es predicho por la
E(SC Residual) = 0'2 (n - p) ecuacin de regresin, sto es, la cantidad que la ecuacin de
regresin no explica. Entonces se puede considerar a los ei como los
Si se calcula el cuadrado medio del residual
errores observados, si el modelo es correcto. Ahora, en la ejecucin del
se Residual anlisis de regresin se tienen establecidas ciertas suposiciones acerca
CM Residual = n-p
de los errores; los supuestos usuales son, que los errores son
independientes, tienen media cero, varianza constantes 0'2, y siguen
una distribucin normaL El ltimo supuesto se requiere para hacer la
que es un estimador insesgado de 0'2, prueba F_ Entonces si nuestro modelo estimado es correcto los
residuales exhibirn tendencias que tienden a confirmar los supuestos
que tienen, o al menos no exhibirn una negacin de los supuestos.
Esta ltima idea es la que se tiene en mente cuando examinamos los
residuales.
Chacn I Anlisisde Regresin y Superficiesde Respuesta 85
84 Chacn I Anlisisde Regresin Y Superficiesde Respuesta
El valor del estadstico F para la prueba de hiptesis sera
SC Residual = Y'Y _ n.'X'Y
r' entonces:

= Y'Y - [(X'X)-lX'Y)' X'Y CM Regresion


Fcalc =
= Y'Y.- Y'X(X'X)-lX'Y CM Residual
= Y' [In - X(X'X)-lX']V
p =k + 1
Se nota que SC Residual es una forma cuadrtica de los y~ k = N de variables Independientes
cuya matriz sera:
Ftab = Fk,n-p
P = 1: - X (X'X)-lX'

Si consideramos el valor esperado de la SC Residual y ANALISIS DE RESIDUALES


sustituimos;
Y = X~ + e
El anlisis presentado en esta parte es muy usado y vlido no
E(Y'PY) = E(e' Pe)
solamente en modelos de Regresin Lineal y No Lineal sino tambin
E(e' Ps) = 0'2 Traza P en modelos de Componentes de Varianza, De hecho este anlisis es
aplicable a cualquier situacin donde un modelo es ajustado a las
la traza de Ip es p, por lo tanto medidas de variacin no explicadas (en forma de conjunto de
- Tr X(X'X)-lX' = Tr X'X(X'X)-l residuales), estn disponibles para examinarlas,
= Tr Ip = P Los residuales se definen como las diferencias ei = Yi - V, i = 1,
2, __o, n, donde Yi es una observacin y Vi' es el correspondiente valor
y resulta traza P = traza (In -X(X'X)-l X')
fijo obtenido por el uso de la ecuacin de regresin ajustadas.
traza P = n- p . Se puede ver de la definicin que los residuales son las
diferencias entre lo que es observado y lo que es predicho por la
E(SC Residual) = 0'2 (n - p) ecuacin de regresin, sto es, la cantidad que la ecuacin de
regresin no explica. Entonces se puede considerar a los ei como los
Si se calcula el cuadrado medio del residual
errores observados, si el modelo es correcto. Ahora, en la ejecucin del
se Residual anlisis de regresin se tienen establecidas ciertas suposiciones acerca
CM Residual = n-p
de los errores; los supuestos usuales son, que los errores son
independientes, tienen media cero, varianza constantes 0'2, y siguen
una distribucin normaL El ltimo supuesto se requiere para hacer la
que es un estimador insesgado de 0'2, prueba F_ Entonces si nuestro modelo estimado es correcto los
residuales exhibirn tendencias que tienden a confirmar los supuestos
que tienen, o al menos no exhibirn una negacin de los supuestos.
Esta ltima idea es la que se tiene en mente cuando examinamos los
residuales.
86 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 87
Preguntaramos: Los residuales hacen aparentar que nuestros
supuestos estn equivocados? Despus que hemos revisado los
residuales se puede concluir:
a.- Los supuestos son violados (en una forma que puede ser I I
especificada), o; 10 ~ O 5 10
Figura 4.1.- Diagrama de residuales (Grfica total)
b.- Los supuestos no parecen ser violados.
NOTA: La conclusin b no significa que estamos concluyendo n n
que los supuestos son correctos; sto dice simplemente .que sob~e L(Ej-EY LE;
la base de los datos, se est observando que no se tiene razon Note que: S2
j;l j;l
estima 0-2
para decir que ellos son incorrectos. n-p n-p
La misma situacin ocurre haciendo pruebas de hiptesis Secuencia grfica de tiempo
cuando rechazamos o no rechazamos.
Asumamos que los residuales en el ejemplo anterior ocurrieron
Ahora se explicarn formas para examinar los residua~e~, para en el orden dado y en tiempos igualmente espaciados.
chequear el modelo. Estas formas son todas grficas, son faciles de
realizar y usualmente muy relevantes cuando los supuestos son La grfica sera entonces como la Figura 4.2. En este diagrama
violados. Las principales maneras de graficar los residuales son: obtenemos la impresin de una franja horizontal de residuales los
cuales se pueden representar por la Figura 4.3. Esto es indicativo de
a.- Grfica total.
que el efecto del tiempo no est influyendo los datos.
b.- En secuencia de tiempo, si el orden es conocido
Si en nuestra inspeccin de los residuales apareciera cualquiera
c.- Contra los valores fijados de Y de los presentados en la Figura 4.4 concluiramos como sigue:
d.- Contra las variables independientes Xj para j = 1, 2, ..., k. a.- La varianza no es constante, crece con el tiempo.
Adems de estos grficos bsicos, los residuales tambin son
b.- Un trmino lineal en el tiempo debera ser incluido en el modelo.
graficados en cualquier forma que sea sensible para el problema
particular bajo consideracin. c.- Trminos lineales y cuadrticos en el tiempo deberan ser
incluidos en el modelo.
Ahora se explicar estos grficos con ms detalles, el siguiente
ejemplo simple ser usado para ilustrar el propsito. 10

Ejemplo: un anlisis de regresin proporciona once residuales


1::1, 1::2, 1::3, ... , 1::11 con valores 5, -2, -4, 4, 0, -6, 9, -2, -5, 3, -2. 5

Grfica
O
Cuando los residuales del ejemplo son graficados, se obtiene el 2 3
10 11 12 13
diagrama presentado en la Figura 4.1. Si nuestro modelo ~s c.orre~~o
estos residuales semejarn once observaciones de una distribucin -5
normal con media cero.
-10

Figura 4.2.- Residuales graficados en orden de tiempo


86 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 87
Preguntaramos: Los residuales hacen aparentar que nuestros
supuestos estn equivocados? Despus que hemos revisado los
residuales se puede concluir:
a.- Los supuestos son violados (en una forma que puede ser I I
especificada), o; 10 ~ O 5 10
Figura 4.1.- Diagrama de residuales (Grfica total)
b.- Los supuestos no parecen ser violados.
NOTA: La conclusin b no significa que estamos concluyendo n n
que los supuestos son correctos; sto dice simplemente .que sob~e L(Ej-EY LE;
la base de los datos, se est observando que no se tiene razon Note que: S2
j;l j;l
estima 0-2
para decir que ellos son incorrectos. n-p n-p
La misma situacin ocurre haciendo pruebas de hiptesis Secuencia grfica de tiempo
cuando rechazamos o no rechazamos.
Asumamos que los residuales en el ejemplo anterior ocurrieron
Ahora se explicarn formas para examinar los residua~e~, para en el orden dado y en tiempos igualmente espaciados.
chequear el modelo. Estas formas son todas grficas, son faciles de
realizar y usualmente muy relevantes cuando los supuestos son La grfica sera entonces como la Figura 4.2. En este diagrama
violados. Las principales maneras de graficar los residuales son: obtenemos la impresin de una franja horizontal de residuales los
cuales se pueden representar por la Figura 4.3. Esto es indicativo de
a.- Grfica total.
que el efecto del tiempo no est influyendo los datos.
b.- En secuencia de tiempo, si el orden es conocido
Si en nuestra inspeccin de los residuales apareciera cualquiera
c.- Contra los valores fijados de Y de los presentados en la Figura 4.4 concluiramos como sigue:
d.- Contra las variables independientes Xj para j = 1, 2, ..., k. a.- La varianza no es constante, crece con el tiempo.
Adems de estos grficos bsicos, los residuales tambin son
b.- Un trmino lineal en el tiempo debera ser incluido en el modelo.
graficados en cualquier forma que sea sensible para el problema
particular bajo consideracin. c.- Trminos lineales y cuadrticos en el tiempo deberan ser
incluidos en el modelo.
Ahora se explicar estos grficos con ms detalles, el siguiente
ejemplo simple ser usado para ilustrar el propsito. 10

Ejemplo: un anlisis de regresin proporciona once residuales


1::1, 1::2, 1::3, ... , 1::11 con valores 5, -2, -4, 4, 0, -6, 9, -2, -5, 3, -2. 5

Grfica
O
Cuando los residuales del ejemplo son graficados, se obtiene el 2 3
10 11 12 13
diagrama presentado en la Figura 4.1. Si nuestro modelo ~s c.orre~~o
estos residuales semejarn once observaciones de una distribucin -5
normal con media cero.
-10

Figura 4.2.- Residuales graficados en orden de tiempo


88 Chacn I Anlisis de Regresin Y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 89

Esta se reduce a:


n
(Y- y)=
=1
entonces:
Figura 4.3. Franja de residuales si el modelo fijado es satisfactorio n

n
,,-
"E.
L.J
=1
1
O
L.JE =--=
=1 n
La grfica (Figura 4.1) muestra ligeras irregularidades; stas no
(1)
parecen anormales para una muestra de once observaciones de una
distribucin normal.
Un procedimiento alternativo es construir una grfica media
normal una normal de los residuales sobre papel de probabilidades
(2) estndar. Los puntos caeran aproximadamente sobre una recta.
A

Grficos contra Y
A

(3) Asumimos que los Y correspondientes respectivamente a los i


datos anteriormente dados fueron 44, 8, 10, 62, 22, 48, 56, 30, 24, 16,
34. Por consiguiente se graficara como se muestra en la Figura 4.5.
La banda horiwntal indica regularidad y nuestro anlisis mnimo
Figura 4.4. Ejemplo de residuales cuyos comportamientos son insa- cuadrtico parecera vlido.
tisfactorios 12
10
Con el grfico es posible corroborar lo anteri?r, primero se nota
8
que la media de los residuales es cero, pero este es el caso. de
6
cualquier modelo de regresin con un trmino constante ~o. S1 el
4
modelo ajustado es:
2
10 20 30 40 50 60 70
o~----~----~----~---~--~--~---r-- A
2
Yi
-4
la ecuacin se puede escribir como: -6

8
n
.10
(Y- bo- bX- ...-bkXk) =O .12
:
Figura 4.5. Grfico de residuales contra valores estimados de la
donde la sumatoria se toma sobre i = 1, .., n respuesta
88 Chacn I Anlisis de Regresin Y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 89

Esta se reduce a:


n
(Y- y)=
=1
entonces:
Figura 4.3. Franja de residuales si el modelo fijado es satisfactorio n

n
,,-
"E.
L.J
=1
1
O
L.JE =--=
=1 n
La grfica (Figura 4.1) muestra ligeras irregularidades; stas no
(1)
parecen anormales para una muestra de once observaciones de una
distribucin normal.
Un procedimiento alternativo es construir una grfica media
normal una normal de los residuales sobre papel de probabilidades
(2) estndar. Los puntos caeran aproximadamente sobre una recta.
A

Grficos contra Y
A

(3) Asumimos que los Y correspondientes respectivamente a los i


datos anteriormente dados fueron 44, 8, 10, 62, 22, 48, 56, 30, 24, 16,
34. Por consiguiente se graficara como se muestra en la Figura 4.5.
La banda horiwntal indica regularidad y nuestro anlisis mnimo
Figura 4.4. Ejemplo de residuales cuyos comportamientos son insa- cuadrtico parecera vlido.
tisfactorios 12
10
Con el grfico es posible corroborar lo anteri?r, primero se nota
8
que la media de los residuales es cero, pero este es el caso. de
6
cualquier modelo de regresin con un trmino constante ~o. S1 el
4
modelo ajustado es:
2
10 20 30 40 50 60 70
o~----~----~----~---~--~--~---r-- A
2
Yi
-4
la ecuacin se puede escribir como: -6

8
n
.10
(Y- bo- bX- ...-bkXk) =O .12
:
Figura 4.5. Grfico de residuales contra valores estimados de la
donde la sumatoria se toma sobre i = 1, .., n respuesta
90 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 91
La irregularidad podra indicarse por graficacin de l~ forma
como se muestra en (1), (2), Y (3) en la Figura 4.4. Aqu las grficas
indican:
a.- Varianza no constante: necesidad de mimmos cuadrados
ponderados o una transformacin sobre las observaciones Yi,
antes de hacer un anlisis de regresin.
Esto ser cero solamente cuando el modelo tiene ajuste perfecto.
b.- Error en el anlisis; la particin de la ecuacin de estimacin es De otro modo los residuales graficados contra los Y mostrarn
sistemtica (residuales negativas corresponden a valores bajos pendientes ( 1 - R2).
de los Yr; residuales positivc;>scorresponden a valores altos de las n
Y;).
U.- L(E - e)cY- Y) = LE Y (por similar deduccin).
c.- El modelo inadecuado; necesidad de trminos extras en el =l

modelo o necesidad de una transformacin sobre las


observaciones Y antes del anlisis.
= E' Y
=Y'(l-K)KY
Pregunta: por qu se grafican los residuales E = Y, - Y contra
los Y y no contra los Y, para el modelo lineal usual? (Drapper y ya que Y = Xb = X(X'X)I X'Y = KY
Smith, 1980). A

= Y' (K - K2) Y o como K es idempotente


Respuesta; porque los Ei y los Yi estn usualmente
queda demostrado que -r = O
correlacionados, pero los Y y los Eno lo estn. Una forma de ver sto
es considerar los grficos de Eicomo ordenados contra los Y y los Y; Grficos contra las variables independientes
se encontrar la pendiente de una recta mnima cuadrtica a travs La forma de estos grficos es la misma que los realizados contra
de los puntos. Para (i) ser 1-R2;para (ii) ser cero. O de otro modo se
las Y, excepto que se usa (en vez de los valores de los correspon-
puede simplemente conseguir: (i) EY,(ii) EY como sigue:
dientes Y) los valores de los correspondientes Xji, particularmente
i- L(E - e)(Y - Y) = LE (Y - Y) ya que e = o, XjI, Xj2, ...., Xjn. Nuevamente la impresin completa de una banda
horizontal de residuales se ve como satisfactoria. Las anomalas
ilustradas en la Figura 4.4 indicaran en este caso:
= e. . Yi = E'Y = s's = SCR (suma de cuadrados del residual),
a.- Varianza no constante: necesidad de mnimos cuadrados ponde-
ya que: E'E = Y' (1 - K) Y rados o una transformacin preliminar sobre las Y.
= Y' (I - K) Y Y'E = E'Y b.- Error en los clculos: efectos lineales de Xjno removidos.
donde K = X(X'X)I X' C.- Necesidad de trminos extras: por ejemplo, un trmino cuadr-
tico o una transformacin sobre los Y.
L(E - e)2 = LE2 = s's En problemas de regresin que envuelve dos o tres variables
independientes solamente, es posible trazar un diagrama en un
L (Y - y)2 = SCT (suma de cuadrados total corregida) espacio en dos o tres dimensiones en donde los puntos (datos) ocurren.
En tal caso, los puntos en los que las observaciones fueron tomadas se
pueden trazar y los residuales escritos cercanos a los puntos. Cuando
90 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 91
La irregularidad podra indicarse por graficacin de l~ forma
como se muestra en (1), (2), Y (3) en la Figura 4.4. Aqu las grficas
indican:
a.- Varianza no constante: necesidad de mimmos cuadrados
ponderados o una transformacin sobre las observaciones Yi,
antes de hacer un anlisis de regresin.
Esto ser cero solamente cuando el modelo tiene ajuste perfecto.
b.- Error en el anlisis; la particin de la ecuacin de estimacin es De otro modo los residuales graficados contra los Y mostrarn
sistemtica (residuales negativas corresponden a valores bajos pendientes ( 1 - R2).
de los Yr; residuales positivc;>scorresponden a valores altos de las n
Y;).
U.- L(E - e)cY- Y) = LE Y (por similar deduccin).
c.- El modelo inadecuado; necesidad de trminos extras en el =l

modelo o necesidad de una transformacin sobre las


observaciones Y antes del anlisis.
= E' Y
=Y'(l-K)KY
Pregunta: por qu se grafican los residuales E = Y, - Y contra
los Y y no contra los Y, para el modelo lineal usual? (Drapper y ya que Y = Xb = X(X'X)I X'Y = KY
Smith, 1980). A

= Y' (K - K2) Y o como K es idempotente


Respuesta; porque los Ei y los Yi estn usualmente
queda demostrado que -r = O
correlacionados, pero los Y y los Eno lo estn. Una forma de ver sto
es considerar los grficos de Eicomo ordenados contra los Y y los Y; Grficos contra las variables independientes
se encontrar la pendiente de una recta mnima cuadrtica a travs La forma de estos grficos es la misma que los realizados contra
de los puntos. Para (i) ser 1-R2;para (ii) ser cero. O de otro modo se
las Y, excepto que se usa (en vez de los valores de los correspon-
puede simplemente conseguir: (i) EY,(ii) EY como sigue:
dientes Y) los valores de los correspondientes Xji, particularmente
i- L(E - e)(Y - Y) = LE (Y - Y) ya que e = o, XjI, Xj2, ...., Xjn. Nuevamente la impresin completa de una banda
horizontal de residuales se ve como satisfactoria. Las anomalas
ilustradas en la Figura 4.4 indicaran en este caso:
= e. . Yi = E'Y = s's = SCR (suma de cuadrados del residual),
a.- Varianza no constante: necesidad de mnimos cuadrados ponde-
ya que: E'E = Y' (1 - K) Y rados o una transformacin preliminar sobre las Y.
= Y' (I - K) Y Y'E = E'Y b.- Error en los clculos: efectos lineales de Xjno removidos.
donde K = X(X'X)I X' C.- Necesidad de trminos extras: por ejemplo, un trmino cuadr-
tico o una transformacin sobre los Y.
L(E - e)2 = LE2 = s's En problemas de regresin que envuelve dos o tres variables
independientes solamente, es posible trazar un diagrama en un
L (Y - y)2 = SCT (suma de cuadrados total corregida) espacio en dos o tres dimensiones en donde los puntos (datos) ocurren.
En tal caso, los puntos en los que las observaciones fueron tomadas se
pueden trazar y los residuales escritos cercanos a los puntos. Cuando
92 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 93
sto es posible; es. frecuente proporcionar una buena visin de la sin embargo bsicos y siempre deben desarrollarse en un anlisis
situacin. Si se tienen tres variables, es posible hacer tales diagramas completo.
para un subconjunto de variables siendo sto a veces apropiado. Para
un ejemplo de un grfico bidimensional (Drapper y Smith, 1981).
Otros grficos de residuales AUTOCORRELACION
Los especialistas que conocen de los problemas bajo estudio
frecuentemente sugieren que otros tipos de trazados de grficos de
residuales deben examinarse. Por ejemplo, supongan que conocemos
Definicin
que las once observaciones que .conducen a los once residuales dados
anteriormente vienen de tres variedades llamadas A, B y e as que los
residuales agrupados por variedad seran: Uno de los supuestos en el modelo de regresin es que los
A: -2, -4, -6 trminos de error ei y ej, asociados con la i-sima y j-sima
observacin son no correlacionados. La asociacin en los trminos de
B: -2, -5, -2 error, implica que hay una informacin adicional en los datos la cual
C: 5, 4, O, 9, 3 no ha sido explicada en el modelo general de regresin. Cuando las
La Figura 4.6. muestra un grfico contra variedad. Esto sugiere observaciones tienen un orden secuencial en forma natural, la
que hay un diferencia bsica en el nivel de respuesta y de la variedad correlacin es definida entonces como autocorrelacin.
e, comparada con A y B. Tal diferencia se podra incorporar al modelo Si K = X(X'X)l X' (4.19)
por la introduccin de. una variable "dummy" (falsa).
entonces: V(ei) = (l- K)a2 = M (4.20)
-10 -5 o s 10 Donde V(!::i)es el i-simo elemento de la diagonal de la matriz M
y la eOv(ei, ej) viene dada por ij-simo elemento de la matriz M, donde
i ;t j.
A------------------------------------------------
Cov(e,ej)
Sea: pij
IV(!::) v j ) fn (4.21)

Pj = Correlacin entre el i-simo y j-simo residual.


Si K no es diagonal (K depende de los valores de X), implica que
M no sea diagonal, entonces: Cov (ei,!::j);t O Y pij ;t O, por lo tanto
c---------------------------------------------- habr violacin del supuesto de independencia en el modelo.
Figura 4.6. Grficos de residuales indicando los efectos de bloque no
incorporados en el modelo fijado
En general los residuales se grafican en cualquier forma
razonable, basado en los conocimientos que sobre el problema bajo es-
tudio, tenga el especialista. Los grficos anteriormente descritos son
92 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 93
sto es posible; es. frecuente proporcionar una buena visin de la sin embargo bsicos y siempre deben desarrollarse en un anlisis
situacin. Si se tienen tres variables, es posible hacer tales diagramas completo.
para un subconjunto de variables siendo sto a veces apropiado. Para
un ejemplo de un grfico bidimensional (Drapper y Smith, 1981).
Otros grficos de residuales AUTOCORRELACION
Los especialistas que conocen de los problemas bajo estudio
frecuentemente sugieren que otros tipos de trazados de grficos de
residuales deben examinarse. Por ejemplo, supongan que conocemos
Definicin
que las once observaciones que .conducen a los once residuales dados
anteriormente vienen de tres variedades llamadas A, B y e as que los
residuales agrupados por variedad seran: Uno de los supuestos en el modelo de regresin es que los
A: -2, -4, -6 trminos de error ei y ej, asociados con la i-sima y j-sima
observacin son no correlacionados. La asociacin en los trminos de
B: -2, -5, -2 error, implica que hay una informacin adicional en los datos la cual
C: 5, 4, O, 9, 3 no ha sido explicada en el modelo general de regresin. Cuando las
La Figura 4.6. muestra un grfico contra variedad. Esto sugiere observaciones tienen un orden secuencial en forma natural, la
que hay un diferencia bsica en el nivel de respuesta y de la variedad correlacin es definida entonces como autocorrelacin.
e, comparada con A y B. Tal diferencia se podra incorporar al modelo Si K = X(X'X)l X' (4.19)
por la introduccin de. una variable "dummy" (falsa).
entonces: V(ei) = (l- K)a2 = M (4.20)
-10 -5 o s 10 Donde V(!::i)es el i-simo elemento de la diagonal de la matriz M
y la eOv(ei, ej) viene dada por ij-simo elemento de la matriz M, donde
i ;t j.
A------------------------------------------------
Cov(e,ej)
Sea: pij
IV(!::) v j ) fn (4.21)

Pj = Correlacin entre el i-simo y j-simo residual.


Si K no es diagonal (K depende de los valores de X), implica que
M no sea diagonal, entonces: Cov (ei,!::j);t O Y pij ;t O, por lo tanto
c---------------------------------------------- habr violacin del supuesto de independencia en el modelo.
Figura 4.6. Grficos de residuales indicando los efectos de bloque no
incorporados en el modelo fijado
En general los residuales se grafican en cualquier forma
razonable, basado en los conocimientos que sobre el problema bajo es-
tudio, tenga el especialista. Los grficos anteriormente descritos son
94 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 95

Tipos de autocorrelacin Deteccin de la autocorrelacin

Autocorrelacin pura Drapper y Smith (1981) refieren que se puede usar los siguien-
tes mtodos para la deteccin de autocorrelacin.
a.- Observaciones suceaivas en el tiempo o en el espacio tienden a
tener residuales correlacionados ya que ellas estn afectadas por Mtodo grfico: es sumamente sencillo, y consiste en realizar un
condiciones similares. grfico de Jos residuales ei, contra una unidad de espacio o de tiempo.
La interpretacin de estos grficos es similar a la usada en la
b.- Series grandes de errores positivos o negativos son segui~as por
interpretacin grfica de los coeficientes de correlacin simple (todos
series grandes de errores positivos o negativos ya .qu~ residuales
los tipos de correlacin simple: positiva, negativa, no correlacin, etc.).
adyacentes generalmente presentan dimensiones similares.
Uso de estadsticos: entre los estadsticos usados para detectar
Autocorrelacin operativa
autocorrelacin, se pueden mencionar: la prueba de Durbin-Watson y
a.- Sistematizacin en la obtencin de los datos en la variable la prueba de la corridas o de las rachas.
dependiente en series de tiempo. Prueba de Durbin-Watson
b.- Omisin de una o ms variables en el modelo. Cuando los efectos
de secuencias de las variables claves "perdidas" estn correla- La prueba de Durbin-Watson es la base de muchas pruebas
estadsticas ampliamente utilizadas para detectar auto correlacin en
cionados, los trminos de error en el modelo de regresin
el anlisis de regresin. Se basa en el supuesto de que los errores
tendern a estar correlacionas debido a que stos incluyen efectos
constituyen una serie autoregresiva de primer orden llamada:
de las variables perdidas.
c.- Uso de un modelo lineal en lugar de otro ms apropiado Et = p etl + Vt IP I < 1 (4.22)
(curvilineo, exponencial, etc.).
=
et trmino del error en el modelo Y, = XI3+ et en cada perodo o
Consecuencias de la autocorrelacin desplazamiento t.

Neter y Wasserman (1974), expresan las siguientes conse- VI - N(O;cr;), por lo tanto Y es una variable aleatoria.
cuencias de la correlacin seriada.
a.- Los coeficientes de regresin obtenidos por mnimos cuadrados p = Parmetro de autocorrelacin que mide la asociacin de la
ordinarios aunque siguen siendo insesgados pierden la propiedad observacin previa ( t -1) sobre la actual.
de la varianza mnima y pueden ser bastante ineficientes. 2
av
b.- Los cuadrados medios esperados y.el error estndar pueden estar 2 (4.23)
seriamente subestimando las verdaderas varianzas del error y 1- p
desviacin estndar de regresin, respectivamente.
C.- El coeficiente de determinacin puede resultar sobre-estimado, Cov (et. et+s) = t 1, 2, ..., n (4.24)
dando la impresin aparente de exactitud.
d.- Las pruebas de t, F y los intervalos de confianza no son
estrictamente aplicables. (4.25)
94 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 95

Tipos de autocorrelacin Deteccin de la autocorrelacin

Autocorrelacin pura Drapper y Smith (1981) refieren que se puede usar los siguien-
tes mtodos para la deteccin de autocorrelacin.
a.- Observaciones suceaivas en el tiempo o en el espacio tienden a
tener residuales correlacionados ya que ellas estn afectadas por Mtodo grfico: es sumamente sencillo, y consiste en realizar un
condiciones similares. grfico de Jos residuales ei, contra una unidad de espacio o de tiempo.
La interpretacin de estos grficos es similar a la usada en la
b.- Series grandes de errores positivos o negativos son segui~as por
interpretacin grfica de los coeficientes de correlacin simple (todos
series grandes de errores positivos o negativos ya .qu~ residuales
los tipos de correlacin simple: positiva, negativa, no correlacin, etc.).
adyacentes generalmente presentan dimensiones similares.
Uso de estadsticos: entre los estadsticos usados para detectar
Autocorrelacin operativa
autocorrelacin, se pueden mencionar: la prueba de Durbin-Watson y
a.- Sistematizacin en la obtencin de los datos en la variable la prueba de la corridas o de las rachas.
dependiente en series de tiempo. Prueba de Durbin-Watson
b.- Omisin de una o ms variables en el modelo. Cuando los efectos
de secuencias de las variables claves "perdidas" estn correla- La prueba de Durbin-Watson es la base de muchas pruebas
estadsticas ampliamente utilizadas para detectar auto correlacin en
cionados, los trminos de error en el modelo de regresin
el anlisis de regresin. Se basa en el supuesto de que los errores
tendern a estar correlacionas debido a que stos incluyen efectos
constituyen una serie autoregresiva de primer orden llamada:
de las variables perdidas.
c.- Uso de un modelo lineal en lugar de otro ms apropiado Et = p etl + Vt IP I < 1 (4.22)
(curvilineo, exponencial, etc.).
=
et trmino del error en el modelo Y, = XI3+ et en cada perodo o
Consecuencias de la autocorrelacin desplazamiento t.

Neter y Wasserman (1974), expresan las siguientes conse- VI - N(O;cr;), por lo tanto Y es una variable aleatoria.
cuencias de la correlacin seriada.
a.- Los coeficientes de regresin obtenidos por mnimos cuadrados p = Parmetro de autocorrelacin que mide la asociacin de la
ordinarios aunque siguen siendo insesgados pierden la propiedad observacin previa ( t -1) sobre la actual.
de la varianza mnima y pueden ser bastante ineficientes. 2
av
b.- Los cuadrados medios esperados y.el error estndar pueden estar 2 (4.23)
seriamente subestimando las verdaderas varianzas del error y 1- p
desviacin estndar de regresin, respectivamente.
C.- El coeficiente de determinacin puede resultar sobre-estimado, Cov (et. et+s) = t 1, 2, ..., n (4.24)
dando la impresin aparente de exactitud.
d.- Las pruebas de t, F y los intervalos de confianza no son
estrictamente aplicables. (4.25)
96 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 97

Entonces el parmetro p se estima por la funcin: Decisin


HI: d > du => no se rechaza Hn
dI ~ d s du => no es concluyente
d < di => se rechaza Ho
H2: se sustituye a d por 4-d en la anterior.
H3: d < di o 4 - d < di se rechaza Ho al nivel 2a
La prueba de la hiptesis viene dada por:
d > d, o 4 - d > d, no se rechaza He, de otra manera la prueba
Ho: p = O errores no correlacionados no es concluyente.
Ho: p > O autocorrelacin
El estadstico para la prueba es: Pruebas de las rachas
n
L(e e t - t_)2
Un~ sospecha de presencia de auto correlacin, puede ser la
ocurrencia de grupos negativos o positivos de residuales en secuencia
t=2
d n
(4.26) poco usuales.
Le; La prueba se basa en que pocas corridas implican presencia de
t=2
correl~cin positiva y muchas corridas de correlacin negativas. Para
cuya distribucin depende de la matriz X de dimensin n x p, de rango este tipo de prueba existen tablas estadsticas hasta n corridas
p. (ni + nz =
n =
20). Las hiptesis a probar son:

Una relacin aproximada entre los estadsticos d y p viene Ho: no autocorrelacin de errores
dada por: Ha: autocorrelacin de errores.

d = 2(1 - p) (4.27) Cuando ni > 10 y ns > 10 esto es n > 20, no se necesitan


valores exactos, ya que una aproximacin a la distribucin normal de
La cual muestra que d tiene rango de O a 2, de esta manera si p los datos observados provee una precisin satisfactoria.
es un estimador de p,. est claro que d estar cercano a 2 cuando
p= O, Y cercano a cero cuando p =
1. La cercana del valor d a 2 es 2nn2
-~~+1 (4.28)
una lgica evidencia de que autocorrelacin no est presente en los n+n2
errores. Evidencia de autocorrelacin es indicada por la desviacin de
d, al valor numrico 2.
2nn2(2nn2-nI-n2)
Hiptesis o (4.29)
(n +n2)2 (n +n2 -1)
Ho: p O
HI: p > O 2
11 Y 0 son la media y la varianza de una distribucin discreta de
H2: p < O variable v, que es el nmero de las corridas.
H3: p :1; O
96 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 97

Entonces el parmetro p se estima por la funcin: Decisin


HI: d > du => no se rechaza Hn
dI ~ d s du => no es concluyente
d < di => se rechaza Ho
H2: se sustituye a d por 4-d en la anterior.
H3: d < di o 4 - d < di se rechaza Ho al nivel 2a
La prueba de la hiptesis viene dada por:
d > d, o 4 - d > d, no se rechaza He, de otra manera la prueba
Ho: p = O errores no correlacionados no es concluyente.
Ho: p > O autocorrelacin
El estadstico para la prueba es: Pruebas de las rachas
n
L(e e t - t_)2
Un~ sospecha de presencia de auto correlacin, puede ser la
ocurrencia de grupos negativos o positivos de residuales en secuencia
t=2
d n
(4.26) poco usuales.
Le; La prueba se basa en que pocas corridas implican presencia de
t=2
correl~cin positiva y muchas corridas de correlacin negativas. Para
cuya distribucin depende de la matriz X de dimensin n x p, de rango este tipo de prueba existen tablas estadsticas hasta n corridas
p. (ni + nz =
n =
20). Las hiptesis a probar son:

Una relacin aproximada entre los estadsticos d y p viene Ho: no autocorrelacin de errores
dada por: Ha: autocorrelacin de errores.

d = 2(1 - p) (4.27) Cuando ni > 10 y ns > 10 esto es n > 20, no se necesitan


valores exactos, ya que una aproximacin a la distribucin normal de
La cual muestra que d tiene rango de O a 2, de esta manera si p los datos observados provee una precisin satisfactoria.
es un estimador de p,. est claro que d estar cercano a 2 cuando
p= O, Y cercano a cero cuando p =
1. La cercana del valor d a 2 es 2nn2
-~~+1 (4.28)
una lgica evidencia de que autocorrelacin no est presente en los n+n2
errores. Evidencia de autocorrelacin es indicada por la desviacin de
d, al valor numrico 2.
2nn2(2nn2-nI-n2)
Hiptesis o (4.29)
(n +n2)2 (n +n2 -1)
Ho: p O
HI: p > O 2
11 Y 0 son la media y la varianza de una distribucin discreta de
H2: p < O variable v, que es el nmero de las corridas.
H3: p :1; O
98 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 99

Entonces: Entonces sustituyendo (4.32) en el modelo original se sustrae Yt


de pYt.l y se obtiene:
z= (v- ,.1+112) (4.30)
e Yt - p y t-l = a + I3Xt - np - I3pXt.l + Et - pse.r

es una normal unitaria desviada, donde el trmino 112 es la correccin = a (l-p) + 13 (Xt -pXt-l) + Vt (4.33)
de continuidad, que compensa que una distribucin continua esta
luego:
siendo usada para aproximar a una distribucin discreta en la cola
inferior, y sirve para probar la existencia de correlacin positiva, es
decir, pocas corridas. Para probar correlacin negativa, muchas
y; = a + 13x;+ + Vt (4.34)

corridas, se usa la misma aproximacin pero la correccin de Donde:


continuidad se realiza con -112.
y; = v, pYt-l
Uso de transformaciones para corregir autocorrelacin = Xt pXt-l

Cuando los grficos de residuales o el estadstico de Durbin- a* a(l - p)


Watson indican la presencia de errores correlacionados, la estimacin 13* = 13
de la ecuacin de regresin podra ser calculada tomando en
consideracin el efecto de autocorrelacin. Un mtodo para ajustar el Los trminos del error Vt son no correlacionados y satisfacen los
modelo se logra utilizando una transformacin que involucra el supuestos del modelo lineal general.
conocimiento del parmetro de autocorrelacin p. La introduccin de Cochrane y Orcutt, ha propuesto un procedimiento iterativo de
p, provoca que el modelo sea no lineal, .por lo tanto la aplicacin la siguiente manera:
directa del mtodo de los mnimos cuadrados es imposible. Existen
numerosos procedimientos para evitar la autocorrelacin (Johnston, a.- Calcular los estimadores mnimos cuadrados de a y 13.
1992). Uno de los mtodos es el sealado por Cochrane y Orcutt, el b.- Calcular los residuales y luego estimar el parmetro p mediante
cual es un mtodo de estructura autoregresiva como la sealada en la la expresin:
expresin (4.22):

Et = pse.i + Vt
p
Se puede apreciar que mediante transformaciones del modelo
original:

Yt = a + I3Xt + et (4.31)
c.- Fijar la ecuacin sealada en (4.34), usando las variables
las transformaciones son: (Yt - P ye-i) Y (X, - P Xe.i). Los estimadores de los parmetros en
la ecuacin original son:
Yt - p Yt.l y Xt - pXt.l (4.32)
A a*
a=--
l-p
98 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 99

Entonces: Entonces sustituyendo (4.32) en el modelo original se sustrae Yt


de pYt.l y se obtiene:
z= (v- ,.1+112) (4.30)
e Yt - p y t-l = a + I3Xt - np - I3pXt.l + Et - pse.r

es una normal unitaria desviada, donde el trmino 112 es la correccin = a (l-p) + 13 (Xt -pXt-l) + Vt (4.33)
de continuidad, que compensa que una distribucin continua esta
luego:
siendo usada para aproximar a una distribucin discreta en la cola
inferior, y sirve para probar la existencia de correlacin positiva, es
decir, pocas corridas. Para probar correlacin negativa, muchas
y; = a + 13x;+ + Vt (4.34)

corridas, se usa la misma aproximacin pero la correccin de Donde:


continuidad se realiza con -112.
y; = v, pYt-l
Uso de transformaciones para corregir autocorrelacin = Xt pXt-l

Cuando los grficos de residuales o el estadstico de Durbin- a* a(l - p)


Watson indican la presencia de errores correlacionados, la estimacin 13* = 13
de la ecuacin de regresin podra ser calculada tomando en
consideracin el efecto de autocorrelacin. Un mtodo para ajustar el Los trminos del error Vt son no correlacionados y satisfacen los
modelo se logra utilizando una transformacin que involucra el supuestos del modelo lineal general.
conocimiento del parmetro de autocorrelacin p. La introduccin de Cochrane y Orcutt, ha propuesto un procedimiento iterativo de
p, provoca que el modelo sea no lineal, .por lo tanto la aplicacin la siguiente manera:
directa del mtodo de los mnimos cuadrados es imposible. Existen
numerosos procedimientos para evitar la autocorrelacin (Johnston, a.- Calcular los estimadores mnimos cuadrados de a y 13.
1992). Uno de los mtodos es el sealado por Cochrane y Orcutt, el b.- Calcular los residuales y luego estimar el parmetro p mediante
cual es un mtodo de estructura autoregresiva como la sealada en la la expresin:
expresin (4.22):

Et = pse.i + Vt
p
Se puede apreciar que mediante transformaciones del modelo
original:

Yt = a + I3Xt + et (4.31)
c.- Fijar la ecuacin sealada en (4.34), usando las variables
las transformaciones son: (Yt - P ye-i) Y (X, - P Xe.i). Los estimadores de los parmetros en
la ecuacin original son:
Yt - p Yt.l y Xt - pXt.l (4.32)
A a*
a=--
l-p
Chacn I Anlisis de Regresin y Superficies de Respuesta 101
100 Chacn I Anlisis de Regresin y Superficies de Respuesta

En cuanto a las consecuencias, la presencia de multicolinealidad


d.- Examinar los residuales de la nueva ecuacin ajustada. Si los
tiene efecto potencial sobre los estimadores mnimos cuadrados de los
nuevos residuales son no correlacionados termina el
coeficientes de regresin adems que la estrecha multicolinealidad
procedimiento, de lo contrario es necesario continuar.
resulta en elevadas varianzas y covarianzas de los estimadores
Chatterjee y Price (1977), sugieren que si en la primera mnimos cuadrados.
aplicacin del mtodo de Cochrane y Orcutt no se obtienen residuales
no correlacionados, se deben buscar mtodos alternativos, para
eliminar la autocorrelacin y empleando M.C.O sobre estas variables Cuando se establecen modelos de regresin mltiple es necesario
transformadas puede ajustarse el modelo: detectar su presencia para poder llegar a los correctivos necesarios
para obtener un modelo CDn propiedades adecuadas de los
Yt
,
= ~l~t + !!t estimadores. Debido a que en los diseos de Superficie de Respuesta
~o O las variables son controladas e incluso muchos diseos son
, ortogonales, prcticamente el problema no tiene gran importancia, sin
~l ~~ embargo si el lector requiere abordar el tema puede consultar los
trabajos de Chacn y Meneses (1984), Drapper y Smith, (1981), Neter
y Wasserman (1974).
MULTICOLINEALIDAD

SELECCION DE VARIABLES
Chacn y Meneses (1984), refieren que la interpretacin y el uso EN LA ECUACION DE REGRESION MULTIPLE
de los modelos de regresin mltiple depende implcita o explci-
tamente de las estimaciones de los coeficientes de regresin indivi-
duales. Cuando no existen relaciones lineales entre las variables Esta seccin se desarroll en base a los trabajos de Chacn y
regresoras se dice que hay ortogonalidad. Desafortunadamente en Meneses (1984, 1987), realizados durante el dictado del curso de
muchas aplicaciones del anlisis de regresin, las variables regreso- Anlisis de Regresin.
ras no son ortogonales y aunque algunas veces los problemas de no
ortogonalidad no son graves, en muchos casos las variables regreso- . En muchas aplicaciones del anlisis de regresin el conjunto de
ras se encuentran relacionadas linealmente en forma estrecha y en variables a ser incluidas en el modelo no es preestablecida, y con
tal situacin, inferenciasbasadas en los modelos de regresin pueden frecuencia una de las primeras etapas del anlisis consiste en
estar completamente erradas. La multicolinealidad se refiere seleccionar estas variables. Existen ocasiones, donde consideraciones
especficamente a la interdependencia que existe entre las variables tericas o de cualquier otra naturaleza determinan las variables a ser
regresoras y que tiene efecto directo sobre las estimaciones y varianza incluidas en la ecuacin, en estas situaciones el problema de seleccin
de los parmetros, los autores sealan 4 (cuatro) causas posibles de de variables no se presenta, pero en situaciones donde los aspectos
multicolinealidad las cuales seran: tcnicos no son especficos la seleccin de variables dentro del modelo
de regresin llega a ser muy importante.
a.- El mtodo de recoleccin de datos empleado.
b.- Restriccin en el modelo o en la poblacin.
C.- Definicin del modelo.
d.- Modelos sobre-definidos.
Chacn I Anlisis de Regresin y Superficies de Respuesta 101
100 Chacn I Anlisis de Regresin y Superficies de Respuesta

En cuanto a las consecuencias, la presencia de multicolinealidad


d.- Examinar los residuales de la nueva ecuacin ajustada. Si los
tiene efecto potencial sobre los estimadores mnimos cuadrados de los
nuevos residuales son no correlacionados termina el
coeficientes de regresin adems que la estrecha multicolinealidad
procedimiento, de lo contrario es necesario continuar.
resulta en elevadas varianzas y covarianzas de los estimadores
Chatterjee y Price (1977), sugieren que si en la primera mnimos cuadrados.
aplicacin del mtodo de Cochrane y Orcutt no se obtienen residuales
no correlacionados, se deben buscar mtodos alternativos, para
eliminar la autocorrelacin y empleando M.C.O sobre estas variables Cuando se establecen modelos de regresin mltiple es necesario
transformadas puede ajustarse el modelo: detectar su presencia para poder llegar a los correctivos necesarios
para obtener un modelo CDn propiedades adecuadas de los
Yt
,
= ~l~t + !!t estimadores. Debido a que en los diseos de Superficie de Respuesta
~o O las variables son controladas e incluso muchos diseos son
, ortogonales, prcticamente el problema no tiene gran importancia, sin
~l ~~ embargo si el lector requiere abordar el tema puede consultar los
trabajos de Chacn y Meneses (1984), Drapper y Smith, (1981), Neter
y Wasserman (1974).
MULTICOLINEALIDAD

SELECCION DE VARIABLES
Chacn y Meneses (1984), refieren que la interpretacin y el uso EN LA ECUACION DE REGRESION MULTIPLE
de los modelos de regresin mltiple depende implcita o explci-
tamente de las estimaciones de los coeficientes de regresin indivi-
duales. Cuando no existen relaciones lineales entre las variables Esta seccin se desarroll en base a los trabajos de Chacn y
regresoras se dice que hay ortogonalidad. Desafortunadamente en Meneses (1984, 1987), realizados durante el dictado del curso de
muchas aplicaciones del anlisis de regresin, las variables regreso- Anlisis de Regresin.
ras no son ortogonales y aunque algunas veces los problemas de no
ortogonalidad no son graves, en muchos casos las variables regreso- . En muchas aplicaciones del anlisis de regresin el conjunto de
ras se encuentran relacionadas linealmente en forma estrecha y en variables a ser incluidas en el modelo no es preestablecida, y con
tal situacin, inferenciasbasadas en los modelos de regresin pueden frecuencia una de las primeras etapas del anlisis consiste en
estar completamente erradas. La multicolinealidad se refiere seleccionar estas variables. Existen ocasiones, donde consideraciones
especficamente a la interdependencia que existe entre las variables tericas o de cualquier otra naturaleza determinan las variables a ser
regresoras y que tiene efecto directo sobre las estimaciones y varianza incluidas en la ecuacin, en estas situaciones el problema de seleccin
de los parmetros, los autores sealan 4 (cuatro) causas posibles de de variables no se presenta, pero en situaciones donde los aspectos
multicolinealidad las cuales seran: tcnicos no son especficos la seleccin de variables dentro del modelo
de regresin llega a ser muy importante.
a.- El mtodo de recoleccin de datos empleado.
b.- Restriccin en el modelo o en la poblacin.
C.- Definicin del modelo.
d.- Modelos sobre-definidos.
102 Chacn J Anlisis de Regresin y Superficies de Respuesta Chacn J Anlisis de Regresin y Superficies de Respuesta 103

Luego, en vez de fijar el modelo (4.35), nosotros fijamos el


La seleccin de variables y la especificacin del modelo estn
modelo parcial: -
estrechamente vinculados. Las preguntas a ser respondidas en la
formulacin del modelo de regresin son: Cules variables deberan p
ser incluidas? sto es, deberan ellas entrar en la ecuacin como
variables originales, transformadas o una combinacin de ambas?
Y = ~o + L) X
j=i
j ji +i i 1,2, ..., n (4.36)

Lgicamente se debe determinar primero las variables que deben ser


incluidas en la ecuacin y despus investigar la forma en la cual las En este caso es conveniente examinar los efectos de fijar el
variables entran. Esta aproximacin parece muy sencilla, pero modelo completo o el modelo parcial bajo las dos condiciones descritas
permite enmarcar mejor el problema de la seleccin de variables. anteriormente, adems se debe estudiar el efecto de la eliminacin de
variables sobre los estimadores de los parmetros y sobre los valores
predichos de la variable Y.
Modelo de regresin
La solucin al problema de seleccin de variables se llega a
Si se tiene "k" variables independientes denotadas como Xi, X2, tener con bastante claridad, una vez que los efectos de retener
... Xk y una variable dependiente Y, el modelo lineal que expresa a la variables no esenciales o eliminar variables esenciales en la ecuacin
variable Y en trminos de las "k" variables viene dado por: son conocidos.

k
= Consecuencias de la eliminacin de variables
Yi = ~o + ~)jXj+E i 1,2, ..., n (4.35)
j;"
Sean p~,p~,...,p;, los estimadores de los parmetros de
regresin cuando se fija el modelo completo (4.35) para las variables
donde ~j son los parmetros o coeficientes de regresin
estimados y Si representa los trminos aleatorios del error.
a ser
Xi, M, ... Xk, Y Po,Pl ' ' 'P P' los estimadores de los parmetros
cuando se fija el modelo parcial para Xi, X2, ... Xp (4.36).
En lugar de proceder con el conjunto completo de variables,
particularmente cuando k es un nmero muy alto, se puede eliminar Si definimos las siguientes matrices y vectores
un determinado nmero de variables y construir una ecuacin con un
subconjunto especifico de variables. Se pretende en este punto sealar
algunos aspectos que nos ayuden a determinar cuales variables deben
X01 X ll ",Xp1 ",Xk1
ser retenidas en el modelo de regresin. X02 X12 ..X pl ,,,Xk2
X =
Si denotamos el subconjunto de variables retenido como Xi, X2,
Xp, y las variables eliminadas como Xp+l, Xp+2, ... , Xk, se puede XOn X1n X pn ",Xkn
sustraer el efecto de la eliminacin de variables bajo dos condiciones:

1.- El modelo que relaciona a Y con las variables 4, que contiene


todos los regresores ~ = (Bo, ~l, ... ,~p) diferentes de cero;
2.- El modelo contiene ~o, ~l, ... ,~p diferentes de cero, pero ~p+l, ~p+2
.. , ~k iguales a cero.
102 Chacn J Anlisis de Regresin y Superficies de Respuesta Chacn J Anlisis de Regresin y Superficies de Respuesta 103

Luego, en vez de fijar el modelo (4.35), nosotros fijamos el


La seleccin de variables y la especificacin del modelo estn
modelo parcial: -
estrechamente vinculados. Las preguntas a ser respondidas en la
formulacin del modelo de regresin son: Cules variables deberan p
ser incluidas? sto es, deberan ellas entrar en la ecuacin como
variables originales, transformadas o una combinacin de ambas?
Y = ~o + L) X
j=i
j ji +i i 1,2, ..., n (4.36)

Lgicamente se debe determinar primero las variables que deben ser


incluidas en la ecuacin y despus investigar la forma en la cual las En este caso es conveniente examinar los efectos de fijar el
variables entran. Esta aproximacin parece muy sencilla, pero modelo completo o el modelo parcial bajo las dos condiciones descritas
permite enmarcar mejor el problema de la seleccin de variables. anteriormente, adems se debe estudiar el efecto de la eliminacin de
variables sobre los estimadores de los parmetros y sobre los valores
predichos de la variable Y.
Modelo de regresin
La solucin al problema de seleccin de variables se llega a
Si se tiene "k" variables independientes denotadas como Xi, X2, tener con bastante claridad, una vez que los efectos de retener
... Xk y una variable dependiente Y, el modelo lineal que expresa a la variables no esenciales o eliminar variables esenciales en la ecuacin
variable Y en trminos de las "k" variables viene dado por: son conocidos.

k
= Consecuencias de la eliminacin de variables
Yi = ~o + ~)jXj+E i 1,2, ..., n (4.35)
j;"
Sean p~,p~,...,p;, los estimadores de los parmetros de
regresin cuando se fija el modelo completo (4.35) para las variables
donde ~j son los parmetros o coeficientes de regresin
estimados y Si representa los trminos aleatorios del error.
a ser
Xi, M, ... Xk, Y Po,Pl ' ' 'P P' los estimadores de los parmetros
cuando se fija el modelo parcial para Xi, X2, ... Xp (4.36).
En lugar de proceder con el conjunto completo de variables,
particularmente cuando k es un nmero muy alto, se puede eliminar Si definimos las siguientes matrices y vectores
un determinado nmero de variables y construir una ecuacin con un
subconjunto especifico de variables. Se pretende en este punto sealar
algunos aspectos que nos ayuden a determinar cuales variables deben
X01 X ll ",Xp1 ",Xk1
ser retenidas en el modelo de regresin. X02 X12 ..X pl ,,,Xk2
X =
Si denotamos el subconjunto de variables retenido como Xi, X2,
Xp, y las variables eliminadas como Xp+l, Xp+2, ... , Xk, se puede XOn X1n X pn ",Xkn
sustraer el efecto de la eliminacin de variables bajo dos condiciones:

1.- El modelo que relaciona a Y con las variables 4, que contiene


todos los regresores ~ = (Bo, ~l, ... ,~p) diferentes de cero;
2.- El modelo contiene ~o, ~l, ... ,~p diferentes de cero, pero ~p+l, ~p+2
.. , ~k iguales a cero.
Chacn I Anlisis de Regresin y Superficies de Respuesta 105
104 Chacin I Anlisis de Regresin y Superficies de Respuesta

los estimadores mnimos cuadrados de J3p en el modelo parcial son Bp :


J30
J31 A =(X' p X p )-lX' p y
I-'r
(4.40)
Y1 El
Y2 E2 Sean y : los estimadores de 0"2 obtenidos para las
J3= J3p t=
Y= relaciones (4.37) y (4.38) respectivamente, entonces:
J3p+1
Yn En ~2 Y'Y- p*X'Y
0"* = ----'---- (4.41)
- J
J3k
n-k-1
~I
Y'Y_AI-'pX' P Y
(4.42)
donde Xoi = 1, para todo i = 1,2, ..., n. n-p-1

La matriz X, la cual tiene n filas y (k+1) columnas, es Si se conoce que ~* y O"~ son estimadores insesgados de J3y 0"2,
particionada en dos sub-matrices Xp de dimensin nx(p+ 1) y Xr de
se puede demostrar que:
dimensin (nxr), donde el rango, r. = k-p. El vector (3 es igualmente
particionado en Pp y Pr cuyos componentes son (p+1) Y r (4.43)

respectivamente.
donde:
El modelo lineal completo que contiene las k variables viene
dado por: (4.44)
, Entonces:
y = XI3+ E = Xpl3p + Xrl3r + E (4.37)

(4.45)
donde los Ei IS son los residuales los cuales son independientes, nor-
malmente distribuidos con media cero y varianza 0"2
(4.46)
El modelo lineal que contiene slo p variables y que contiene
p + 1 trminos viene dado por: y el cuadrado medio del error viene dado por:

(4.38) CME ~p) = E(~p - I3p) (Pp - J3p)'


Si se denota a los estimadores mnimos cuadrados de 13 obteni-
dos para el modelo completo en (4.37) como *. P
Hocking (1976), resume las propiedades de los estimadores P* y
=[~;:] =
A

(X'X)l(X'Y) r = variables eliminadas (4.39)


Pp de la siguiente manera:
A
1-' ~
Chacn I Anlisis de Regresin y Superficies de Respuesta 105
104 Chacin I Anlisis de Regresin y Superficies de Respuesta

los estimadores mnimos cuadrados de J3p en el modelo parcial son Bp :


J30
J31 A =(X' p X p )-lX' p y
I-'r
(4.40)
Y1 El
Y2 E2 Sean y : los estimadores de 0"2 obtenidos para las
J3= J3p t=
Y= relaciones (4.37) y (4.38) respectivamente, entonces:
J3p+1
Yn En ~2 Y'Y- p*X'Y
0"* = ----'---- (4.41)
- J
J3k
n-k-1
~I
Y'Y_AI-'pX' P Y
(4.42)
donde Xoi = 1, para todo i = 1,2, ..., n. n-p-1

La matriz X, la cual tiene n filas y (k+1) columnas, es Si se conoce que ~* y O"~ son estimadores insesgados de J3y 0"2,
particionada en dos sub-matrices Xp de dimensin nx(p+ 1) y Xr de
se puede demostrar que:
dimensin (nxr), donde el rango, r. = k-p. El vector (3 es igualmente
particionado en Pp y Pr cuyos componentes son (p+1) Y r (4.43)

respectivamente.
donde:
El modelo lineal completo que contiene las k variables viene
dado por: (4.44)
, Entonces:
y = XI3+ E = Xpl3p + Xrl3r + E (4.37)

(4.45)
donde los Ei IS son los residuales los cuales son independientes, nor-
malmente distribuidos con media cero y varianza 0"2
(4.46)
El modelo lineal que contiene slo p variables y que contiene
p + 1 trminos viene dado por: y el cuadrado medio del error viene dado por:

(4.38) CME ~p) = E(~p - I3p) (Pp - J3p)'


Si se denota a los estimadores mnimos cuadrados de 13 obteni-
dos para el modelo completo en (4.37) como *. P
Hocking (1976), resume las propiedades de los estimadores P* y
=[~;:] =
A

(X'X)l(X'Y) r = variables eliminadas (4.39)


Pp de la siguiente manera:
A
1-' ~
106 ChacnI Anlisisde Regresiny Superficiesde Respuesta
ChacinI Anlisisde Regresiny Superficiesde Respuesta 107
1.- Pp es un estimador sesgado de I3p a menos que I3r = 0, que
X'p Xr = O, lo que significa ortogonalidad entre variables
P* - N [ 13,(X'X)10'2 ]

retenidas y eliminadas. Esta afirmacin se aprecia en las y - N [XI3,0'21]


expresiones (4.43) y (4.44).
entonces:
2.- La matriz v(~:) - v(~p)es positiva semidefinida, sto implica
(n- k-l)CME
que la varianza de los estimadores mnimos cuadrados del 2 - X2(n. k 1) (4.49)
modelo completo es mayor que la varianza de los estimadores O'

mnimos cuadrados del modelo parcial. En otras palabras, la


eliminacin de variables siempre resulta en pequeas
donde CME = cuadrado medio del residual.
modificaciones en las varianzas para los estimadores de los Esta relacin es distribuida segn X2, debido a que la matriz
coeficientes de regresin de las variables retenidas en el modelo. [ 1 - X(X'X)l X'] inwlucrada en la estimacin de 0'2 es una matriz
independiente y de rango n-k - l.
3.- Si la matriz v(~:) - I3rl3~ es positiva semidefinida, luego la
La relacin: X'X)1X') 0'21 (1 - X (X'X)1X') = O
m~triz v(~:)- CME(~p) es positiva semidefinida. Esto significa
A2
demuestra que los estimadores y 0'. son tambin
que los estimadores mnimos cuadrados de los coeficientes de
independientes.
regresin obtenidos para el modelo parcial tienen cuadrados
medios del error (CME), que son ms pequeos que los obtenidos Luego como el cuadrado medio del residual (CME) viene dado
para el modelo completo, cuando las variables eliminadas tienen A2
por 0' .
coeficientes de regresin que son ms pequeos en magnitud que
la desviacin estndar de los estimadores de los coeficientes
(n- k-1)&;
correspondientes. Se concluye que aunque I3p puede ser sesgado 2 - X2(n. k 1)
O'
tiene menor CME que 13'.

4.- a-: es un estimador generalmente sesgado por exceso.


Efectos de la especificacin incorrecta del
Es conveniente aclarar algunos aspectos de orden matemtico modelo sobre la estimacin
dentro del procedimiento seguido:
Para el modelo completo Y = XI3 + E, sealado en (4.37) el
estimador insesgado mnimo cuadrado de 13es = (X'X)lX'Y, el P* . Sea y'el valor predicho correspondiente a una observacin
~~tlcular X' cuando se usa el modelo completo donde X' es un vector
estimador insesgado de la varianza del residual 0'2 es &;. fijo de la matriz X.

1
Entonces:
A2 Y'Y-~*X'Y Y'[I-X(X'Xr x']y
0'. = = (4.47) 1

n-k-l n-k-l y =x 13 (4.,50)


con media:
y V(p *) = (X'X)l 0'2 . (4.48)
(4.51)
106 ChacnI Anlisisde Regresiny Superficiesde Respuesta
ChacinI Anlisisde Regresiny Superficiesde Respuesta 107
1.- Pp es un estimador sesgado de I3p a menos que I3r = 0, que
X'p Xr = O, lo que significa ortogonalidad entre variables
P* - N [ 13,(X'X)10'2 ]

retenidas y eliminadas. Esta afirmacin se aprecia en las y - N [XI3,0'21]


expresiones (4.43) y (4.44).
entonces:
2.- La matriz v(~:) - v(~p)es positiva semidefinida, sto implica
(n- k-l)CME
que la varianza de los estimadores mnimos cuadrados del 2 - X2(n. k 1) (4.49)
modelo completo es mayor que la varianza de los estimadores O'

mnimos cuadrados del modelo parcial. En otras palabras, la


eliminacin de variables siempre resulta en pequeas
donde CME = cuadrado medio del residual.
modificaciones en las varianzas para los estimadores de los Esta relacin es distribuida segn X2, debido a que la matriz
coeficientes de regresin de las variables retenidas en el modelo. [ 1 - X(X'X)l X'] inwlucrada en la estimacin de 0'2 es una matriz
independiente y de rango n-k - l.
3.- Si la matriz v(~:) - I3rl3~ es positiva semidefinida, luego la
La relacin: X'X)1X') 0'21 (1 - X (X'X)1X') = O
m~triz v(~:)- CME(~p) es positiva semidefinida. Esto significa
A2
demuestra que los estimadores y 0'. son tambin
que los estimadores mnimos cuadrados de los coeficientes de
independientes.
regresin obtenidos para el modelo parcial tienen cuadrados
medios del error (CME), que son ms pequeos que los obtenidos Luego como el cuadrado medio del residual (CME) viene dado
para el modelo completo, cuando las variables eliminadas tienen A2
por 0' .
coeficientes de regresin que son ms pequeos en magnitud que
la desviacin estndar de los estimadores de los coeficientes
(n- k-1)&;
correspondientes. Se concluye que aunque I3p puede ser sesgado 2 - X2(n. k 1)
O'
tiene menor CME que 13'.

4.- a-: es un estimador generalmente sesgado por exceso.


Efectos de la especificacin incorrecta del
Es conveniente aclarar algunos aspectos de orden matemtico modelo sobre la estimacin
dentro del procedimiento seguido:
Para el modelo completo Y = XI3 + E, sealado en (4.37) el
estimador insesgado mnimo cuadrado de 13es = (X'X)lX'Y, el P* . Sea y'el valor predicho correspondiente a una observacin
~~tlcular X' cuando se usa el modelo completo donde X' es un vector
estimador insesgado de la varianza del residual 0'2 es &;. fijo de la matriz X.

1
Entonces:
A2 Y'Y-~*X'Y Y'[I-X(X'Xr x']y
0'. = = (4.47) 1

n-k-l n-k-l y =x 13 (4.,50)


con media:
y V(p *) = (X'X)l 0'2 . (4.48)
(4.51)
Chacn I Anlisis de Regresin y Superticies de Respuesta 109
108 Chacn I Anlisis de Regresin y Superticies de Respuesta

3. Si la matri~ V~; ~PrP~ es positiva semidefinida, entonces:


con varianza:
V(y* ~CME(Y).
v(y') = cr2 [1 + X'(X'X)-lX] (4.52)
Consideraciones importantes
Si se utiliza el modelo parcial o reducido, el valor predicho de la 1.- Como las variables eliminadas tienen efectos pequeos, el
A

respuesta Y es: cuadrado medio del error de las estimaciones sesgadas es menor
que la varianza de las estimaciones insesgadas, es decir, la
(4.53) cantidad introducida por el sesgo es menor que la reduccin de la
varianza.
con media: 2.- Existe el riesgo de retener variables no significativas, no
E(Y) :: E(X~ ~p) = X~E~p) necesarias o extraas, es decir, variables con coeficientes cero o
coeficientes menor que su correspondiente error estndar del
E(Y) = X~ (pp + APr) (4.54) modelo completo; cuando sto sucede, hay prdida de precisin en
la estimacin de los coeficientes y la prediccin de respuestas ..

donde: 3.- Los modelos de regresin se utilizan en algunos casos con datos
tomados en el tiempo que tienen generalmente valores extraos o
con varianza: extremos, estos valores generalmente incluyen grandes defectos,
que influyen en la seleccin de variables y conducen a modelos
(4.55) mal especificados con consecuencias ya conocidas (si se ha hecho
un buen estudio de valores atpicos, sto se evita).

El cuadrado medio del error de la prediccin viene dado por: 4.- Tambin es frecuente que las variables ms influyentes o
importantes en la respuesta tengan amplitudes muy pequeas y
CME (Y) = E(Y - y)2 + Sesgo
al- ajustar el modelo por mnimos cuadrados, por lo general son
excluidas. Para solucionar sto, el analista debe tratar de
(4.56) recolectar nuevos datos para la reconstruccin del modelo. El
diseo de experimentos es de gran ayuda en estos casos.
A

Las propiedades de Y* y Y se pueden resumir de la


siguiente manera: USOS DE LA ECUACION DE REGRESION
1. Y es un estimador sesgado de Y a menos que X'pXrPr =0, lo cual
es vlido si el conjunto de variables seleccionadas y las Una ecuacin de regresin puede tener muchos usos, se podran
eliminadas son ortogonales. resumir en los siguientes:

2. v(y*) ~ V(Y) la varianza de la respuesta estimada por el modelo a.- Descripcin y construccin de modelos
completo es mayor o igual a la varianza del modelo parcial o Una ecuacin de regresin puede ser usada para describir
reducido. procesos que forman parte de un sistema complejo e interactuante. El
propsito de la ecuacin puede ser puramente descriptivo a objeto de
Chacn I Anlisis de Regresin y Superticies de Respuesta 109
108 Chacn I Anlisis de Regresin y Superticies de Respuesta

3. Si la matri~ V~; ~PrP~ es positiva semidefinida, entonces:


con varianza:
V(y* ~CME(Y).
v(y') = cr2 [1 + X'(X'X)-lX] (4.52)
Consideraciones importantes
Si se utiliza el modelo parcial o reducido, el valor predicho de la 1.- Como las variables eliminadas tienen efectos pequeos, el
A

respuesta Y es: cuadrado medio del error de las estimaciones sesgadas es menor
que la varianza de las estimaciones insesgadas, es decir, la
(4.53) cantidad introducida por el sesgo es menor que la reduccin de la
varianza.
con media: 2.- Existe el riesgo de retener variables no significativas, no
E(Y) :: E(X~ ~p) = X~E~p) necesarias o extraas, es decir, variables con coeficientes cero o
coeficientes menor que su correspondiente error estndar del
E(Y) = X~ (pp + APr) (4.54) modelo completo; cuando sto sucede, hay prdida de precisin en
la estimacin de los coeficientes y la prediccin de respuestas ..

donde: 3.- Los modelos de regresin se utilizan en algunos casos con datos
tomados en el tiempo que tienen generalmente valores extraos o
con varianza: extremos, estos valores generalmente incluyen grandes defectos,
que influyen en la seleccin de variables y conducen a modelos
(4.55) mal especificados con consecuencias ya conocidas (si se ha hecho
un buen estudio de valores atpicos, sto se evita).

El cuadrado medio del error de la prediccin viene dado por: 4.- Tambin es frecuente que las variables ms influyentes o
importantes en la respuesta tengan amplitudes muy pequeas y
CME (Y) = E(Y - y)2 + Sesgo
al- ajustar el modelo por mnimos cuadrados, por lo general son
excluidas. Para solucionar sto, el analista debe tratar de
(4.56) recolectar nuevos datos para la reconstruccin del modelo. El
diseo de experimentos es de gran ayuda en estos casos.
A

Las propiedades de Y* y Y se pueden resumir de la


siguiente manera: USOS DE LA ECUACION DE REGRESION
1. Y es un estimador sesgado de Y a menos que X'pXrPr =0, lo cual
es vlido si el conjunto de variables seleccionadas y las Una ecuacin de regresin puede tener muchos usos, se podran
eliminadas son ortogonales. resumir en los siguientes:

2. v(y*) ~ V(Y) la varianza de la respuesta estimada por el modelo a.- Descripcin y construccin de modelos
completo es mayor o igual a la varianza del modelo parcial o Una ecuacin de regresin puede ser usada para describir
reducido. procesos que forman parte de un sistema complejo e interactuante. El
propsito de la ecuacin puede ser puramente descriptivo a objeto de
110 Chacn I Anlisisde Regresiny Superficiesde Respuesta
ChacnI Anlisisde Regresiny Superficiesde Respuesta 111
explicar la naturaleza de esta interaccin compleja. En este sen~ido se
CRITERIOS PARA SELECCIONAR
. presentan dos necesidades antagnicas a saber: una es explicar la.
mayor cantidad de variacin como sea posible, sto sugiere la - ECUACIONES DE REGRESION
inclusin de un nmero elevado de variables en el modelo, la otra
posicin es adherirse al principio del menor nmero de varia~le.s, el
cual sugiere que se deben tratar de entender en forma facil la Existen dos pOSICIOnespor parte de los investigadores en
descripcin de los procesos con tan pocas variables como sea posible. relacin al conjunto de variables independientes que deben formar
parte de la ecuacin de regresin, stas son:
En situaciones donde la descripcin es el principal objetivo, se
debe tratar de seleccionar la menor cantidad de variables indepen- 1.- Incl~ el mayor nmero posible de las variables predictoras, que
dientes que expliquen la mayor-cantidad de variacin de la variable contienen la mayor informacin sobre las variables que puedan
dependiente. influenciar la respuesta, a objeto de que los valores ajustados
sean los ms confiables y seguros con fines de prediccin.
b.- Estimacin y prediccin
2.- Incluir en el modelo solamente las variables de mayor relevancia
Las ecuaciones de regresin pueden ser usadas para prediccin,
en el fenmeno bajo estudio, ya que en la mayora de los casos es
por ejemplo, se podra estar interesado en predecir el valor de una
imprctico u oneroso recabar informacin no necesaria y
futura observacin o estimar la respuesta media que se corresponde
procesarla, adems por que la varianza de las predicciones
con una determinada observacin.
aumenta al aumentar el nmero de variables regresoras.
Tanto la prediccin como la estimacin se hacen dentro del
. La posicin conciliadora entre las dos, parece ser la que ha dado
rango o rangos de las variables independientes, presentes en el
meJor~,sresultados y es la que muchos autores han llamado, "la mejor
modelo. Cuando una ecuacin de regresin es usada con estos fines,
ecua~IOnde regresin" o "la ecuacin ms adecuada". A este respecto
las variables se seleccionan bajo el criterio de minimizar el cuadrado
Hocking (1976), seala que cuando se trata de determinar la ecuacin
medio del error de la prediccin.
ms apropiada, basada en un subconjunto de variables, se deben
c.- Control tener en cuenta tres aspectos:

El propsito de construir la ecuacin de regresin podra ser a.- El criterio utilizado para analizar y seleccionar el sub-conjunto.
determinar la magnitud a la cual las variables independientes se debe
b.- La estimacin de los coeficientes de la ecuacin final.
alterar, para obtener un valor especifico de la variable respuesta. En
este punto la ecuacin de regresin es vista como una funcin c.- La tcnica computacional usada en el anlisis de los datos.
respuesta. Para propsito de control, es deseable que los coeficientes
~n la literatura se han propuesto varios criterios para
de regresin de las variables sean medidas en forma bastante
selec~lOnar la mejor ecuacin de regresin, Hocking (1976), seala
precisa, sto es, que los errores estndar de los coeficientes sean una lista bastante extensa de criterios a saber:
pequeos, por lo tanto hay que ser cuidadoso con los mtodos de
estimacin si la multicolinealidad esta presente. 1.- El cuadrado del coeficiente de correlacin mltiple o coeficiente
de determinacin.
Una consideracin importante de hacer notar es que el
propsito para el cual el modelo de regresin fue construido, determi- 2 SCRp
na el criterio que debe ser optimizado en su formulacin; sto supone R =--
p SCT
.que un sub-conjunto de variables puede ser el mejor para un
propsito, pero no necesariamente ser el mejor para otro. El concepto SCR == Suma de cuadrados debida a regresin
del mejor sub-conjunto de variables a ser 'incluidos en una ecuacin
de regresin siempre requiere de un anlisis adicional. SCT == Suma de cuadrados total
110 Chacn I Anlisisde Regresiny Superficiesde Respuesta
ChacnI Anlisisde Regresiny Superficiesde Respuesta 111
explicar la naturaleza de esta interaccin compleja. En este sen~ido se
CRITERIOS PARA SELECCIONAR
. presentan dos necesidades antagnicas a saber: una es explicar la.
mayor cantidad de variacin como sea posible, sto sugiere la - ECUACIONES DE REGRESION
inclusin de un nmero elevado de variables en el modelo, la otra
posicin es adherirse al principio del menor nmero de varia~le.s, el
cual sugiere que se deben tratar de entender en forma facil la Existen dos pOSICIOnespor parte de los investigadores en
descripcin de los procesos con tan pocas variables como sea posible. relacin al conjunto de variables independientes que deben formar
parte de la ecuacin de regresin, stas son:
En situaciones donde la descripcin es el principal objetivo, se
debe tratar de seleccionar la menor cantidad de variables indepen- 1.- Incl~ el mayor nmero posible de las variables predictoras, que
dientes que expliquen la mayor-cantidad de variacin de la variable contienen la mayor informacin sobre las variables que puedan
dependiente. influenciar la respuesta, a objeto de que los valores ajustados
sean los ms confiables y seguros con fines de prediccin.
b.- Estimacin y prediccin
2.- Incluir en el modelo solamente las variables de mayor relevancia
Las ecuaciones de regresin pueden ser usadas para prediccin,
en el fenmeno bajo estudio, ya que en la mayora de los casos es
por ejemplo, se podra estar interesado en predecir el valor de una
imprctico u oneroso recabar informacin no necesaria y
futura observacin o estimar la respuesta media que se corresponde
procesarla, adems por que la varianza de las predicciones
con una determinada observacin.
aumenta al aumentar el nmero de variables regresoras.
Tanto la prediccin como la estimacin se hacen dentro del
. La posicin conciliadora entre las dos, parece ser la que ha dado
rango o rangos de las variables independientes, presentes en el
meJor~,sresultados y es la que muchos autores han llamado, "la mejor
modelo. Cuando una ecuacin de regresin es usada con estos fines,
ecua~IOnde regresin" o "la ecuacin ms adecuada". A este respecto
las variables se seleccionan bajo el criterio de minimizar el cuadrado
Hocking (1976), seala que cuando se trata de determinar la ecuacin
medio del error de la prediccin.
ms apropiada, basada en un subconjunto de variables, se deben
c.- Control tener en cuenta tres aspectos:

El propsito de construir la ecuacin de regresin podra ser a.- El criterio utilizado para analizar y seleccionar el sub-conjunto.
determinar la magnitud a la cual las variables independientes se debe
b.- La estimacin de los coeficientes de la ecuacin final.
alterar, para obtener un valor especifico de la variable respuesta. En
este punto la ecuacin de regresin es vista como una funcin c.- La tcnica computacional usada en el anlisis de los datos.
respuesta. Para propsito de control, es deseable que los coeficientes
~n la literatura se han propuesto varios criterios para
de regresin de las variables sean medidas en forma bastante
selec~lOnar la mejor ecuacin de regresin, Hocking (1976), seala
precisa, sto es, que los errores estndar de los coeficientes sean una lista bastante extensa de criterios a saber:
pequeos, por lo tanto hay que ser cuidadoso con los mtodos de
estimacin si la multicolinealidad esta presente. 1.- El cuadrado del coeficiente de correlacin mltiple o coeficiente
de determinacin.
Una consideracin importante de hacer notar es que el
propsito para el cual el modelo de regresin fue construido, determi- 2 SCRp
na el criterio que debe ser optimizado en su formulacin; sto supone R =--
p SCT
.que un sub-conjunto de variables puede ser el mejor para un
propsito, pero no necesariamente ser el mejor para otro. El concepto SCR == Suma de cuadrados debida a regresin
del mejor sub-conjunto de variables a ser 'incluidos en una ecuacin
de regresin siempre requiere de un anlisis adicional. SCT == Suma de cuadrados total
Chacin / Anlisis de Regresin y Superficies de Respuesta 113
112 Chacin / Anlisis de Regresin y Superficies de Respuesta

12.- Criterios de F parcial y F secuencial.


2.- El coeficiente de determinacin ajustado.
13.- Uso de parmetros infinitos.
2 [(n-1)(1- R~)l
R a)'d = l-
n-p 14.- Suma de mnimos errores absolutos.
15.- Suma de mnimos errores relativos.
3.- El cuadrado medio de residuales (CME).
SCEp Coeficiente de determinacin mltiple R2
CMEp =--
n-p
~ Es probablemente el criterio ms utilizado en la evaluacin de
4.- El cuadrado del error total o estadstico Cp de Mallows. un modelo. R! denota el coeficiente de determinacin mltiple de un
SCEp subconjunto de regresin de trminos, es decir, (p-I variables
Cp = --+(2p-n) regresaras o independientes). Este coeficiente expresado en porcentaje
0'2
lo que indica es la cantidad de variabilidad de la respuesta
5.- Promedio de la varianza de prediccin (Jp). (variabilidad total) que esta explicada por las variables regresoras o
la parte no estadstica del modelo.
= (n+p) CME
n p Si con :No = 1

6.- Promedio del cuadrado medio del error de prediccin (Sp).


CMEp f (Xo, ... , Xp) = es la parte no estocstica del modelo
=
(n- p-l)
7.- Suma de cuadrados de residuales estandarizada (SCE). 2 SCRp SCEp
R=--=1---
p SCT SCT
A puesto que:
donde: Ep = Y - Y y D, es la diagonal de la matriz:
SCEp SCT-SCEp SCRp
1 - SCT = SCT = S~T
11- Xp(X~xprl,Xpl v
Vale la pena definir el trmino utilizado' por algunos y
8.- Suma de cuadrados de prediccin (presas) denominado coeficiente de indeterminacin o cantidad de variabilidad
total no explicada por la regresin:
Press,
2 2 (SCEp) SCEp
9.- Correlaciones parciales. R1 = 1- Rp = 1- 1- SCT = SCT
10.- Estadsticos de Andrews y Pregiben.
El coeficiente de indeterminacin es el complemento del
11.- Suma de mnimos Errores absolutos ponderados. coeficiente de determinacin.
Chacin / Anlisis de Regresin y Superficies de Respuesta 113
112 Chacin / Anlisis de Regresin y Superficies de Respuesta

12.- Criterios de F parcial y F secuencial.


2.- El coeficiente de determinacin ajustado.
13.- Uso de parmetros infinitos.
2 [(n-1)(1- R~)l
R a)'d = l-
n-p 14.- Suma de mnimos errores absolutos.
15.- Suma de mnimos errores relativos.
3.- El cuadrado medio de residuales (CME).
SCEp Coeficiente de determinacin mltiple R2
CMEp =--
n-p
~ Es probablemente el criterio ms utilizado en la evaluacin de
4.- El cuadrado del error total o estadstico Cp de Mallows. un modelo. R! denota el coeficiente de determinacin mltiple de un
SCEp subconjunto de regresin de trminos, es decir, (p-I variables
Cp = --+(2p-n) regresaras o independientes). Este coeficiente expresado en porcentaje
0'2
lo que indica es la cantidad de variabilidad de la respuesta
5.- Promedio de la varianza de prediccin (Jp). (variabilidad total) que esta explicada por las variables regresoras o
la parte no estadstica del modelo.
= (n+p) CME
n p Si con :No = 1

6.- Promedio del cuadrado medio del error de prediccin (Sp).


CMEp f (Xo, ... , Xp) = es la parte no estocstica del modelo
=
(n- p-l)
7.- Suma de cuadrados de residuales estandarizada (SCE). 2 SCRp SCEp
R=--=1---
p SCT SCT
A puesto que:
donde: Ep = Y - Y y D, es la diagonal de la matriz:
SCEp SCT-SCEp SCRp
1 - SCT = SCT = S~T
11- Xp(X~xprl,Xpl v
Vale la pena definir el trmino utilizado' por algunos y
8.- Suma de cuadrados de prediccin (presas) denominado coeficiente de indeterminacin o cantidad de variabilidad
total no explicada por la regresin:
Press,
2 2 (SCEp) SCEp
9.- Correlaciones parciales. R1 = 1- Rp = 1- 1- SCT = SCT
10.- Estadsticos de Andrews y Pregiben.
El coeficiente de indeterminacin es el complemento del
11.- Suma de mnimos Errores absolutos ponderados. coeficiente de determinacin.
114 Chacin I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 115

EXisten [ k ] valores de Rp, para cada valor de p, es decir uno Desventajas del jP
p-l .
para cada posible sub-modelo de tamao p, donde k el nmero de 1.- El criterio de iP podra eliminar variables esenciales en la
respuesta.
variables regresoras en el modelo completo.
Por lo tanto para cada subconjunto de tamao p, habr un 2.- La inspeccin cualitativa de R2depende de la escala.
mximo R2.p Tambin R2p aumentar en la medida que aumente p, y -2 .
3.- . R prOp~rCl?~a una informacin de conjunto, y no sobre los
=
ser mximo para p k + 1 (mximo absoluto), es decir, si se refiere aportes individuales de las variables regresoras.
al ptimo R p2 como el ms grande, siempre se obtendr con el modelo
. El decrecimiento en un momento dado al agregar variables,
completo. Pero ese R 2p no amerta seleccin, interesa es una especie de
pu~era ser que esas t variables agregadas son malas regresaras y ya
mximo relativo, es decir, un mximo R~ que no difiera estan representadas por otras, debido a su alta correlacin.
significativamente del R~ del modelo completo y sto podra ser a Su explicacin matemtica sera:
juicio del investigador.

Generalmente para seleccionar el R~ se grfica R~ contra p, R2_-1- (n-1JSCE


----
n-p SCT
esto permite observar que a partir de un cierto nmero de trminos,
prcticamente se estabiliza la curva, en el sentido de que su La SCT permanece constante, (n-1) tambin pero n-p se
crecimiento es leve, este R~ correspondiente a esas p variables podra transfo~a en n-p-t. ?omo n-p > n-p-t, la SCE disminuye poco pero
ser el aceptable, siempre que no difiera significativamente del R~+l el denom~ador dismmuye con mayor decremento, por lo tanto si se
llama SCE = SCE(n. p. t) y SCE = SCEp.
del modelo completo.
Si sucede que:
Coeficiente de determinacin mltiple ajustado
SCE SCE'
--<
Para evitar las dificultades de la interpretacin de R2, algunos n-p n-p-t
prefieren usar el estadstico:
2 ,-2
Raid O Rp llamado R2 ajustado
n-1 SCE n-1 SCE'
<-----
Rp
2
=1-l--( n-l}
n-p l-R
2)
p
n-pSCT n-p-tSCT

que es un coeficiente de determinacin ponderado por los grados de n-1 SCE n-1 SCE'
libertad del modelo. 1----->1
n-p SCT n-p-t SCT
El R~ no necesariamente se incrementa al adicionar variables al
modelo, llega a un valor mximo y luego empieza descender, en ese Se conoce que:
valor mximo tenemos el modelo adecuado.
n-1 SCE' -2
1 - =R
n-p-t SCT p+t
114 Chacin I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 115

EXisten [ k ] valores de Rp, para cada valor de p, es decir uno Desventajas del jP
p-l .
para cada posible sub-modelo de tamao p, donde k el nmero de 1.- El criterio de iP podra eliminar variables esenciales en la
respuesta.
variables regresoras en el modelo completo.
Por lo tanto para cada subconjunto de tamao p, habr un 2.- La inspeccin cualitativa de R2depende de la escala.
mximo R2.p Tambin R2p aumentar en la medida que aumente p, y -2 .
3.- . R prOp~rCl?~a una informacin de conjunto, y no sobre los
=
ser mximo para p k + 1 (mximo absoluto), es decir, si se refiere aportes individuales de las variables regresoras.
al ptimo R p2 como el ms grande, siempre se obtendr con el modelo
. El decrecimiento en un momento dado al agregar variables,
completo. Pero ese R 2p no amerta seleccin, interesa es una especie de
pu~era ser que esas t variables agregadas son malas regresaras y ya
mximo relativo, es decir, un mximo R~ que no difiera estan representadas por otras, debido a su alta correlacin.
significativamente del R~ del modelo completo y sto podra ser a Su explicacin matemtica sera:
juicio del investigador.

Generalmente para seleccionar el R~ se grfica R~ contra p, R2_-1- (n-1JSCE


----
n-p SCT
esto permite observar que a partir de un cierto nmero de trminos,
prcticamente se estabiliza la curva, en el sentido de que su La SCT permanece constante, (n-1) tambin pero n-p se
crecimiento es leve, este R~ correspondiente a esas p variables podra transfo~a en n-p-t. ?omo n-p > n-p-t, la SCE disminuye poco pero
ser el aceptable, siempre que no difiera significativamente del R~+l el denom~ador dismmuye con mayor decremento, por lo tanto si se
llama SCE = SCE(n. p. t) y SCE = SCEp.
del modelo completo.
Si sucede que:
Coeficiente de determinacin mltiple ajustado
SCE SCE'
--<
Para evitar las dificultades de la interpretacin de R2, algunos n-p n-p-t
prefieren usar el estadstico:
2 ,-2
Raid O Rp llamado R2 ajustado
n-1 SCE n-1 SCE'
<-----
Rp
2
=1-l--( n-l}
n-p l-R
2)
p
n-pSCT n-p-tSCT

que es un coeficiente de determinacin ponderado por los grados de n-1 SCE n-1 SCE'
libertad del modelo. 1----->1
n-p SCT n-p-t SCT
El R~ no necesariamente se incrementa al adicionar variables al
modelo, llega a un valor mximo y luego empieza descender, en ese Se conoce que:
valor mximo tenemos el modelo adecuado.
n-1 SCE' -2
1 - =R
n-p-t SCT p+t
116 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 117

y adems: Se puede demostrar que al aumentar p decrece CME, pero en un


1 _ n-1 SCE = iP momento dado pudiera crecer al aumentar p (el nmero de
por ende parmetros), y por ende, al aumentar el nmero de variables. Eso
n-pSCT p
puede suceder por adicionar variables que son malas regresoras que
observemos adems que: incrementan muy poco la suma de cuadrados de regresin, ya que:

SCRp+t
-2R =1- [n-11)SCE.
-- --=1- [n-1lJ
-- 1-R 2) CMRp+t =
p n-p SCT n-p p+t

SCE 2 al aadir t variables regresoras adicionales, el aumento en la suma de


ya que: --=l-R cuadrados de regresin no compensa el aumento en el denominador,
SCT
entonces:

Cuadrado medio de residuales: CMEp


CMRp = SCRp > SCRp+t = CMR
p p+ t p-st

Si el nmero de parmetros en el modelo ajustado es p,


entonces: esto hace que la variabilidad explicada por la regresin sea menor, y
por lo tanto aumenta la variabilidad no explicada, que sera el
SCEp cuadrado medio de los residuales (CME).
CMEp =
n-p Tambin se puede explicar ese aumento, no slo desde el punto
cuyo comportamiento se puede estudiar de manera grfica, al graficar de vista SCRp y SCR(p+t).Al adicionar variables disminuyen los
CMEp contra p (Figura 4.7). G. de L. del error y aumenta SCE, es decir, SCEp < SCE(p+t),pero la
disminucin de G. de L. en el denominador no compensa lo que
disminuye SCEp, por lo tanto:
SCEp < SCE(p+t)
SCEp SCEp+t
CMEp = --< =CMEp+t
n-p n-p-t
Este criterio de seleccin del modelo puede ser manejado de la
siguiente forma, se debe usar:
a.- El mnimo CME(p).
b.- El valor de p en el que CMR(p)es aproximadamente igual a CMR
para el modelo completo.
--- -- C.- Un valor de p cerca del punto donde el valor ms pequeo CME(p)
vuelve acrecer.

Figura 4.7. Grfico de CMEp contra el nmero de parmetros en el


modelo fijado
116 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 117

y adems: Se puede demostrar que al aumentar p decrece CME, pero en un


1 _ n-1 SCE = iP momento dado pudiera crecer al aumentar p (el nmero de
por ende parmetros), y por ende, al aumentar el nmero de variables. Eso
n-pSCT p
puede suceder por adicionar variables que son malas regresoras que
observemos adems que: incrementan muy poco la suma de cuadrados de regresin, ya que:

SCRp+t
-2R =1- [n-11)SCE.
-- --=1- [n-1lJ
-- 1-R 2) CMRp+t =
p n-p SCT n-p p+t

SCE 2 al aadir t variables regresoras adicionales, el aumento en la suma de


ya que: --=l-R cuadrados de regresin no compensa el aumento en el denominador,
SCT
entonces:

Cuadrado medio de residuales: CMEp


CMRp = SCRp > SCRp+t = CMR
p p+ t p-st

Si el nmero de parmetros en el modelo ajustado es p,


entonces: esto hace que la variabilidad explicada por la regresin sea menor, y
por lo tanto aumenta la variabilidad no explicada, que sera el
SCEp cuadrado medio de los residuales (CME).
CMEp =
n-p Tambin se puede explicar ese aumento, no slo desde el punto
cuyo comportamiento se puede estudiar de manera grfica, al graficar de vista SCRp y SCR(p+t).Al adicionar variables disminuyen los
CMEp contra p (Figura 4.7). G. de L. del error y aumenta SCE, es decir, SCEp < SCE(p+t),pero la
disminucin de G. de L. en el denominador no compensa lo que
disminuye SCEp, por lo tanto:
SCEp < SCE(p+t)
SCEp SCEp+t
CMEp = --< =CMEp+t
n-p n-p-t
Este criterio de seleccin del modelo puede ser manejado de la
siguiente forma, se debe usar:
a.- El mnimo CME(p).
b.- El valor de p en el que CMR(p)es aproximadamente igual a CMR
para el modelo completo.
--- -- C.- Un valor de p cerca del punto donde el valor ms pequeo CME(p)
vuelve acrecer.

Figura 4.7. Grfico de CMEp contra el nmero de parmetros en el


modelo fijado
Chacn I Anlisis de Regresin y Superficies de Respuesta 119
118 Chacn I Anlisis de Regresin y Superficies de Respuesta

2 SCEp
El subconjunto del modelo que minimiza CME(P) tambin har y R =1--- del modelo con p variables (4.58)
p - SCT
mximo R~
Donde SCT = Suma de cuadrados total
R2 =1- n-1(1_R2)
p n-p p SCEp
iP =1 _ n-p =1 _ n-1 SCEp (4.59)
-2 n-1 SCEp p SCT n-p SCT
R =1----
p n-p SCT n-1

-2 n-l SCEp y R2 =1 _ SCE (4.60)


R =1 --_.!- SCT
,P SCT n-p del modelo completo' con las k variables y k + 1 parmetros. La
relacin de Cp y R~ se puede obtener de la siguiente manera:
-2 n-1
R =1--CME
p SCT p de (4.58) tenemos: SCEp = (1-R!) SCT (4.61)
El criterio del mnimo CME(p)y mximo R~son equivalentes. de (4.60) SCE = (1-R2) SCT (4.62)
El grfico del CME contra p, cuando el nmero de observaciones
es grande nos da una buena informacin en el estudio para la 2 SCE 2
1_R2
y S ~ S = SCT (4.63)
seleccin de un modelo adecuado. Cuando el ajuste de la ecuacin de n-k-1 n-k-1
regresin implica ms' variables regresoras de las que son necesarias
para ajustar los datos, el modelo es llamado sobre-definido, cuando SCEp
esto sucede al incrementar variables, el cuadrado medio del residual como --2 - + 2p- n sustituyendo:
s
tiende a estabilizarse en un valor muy prximo al valor verdadero de
cr2 o sea un buen estimador de la varianza. Esto permite ver cuando
(1- R~)SCT
todas las variables importantes han sido incluidas en el modelo. 2 + 2p- n
1-R SCT
Uso del estadstico Cp de Mallows n-k-1

Se puede referir, tal como lo hemos expresado, que los (4.64)


subconjuntos de un modelo completo producen la mayora de las
veces, estimaciones sesgadas de los coeficientes de la ecuacin. Para
cuantficar este sesgamiento, el Cp es un estadstico que proporciona
un criterio importante, utiliza el cuadrado medio del error de la
respuesta predicha o estimada. Este estadstico esta ntimamente
relacionado con los estadsticos R~ y R~ ya que la frmula del
estadstico Cp, viene dada, por:
SCE
e p
=--p
S2
+2p-n (4.57)
Chacn I Anlisis de Regresin y Superficies de Respuesta 119
118 Chacn I Anlisis de Regresin y Superficies de Respuesta

2 SCEp
El subconjunto del modelo que minimiza CME(P) tambin har y R =1--- del modelo con p variables (4.58)
p - SCT
mximo R~
Donde SCT = Suma de cuadrados total
R2 =1- n-1(1_R2)
p n-p p SCEp
iP =1 _ n-p =1 _ n-1 SCEp (4.59)
-2 n-1 SCEp p SCT n-p SCT
R =1----
p n-p SCT n-1

-2 n-l SCEp y R2 =1 _ SCE (4.60)


R =1 --_.!- SCT
,P SCT n-p del modelo completo' con las k variables y k + 1 parmetros. La
relacin de Cp y R~ se puede obtener de la siguiente manera:
-2 n-1
R =1--CME
p SCT p de (4.58) tenemos: SCEp = (1-R!) SCT (4.61)
El criterio del mnimo CME(p)y mximo R~son equivalentes. de (4.60) SCE = (1-R2) SCT (4.62)
El grfico del CME contra p, cuando el nmero de observaciones
es grande nos da una buena informacin en el estudio para la 2 SCE 2
1_R2
y S ~ S = SCT (4.63)
seleccin de un modelo adecuado. Cuando el ajuste de la ecuacin de n-k-1 n-k-1
regresin implica ms' variables regresoras de las que son necesarias
para ajustar los datos, el modelo es llamado sobre-definido, cuando SCEp
esto sucede al incrementar variables, el cuadrado medio del residual como --2 - + 2p- n sustituyendo:
s
tiende a estabilizarse en un valor muy prximo al valor verdadero de
cr2 o sea un buen estimador de la varianza. Esto permite ver cuando
(1- R~)SCT
todas las variables importantes han sido incluidas en el modelo. 2 + 2p- n
1-R SCT
Uso del estadstico Cp de Mallows n-k-1

Se puede referir, tal como lo hemos expresado, que los (4.64)


subconjuntos de un modelo completo producen la mayora de las
veces, estimaciones sesgadas de los coeficientes de la ecuacin. Para
cuantficar este sesgamiento, el Cp es un estadstico que proporciona
un criterio importante, utiliza el cuadrado medio del error de la
respuesta predicha o estimada. Este estadstico esta ntimamente
relacionado con los estadsticos R~ y R~ ya que la frmula del
estadstico Cp, viene dada, por:
SCE
e p
=--p
S2
+2p-n (4.57)
120 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 121

La relacin de Cp con R~ viene dada por: El error cuadrtico medio total de la respuesta predicha para el
modelo de los p-trminos.
n
ICMEC'Yi*) I {[E(Yt ~E(YJ]2 +var(Yi*)}
i=l i=l

(1- R2) n-1 = 1- IP


\ P n- p P
ICME(Yi*) = I[E(Yt ~E(YJ]2 +IVar(Yi *)
ie I ie I i=l
(1- R2) = 71_ R2) (n- p)
\, p \ p (n-1)
n
I CME(Yi*) = SCs + SVRp
i=l
Sustituyendo en (4.64):
donde:
(n- k-1)(n- p) -2 SCs = Suma de Cuadrados del sesgo.
-'----(-n--:.....:,l)----=:....:..(1 - Rp)
C = + 2p-n SVRp = Sumatoria de la Varianzas de los i*
p (1- R2)
Si se estandariza esta sumatoria para hacerla independiente de
las unidades originales obtenemos <pp.
- C = (n-k-1)(n-p)[1-R;]+2 -n
p (n-1) 1 - R2 P

Para deducir algunas propiedades del Cp; primero partimos del


Cuadrado Medio del Error de prediccin; CME( iJ 1
-2 L.,.Var (A*)
~ Yi
1
-2 (SCs + SVRp) (4.65)
(J i=l (J

pero -21 ~
~Var (Av,*) =p (4.66)
(J ie I

Es decir el Cuadrado Medio del Error para la i-sima respuesta. lo cual es fcilmente demostrable (para un modelo con p trminos), de
la siguiente manera: Sea el modelo:
E(Y) es la esperanza de la respuesta debido al verdadero modelo
de regresin. y = ~o + ~lXli + .... + ~p. 1X(p - 1) i +

E (in es la esperanza de la respuesta del subconjunto del


modelo completo, este subconjunto tiene p-trminos.
120 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 121

La relacin de Cp con R~ viene dada por: El error cuadrtico medio total de la respuesta predicha para el
modelo de los p-trminos.
n
ICMEC'Yi*) I {[E(Yt ~E(YJ]2 +var(Yi*)}
i=l i=l

(1- R2) n-1 = 1- IP


\ P n- p P
ICME(Yi*) = I[E(Yt ~E(YJ]2 +IVar(Yi *)
ie I ie I i=l
(1- R2) = 71_ R2) (n- p)
\, p \ p (n-1)
n
I CME(Yi*) = SCs + SVRp
i=l
Sustituyendo en (4.64):
donde:
(n- k-1)(n- p) -2 SCs = Suma de Cuadrados del sesgo.
-'----(-n--:.....:,l)----=:....:..(1 - Rp)
C = + 2p-n SVRp = Sumatoria de la Varianzas de los i*
p (1- R2)
Si se estandariza esta sumatoria para hacerla independiente de
las unidades originales obtenemos <pp.
- C = (n-k-1)(n-p)[1-R;]+2 -n
p (n-1) 1 - R2 P

Para deducir algunas propiedades del Cp; primero partimos del


Cuadrado Medio del Error de prediccin; CME( iJ 1
-2 L.,.Var (A*)
~ Yi
1
-2 (SCs + SVRp) (4.65)
(J i=l (J

pero -21 ~
~Var (Av,*) =p (4.66)
(J ie I

Es decir el Cuadrado Medio del Error para la i-sima respuesta. lo cual es fcilmente demostrable (para un modelo con p trminos), de
la siguiente manera: Sea el modelo:
E(Y) es la esperanza de la respuesta debido al verdadero modelo
de regresin. y = ~o + ~lXli + .... + ~p. 1X(p - 1) i +

E (in es la esperanza de la respuesta del subconjunto del


modelo completo, este subconjunto tiene p-trminos.
122 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 123

Tambin se puede expresar: ,;.2 _


E(Y'TY) = E[ (n - p) a;] v* - estimador sesgado.
yt = y + b1(Xli - )(1)+ 000 + bp_1 (X(p_l)i - )(P-l)

E(Y'TY) (n - p) cr2 + SCs donde T = I-Xp (X'X)lXp y p es el


nmero de parmetros en el
modelo reducido.

E(SCEp) = SCs + (n - p)crz

Introduciendo la sumatoria: SCs = E(SCEp) - (n - p)crz (4.67)

Sustituyendo en (4.65), las ecuaciones (4.66) y (4.67):

1 [ E(SCEp)-(n-p)cr
<Pp=-2 2
+po 2 ]
o
o2 + ... +cr 2
LV arY.
n

i=L
- ( A* )
1
= e
2
+<l
(p-l)veces
t>
1 2p-n 2
<Pp=-2 E(SCEp)+--z-cr (4.68)
cr cr
t Var(yt)
i=l
= p cr
2

Tambin:
Si &:del modelo completo es un buen estimador de cr2 en el
modelo completo y se sustituye por su valor observado SCE(p) se
SCE =Y'MY para el modelo completo obtiene un buen estimador de <ppdenotado por Cp.

E(Y'MY) = (n - s )cr2 Teorema de formas cuadrticas SCEp


con M = I-X'(X'X)lX simtrica de
Cp = -A-Z - + 2p - n (4.69)
cr*
rango n-s donde s = k+ 1 nmero de
parmetros en el modelo completo.
122 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 123

Tambin se puede expresar: ,;.2 _


E(Y'TY) = E[ (n - p) a;] v* - estimador sesgado.
yt = y + b1(Xli - )(1)+ 000 + bp_1 (X(p_l)i - )(P-l)

E(Y'TY) (n - p) cr2 + SCs donde T = I-Xp (X'X)lXp y p es el


nmero de parmetros en el
modelo reducido.

E(SCEp) = SCs + (n - p)crz

Introduciendo la sumatoria: SCs = E(SCEp) - (n - p)crz (4.67)

Sustituyendo en (4.65), las ecuaciones (4.66) y (4.67):

1 [ E(SCEp)-(n-p)cr
<Pp=-2 2
+po 2 ]
o
o2 + ... +cr 2
LV arY.
n

i=L
- ( A* )
1
= e
2
+<l
(p-l)veces
t>
1 2p-n 2
<Pp=-2 E(SCEp)+--z-cr (4.68)
cr cr
t Var(yt)
i=l
= p cr
2

Tambin:
Si &:del modelo completo es un buen estimador de cr2 en el
modelo completo y se sustituye por su valor observado SCE(p) se
SCE =Y'MY para el modelo completo obtiene un buen estimador de <ppdenotado por Cp.

E(Y'MY) = (n - s )cr2 Teorema de formas cuadrticas SCEp


con M = I-X'(X'X)lX simtrica de
Cp = -A-Z - + 2p - n (4.69)
cr*
rango n-s donde s = k+ 1 nmero de
parmetros en el modelo completo.
Chacn J Anlisis de Regresin y Superficies de Respuesta 125
124 Chacn J Anlisis de Regresin y Superficies de Respuesta

Es conveniente referir que cuando el sesgo tiende a cero o es utilizando p =. k + 1, sto es 1;)1 modelo completo, en la mayora de las
A2 .
despreciable se tendr: veces. Al asumir el e del modelo completo como estimador pueden
haber variables malas predictoras (con coeficientes de regresin
E(SCEp) = (n-p)a2 y como E(&:) = aZ estimado cero o coeficientes menores que su desviacin estndar), lo
cual consecuentemente produce una sobre-estimacin de a2 y por lo
tanto valores de Cp pequeos. Algunos sugieren utilizar dos puntos
(n- p)crz + 2p-n (4.70)
E(Cp/sesgo = O) = del espacio dimensional (k + 1) cercanos para estimar a2
aZ
El Cpes un estimador que mide la eficiencia de las variables, en
E(Cp/sesgo = O) = P 'P~
(4.71) trminos de la suma de cuadrados medios de residual estandarizado
de la prediccin o error total.
Las desviaciones de Cp con respecto a p, se pueden tomar como
Si se expresa (4.69) de la siguiente forma: una medida de sesgo.
Para la escogencia de un modelo adecuado con el criterio de Cp
Cp = :z(SCEp).(n-p)+p
solo, no es muy evidente o claro, se puede dejar a criterio y escoger
a.
entre las siguientes alternativas:
1.- Una ecuacin sesgada que no representa exactamente los datos
porque tiene un cuadrado medio del residual grande pero tiene
[(SCE,) 1
n-p
un estimador pequeo de Cp. Esto es, la discrepancia del error
. total de la respuesta predicha con respecto al verdadero modelo
Cp = (n-p) AZ -11+ P (4.72) que no se conoce, es pequeo.
L a. J 2.- Tambin una ecuacin con ms parmetros (por consiguiente
ms variables), que ajuste mejor los datos, pero con una
discrepancia total mayor, es decir, un Cpmayor.
De las expresiones (4.71) y (4.72) E(Cp/sesgo = O) = p, el sesgo
cero es casi ideal, entonces lo que necesita es un modelo adecuado y
sto se cumplir segn este criterio (Cs), en la. medida que la fraccin
del primer trmino de (4.72) se acerque a cero, de lo contrario (n - p ) METODOS DE SELECCION DE VARIABLES
que es el factor del trmino aumentar Cp Cuando muchas variables
estn presentes se recomienda el uso del Cp como criterio de seleccin.
No existe un solo procedimiento para obtener las mejores
Interpretacin grfica del Cp
variables regresoras, y en consecuencia la mejor ecuacin o el mejor
Cuando se usa el criterio de Cp, es conveniente graficar a Cp subconjunto del modelo completo; por ejemplo, conocer la verdadera
contra p, donde p representa cada subconjunto del modelo completo. varianza a2, facilitara la obtencin de la mejor ecuacin de regresin,
Los modelos con sesgo pequeo tienen valores de Cp cercanos a pero esta situacin muy raras veces se presenta.
p, que caen de la lnea recta Cp =
p, mientras que los modelos con Algunos autores sugieren no hablar del mejor subconjunto del
sesgo severo o alto, el Cp se ubica encima de la recta. modelo de regresin en sentido absoluto, ya que ste depende del
objetivo que se persiga con el modelo; adems existen gran cantidad
El problema que se presenta en la utilizacin delC, es que su
clculo requiere de un buen estimador de a2, y slo se consigue de mtodos de seleccin que se aplican usualmente y que no conducen
necesariamente al mismo resultado, ya que cada uno de ellos utiliza
Chacn J Anlisis de Regresin y Superficies de Respuesta 125
124 Chacn J Anlisis de Regresin y Superficies de Respuesta

Es conveniente referir que cuando el sesgo tiende a cero o es utilizando p =. k + 1, sto es 1;)1 modelo completo, en la mayora de las
A2 .
despreciable se tendr: veces. Al asumir el e del modelo completo como estimador pueden
haber variables malas predictoras (con coeficientes de regresin
E(SCEp) = (n-p)a2 y como E(&:) = aZ estimado cero o coeficientes menores que su desviacin estndar), lo
cual consecuentemente produce una sobre-estimacin de a2 y por lo
tanto valores de Cp pequeos. Algunos sugieren utilizar dos puntos
(n- p)crz + 2p-n (4.70)
E(Cp/sesgo = O) = del espacio dimensional (k + 1) cercanos para estimar a2
aZ
El Cpes un estimador que mide la eficiencia de las variables, en
E(Cp/sesgo = O) = P 'P~
(4.71) trminos de la suma de cuadrados medios de residual estandarizado
de la prediccin o error total.
Las desviaciones de Cp con respecto a p, se pueden tomar como
Si se expresa (4.69) de la siguiente forma: una medida de sesgo.
Para la escogencia de un modelo adecuado con el criterio de Cp
Cp = :z(SCEp).(n-p)+p
solo, no es muy evidente o claro, se puede dejar a criterio y escoger
a.
entre las siguientes alternativas:
1.- Una ecuacin sesgada que no representa exactamente los datos
porque tiene un cuadrado medio del residual grande pero tiene
[(SCE,) 1
n-p
un estimador pequeo de Cp. Esto es, la discrepancia del error
. total de la respuesta predicha con respecto al verdadero modelo
Cp = (n-p) AZ -11+ P (4.72) que no se conoce, es pequeo.
L a. J 2.- Tambin una ecuacin con ms parmetros (por consiguiente
ms variables), que ajuste mejor los datos, pero con una
discrepancia total mayor, es decir, un Cpmayor.
De las expresiones (4.71) y (4.72) E(Cp/sesgo = O) = p, el sesgo
cero es casi ideal, entonces lo que necesita es un modelo adecuado y
sto se cumplir segn este criterio (Cs), en la. medida que la fraccin
del primer trmino de (4.72) se acerque a cero, de lo contrario (n - p ) METODOS DE SELECCION DE VARIABLES
que es el factor del trmino aumentar Cp Cuando muchas variables
estn presentes se recomienda el uso del Cp como criterio de seleccin.
No existe un solo procedimiento para obtener las mejores
Interpretacin grfica del Cp
variables regresoras, y en consecuencia la mejor ecuacin o el mejor
Cuando se usa el criterio de Cp, es conveniente graficar a Cp subconjunto del modelo completo; por ejemplo, conocer la verdadera
contra p, donde p representa cada subconjunto del modelo completo. varianza a2, facilitara la obtencin de la mejor ecuacin de regresin,
Los modelos con sesgo pequeo tienen valores de Cp cercanos a pero esta situacin muy raras veces se presenta.
p, que caen de la lnea recta Cp =
p, mientras que los modelos con Algunos autores sugieren no hablar del mejor subconjunto del
sesgo severo o alto, el Cp se ubica encima de la recta. modelo de regresin en sentido absoluto, ya que ste depende del
objetivo que se persiga con el modelo; adems existen gran cantidad
El problema que se presenta en la utilizacin delC, es que su
clculo requiere de un buen estimador de a2, y slo se consigue de mtodos de seleccin que se aplican usualmente y que no conducen
necesariamente al mismo resultado, ya que cada uno de ellos utiliza
ChacnI Anlisisde Regresiny Superficiesde Respuesta 127
126 ChacnI Anlisisde Regresiny Superficiesde Respuesta
La fundamentacin bsica del procedimientos es analizar el
criterios diferentes. Lo ms conveniente es la asociacin de ellos para ajuste de todas las ecuaciones de regresin que implican una, dos,
una buena seleccin, dependiendo del objetivo para el cual se va a tres, o ms variables candidatas a regresoras. Por lo tanto, si el
usar el modelo. modelo completo posee k variables candidatas a regresoras debe
estudiar 2k - 1 ecuaciones y en todos los casos Xo se considera
Entre los mtodos de seleccin de variables se pueden mencio- includo en el modelo, es debido a eso que Drapper (1981) expresa que
nar: el proceso consiste en ir adicionando a las variables ficticias Xo ( ~oXo
1.- Todas las posibles regresiones usando los criterios R2, R2 CME, el primer trmino del modelo, con Xo = 1) las candidatas a regresoras.
e, Los criterios sobre los que basa la seleccin este procedimiento son R2,
-2
2.- Forward (seleccin progresiva o seleccin hacia adelante R ,CMEyCp
utilizando F-secuenciales y c'orrelaciones parciales).
3.- Backward (seleccin regresiva o seleccin hacia atrs usando
Descripcin del mtodo
F-parciales).
En primer lugar vamos a considerar el modelo completo:
4.- Stepwise (seleccin por pasos o etapas con F-secuenciales,
F-parciales y correlaciones parciales). Yi = ~o + ~1 X1i+ ~2X2i +"'+~k Xki+Ei

5.- Regresin Ridge (cuando existen datos colineales o multicolinea-


lidad).
6.- Mtodo de componentes principales (cuando existen datos coli-
neales o multicolinealidad).
Y1 "A.
k
= L.JI-' J X J1'..
j=o
donde 1

7.- Mtodos de las races latentes para variables con multicolineali-


dad. Analizar los k modelos de una variable:
8.- Mtodos Press.
9.- Regresin Stepwise.
i = 1,2, ..., n
A continuacin se referirn brevemente los procedimientos de
seleccin de variables (todas las regresiones posibles, Forward, y f(Xki) = ~o + 13kXki + Ei

Backward y Stepwise), que son las ms utilizadas cuando hay


grandes problemas de multicolinealidad; estos procedimientos siguen -2
siendo mnimos cuadrados ordinarios. Para cada modelo (k en total) se calculan los valores de R2, R y
el Cp, seleccionndose el que tiene mayor valor del estadstico "t",
Todas las posibles regresiones mximo R2, R2y mnimo Cp.

Este es un procedimiento fcil de aplicar, tanto a un conjunto de


datos con variables ortogonales, como con variables correlacionadas
(con problemas de multicolinealidad). El procedimiento permite
ajustar todos los posibles subconjuntos de eciraciones del cuerpo de
datos. .
ChacnI Anlisisde Regresiny Superficiesde Respuesta 127
126 ChacnI Anlisisde Regresiny Superficiesde Respuesta
La fundamentacin bsica del procedimientos es analizar el
criterios diferentes. Lo ms conveniente es la asociacin de ellos para ajuste de todas las ecuaciones de regresin que implican una, dos,
una buena seleccin, dependiendo del objetivo para el cual se va a tres, o ms variables candidatas a regresoras. Por lo tanto, si el
usar el modelo. modelo completo posee k variables candidatas a regresoras debe
estudiar 2k - 1 ecuaciones y en todos los casos Xo se considera
Entre los mtodos de seleccin de variables se pueden mencio- includo en el modelo, es debido a eso que Drapper (1981) expresa que
nar: el proceso consiste en ir adicionando a las variables ficticias Xo ( ~oXo
1.- Todas las posibles regresiones usando los criterios R2, R2 CME, el primer trmino del modelo, con Xo = 1) las candidatas a regresoras.
e, Los criterios sobre los que basa la seleccin este procedimiento son R2,
-2
2.- Forward (seleccin progresiva o seleccin hacia adelante R ,CMEyCp
utilizando F-secuenciales y c'orrelaciones parciales).
3.- Backward (seleccin regresiva o seleccin hacia atrs usando
Descripcin del mtodo
F-parciales).
En primer lugar vamos a considerar el modelo completo:
4.- Stepwise (seleccin por pasos o etapas con F-secuenciales,
F-parciales y correlaciones parciales). Yi = ~o + ~1 X1i+ ~2X2i +"'+~k Xki+Ei

5.- Regresin Ridge (cuando existen datos colineales o multicolinea-


lidad).
6.- Mtodo de componentes principales (cuando existen datos coli-
neales o multicolinealidad).
Y1 "A.
k
= L.JI-' J X J1'..
j=o
donde 1

7.- Mtodos de las races latentes para variables con multicolineali-


dad. Analizar los k modelos de una variable:
8.- Mtodos Press.
9.- Regresin Stepwise.
i = 1,2, ..., n
A continuacin se referirn brevemente los procedimientos de
seleccin de variables (todas las regresiones posibles, Forward, y f(Xki) = ~o + 13kXki + Ei

Backward y Stepwise), que son las ms utilizadas cuando hay


grandes problemas de multicolinealidad; estos procedimientos siguen -2
siendo mnimos cuadrados ordinarios. Para cada modelo (k en total) se calculan los valores de R2, R y
el Cp, seleccionndose el que tiene mayor valor del estadstico "t",
Todas las posibles regresiones mximo R2, R2y mnimo Cp.

Este es un procedimiento fcil de aplicar, tanto a un conjunto de


datos con variables ortogonales, como con variables correlacionadas
(con problemas de multicolinealidad). El procedimiento permite
ajustar todos los posibles subconjuntos de eciraciones del cuerpo de
datos. .
Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 129
128

Luego analizar todos los modelos de dos variables [(:) modelos 1 a-


Desventajas
Utiliza mucho tiempo en el proceso electrnico por lo tanto, es
costoso.
Y = ~o + ~lXl + ~2X2i + E b- Es prcticamente imposible si el computador no es de alta
potencia, a menos que se estudien los mejores modelos dentro de
cada grupo, sin embargo, los algoritmos que se han elaborado
para disminuir los costos de computacin, tambin disminuyen
informacin que podra ser aprovechable.
e- Tiende a incluir modelos con muchas variables predictoras.
Yi = ~o + ~k.1X(k.l) + ~kXlu + f:i
d.- Se 'incrementa elclculo rpidamente al aumentar el nmero de
Se calcula el mayor R2 y R 2, mnimo Cp, las estimaciones de los variables.
tres coeficientes de regresin y el aporte individual de cada variable
por medio del valor de t (con n-l G. de L.), para el conjunto formado Procedimiento de seleccin de variables por pasos (Forward,
por las variables que dieron mximo R2, R2y mnimo Cp que es donde Backward y Stepwise)
est la ventaja del ahorro computacionaL
As mismo contina el proceso hasta llegar a un modelo que Conocidas las limitaciones del procedimiento anterior, cuando
considera como el mejor para el cual proporciona adicionalmente el hay un nmero muy alto de potenciales variables regresaras, se han
Anlisis de la Varianza completo. desarrollado otros mtodos que necesitan menos tiempo en el anlisis
computarizado y menor cantidad de interpretacin de submodelos; su
El proceso no se detiene, sigue analizando los mejores modelos fundamento bsico es analizar slo algunos modelos, por agregado o
en cada grupo de p variables, hasta llegar al modelo completo de k eliminacin de variables, generalmente se les conoce como
variables. procedimiento del tipo paso a paso, y suelen ser clasificados en tres
El programa tambin imprime otra serie de informacin muy categoras:
til, como grficas de residuales, matriz de correlaciones, matriz de a.- Forward o seleccin progresiva (seleccin hacia adelante).
varianza, covarianza, etc.
b.- Backward o seleccin regresiva (seleccin hacia atrs).
Ventajas del mtodo de todas las posibles regresiones
c.- Stepwise o seleccin por pasos, que es una modificacin del
a.- Proporciona una informacin ms detallada sobre todas las Forward.
variables independientes y su aporte.
Descripcin del mtodo de seleccin Forward o seleccin
b.- Proporciona un estudio exhaustivo de todos los modelos posibles, progresiva
subconjuntos de modelo completo.
El supuesto bsico inicial de este procedimiento es que el nico
C.- Tiene "adecuada eficiencia" cuando hay problemas de trmino del modelo es el intercepto. El procedimiento consiste en
ni ulticolinealidad. establecer o determinar el modelo adecuado por la introduccin de
d.- Da una informacin mxima acerca de la naturaleza de la variables regresoras al modelo una cada vez, utilizando el criterio de
relacin entre variables respuesta y el conjunto de variables las correlaciones parciales y las F-parciales (secuenciales).
regresaras X. Antes de describir el procedimiento, es necesario hacer un
comentario sobre las F-secuenciales y correlaciones.
Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 129
128

Luego analizar todos los modelos de dos variables [(:) modelos 1 a-


Desventajas
Utiliza mucho tiempo en el proceso electrnico por lo tanto, es
costoso.
Y = ~o + ~lXl + ~2X2i + E b- Es prcticamente imposible si el computador no es de alta
potencia, a menos que se estudien los mejores modelos dentro de
cada grupo, sin embargo, los algoritmos que se han elaborado
para disminuir los costos de computacin, tambin disminuyen
informacin que podra ser aprovechable.
e- Tiende a incluir modelos con muchas variables predictoras.
Yi = ~o + ~k.1X(k.l) + ~kXlu + f:i
d.- Se 'incrementa elclculo rpidamente al aumentar el nmero de
Se calcula el mayor R2 y R 2, mnimo Cp, las estimaciones de los variables.
tres coeficientes de regresin y el aporte individual de cada variable
por medio del valor de t (con n-l G. de L.), para el conjunto formado Procedimiento de seleccin de variables por pasos (Forward,
por las variables que dieron mximo R2, R2y mnimo Cp que es donde Backward y Stepwise)
est la ventaja del ahorro computacionaL
As mismo contina el proceso hasta llegar a un modelo que Conocidas las limitaciones del procedimiento anterior, cuando
considera como el mejor para el cual proporciona adicionalmente el hay un nmero muy alto de potenciales variables regresaras, se han
Anlisis de la Varianza completo. desarrollado otros mtodos que necesitan menos tiempo en el anlisis
computarizado y menor cantidad de interpretacin de submodelos; su
El proceso no se detiene, sigue analizando los mejores modelos fundamento bsico es analizar slo algunos modelos, por agregado o
en cada grupo de p variables, hasta llegar al modelo completo de k eliminacin de variables, generalmente se les conoce como
variables. procedimiento del tipo paso a paso, y suelen ser clasificados en tres
El programa tambin imprime otra serie de informacin muy categoras:
til, como grficas de residuales, matriz de correlaciones, matriz de a.- Forward o seleccin progresiva (seleccin hacia adelante).
varianza, covarianza, etc.
b.- Backward o seleccin regresiva (seleccin hacia atrs).
Ventajas del mtodo de todas las posibles regresiones
c.- Stepwise o seleccin por pasos, que es una modificacin del
a.- Proporciona una informacin ms detallada sobre todas las Forward.
variables independientes y su aporte.
Descripcin del mtodo de seleccin Forward o seleccin
b.- Proporciona un estudio exhaustivo de todos los modelos posibles, progresiva
subconjuntos de modelo completo.
El supuesto bsico inicial de este procedimiento es que el nico
C.- Tiene "adecuada eficiencia" cuando hay problemas de trmino del modelo es el intercepto. El procedimiento consiste en
ni ulticolinealidad. establecer o determinar el modelo adecuado por la introduccin de
d.- Da una informacin mxima acerca de la naturaleza de la variables regresoras al modelo una cada vez, utilizando el criterio de
relacin entre variables respuesta y el conjunto de variables las correlaciones parciales y las F-parciales (secuenciales).
regresaras X. Antes de describir el procedimiento, es necesario hacer un
comentario sobre las F-secuenciales y correlaciones.
Chacn I Anlisis de Regresin y Superficies de Respuesta 131
130 Chacn I Anlisis de Regresin y Superficies de Respuesta

Con respecto al uso de la prueba F, es necesario recordar que la t = 1,2, oO,


k
distribucin del estadstico F central viene del cociente de dos
varianzas, es decir, dos variables que siguen distribuciones ji-
cuadrado. Existen tablas de los valores de F, cuando F es central, es Y SCEoi = L'/Yi - -2
" Y) - SCRoi
decir, cuando las variables ji-cuadrados son centrales y la F seguir
una distribucin no central si la variable del numerador sigue una 1
distribucin ji-cuadrado no central.
= Y'(I--J)Y -SCRoi
n
Pope y Webster (1972) citado por Meneses (1985) hicieron un en el que J es la matriz compuesta, slo por unos.
estudio sobre el uso de la F en los procedimientos Stepwise. Al
respecto se incluyen algunos aspectos de ese trabajo. Estas k razones son comparadas con un valor de la distribucin
F-central a un nivel de significacin a, con 1 y n-2 grados de libertad
El modelo de regresin mltiple incluye: en el numerador y denominador respectivamente. Si la mayor de
Yi = ~o +~l Xli +~2 X2i + oO.
+h Xki + Ei estas razones es mayor que el valor de F tabulado, ste ser el primer
vector de la matriz Xi, o sea la primera variable seleccionada.

donde: El segundo paso es calcular las (k-1) razones


SCRli
Xj = (Xjl -Xj,Xj2 -Xj,oO.,Xjn-Xj) 1
SCEIi
Xi una matriz de valores fijos nx(k-p) que contiene (k-p)
n-2-1
columnas de Xi; esas (k-p) variables son las que sern includas en el
mejor subconjunto, en el que se espera obtener una buena prediccin En este caso t toma valores entre 1 y k excepto el valor que
de la respuesta. corresponde a la variable seleccionada. Adems;
Sea Xt un Xi que no est en Xi.
{Y'[(I-X1(X~Xl )X~ ~t) }2
X2 una matriz n x (P-1), que contiene las Xi columnas que
no estn en Xi y no incluyen Xt. x, (I-XI (XIXI) -1'XI)X
, I

El procedimiento de seleccin progresiva '(Forward) mantiene el


trmino constante ~o y procede de la siguiente manera:
El primer paso sera:
La SCRli es la cantidad de la suma de cuadrados de regresin
Se fija p igual a k; lo cual hace de X2 una matriz de orden incrementada por adicin de la variable independiente Xt dentro de
n x (k-I) y se calculan las k razones: Xr. Esta expresin de SRCli es usada a fin de averiguar las
propiedades de Xt.
SCRoi
1 De manera similar se hace la comparacin en F-central pero con
1 y (n-3) gl. Se selecciona la ms grande de las (k-l) razones que
SCEoi
excede esa F.
n-2
Este proceso contina y se detiene cuando la razn ms grande
no exceda a F. Intuitivamente lo que se hace es detener el proceso
Chacn I Anlisis de Regresin y Superficies de Respuesta 131
130 Chacn I Anlisis de Regresin y Superficies de Respuesta

Con respecto al uso de la prueba F, es necesario recordar que la t = 1,2, oO,


k
distribucin del estadstico F central viene del cociente de dos
varianzas, es decir, dos variables que siguen distribuciones ji-
cuadrado. Existen tablas de los valores de F, cuando F es central, es Y SCEoi = L'/Yi - -2
" Y) - SCRoi
decir, cuando las variables ji-cuadrados son centrales y la F seguir
una distribucin no central si la variable del numerador sigue una 1
distribucin ji-cuadrado no central.
= Y'(I--J)Y -SCRoi
n
Pope y Webster (1972) citado por Meneses (1985) hicieron un en el que J es la matriz compuesta, slo por unos.
estudio sobre el uso de la F en los procedimientos Stepwise. Al
respecto se incluyen algunos aspectos de ese trabajo. Estas k razones son comparadas con un valor de la distribucin
F-central a un nivel de significacin a, con 1 y n-2 grados de libertad
El modelo de regresin mltiple incluye: en el numerador y denominador respectivamente. Si la mayor de
Yi = ~o +~l Xli +~2 X2i + oO.
+h Xki + Ei estas razones es mayor que el valor de F tabulado, ste ser el primer
vector de la matriz Xi, o sea la primera variable seleccionada.

donde: El segundo paso es calcular las (k-1) razones


SCRli
Xj = (Xjl -Xj,Xj2 -Xj,oO.,Xjn-Xj) 1
SCEIi
Xi una matriz de valores fijos nx(k-p) que contiene (k-p)
n-2-1
columnas de Xi; esas (k-p) variables son las que sern includas en el
mejor subconjunto, en el que se espera obtener una buena prediccin En este caso t toma valores entre 1 y k excepto el valor que
de la respuesta. corresponde a la variable seleccionada. Adems;
Sea Xt un Xi que no est en Xi.
{Y'[(I-X1(X~Xl )X~ ~t) }2
X2 una matriz n x (P-1), que contiene las Xi columnas que
no estn en Xi y no incluyen Xt. x, (I-XI (XIXI) -1'XI)X
, I

El procedimiento de seleccin progresiva '(Forward) mantiene el


trmino constante ~o y procede de la siguiente manera:
El primer paso sera:
La SCRli es la cantidad de la suma de cuadrados de regresin
Se fija p igual a k; lo cual hace de X2 una matriz de orden incrementada por adicin de la variable independiente Xt dentro de
n x (k-I) y se calculan las k razones: Xr. Esta expresin de SRCli es usada a fin de averiguar las
propiedades de Xt.
SCRoi
1 De manera similar se hace la comparacin en F-central pero con
1 y (n-3) gl. Se selecciona la ms grande de las (k-l) razones que
SCEoi
excede esa F.
n-2
Este proceso contina y se detiene cuando la razn ms grande
no exceda a F. Intuitivamente lo que se hace es detener el proceso
132 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 133
cuando la mayor de las razones est cerca de uno, lo cual indica que
Supongamos que se hallan las correlaciones simples de Y, con
esta variable es muy poco til en el error de prediccin. cada una de las variables regresoras RYXj donde, j =
1, ..., k es una
Ventajas del uso de la distribucin F medida de asociacin entre Y y la variable Xj.
1.- El aislar o eliminar valores es fcilmente alcanzado, Supngase que RYXI es el mayor, entonces el modelo podemos
escribirlo con Y, = ~o + ~IXli + &i (Modelo 1), si ~l no es estimado
2.- Da un valor. que intuitivamente puede percibirse dentro de lo por cero.
correcto.
Si se regresionan las variables restantes con Xi obtendremos lo
3.- El estadstico que se compara est relacionado con la distribucin siguiente:
de F y puede seleccionarse el mejor, en lugar de establecer un
valor arbitrario.
Desventajas
La relacin de la probabilidad asociada de la distribucin F
usada, con los valores eliminados y la probabilidad de cualquier. tipo
de error en la determinacin de este subconjunto no es conocida. Las correlaciones RYXk.XI para k = 2, 3, se denominan
Siempre mencionando esta probabilidad y/o dndole el smbolo correlaciones parciales, es la correlacin de la parte de las variables
dara un falso sentido de seguridad especialmente si se usan valores dependientes despus que las primeras han sido regresionadas con
Xl.
comunes usados para el error tipo 1 como (0.01, 0.05, etc).
Algunos autores proponen un modificacin, que es la que se Estas correlaciones se denominan correlaciones parciales de t=.
utiliza actualmente, usar la SCE cuando todas las variables estn Orden de tal manera RYX2.XIX3 es la correlacin parcial de 2do. Orden
incluidas en el modelo, para denominador de las F's. de Y con X2, es el grado de asociacin de Y con X2 despus que esta ha
sido regresionada con Xi y Xa, y as sucesivamente.
El el que se ha mencionado debera ser la probabilidad de incluir
otras variables independientes cuando ninguna de las restantes son Pasos prcticos para la utilizacin del mtodo de seleccin
tiles. Este mtodo tiene un el ms cercanamente relacionado a la progresiva
probabilidad del error tipo 1, que usa la contraparte de la' F- Dado el modelo poblacional (modelo completo, con k variables
univariada. De esta manera el uso del estadstico F, como estadstico independientes o regresoras).
de orden no proporciona una prueba correcta, pero si una mejor que
los que utilizan los procedimientos estndar de Forward.
NOTA: Convencionalmente se acepta que si la F es para F entrada
(como en el Forward), se le denomina F-secuencial y si es
para remover F-remocin (como en el Backward); en general
se le denomina F-parcial.
Es conveniente hacer una aclaratoria de la correlacin simple y
parcial.
Consideremos el modelo:
Yi = ~o + ~IXli +t ..; + ~kXki + &i
132 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 133
cuando la mayor de las razones est cerca de uno, lo cual indica que
Supongamos que se hallan las correlaciones simples de Y, con
esta variable es muy poco til en el error de prediccin. cada una de las variables regresoras RYXj donde, j =
1, ..., k es una
Ventajas del uso de la distribucin F medida de asociacin entre Y y la variable Xj.
1.- El aislar o eliminar valores es fcilmente alcanzado, Supngase que RYXI es el mayor, entonces el modelo podemos
escribirlo con Y, = ~o + ~IXli + &i (Modelo 1), si ~l no es estimado
2.- Da un valor. que intuitivamente puede percibirse dentro de lo por cero.
correcto.
Si se regresionan las variables restantes con Xi obtendremos lo
3.- El estadstico que se compara est relacionado con la distribucin siguiente:
de F y puede seleccionarse el mejor, en lugar de establecer un
valor arbitrario.
Desventajas
La relacin de la probabilidad asociada de la distribucin F
usada, con los valores eliminados y la probabilidad de cualquier. tipo
de error en la determinacin de este subconjunto no es conocida. Las correlaciones RYXk.XI para k = 2, 3, se denominan
Siempre mencionando esta probabilidad y/o dndole el smbolo correlaciones parciales, es la correlacin de la parte de las variables
dara un falso sentido de seguridad especialmente si se usan valores dependientes despus que las primeras han sido regresionadas con
Xl.
comunes usados para el error tipo 1 como (0.01, 0.05, etc).
Algunos autores proponen un modificacin, que es la que se Estas correlaciones se denominan correlaciones parciales de t=.
utiliza actualmente, usar la SCE cuando todas las variables estn Orden de tal manera RYX2.XIX3 es la correlacin parcial de 2do. Orden
incluidas en el modelo, para denominador de las F's. de Y con X2, es el grado de asociacin de Y con X2 despus que esta ha
sido regresionada con Xi y Xa, y as sucesivamente.
El el que se ha mencionado debera ser la probabilidad de incluir
otras variables independientes cuando ninguna de las restantes son Pasos prcticos para la utilizacin del mtodo de seleccin
tiles. Este mtodo tiene un el ms cercanamente relacionado a la progresiva
probabilidad del error tipo 1, que usa la contraparte de la' F- Dado el modelo poblacional (modelo completo, con k variables
univariada. De esta manera el uso del estadstico F, como estadstico independientes o regresoras).
de orden no proporciona una prueba correcta, pero si una mejor que
los que utilizan los procedimientos estndar de Forward.
NOTA: Convencionalmente se acepta que si la F es para F entrada
(como en el Forward), se le denomina F-secuencial y si es
para remover F-remocin (como en el Backward); en general
se le denomina F-parcial.
Es conveniente hacer una aclaratoria de la correlacin simple y
parcial.
Consideremos el modelo:
Yi = ~o + ~IXli +t ..; + ~kXki + &i
134 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 135

1.- Se calculan las correlaciones simples (coeficientes de correlacin Anlisis de Varianza


simples) de Y con cada una de las k variables, la que tenga mayor
correlacin con Y (mayor coeficiente de correlacin) podra F. deV. G. de L. SC CM F
seleccionarse. Luego se calculan las F-parciales, se comparan con
la F prefijada para entrar (F entrada), se supone que la que Regresin 2 sc1~;)=SCR(bi.bt) ~(n-3
2
J:;CR(bb J
t

j
produjo el mayor coeficiente de correlacin producir la mayor F- -SCRbi SCE
parcial, si esta es mayor que F entrada, esta variable es la
primera seleccionada. Error n-3

Si Fc > F entrada se selecciona la variable Xt asociada a be


El mximo de las I Yx.Y I
J Y, = f30 + f31Xji + f3tXti + Ei
3.- Se contina el proceso hasta que Fc sea menor que F-entrada.
Habrn tantos pasos como variables seleccionadas.
Anlisis de Varianza
Ventajas
F.deV. G. deL. SC CM F
1.- Comienza por el modelo ms pequeo, eso permite medir cul
Regresin 1 SCR SCR (n-2)SCR variable independiente tiene mayor asociacin lineal con la
variable respuesta (ventajas con respecto a la seleccin
SCE Backward).
Error n-2 SCE SCE' 2.- Es ms fcil la interpretacin que en el mtodo de todas las
n-2 regresiones.

Total n=L 3.- Utiliza como criterio de seleccin la correlacin parcial y las
F-parciales, que son ms efectivos que la prueba t para medir
Si Fc > F entrada se selecciona Xj y contina el proceso: aportes individuales.
Y, = f30 + f3jXji + Ei 4.- Menos tiempo computacional que el de todas las regresiones
2.- Se hallan las correlaciones parciales de primer orden que ya se posibles.
defini (Rx'Y.xl) para j = 2, ... k Desventajas
Fundamentalmente su principal desventaja es que no hace un
Se halla el mximo de las (Rx'Y.Xl)
estudio exhaustivo de todos los modelos posibles, adems de los
problemas propios de las F -secuenciales.
134 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 135

1.- Se calculan las correlaciones simples (coeficientes de correlacin Anlisis de Varianza


simples) de Y con cada una de las k variables, la que tenga mayor
correlacin con Y (mayor coeficiente de correlacin) podra F. deV. G. de L. SC CM F
seleccionarse. Luego se calculan las F-parciales, se comparan con
la F prefijada para entrar (F entrada), se supone que la que Regresin 2 sc1~;)=SCR(bi.bt) ~(n-3
2
J:;CR(bb J
t

j
produjo el mayor coeficiente de correlacin producir la mayor F- -SCRbi SCE
parcial, si esta es mayor que F entrada, esta variable es la
primera seleccionada. Error n-3

Si Fc > F entrada se selecciona la variable Xt asociada a be


El mximo de las I Yx.Y I
J Y, = f30 + f31Xji + f3tXti + Ei
3.- Se contina el proceso hasta que Fc sea menor que F-entrada.
Habrn tantos pasos como variables seleccionadas.
Anlisis de Varianza
Ventajas
F.deV. G. deL. SC CM F
1.- Comienza por el modelo ms pequeo, eso permite medir cul
Regresin 1 SCR SCR (n-2)SCR variable independiente tiene mayor asociacin lineal con la
variable respuesta (ventajas con respecto a la seleccin
SCE Backward).
Error n-2 SCE SCE' 2.- Es ms fcil la interpretacin que en el mtodo de todas las
n-2 regresiones.

Total n=L 3.- Utiliza como criterio de seleccin la correlacin parcial y las
F-parciales, que son ms efectivos que la prueba t para medir
Si Fc > F entrada se selecciona Xj y contina el proceso: aportes individuales.
Y, = f30 + f3jXji + Ei 4.- Menos tiempo computacional que el de todas las regresiones
2.- Se hallan las correlaciones parciales de primer orden que ya se posibles.
defini (Rx'Y.xl) para j = 2, ... k Desventajas
Fundamentalmente su principal desventaja es que no hace un
Se halla el mximo de las (Rx'Y.Xl)
estudio exhaustivo de todos los modelos posibles, adems de los
problemas propios de las F -secuenciales.
Chacn I Anlisisde Regresiny Superficiesde Respuesta 137
136 Chacn I Anlisisde Regresiny Superficiesde Respuesta

Seleccin paso a paso (Stepwise)


Seleccin regresiva, eliminacin hacia atrs (Backward)

El procedimiento Stepwise es una variacin de los


Comienza con el modelo completo, es decir, incluyendo todas las
procedimientos Backward- Forward, especficamente del Forward. Al
k variables potenciales regresoras, las variables son eliminadas en
Stepwise se le da el nombre de Forward ms sofisticado, comienza con
base a su contribucin a la reduccin de la suma de cuadrados del
el modelo ms pequeo y va introduciendo variables con el criterio de
error, la primera variable que se elimina es la que tiene contribucin
las F secuenciales y las correlaciones parciales, pero una vez
ms pequea a la suma de cuadrados del error. Esto es equivalente a
ingresados al modelo las reexamina y pueden ser eliminadas como en
la variable que tiene la ms pequea contribucin a la explicacin de
el Backward, con el criterio de las F-parciales. .
la respuesta, en otras palabras, la que tiene el valor ms pequeo de
F-parcial F a.n-k- ta.n-k- r , Procedimiento bsico
Pasos prcticos del procedimiento 1.- Se estudia la matriz de las correlaciones simples de Y con todas
las variables regresoras X, y se introducen en el modelo la
a_- Obtener la ecuacin ajustada (estimada) de regresin con todas
variable regresora que ms correlacione con Y.
las k-variables potenciales predctoras.
2.- Para elegir una candidata a segunda variable regresora a
b.- Calcular las F-parciales para cada variable, como si sta fuera la
ingresar en ~ modelo, se calculan las correlaciones parciales de
ltima en entrar al modelo, se toma la menor y se compara con la
primer orden, de Y con todas las variables restantes y se
F - prefijada (F remocin), si es menor F (remocin) eliminar la
selecciona la de ms alta correlacin parcial. Luego se re examina
variable y continuar el proceso, en caso contrario se detiene.
la primera variable introducida para determinar su aporte a la
El proceso se contina hasta el paso r + 1, donde se habrn suma de cuadrados de regresin, es decir, analizar el aporte
eliminado r variables y el modelo seleccionado tendr p trminos ~ individual de la primera variable cuando la segunda variable
k-r variables est presente en el modelo.
3.- Se continua de manera similar hasta que la mayor de las F sea
menor que la F entrada.
Ventajas
Las ventajas y desventajas son similares al de la seleccin
1.- Utiliza un menor procesamiento electrnico que el de todas las
progresiva (Forward) con una ventaja adicional, el reexamen de las
regresiones.
variables predictoras que entran al modelo o ecuacin.
2.- Es parcialmente muy til para los investigadores que necesitan
hacer comparaciones con el modelo completo. Mtodo del mximo coeficiente de determinacin
3.- Con la utilizacin de los F-parciales se est considerando (mximo R2)
indirectamente las correlaciones entre las variables regresoras.
Este procedimiento selecciona el mejor modelo de. "k" variables.
Desventajas
El primer paso del mtodo consiste en obtener, el modelo de una
1.- No hace estudio exhaustivo de todos los modelos posibles. variable que produce el mayor R2, se incluye seguidamente otra
variable, el criterio para incluirla, se basa en aquella que produzca el
2.- Dificulta ms su interpretacin por empezar con el modelo
mayor incremento en R2.
completo.
Una vez que se halla obtenido el modelo con 2 variables, cada
3.- Una vez que la variable ha sido removida no se le toma ms en
cuenta. una de las variables en la e.cuacin se combina con cada una de las
otras variables no incluidas en el modelo. Cada vez que se realiza, el
Chacn I Anlisisde Regresiny Superficiesde Respuesta 137
136 Chacn I Anlisisde Regresiny Superficiesde Respuesta

Seleccin paso a paso (Stepwise)


Seleccin regresiva, eliminacin hacia atrs (Backward)

El procedimiento Stepwise es una variacin de los


Comienza con el modelo completo, es decir, incluyendo todas las
procedimientos Backward- Forward, especficamente del Forward. Al
k variables potenciales regresoras, las variables son eliminadas en
Stepwise se le da el nombre de Forward ms sofisticado, comienza con
base a su contribucin a la reduccin de la suma de cuadrados del
el modelo ms pequeo y va introduciendo variables con el criterio de
error, la primera variable que se elimina es la que tiene contribucin
las F secuenciales y las correlaciones parciales, pero una vez
ms pequea a la suma de cuadrados del error. Esto es equivalente a
ingresados al modelo las reexamina y pueden ser eliminadas como en
la variable que tiene la ms pequea contribucin a la explicacin de
el Backward, con el criterio de las F-parciales. .
la respuesta, en otras palabras, la que tiene el valor ms pequeo de
F-parcial F a.n-k- ta.n-k- r , Procedimiento bsico
Pasos prcticos del procedimiento 1.- Se estudia la matriz de las correlaciones simples de Y con todas
las variables regresoras X, y se introducen en el modelo la
a_- Obtener la ecuacin ajustada (estimada) de regresin con todas
variable regresora que ms correlacione con Y.
las k-variables potenciales predctoras.
2.- Para elegir una candidata a segunda variable regresora a
b.- Calcular las F-parciales para cada variable, como si sta fuera la
ingresar en ~ modelo, se calculan las correlaciones parciales de
ltima en entrar al modelo, se toma la menor y se compara con la
primer orden, de Y con todas las variables restantes y se
F - prefijada (F remocin), si es menor F (remocin) eliminar la
selecciona la de ms alta correlacin parcial. Luego se re examina
variable y continuar el proceso, en caso contrario se detiene.
la primera variable introducida para determinar su aporte a la
El proceso se contina hasta el paso r + 1, donde se habrn suma de cuadrados de regresin, es decir, analizar el aporte
eliminado r variables y el modelo seleccionado tendr p trminos ~ individual de la primera variable cuando la segunda variable
k-r variables est presente en el modelo.
3.- Se continua de manera similar hasta que la mayor de las F sea
menor que la F entrada.
Ventajas
Las ventajas y desventajas son similares al de la seleccin
1.- Utiliza un menor procesamiento electrnico que el de todas las
progresiva (Forward) con una ventaja adicional, el reexamen de las
regresiones.
variables predictoras que entran al modelo o ecuacin.
2.- Es parcialmente muy til para los investigadores que necesitan
hacer comparaciones con el modelo completo. Mtodo del mximo coeficiente de determinacin
3.- Con la utilizacin de los F-parciales se est considerando (mximo R2)
indirectamente las correlaciones entre las variables regresoras.
Este procedimiento selecciona el mejor modelo de. "k" variables.
Desventajas
El primer paso del mtodo consiste en obtener, el modelo de una
1.- No hace estudio exhaustivo de todos los modelos posibles. variable que produce el mayor R2, se incluye seguidamente otra
variable, el criterio para incluirla, se basa en aquella que produzca el
2.- Dificulta ms su interpretacin por empezar con el modelo
mayor incremento en R2.
completo.
Una vez que se halla obtenido el modelo con 2 variables, cada
3.- Una vez que la variable ha sido removida no se le toma ms en
cuenta. una de las variables en la e.cuacin se combina con cada una de las
otras variables no incluidas en el modelo. Cada vez que se realiza, el
138 ChacinI Anlisisde Regresiny Superficiesde Respuesta ChacinI Anlisisde Regresiny Superficiesde Respuesta 139

mtodo permite determinar si la omisin de la variable del modelo y cuando no la posee. Los valores que toma las variables falsas son
su sustitucin con una de las variables excludas ha incrementado el ceros y unos.
valor de R2.
Chacn refiere que las variables falsas se utilizan en el anlisis
Cuando ya se han realizado todas las posibles comparaciones, se de regresin bajo las dos condiciones siguientes:
elige la ecuacin que tenga el mayor R2. Con el nuevo modelo de
regresin se realizan comparaciones, continuando con el proceso hasta a.- Las observaciones originales pueden ser agrupadas en clases o
que no se consiga un cambio de modelo de regresin que permita grupos de tipo cualitativo.
aumentar el Coeficiente de Determinacin. En este paso se ha logrado b.- El efecto de la agrupacin es alterar la ordenada al origen sin
seleccionar el mejor modelo de dos variables. alterar la pendiente.
El paso siguiente es agiegar una tercera variable realizando el Si los datos originales puede separarse en dos o ms grupos
mismo procedimiento descrito anteriormente, se obtiene el mejor significativos habra que estudiar los efectos de estos grupos, si el
modelo de 3 variables. Luego se selecciona el de cuatro variables de la efecto es solo alterar la ordenada al origen de la ecuacin (coeficiente
misma forma, hasta el de "k" variables. Este procedimiento difiere de posicional) se puede sin usar riesgo variables ficticias.
los mtodos vistos anteriormente (seleccin por pasos) en el sentido
que los cambios de las ecuaciones son evaluados antes de seleccionar El uso de variables falsas en regresin mltiple
uno en particular. Las variables regresoras que forman parte de una ecuacin de
regresin mltiple generalmente toman valores en un rango continuo,
Mtodo del mnimo coeficiente de determinacin sin embargo, algunas veces es necesario introducir en el modelo de
regresin variables medidas en escala nominal u ordinal con dos o
Este procedim-iento es similar al anterior, la diferencia consiste ms niveles distintos. En tales casos no se puede utilizar una escala
en que al producirse los cambios de la ecuacin de regresin, se continua en los datos debido a su naturaleza y escala de medida. Un
realiza el cambio de modelo que se produce al menor incremento en el ejemplo de sto, pudiera ser, el investigador en mango que tenga tres
valor de R2. variedades del cultivo y quiera establecer una ecuacin de regresin
entre las variedades y el rendimiento. El investigador puede asignarle
Procesamiento electrnico a la variable variedad niveles en un determinado orden de tal manera
El programa SAS emplea el procesamiento Paso a Paso que se pueda separar la respuesta de cada uno. Estas variables son
.(Stepwise) con las opciones Forward, Backward, Stepwise, Maxr y llamadas variables falsas .
Minr, que permite la aplicacin de estos mtodos. Uno de los ejemplos clsicos de variables falsas se puede
encontrar en el uso de la variable Xo que siempre toma el valor uno,
Variables Dummy o falsas: para poder estimar el intercepto en un modelo de regresin mltiple.
Otro ejemplo del uso de variables falsas se puede observar en los
Faber (1971), citado por Chacn (1988), expresa que las mtodos de regresin para problemas de anlisis de varianza.
variables falsas son un mtodo para cuantificar caractersticas de tipo
Variables falsas en un grupo de datos
cualitativo (que son susceptibles de ser cuantificadas) o que presentan
la conveniencia de separar en categorias discretas, el procedimiento Supongamos que el investigador en mango tenga dos variedades
necesita la construccin de variables separadas en categorias (Ay B) que producen diferentes niveles de rendimiento en adicin a la
relevantes a las caractersticas en estudio, donde a esta variable se le variacin que ocurre debido a otras variables. Una de las soluciones
asigna un cierto valor si la observacin posee ese atributo y otro valor es agregar el modelo la variable falsa "z" y su coeficiente de regresin
(a) de tal manera que el modelo original debe agregrsele el trmino
(aZ). El coeficiente a puede ser estimado al mismo tiempo que los
138 ChacinI Anlisisde Regresiny Superficiesde Respuesta ChacinI Anlisisde Regresiny Superficiesde Respuesta 139

mtodo permite determinar si la omisin de la variable del modelo y cuando no la posee. Los valores que toma las variables falsas son
su sustitucin con una de las variables excludas ha incrementado el ceros y unos.
valor de R2.
Chacn refiere que las variables falsas se utilizan en el anlisis
Cuando ya se han realizado todas las posibles comparaciones, se de regresin bajo las dos condiciones siguientes:
elige la ecuacin que tenga el mayor R2. Con el nuevo modelo de
regresin se realizan comparaciones, continuando con el proceso hasta a.- Las observaciones originales pueden ser agrupadas en clases o
que no se consiga un cambio de modelo de regresin que permita grupos de tipo cualitativo.
aumentar el Coeficiente de Determinacin. En este paso se ha logrado b.- El efecto de la agrupacin es alterar la ordenada al origen sin
seleccionar el mejor modelo de dos variables. alterar la pendiente.
El paso siguiente es agiegar una tercera variable realizando el Si los datos originales puede separarse en dos o ms grupos
mismo procedimiento descrito anteriormente, se obtiene el mejor significativos habra que estudiar los efectos de estos grupos, si el
modelo de 3 variables. Luego se selecciona el de cuatro variables de la efecto es solo alterar la ordenada al origen de la ecuacin (coeficiente
misma forma, hasta el de "k" variables. Este procedimiento difiere de posicional) se puede sin usar riesgo variables ficticias.
los mtodos vistos anteriormente (seleccin por pasos) en el sentido
que los cambios de las ecuaciones son evaluados antes de seleccionar El uso de variables falsas en regresin mltiple
uno en particular. Las variables regresoras que forman parte de una ecuacin de
regresin mltiple generalmente toman valores en un rango continuo,
Mtodo del mnimo coeficiente de determinacin sin embargo, algunas veces es necesario introducir en el modelo de
regresin variables medidas en escala nominal u ordinal con dos o
Este procedim-iento es similar al anterior, la diferencia consiste ms niveles distintos. En tales casos no se puede utilizar una escala
en que al producirse los cambios de la ecuacin de regresin, se continua en los datos debido a su naturaleza y escala de medida. Un
realiza el cambio de modelo que se produce al menor incremento en el ejemplo de sto, pudiera ser, el investigador en mango que tenga tres
valor de R2. variedades del cultivo y quiera establecer una ecuacin de regresin
entre las variedades y el rendimiento. El investigador puede asignarle
Procesamiento electrnico a la variable variedad niveles en un determinado orden de tal manera
El programa SAS emplea el procesamiento Paso a Paso que se pueda separar la respuesta de cada uno. Estas variables son
.(Stepwise) con las opciones Forward, Backward, Stepwise, Maxr y llamadas variables falsas .
Minr, que permite la aplicacin de estos mtodos. Uno de los ejemplos clsicos de variables falsas se puede
encontrar en el uso de la variable Xo que siempre toma el valor uno,
Variables Dummy o falsas: para poder estimar el intercepto en un modelo de regresin mltiple.
Otro ejemplo del uso de variables falsas se puede observar en los
Faber (1971), citado por Chacn (1988), expresa que las mtodos de regresin para problemas de anlisis de varianza.
variables falsas son un mtodo para cuantificar caractersticas de tipo
Variables falsas en un grupo de datos
cualitativo (que son susceptibles de ser cuantificadas) o que presentan
la conveniencia de separar en categorias discretas, el procedimiento Supongamos que el investigador en mango tenga dos variedades
necesita la construccin de variables separadas en categorias (Ay B) que producen diferentes niveles de rendimiento en adicin a la
relevantes a las caractersticas en estudio, donde a esta variable se le variacin que ocurre debido a otras variables. Una de las soluciones
asigna un cierto valor si la observacin posee ese atributo y otro valor es agregar el modelo la variable falsa "z" y su coeficiente de regresin
(a) de tal manera que el modelo original debe agregrsele el trmino
(aZ). El coeficiente a puede ser estimado al mismo tiempo que los
ChacnI Anlisisde Regresiny Superficiesde Respuesta 141
140 Chacn I Anlisisde Reqresin y Superficiesde Respuesta

La forma de codificacin primera, con 4 rplicas para las


otros (P). Los valores que tomar Z sera es este ejemplo Z = O,
variedades sera;
cuando hay observaciones de la variedad A y Z =
1, para las
observaciones de la variedad B. Hay algunos autores que prefieren Variedad Z2
usar otras formas de codificacin, como por ejemplo la siguiente: A 1 O
suponga que hay n observaciones generales, ni observaciones de la A 1 O
variedad A y ns = n - ni, observaciones de la variedad B. Los niveles A 1 O
se pueden elegir de esta forma: A 1 O
B O 1
para Variedad A B O 1
B O 1
B O 1
nI
Z2 = para Variedad B C O O
~nln2(nl+n2) C O O
C O O
Esta forma de codificacin permite que la columna de X
C O O
correspondiente a la variable falsa sea ortogonal para las columnas de
las otras variables incluidas en el modelo y adems tiene su suma de En general para una extensin de este procedimiento, se puede
cuadrados nico, el cual pudiera en algunos casos ser conveniente. tener "p" niveles de variedad u por consiguiente es necesario agregar
(P-l) variables falsas al modelo.
Si en vez de dos variedades, se tuvieran tres variedades, las
variables falsas formaran los valores siguientes:
(ZI, Z2) = (1, O) para la variedad A
VALIDACION DE MODELOS DE REGRESION
(ZI, Z2) (O, 1) para la variedad B
(Z1, Z2) (0, O) para la variedad C
y en el modelo se incluyen los trminos extras 0.1Z1+ 0.2Z2.Al igual Despus que un modelo de regresion encontrado provee un
que en el caso anterior las variables falsas pueden ser codificadas de adecuado ajuste con los datos, con frecuencia uno procede a usar el
la forma siguiente: modelo para diversos fines, tales como prediccin, control, entre otros.

(ZI, Z2)= l
(-n
3
~nln3(nl + n3)
,O
)
para Variedad A
Muchos autores expresan en que antes de usar el modelo para
cualquier fin, se deberan realizar algunos chequeos a objeto de
probar la validez del mismo. En muchas instancias los anlisis
reportados no mencionan como, o si el modelo fue validado.
(Zl, Z2)= (O, -
n3) para Variedad B Es conveniente sealar que existe una diferencia considerable
~n2n3(n2+ n3) entre validar un modelo con datos provenientes de un diseo

(Z1,Z2)= l(n 1
~nln3(nl+n3)
, 2
n)
~n2n3(n2+n3)
para Variedad C
experimental y validar un modelo de datos colectados sin el apoyo de
dicho diseo. En un diseo experimental todas las variables se
suponen constantes, excepto aquellas a evaluar dentro del diseo; en
Donde m, nz y na son las observaciones correspondientes de las otras palabras los efectos externos son usualmente esperados y se
variedades A, B, y C. provee mtodos analticos para medir las respuestas. Los datos son
generalmente de buena calidad (si tiene pequeos errores expe-
rimentales) en comparacin a los datos que no provienen de los
diseos.
ChacnI Anlisisde Regresiny Superficiesde Respuesta 141
140 Chacn I Anlisisde Reqresin y Superficiesde Respuesta

La forma de codificacin primera, con 4 rplicas para las


otros (P). Los valores que tomar Z sera es este ejemplo Z = O,
variedades sera;
cuando hay observaciones de la variedad A y Z =
1, para las
observaciones de la variedad B. Hay algunos autores que prefieren Variedad Z2
usar otras formas de codificacin, como por ejemplo la siguiente: A 1 O
suponga que hay n observaciones generales, ni observaciones de la A 1 O
variedad A y ns = n - ni, observaciones de la variedad B. Los niveles A 1 O
se pueden elegir de esta forma: A 1 O
B O 1
para Variedad A B O 1
B O 1
B O 1
nI
Z2 = para Variedad B C O O
~nln2(nl+n2) C O O
C O O
Esta forma de codificacin permite que la columna de X
C O O
correspondiente a la variable falsa sea ortogonal para las columnas de
las otras variables incluidas en el modelo y adems tiene su suma de En general para una extensin de este procedimiento, se puede
cuadrados nico, el cual pudiera en algunos casos ser conveniente. tener "p" niveles de variedad u por consiguiente es necesario agregar
(P-l) variables falsas al modelo.
Si en vez de dos variedades, se tuvieran tres variedades, las
variables falsas formaran los valores siguientes:
(ZI, Z2) = (1, O) para la variedad A
VALIDACION DE MODELOS DE REGRESION
(ZI, Z2) (O, 1) para la variedad B
(Z1, Z2) (0, O) para la variedad C
y en el modelo se incluyen los trminos extras 0.1Z1+ 0.2Z2.Al igual Despus que un modelo de regresion encontrado provee un
que en el caso anterior las variables falsas pueden ser codificadas de adecuado ajuste con los datos, con frecuencia uno procede a usar el
la forma siguiente: modelo para diversos fines, tales como prediccin, control, entre otros.

(ZI, Z2)= l
(-n
3
~nln3(nl + n3)
,O
)
para Variedad A
Muchos autores expresan en que antes de usar el modelo para
cualquier fin, se deberan realizar algunos chequeos a objeto de
probar la validez del mismo. En muchas instancias los anlisis
reportados no mencionan como, o si el modelo fue validado.
(Zl, Z2)= (O, -
n3) para Variedad B Es conveniente sealar que existe una diferencia considerable
~n2n3(n2+ n3) entre validar un modelo con datos provenientes de un diseo

(Z1,Z2)= l(n 1
~nln3(nl+n3)
, 2
n)
~n2n3(n2+n3)
para Variedad C
experimental y validar un modelo de datos colectados sin el apoyo de
dicho diseo. En un diseo experimental todas las variables se
suponen constantes, excepto aquellas a evaluar dentro del diseo; en
Donde m, nz y na son las observaciones correspondientes de las otras palabras los efectos externos son usualmente esperados y se
variedades A, B, y C. provee mtodos analticos para medir las respuestas. Los datos son
generalmente de buena calidad (si tiene pequeos errores expe-
rimentales) en comparacin a los datos que no provienen de los
diseos.
142 ChacnI Anlisisde Regresiny Superficiesde Respuesta 143
ChacnI Anlisisde Regresiny Superficiesde Respuesta

Los datos obtenidos sin el apoyo de un diseo experimental


2.- Recoleccin.de datos nuevos para chequear las predicciones del
deben ser tomados con ciertas reservas por varias razones. Es usual
modelo.
que las variables respuestas y las regresoras contengan errores; las
variables son frecuentemente correlacionadas y adems la regin de 3.- Comparaciones de los resultados con modelos tericos y datos
inters con frecuencia no se muestra adecuadamente. Otra dificultad simulados.
sera, que las variables importantes pueden no ser incluidas por que
4.- Reservar una fracciri confiable de datos a objetos de obtener un
no se conoci su importancia previamente.
medida independiente de precisin de la prediccin del modelo
El uso de los modelos de regresin en la prctica pueden darnos, (Validacin Cruzada).
una gua respecto a la tcnica de validacin ms apropiada, muchos
modelos son desarrollados para prediccin, procesos de control y Chequeo de las predicciones y coeficientes del modelo
estimacin de los efectos de os factores. En cada instancia, se est Un chequeo de las predicciones del modelo (Y) y de los
generalmente interesado en desarrollar el mejor modelo posible para
el sistema bajo estudio. La bondad de ajuste de los datos es un criterio coeficientes (Pi) se podra realizar tan pronto como el modelo ha sido
muy usado para evaluar los modelos, podramos estar satisfechos por desarrollado. Las predicciones negativas de una cantidad terica-
ejemplo, con obtener el ptimo de bondad de ajuste desde el punto de mente positivas o coeficientes con falsos signos son indicadores de un
vista matemtico (R2o la mnima desviacin estndar del residual) en pobre modelo de estimacin. Esto se puede apreciar cuando nos
la estimacin de datos. Este aspecto es de relevante importancia encontramos dentro de la regin de los datos, sin embargo, en algunas
cuando el modelo es usado con propsitos de prediccin. situaciones pueden ser de gran inters realizar predicciones fuera de
esta regin.
Es importante considerar que despus que un modelo es
reportado, su autor tiene muy poco control sobre su uso. Un modelo El objetivo fundamental del procedimiento, consiste en
puede haber sido desarrollado para propsitos de extrapolacin, y una averiguar que puede pasar cuando uno extrapola con un modelo cuyos
vez que el modelo es utilizado, se puede conseguir, que tiene una coeficientes son pobremente s estimados debido a la correlacin entre
buena funcininterpolativa, es decir, el modelo es usado para lograr las variables predictoras.
buenas predicciones fuera de la regin de los datos, e interpretar los
Un examen de los coeficientes del modelo y de los factores
coeficientes para ver como trabajan las diferentes partes del modelo.
infladores de varianza asociados (VIF), provee un indicio concerniente
Este anlisis nos permite concluir que en el sentido que un modelo
a la validez del modelo. Estos factores infladores de varianza que son
sea utilizado, podra tener buenas propiedadee de extrapolacin y sus
los elementos de la diagonal de la inversa de la matriz de correlacin
coeficientes podran ser estimadores aceptables de los efectos de los
trminos individuales. (C-:-I)miden el efecto conjunto de las correlaciones entre la variable
JJ
X' s sobre las varianzas de los coeficientes estimados.
En sntesis, se podra afirmar que la prediccin y la estimacin
de parmetros no son problemas separados y el chequeo de ambas Como regla general se asume que un VIF mayor de 5 de 10 es
partes es una funcin fundamental del proceso de validacin. un ndice de que los coeficientes asociados tienen la tendencia a ser
pobremente estimados como consecuencia de las correlaciones entre
Procedimientos usados para validar modelos de regresin las variables regresoras.
Los procedimientos de validacin se pueden agrupar de cuatro El anlisis de los coeficientes de regresin seala que cuando
maneras: dos variables estn fuertemente correlacionadas producen coeficientes
1.- Comparacin de las predicciones del modelo 6') y de los mucho mayores que los reales y adems pueden presentar
coeficientes (~) usando la teora estadstica de regresin. alteraciones en sus signos (Hoerl y Kennard, 1970).
142 ChacnI Anlisisde Regresiny Superficiesde Respuesta 143
ChacnI Anlisisde Regresiny Superficiesde Respuesta

Los datos obtenidos sin el apoyo de un diseo experimental


2.- Recoleccin.de datos nuevos para chequear las predicciones del
deben ser tomados con ciertas reservas por varias razones. Es usual
modelo.
que las variables respuestas y las regresoras contengan errores; las
variables son frecuentemente correlacionadas y adems la regin de 3.- Comparaciones de los resultados con modelos tericos y datos
inters con frecuencia no se muestra adecuadamente. Otra dificultad simulados.
sera, que las variables importantes pueden no ser incluidas por que
4.- Reservar una fracciri confiable de datos a objetos de obtener un
no se conoci su importancia previamente.
medida independiente de precisin de la prediccin del modelo
El uso de los modelos de regresin en la prctica pueden darnos, (Validacin Cruzada).
una gua respecto a la tcnica de validacin ms apropiada, muchos
modelos son desarrollados para prediccin, procesos de control y Chequeo de las predicciones y coeficientes del modelo
estimacin de los efectos de os factores. En cada instancia, se est Un chequeo de las predicciones del modelo (Y) y de los
generalmente interesado en desarrollar el mejor modelo posible para
el sistema bajo estudio. La bondad de ajuste de los datos es un criterio coeficientes (Pi) se podra realizar tan pronto como el modelo ha sido
muy usado para evaluar los modelos, podramos estar satisfechos por desarrollado. Las predicciones negativas de una cantidad terica-
ejemplo, con obtener el ptimo de bondad de ajuste desde el punto de mente positivas o coeficientes con falsos signos son indicadores de un
vista matemtico (R2o la mnima desviacin estndar del residual) en pobre modelo de estimacin. Esto se puede apreciar cuando nos
la estimacin de datos. Este aspecto es de relevante importancia encontramos dentro de la regin de los datos, sin embargo, en algunas
cuando el modelo es usado con propsitos de prediccin. situaciones pueden ser de gran inters realizar predicciones fuera de
esta regin.
Es importante considerar que despus que un modelo es
reportado, su autor tiene muy poco control sobre su uso. Un modelo El objetivo fundamental del procedimiento, consiste en
puede haber sido desarrollado para propsitos de extrapolacin, y una averiguar que puede pasar cuando uno extrapola con un modelo cuyos
vez que el modelo es utilizado, se puede conseguir, que tiene una coeficientes son pobremente s estimados debido a la correlacin entre
buena funcininterpolativa, es decir, el modelo es usado para lograr las variables predictoras.
buenas predicciones fuera de la regin de los datos, e interpretar los
Un examen de los coeficientes del modelo y de los factores
coeficientes para ver como trabajan las diferentes partes del modelo.
infladores de varianza asociados (VIF), provee un indicio concerniente
Este anlisis nos permite concluir que en el sentido que un modelo
a la validez del modelo. Estos factores infladores de varianza que son
sea utilizado, podra tener buenas propiedadee de extrapolacin y sus
los elementos de la diagonal de la inversa de la matriz de correlacin
coeficientes podran ser estimadores aceptables de los efectos de los
trminos individuales. (C-:-I)miden el efecto conjunto de las correlaciones entre la variable
JJ
X' s sobre las varianzas de los coeficientes estimados.
En sntesis, se podra afirmar que la prediccin y la estimacin
de parmetros no son problemas separados y el chequeo de ambas Como regla general se asume que un VIF mayor de 5 de 10 es
partes es una funcin fundamental del proceso de validacin. un ndice de que los coeficientes asociados tienen la tendencia a ser
pobremente estimados como consecuencia de las correlaciones entre
Procedimientos usados para validar modelos de regresin las variables regresoras.
Los procedimientos de validacin se pueden agrupar de cuatro El anlisis de los coeficientes de regresin seala que cuando
maneras: dos variables estn fuertemente correlacionadas producen coeficientes
1.- Comparacin de las predicciones del modelo 6') y de los mucho mayores que los reales y adems pueden presentar
coeficientes (~) usando la teora estadstica de regresin. alteraciones en sus signos (Hoerl y Kennard, 1970).
144 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 145

Recoleccin de datos nuevos desarrollados para los datos simulados, a modo de incrementar
La recoleccin de datos nuevos, los cuales se comparn con las nuestra confianza en el modelo emprico.
predicciones del modelo es un buen mtodo de validacin. La validez
Validacin cruzada
de los supuestos matemticos usados en el desarrollo de un modelo y
en la estimacin de los coeficientes son menos discutibles si el modelo De los tres mtodos discutidos anteriormente, la recoleccin de
provee predicciones precisas con los datos nuevos. En efecto, la datos nuevos es el ms usual de los mtodos de validacin. En muchas
coleccin de datos nuevos provee un chequeo que abarca todo el situaciones prcticas la aplicacin de. este mtodo no es posible, en
proceso de construccin del modelo. este caso un procedimiento que simule la recoleccin de datos nuevos
se hace necesario. Una manera de proceder muy razonable, consiste
El procedimiento se basa en buscar las desviaciones entre los
en dividir a los datos en dos sub-conjuntos: el primer sub-conjunto
valores observados de la respuesta con datos nuevos y los valores de
llamado datos de estimac~n se usa para estimar los coefici~nt~,sdel
la respuesta estimada con el modelo. Si estas desviaciones caen
modelo. El segundo sub-conjunto denominado datos de prediccin se
dentro del error experimental, se considera validado el modelo. La
utiliza para medir la precisin de la prediccin del modelo.
afirmacin anterior se utiliza cuando los datos proviene de un diseo
experimental, en caso contrario habr que buscar otra prueba Snee (1971), considera que los sub-conjuntos de datos deberan
estadstica para analizar las desviaciones, como el caso de la prueba tener el mismo tamao (mitad y mitad). La validacin cruzada provee
de X2 un sub-conjunto de datos que mide la precisin de la prediccin y
simula una replicacin total o parcial del estudio. Existe un mtodo
La ventaja de usar el diseo experimental para generar datos es
denominado "Mtodo Duplex", que permite lograr una divisin de los
que se tiene la oportunidad de incluir un grupo de puntos de chequeo
datos y obtener los dos sub-conjuntos (Cruz y Chacn, 1986).
como parte de la planificacin experimental, puntos que
evidentemente sern los de mayor inters para el investigador. Stone (1974), considera que los datos son colectados secuencial-
mente en el tiempo, entonces, es razonable partir en un punto de
Otra posibilidad, consiste en incluir un grupo de puntos los
tiempo que divida los datos en los sub-conjuntos de estimacin y
cuales deben de estar uniformemente distribuidos en la. regin
prediccin respectivamente. Por ejemplo Cady y Allen (1972), usaron
experimental. La teora del chequeo de puntos uniformemente
el algoritmo, PRESS para desarrollar una ecuacin de prediccin en
distribuidos asociados con el diseo puede ser revisada en Kennard y
maz para cuatro aos de datos. Los datos de los tres primeros aos
Stone (1969) citado por Draper (1981).
fueron usados como datos de estimacin, y los datos del ltimo ao
Comparacin de los resultados con la teora y datos simulados como datos de prediccin.

En algunos casos existe suficiente informacin que nos permite La gran ventaja el mtodo de validacin cruzada, es que los
conocer si el modelo construido es el ms preciso. El uso de la teora modelos se pueden comparar con respecto a la bondad de ajuste de lo.s
nos dar informacin de la direccin y de la magnitud relativa de los datos y con respecto a la precisin de la prediccin.
efectos. En algunos casos un modelo terico puede existir, pero puede Draper y Smith (1966), discuten una variacin interesante al
ser muy complicado para usos prcticos, o puede ignorar usar la variable tiempo para separar sub-conjuntos de datos. En el
complejidades presentes en la realidad experimental. Cuando es caso de cuatro aos de datos, ellos recomiendan que el modelo sea
procedente, la teora se puede usar para chequear la precisin de un fijado para cada ao de datos en forma separada, y los coefic~entes
modelo emprico, en otras palabras fijar una ecuacin para simular sean estimados por estabilizacin. La consistencia de los coeficientes
datos desarrollados de un modelo terico. ao tras ao sugiere que el modelo es bastante bueno. Este chequeo se
El basamento fundamental de este procedimiento es que los realiza si la correlacin entre las variables predictoras son pequeas,
coeficientes de regresin obtenidos a partir de los datos observados luego si las correlaciones son grandes y consistentes aos tras ao, el
estn en general en armona con los coeficientes de regresin
144 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 145

Recoleccin de datos nuevos desarrollados para los datos simulados, a modo de incrementar
La recoleccin de datos nuevos, los cuales se comparn con las nuestra confianza en el modelo emprico.
predicciones del modelo es un buen mtodo de validacin. La validez
Validacin cruzada
de los supuestos matemticos usados en el desarrollo de un modelo y
en la estimacin de los coeficientes son menos discutibles si el modelo De los tres mtodos discutidos anteriormente, la recoleccin de
provee predicciones precisas con los datos nuevos. En efecto, la datos nuevos es el ms usual de los mtodos de validacin. En muchas
coleccin de datos nuevos provee un chequeo que abarca todo el situaciones prcticas la aplicacin de. este mtodo no es posible, en
proceso de construccin del modelo. este caso un procedimiento que simule la recoleccin de datos nuevos
se hace necesario. Una manera de proceder muy razonable, consiste
El procedimiento se basa en buscar las desviaciones entre los
en dividir a los datos en dos sub-conjuntos: el primer sub-conjunto
valores observados de la respuesta con datos nuevos y los valores de
llamado datos de estimac~n se usa para estimar los coefici~nt~,sdel
la respuesta estimada con el modelo. Si estas desviaciones caen
modelo. El segundo sub-conjunto denominado datos de prediccin se
dentro del error experimental, se considera validado el modelo. La
utiliza para medir la precisin de la prediccin del modelo.
afirmacin anterior se utiliza cuando los datos proviene de un diseo
experimental, en caso contrario habr que buscar otra prueba Snee (1971), considera que los sub-conjuntos de datos deberan
estadstica para analizar las desviaciones, como el caso de la prueba tener el mismo tamao (mitad y mitad). La validacin cruzada provee
de X2 un sub-conjunto de datos que mide la precisin de la prediccin y
simula una replicacin total o parcial del estudio. Existe un mtodo
La ventaja de usar el diseo experimental para generar datos es
denominado "Mtodo Duplex", que permite lograr una divisin de los
que se tiene la oportunidad de incluir un grupo de puntos de chequeo
datos y obtener los dos sub-conjuntos (Cruz y Chacn, 1986).
como parte de la planificacin experimental, puntos que
evidentemente sern los de mayor inters para el investigador. Stone (1974), considera que los datos son colectados secuencial-
mente en el tiempo, entonces, es razonable partir en un punto de
Otra posibilidad, consiste en incluir un grupo de puntos los
tiempo que divida los datos en los sub-conjuntos de estimacin y
cuales deben de estar uniformemente distribuidos en la. regin
prediccin respectivamente. Por ejemplo Cady y Allen (1972), usaron
experimental. La teora del chequeo de puntos uniformemente
el algoritmo, PRESS para desarrollar una ecuacin de prediccin en
distribuidos asociados con el diseo puede ser revisada en Kennard y
maz para cuatro aos de datos. Los datos de los tres primeros aos
Stone (1969) citado por Draper (1981).
fueron usados como datos de estimacin, y los datos del ltimo ao
Comparacin de los resultados con la teora y datos simulados como datos de prediccin.

En algunos casos existe suficiente informacin que nos permite La gran ventaja el mtodo de validacin cruzada, es que los
conocer si el modelo construido es el ms preciso. El uso de la teora modelos se pueden comparar con respecto a la bondad de ajuste de lo.s
nos dar informacin de la direccin y de la magnitud relativa de los datos y con respecto a la precisin de la prediccin.
efectos. En algunos casos un modelo terico puede existir, pero puede Draper y Smith (1966), discuten una variacin interesante al
ser muy complicado para usos prcticos, o puede ignorar usar la variable tiempo para separar sub-conjuntos de datos. En el
complejidades presentes en la realidad experimental. Cuando es caso de cuatro aos de datos, ellos recomiendan que el modelo sea
procedente, la teora se puede usar para chequear la precisin de un fijado para cada ao de datos en forma separada, y los coefic~entes
modelo emprico, en otras palabras fijar una ecuacin para simular sean estimados por estabilizacin. La consistencia de los coeficientes
datos desarrollados de un modelo terico. ao tras ao sugiere que el modelo es bastante bueno. Este chequeo se
El basamento fundamental de este procedimiento es que los realiza si la correlacin entre las variables predictoras son pequeas,
coeficientes de regresin obtenidos a partir de los datos observados luego si las correlaciones son grandes y consistentes aos tras ao, el
estn en general en armona con los coeficientes de regresin
Chacn I Anlisis de Regresin y Superficies de Respuesta 147
146 Chacn I Anlisis de Regresin y Superficies de Respuesta

a.- Estos datos pueden proveer informacin nica acerca del


modelo podra dar pobres predicciones para el otro sub-conjunto de fenmeno de inters.
datos cuya estructura de correlacin es diferente.
b.- Ejercen influencias en los resultados obtenidos en el anlisis de
Este mtodo de anlisis particularmente es utilizado cuando la diseos experimentales y en el ajuste de los modelos de
tendencia de los datos y arreglos lgicos de tiempo tales como un ao regresin.
(datos meteorolgicos), siendo su limitante fundamental cuando no
hay suficientes datos en los aos individuales, para estimar los C.- Los valores de los coeficientes de regresin, las pruebas de t, F,
coeficientes del modelo para cada ao. Cuando utilizamos el criterio R2 Ylos cuadrados medios del error pueden ser afectados por su
tiempo para fraccionar a los datos, con frecuencia se consigue pobre presencia.
precisin de la prediccin, debida a que los datos para la prediccin
estn fuera de la regin de os datos de estimacin, en este caso, Existen varios tipos de mtodos para detectar los valores
parece razonable usar la ltima parte de los datos de prediccin para atpicos, entre ellos se pueden sealar:
extender el rango de los datos de estimacin, manteniendo an los
conceptos de sub-conjuntos de datos de estimacin y prediccin a.- Mtodos grficos.
respectivamente. b.- Procedimientos estadsticos.
C.- Otras tcnicas .:
VALORES ATIPICOS (OUTLIERS) y RESIDUALES
Mtodos grficos para detectar outliers
El outlier, es na observacin que tiene un valor extremo, en
relacin a las dems observaciones. Es una peculiaridad e indica que
Existen tcnicas grficas para la deteccin de los datos
el dato no es del todo tpico respecto a los otros; de all que su
extremos; pero es conveniente considerar que, cualquier expresin
presencia dificulte el ajuste del modelo de regresin. Sus residuales
grfica de ellos es subjetiva. No obstante, ellas siempre deben ser
son considerablemente mayores en valor absoluto que los otros. Estos
empleadas como primer paso en el diagnstico. Cuando los outliers
datos atpicos han sido estudiados para explicar las razones de su
tienen valores extremos de magnitud considerable, son fciles de
extrao comportamiento.
visualizar mediante un grfico; ellos pueden ser:
Los valores atpicos pueden surgir por un variado nmero de
motivos, entre los cuales podemos sealar: 1.- Grficos de referencia.

a.- Medidas defectuosas del anlisis. 2.- Grficos de caja.

b.- Registro incorrecto de los datos. 3.- Grficos de residuales contra valores predichos tales como se
muestran a continuacin:
C.- Defectos en los instrumentos de medida.
d.- Fallas en los supuestos (que es una de la ms comunes).

El detectar los outliers es de suma importancia, ya que, su


presencia puede oscurecer caractersticas del fenmeno que est
presente en la mayor parte de los otros datos. An cuando son valores
extremos, su exclusin no es siempre una decisin acertada; ya que:
Chacn I Anlisis de Regresin y Superficies de Respuesta 147
146 Chacn I Anlisis de Regresin y Superficies de Respuesta

a.- Estos datos pueden proveer informacin nica acerca del


modelo podra dar pobres predicciones para el otro sub-conjunto de fenmeno de inters.
datos cuya estructura de correlacin es diferente.
b.- Ejercen influencias en los resultados obtenidos en el anlisis de
Este mtodo de anlisis particularmente es utilizado cuando la diseos experimentales y en el ajuste de los modelos de
tendencia de los datos y arreglos lgicos de tiempo tales como un ao regresin.
(datos meteorolgicos), siendo su limitante fundamental cuando no
hay suficientes datos en los aos individuales, para estimar los C.- Los valores de los coeficientes de regresin, las pruebas de t, F,
coeficientes del modelo para cada ao. Cuando utilizamos el criterio R2 Ylos cuadrados medios del error pueden ser afectados por su
tiempo para fraccionar a los datos, con frecuencia se consigue pobre presencia.
precisin de la prediccin, debida a que los datos para la prediccin
estn fuera de la regin de os datos de estimacin, en este caso, Existen varios tipos de mtodos para detectar los valores
parece razonable usar la ltima parte de los datos de prediccin para atpicos, entre ellos se pueden sealar:
extender el rango de los datos de estimacin, manteniendo an los
conceptos de sub-conjuntos de datos de estimacin y prediccin a.- Mtodos grficos.
respectivamente. b.- Procedimientos estadsticos.
C.- Otras tcnicas .:
VALORES ATIPICOS (OUTLIERS) y RESIDUALES
Mtodos grficos para detectar outliers
El outlier, es na observacin que tiene un valor extremo, en
relacin a las dems observaciones. Es una peculiaridad e indica que
Existen tcnicas grficas para la deteccin de los datos
el dato no es del todo tpico respecto a los otros; de all que su
extremos; pero es conveniente considerar que, cualquier expresin
presencia dificulte el ajuste del modelo de regresin. Sus residuales
grfica de ellos es subjetiva. No obstante, ellas siempre deben ser
son considerablemente mayores en valor absoluto que los otros. Estos
empleadas como primer paso en el diagnstico. Cuando los outliers
datos atpicos han sido estudiados para explicar las razones de su
tienen valores extremos de magnitud considerable, son fciles de
extrao comportamiento.
visualizar mediante un grfico; ellos pueden ser:
Los valores atpicos pueden surgir por un variado nmero de
motivos, entre los cuales podemos sealar: 1.- Grficos de referencia.

a.- Medidas defectuosas del anlisis. 2.- Grficos de caja.

b.- Registro incorrecto de los datos. 3.- Grficos de residuales contra valores predichos tales como se
muestran a continuacin:
C.- Defectos en los instrumentos de medida.
d.- Fallas en los supuestos (que es una de la ms comunes).

El detectar los outliers es de suma importancia, ya que, su


presencia puede oscurecer caractersticas del fenmeno que est
presente en la mayor parte de los otros datos. An cuando son valores
extremos, su exclusin no es siempre una decisin acertada; ya que:
148 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 149

1 73 :\ \ \ \ RESID
O 74
1 75 :\ \ \ \ 5 A A A AAA
1 76 \ :\ \ \ A A
1 77 \ \ :\ \
A AA AAA B e
O 78
A ABAA AA
A A A AA AA
O 79
1 80 \\\\\ . A A A A A
O 81
A
2 82 \\\\\\\\\:
A
O 83
2 84 \\\\\\\\\\.
1 85 \ \ \ \ \ A
8 86 \ \ \ \ \ \ \ \ : \ \ \ \ \ \ \ \"\,\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \
2 87 \\\\\\\:\\
.3 88 \\\\\:\\\\\\\\\ 70 72 74 76 78 80 82 84
O' 89

o 2 4 6 8

Figura 4.8. Grfico de referencia para detectar valores atpicos Figura 4.10. Grficos de residuales contra valores predichos

Procedimientos estadsticos para detectar outliers


96

84
Existen pruebas estadsticas que ayudan a confirmar o que
sirven para detectar outliers, si stos no son fcilmente visibles por
tcnicas grficas; ya que exhiben modestas desviaciones de la lnea de
72
ajuste. Entre ellas estn:

1. La prueba de DIXON, que usa relaciones de rango y subrango de


los datos. Es til cuando las muestras son pequeas y slo una o
60
dos observaciones son extremas.
2. La prueba de GRUBBS, es una relacin de sumas de cuadrados;
Figura 4.9. Grficos de caja para detectar valores atpicos donde la suma de cuadrados del numerador no contiene los datos
sospechosos, mientras la suma de cuadrados del denominador
contiene todas la observaciones. Requiere de ciertos esfuerzos y
clculos pero puede usarse para cualquier nmero de posibles
outliers.

Los pasos a seguir para su aplicacin sern los siguientes:


1. Se ordenan las observaciones de manera creciente.
148 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 149

1 73 :\ \ \ \ RESID
O 74
1 75 :\ \ \ \ 5 A A A AAA
1 76 \ :\ \ \ A A
1 77 \ \ :\ \
A AA AAA B e
O 78
A ABAA AA
A A A AA AA
O 79
1 80 \\\\\ . A A A A A
O 81
A
2 82 \\\\\\\\\:
A
O 83
2 84 \\\\\\\\\\.
1 85 \ \ \ \ \ A
8 86 \ \ \ \ \ \ \ \ : \ \ \ \ \ \ \ \"\,\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \
2 87 \\\\\\\:\\
.3 88 \\\\\:\\\\\\\\\ 70 72 74 76 78 80 82 84
O' 89

o 2 4 6 8

Figura 4.8. Grfico de referencia para detectar valores atpicos Figura 4.10. Grficos de residuales contra valores predichos

Procedimientos estadsticos para detectar outliers


96

84
Existen pruebas estadsticas que ayudan a confirmar o que
sirven para detectar outliers, si stos no son fcilmente visibles por
tcnicas grficas; ya que exhiben modestas desviaciones de la lnea de
72
ajuste. Entre ellas estn:

1. La prueba de DIXON, que usa relaciones de rango y subrango de


los datos. Es til cuando las muestras son pequeas y slo una o
60
dos observaciones son extremas.
2. La prueba de GRUBBS, es una relacin de sumas de cuadrados;
Figura 4.9. Grficos de caja para detectar valores atpicos donde la suma de cuadrados del numerador no contiene los datos
sospechosos, mientras la suma de cuadrados del denominador
contiene todas la observaciones. Requiere de ciertos esfuerzos y
clculos pero puede usarse para cualquier nmero de posibles
outliers.

Los pasos a seguir para su aplicacin sern los siguientes:


1. Se ordenan las observaciones de manera creciente.
150 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 151

2. a.- Si los k valores mayores son sospechosos, se calcula es como outliers es igual al nivel de significacin utilizado; debe usarse
estadstico Lk: un nivel de Significacin de 0,01 o menor. Ambas pruebas asumen
distribucin normal de los errores.
(4.73)
Definicin de residual

~ - 2
donde: Syy = (Y- Y) (4.74) Segn el modelo general de regresin se tiene:

1
y = X~ + E (4.79)
y (4.75)
YL = (n- k) Y con las condiciones sobre el vector de E (vector de errores):

b.- Si los k valores menores son sospechosos, se calcula el E (E) = O, Varts) = cr21
estadstico Sk:
Puesto que los errores son no observables se consideran los
residuales "e" como:
S k =-
S
1 (Y-Y) 1 S
2
(4.76)
yy e = y - Y (4.80)

1 para estimar si las suposiciones sobre E son razonables.


donde: Ys -- (n- k) ~y
L.J
(4.77)
Por el mtodo de mnimos cuadrados ordinarios se obtiene
que:
En la ecuaciones (4.75) y (4.77) Yi son los datos no
sospechosos. (4.81)

3. Se concluye que las k observaciones son outliers, si el valor al aplicar el mtodo se obtiene:
calculado de Lk o Sk es menor que el mostrado en la tabla
elaborada para la prueba. X'X = X'Xp
4. En caso que existan simultneamente valores extremos grandes
y pequeos sospechosos, puede calcularse el estadstico Ek: por lo tanto:

Ek =-
S
1 (Z.-Z) 1 e
2
(4.78)
yy
Sustituyendo en (4.81):
donde: Zi son las desviaciones absolutas ( I Yi - Y I )ms pequeas, no
outliers y Ze es el valor medio de ellas (Ze = IZi / n-k). y=x(x'xt1X'y

Se concluye que las observaciones sospechosas son outliers si el a la matriz X(X'X)lX' se la llamar V, entonces al sustituir en (4.80)
A

valor del estadstico Ek es menor que el sealado en la tabla referida. a y:


Como la proporcin de las observaciones identificadas errneamente
e = y - VY = (1 - V)Y . (4.82)
150 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 151

2. a.- Si los k valores mayores son sospechosos, se calcula es como outliers es igual al nivel de significacin utilizado; debe usarse
estadstico Lk: un nivel de Significacin de 0,01 o menor. Ambas pruebas asumen
distribucin normal de los errores.
(4.73)
Definicin de residual

~ - 2
donde: Syy = (Y- Y) (4.74) Segn el modelo general de regresin se tiene:

1
y = X~ + E (4.79)
y (4.75)
YL = (n- k) Y con las condiciones sobre el vector de E (vector de errores):

b.- Si los k valores menores son sospechosos, se calcula el E (E) = O, Varts) = cr21
estadstico Sk:
Puesto que los errores son no observables se consideran los
residuales "e" como:
S k =-
S
1 (Y-Y) 1 S
2
(4.76)
yy e = y - Y (4.80)

1 para estimar si las suposiciones sobre E son razonables.


donde: Ys -- (n- k) ~y
L.J
(4.77)
Por el mtodo de mnimos cuadrados ordinarios se obtiene
que:
En la ecuaciones (4.75) y (4.77) Yi son los datos no
sospechosos. (4.81)

3. Se concluye que las k observaciones son outliers, si el valor al aplicar el mtodo se obtiene:
calculado de Lk o Sk es menor que el mostrado en la tabla
elaborada para la prueba. X'X = X'Xp
4. En caso que existan simultneamente valores extremos grandes
y pequeos sospechosos, puede calcularse el estadstico Ek: por lo tanto:

Ek =-
S
1 (Z.-Z) 1 e
2
(4.78)
yy
Sustituyendo en (4.81):
donde: Zi son las desviaciones absolutas ( I Yi - Y I )ms pequeas, no
outliers y Ze es el valor medio de ellas (Ze = IZi / n-k). y=x(x'xt1X'y

Se concluye que las observaciones sospechosas son outliers si el a la matriz X(X'X)lX' se la llamar V, entonces al sustituir en (4.80)
A

valor del estadstico Ek es menor que el sealado en la tabla referida. a y:


Como la proporcin de las observaciones identificadas errneamente
e = y - VY = (1 - V)Y . (4.82)
Chacn I Anlisis de Regresin y Superficies d~ Respuesta 153
152 Chacn I Anlisis de Regresin y Superficies de Respuesta

como la matriz de proyeccin en el espacio de columnas de X


De esta expresin se puede encontrar la relacin entre e y e
ortogonales a Xi, V entonces ser la suma de las dos proyecciones:
sustituyendo Y por la ecuacin (4.79).
V = U + T* (4.84)
e = (I - V) (X~ + e) = X~ + e - VX~ - Ve =
Si se considera que Xi = 1 (vector de variables "Dummy') se
tiene;
X~+e-X(X'X}-l X'X~-Ve=X~+e-X~-VE
~
1 (4.85)
e = (1 - V) e (4.83)
en donde X es una matriz de n x p (p es el nmero de parmetros,
De aqu que la relacin entre e y e, depende solamente de la distintos de ~o, incluidos en el modelo). Cada elemento V de la
matriz V, si sus elementos son lo suficientemente pequeos, e acta diagonal de V viene expresado como:
como sustituto de e, de otra manera, la utilidad de e como estimador
de 1; es limitada. Vu = l'
-+X '( X'X )-1'X (4.86)
.n 1 1

A la matriz V se le ha denominado la matriz "sombrero" pues


"mapea" la matriz Y : en donde X' es la i-sima fila de X.

Y=VY
Para un modelo de regresin simple (Yi = ~o + ~lXi + ei) el
trmino Vii viene a ser:
La matriz V tiene la caracterstica de ser simtrica (V' = V) e
dempotente (V2 = V) y se dice que "proyecta" cualquier vector sobre el
espacio columna de X. Esta matriz puede separarse como la suma de (4.87)
dos matrices, siguiendo el siguiente procedimiento.

Sea la matriz X = (Xi I X2) en donde Xi es de orden n x q y de

rango q y sea U = Xl(X~Xlrlx~ la matriz de proyeccin para el La importancia de este Vu radica en las siguientes relaciones
para la varianza y esperanza de er; partiendo de (4.83)
espacio columna de Xi, y sea X; el componente de X2 ortogonal a Xi, se tiene:
es decir, si UX2 es la proyeccin de X2 en el espacio generado por las
columnas de Xi, entonces:
1

vn1]le e2
Vn2 ]

y se define a: ... Vnn en


Chacn I Anlisis de Regresin y Superficies d~ Respuesta 153
152 Chacn I Anlisis de Regresin y Superficies de Respuesta

como la matriz de proyeccin en el espacio de columnas de X


De esta expresin se puede encontrar la relacin entre e y e
ortogonales a Xi, V entonces ser la suma de las dos proyecciones:
sustituyendo Y por la ecuacin (4.79).
V = U + T* (4.84)
e = (I - V) (X~ + e) = X~ + e - VX~ - Ve =
Si se considera que Xi = 1 (vector de variables "Dummy') se
tiene;
X~+e-X(X'X}-l X'X~-Ve=X~+e-X~-VE
~
1 (4.85)
e = (1 - V) e (4.83)
en donde X es una matriz de n x p (p es el nmero de parmetros,
De aqu que la relacin entre e y e, depende solamente de la distintos de ~o, incluidos en el modelo). Cada elemento V de la
matriz V, si sus elementos son lo suficientemente pequeos, e acta diagonal de V viene expresado como:
como sustituto de e, de otra manera, la utilidad de e como estimador
de 1; es limitada. Vu = l'
-+X '( X'X )-1'X (4.86)
.n 1 1

A la matriz V se le ha denominado la matriz "sombrero" pues


"mapea" la matriz Y : en donde X' es la i-sima fila de X.

Y=VY
Para un modelo de regresin simple (Yi = ~o + ~lXi + ei) el
trmino Vii viene a ser:
La matriz V tiene la caracterstica de ser simtrica (V' = V) e
dempotente (V2 = V) y se dice que "proyecta" cualquier vector sobre el
espacio columna de X. Esta matriz puede separarse como la suma de (4.87)
dos matrices, siguiendo el siguiente procedimiento.

Sea la matriz X = (Xi I X2) en donde Xi es de orden n x q y de

rango q y sea U = Xl(X~Xlrlx~ la matriz de proyeccin para el La importancia de este Vu radica en las siguientes relaciones
para la varianza y esperanza de er; partiendo de (4.83)
espacio columna de Xi, y sea X; el componente de X2 ortogonal a Xi, se tiene:
es decir, si UX2 es la proyeccin de X2 en el espacio generado por las
columnas de Xi, entonces:
1

vn1]le e2
Vn2 ]

y se define a: ... Vnn en


154 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 155
n
EI-IVjEj sea grande, lo cual ocurre en los puntos alejados de X es decir, en los
j=1 puntos, en los que er tendr relativamente menos varianza.

n Otra situacin a considerar es cuando el modelo planteado es


incorrecto, por ejemplo:
E - IVl'j (4.88)
j= l
y = X~ + B + E (4.90)

en donde. el vector B representa el sesgo en el ajuste en un conjunto


particular n de ecuaciones, este sesgo puede ser visto como Z0 en
donde 0 es un vector de parmetros no considerado, y las columnas
y, la esperanza de los e ser igual a cero tal como se establece a de Z pueden representar variables importantes no incluidas en X, de
continuacin; aqu que E(e) * O y tendr un componente asociado al sesgo.

E(e) = E (E) -
n

IVijE(E j )=0
Por otra parte, si el modelo es correcto pero Var ( E) cr2 Wl=
j=1
donde W es una matriz desconocida positiva definida y simtrica;
entonces, si se fija el .mcdelo bajo la creencia de que V(E) = cr2l
E(e) = O
entonces E(e) = O pero las varianzas de e estarn dadas por:
Por una deduccin similar la varianza de los e ser:
Por (4.83) V(e) = Var [(I-V) El Var(e) = cr2 (I_V)Wl(I_V)

-V(e) = (I-V) , V(E) (I-V) Dependiendo de Wl las verdaderas varianzas de los residuales
V(e) = (l-V) cr (l-V)
2 podran ser diferentes a cr2 (1 - Vu), y deberan obtenerse siguiendo
un modelo de mnimos cuadrados ponderados.
V(e) = (I-V) (I-V) cr2
V(e) = (I-V) cr2

y por consiguiente: V(e) = (L-Vu) cr2 (4.89)


Si por ejemplo, la matriz W tiene la forma:
. Se demuestra con ello que V(e)est dado por los elementos de la
diagonal de (I-V) cr2 y que la covarianza de e y ej est dada por los
elementos fuera de la diagonal. La correlacin entre e y ej est
definida por:
y si se define la correlacin cuadrtica entre el residual "i" y el "i"
como:

Ahora si los e no estn correlacionados Cov (ei, ej) = O.

. Hay que aadir que segn la ecuacin (4.83) el valor de e se


alejar de la distribucin propuesta para Een la medida en que Vu
154 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 155
n
EI-IVjEj sea grande, lo cual ocurre en los puntos alejados de X es decir, en los
j=1 puntos, en los que er tendr relativamente menos varianza.

n Otra situacin a considerar es cuando el modelo planteado es


incorrecto, por ejemplo:
E - IVl'j (4.88)
j= l
y = X~ + B + E (4.90)

en donde. el vector B representa el sesgo en el ajuste en un conjunto


particular n de ecuaciones, este sesgo puede ser visto como Z0 en
donde 0 es un vector de parmetros no considerado, y las columnas
y, la esperanza de los e ser igual a cero tal como se establece a de Z pueden representar variables importantes no incluidas en X, de
continuacin; aqu que E(e) * O y tendr un componente asociado al sesgo.

E(e) = E (E) -
n

IVijE(E j )=0
Por otra parte, si el modelo es correcto pero Var ( E) cr2 Wl=
j=1
donde W es una matriz desconocida positiva definida y simtrica;
entonces, si se fija el .mcdelo bajo la creencia de que V(E) = cr2l
E(e) = O
entonces E(e) = O pero las varianzas de e estarn dadas por:
Por una deduccin similar la varianza de los e ser:
Por (4.83) V(e) = Var [(I-V) El Var(e) = cr2 (I_V)Wl(I_V)

-V(e) = (I-V) , V(E) (I-V) Dependiendo de Wl las verdaderas varianzas de los residuales
V(e) = (l-V) cr (l-V)
2 podran ser diferentes a cr2 (1 - Vu), y deberan obtenerse siguiendo
un modelo de mnimos cuadrados ponderados.
V(e) = (I-V) (I-V) cr2
V(e) = (I-V) cr2

y por consiguiente: V(e) = (L-Vu) cr2 (4.89)


Si por ejemplo, la matriz W tiene la forma:
. Se demuestra con ello que V(e)est dado por los elementos de la
diagonal de (I-V) cr2 y que la covarianza de e y ej est dada por los
elementos fuera de la diagonal. La correlacin entre e y ej est
definida por:
y si se define la correlacin cuadrtica entre el residual "i" y el "i"
como:

Ahora si los e no estn correlacionados Cov (ei, ej) = O.

. Hay que aadir que segn la ecuacin (4.83) el valor de e se


alejar de la distribucin propuesta para Een la medida en que Vu
156 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 157

se tiene que: en esta frmula ei y s son estimadores de los mismo datos y son
dependientes, por el contrario, en los internamente estudentizados el
Var(e1)=cr
2
(l-Vll
{
l+(l-Vll
{1-~JJ
W II (4.91)
S2 es independiente de ei y la estimacin de S2 sin considerar el
residual "i" viene a ser:

2 n- p' 2

(4.92)
s(i) = ,s - p' = p+1
n-p-1 (n-p'-l)(l- Vii)

Los residuales externamente estudentizados sern:


En estas ecuaciones se deduce cual es el efecto de W r "* 1,
dependiendo los valores de vo de Wl, Vily P~j.
1.=
e
ri---u (4.94)
1 s(inl 1- Vii
Cuando P~j es pequeo, tan solo V(er) se ve afectado por el

trmino Wl, sin embargo, si P~j es grande hay que considerar el el cual sigue distribucin "t" con (n-p' -1) grados de libertad.

efecto de W 1 sobre los otros residuales. Si W 1 es pequeo, la varianza La relacin entre ti y n se halla sustituyendo (4.93) en (4.94).
de los errores se ve inflada. .
n-p'-l] (4.95)
t=r. ,2
1 1 ( n-p=r,
Tipos de residuales

Adems de los residuales estudiados se puede considerar otras Tambin se pueden considerar los "residuos predichos" los
transformaciones sobre stos, para ello se considerar la estimacin cuales se basan en el ajuste de los datos cuando el caso" i " es
cr2 a travs de los residuales: excluido:

n n ' A

e(i) = Yi - Xi~(i) (4.96)


(ei- e)2 e~
2
s =
ie I

(n- p)
~
n-p
(e~Ie;ln=o]
1=1

y se define el residual "estandarizado" como ei/s, el cual sigue una

distribucin normal estandarizada, sto es ~ - N(O, 1). en donde ~(i) es el vector de parmetros estimados por mnimos
o cuadrados sin considerar el caso (i), La relacin entre e(i) y ei viene a
Otro tipo de residuales "estandarizados" son los que pueden ser:
serlo interna o, externamente. Los residuales internamente
estudentizados se definen como:

(4.93) La suma de cuadrados de este tipo de residuales se ha utilizado


como mtodo de seleccin de variables (press).
156 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 157

se tiene que: en esta frmula ei y s son estimadores de los mismo datos y son
dependientes, por el contrario, en los internamente estudentizados el
Var(e1)=cr
2
(l-Vll
{
l+(l-Vll
{1-~JJ
W II (4.91)
S2 es independiente de ei y la estimacin de S2 sin considerar el
residual "i" viene a ser:

2 n- p' 2

(4.92)
s(i) = ,s - p' = p+1
n-p-1 (n-p'-l)(l- Vii)

Los residuales externamente estudentizados sern:


En estas ecuaciones se deduce cual es el efecto de W r "* 1,
dependiendo los valores de vo de Wl, Vily P~j.
1.=
e
ri---u (4.94)
1 s(inl 1- Vii
Cuando P~j es pequeo, tan solo V(er) se ve afectado por el

trmino Wl, sin embargo, si P~j es grande hay que considerar el el cual sigue distribucin "t" con (n-p' -1) grados de libertad.

efecto de W 1 sobre los otros residuales. Si W 1 es pequeo, la varianza La relacin entre ti y n se halla sustituyendo (4.93) en (4.94).
de los errores se ve inflada. .
n-p'-l] (4.95)
t=r. ,2
1 1 ( n-p=r,
Tipos de residuales

Adems de los residuales estudiados se puede considerar otras Tambin se pueden considerar los "residuos predichos" los
transformaciones sobre stos, para ello se considerar la estimacin cuales se basan en el ajuste de los datos cuando el caso" i " es
cr2 a travs de los residuales: excluido:

n n ' A

e(i) = Yi - Xi~(i) (4.96)


(ei- e)2 e~
2
s =
ie I

(n- p)
~
n-p
(e~Ie;ln=o]
1=1

y se define el residual "estandarizado" como ei/s, el cual sigue una

distribucin normal estandarizada, sto es ~ - N(O, 1). en donde ~(i) es el vector de parmetros estimados por mnimos
o cuadrados sin considerar el caso (i), La relacin entre e(i) y ei viene a
Otro tipo de residuales "estandarizados" son los que pueden ser:
serlo interna o, externamente. Los residuales internamente
estudentizados se definen como:

(4.93) La suma de cuadrados de este tipo de residuales se ha utilizado


como mtodo de seleccin de variables (press).
Chacn I Anlisis de Regresin y Superficies de Respuesta 159
158 Chacn I Anlisis de Regresin y Superficies de Respuesta

De esta manera:
Se tienen, luego, los residuales "no correlacionados", los cuales
son producto de una transformacin lineal en los valores de 'Y'
observados tal que:
(4.98)
e=C'Y A I 1 t

~(i)= (X(i)X(i))- (X'Y-Xi Yi)


con la caracterstica de que:
2 donde X'X-X;Xi =X~i)X(i)
E(e) = O Var(e) =a 1
esta inversa viene dada por:
donde C es una matriz de orden nx(n-p') y adems se requiere que C'
sea ortogonal a X y C' C= I. (X'. X t1=(X'X)-1 +-1-(X'X)-lX'.X.(X'xt1 (4.99)
(1) (1) 1- V.. I I
Finalmente, los residuales "recursivos", en los cuales se U

considera la ordenacin temporal (o de otro orden secuencial con de aqu que:


respecto a una variable ajena al experimento) y se definen como:

para k = 1,2,... ,p

=
e =
kY -x, P -
k1
--r============== k=p+1,p+2, ... n
1
~1+X'k(X'k_lXk_lrl x, - -(X'xt
1 '
X.X.(X'xt
1
Xy
'

1-V I~I
en donde Pk-1 y Xk_1 son calculados utilizando los primeros k-1
11 Vii

casos. Estos residuales son apropiados para examinar suposiciones


que dependen del orden, tambin se utilizan para pruebas de - Yi + V ii v, ]
correlacin seriada.
= ~~- [(X'X)-1'X J [ Y + --=------=.--=..
I 1 1- V..
11

Estadsticos utilizados para el anlisis de residuales


~
=~_ [
(X'X)- 1 X, 'l(Y(1-V ..)-Y.+V ..Y]
1 11.1 11 1

Se pueden considerar estadsticos que no incluyan la 1- V


observacin "i". De este modo el modelo original:

X'Xp = X'Y = ~_
~ [ (xx): 1 Xi 'J(Y-V ..Y-Y.+V ..Y]
1 11 1 1 11 1

1- v.
Se transforma en:

(4.97)
= ~~- --1- 1V.. [(X'X)-1'X J ( Y 1 I
~) = 13-
- Y. ~ -- 1
1 1- V
(X'X)-1X.e.
'
1 1
11
Chacn I Anlisis de Regresin y Superficies de Respuesta 159
158 Chacn I Anlisis de Regresin y Superficies de Respuesta

De esta manera:
Se tienen, luego, los residuales "no correlacionados", los cuales
son producto de una transformacin lineal en los valores de 'Y'
observados tal que:
(4.98)
e=C'Y A I 1 t

~(i)= (X(i)X(i))- (X'Y-Xi Yi)


con la caracterstica de que:
2 donde X'X-X;Xi =X~i)X(i)
E(e) = O Var(e) =a 1
esta inversa viene dada por:
donde C es una matriz de orden nx(n-p') y adems se requiere que C'
sea ortogonal a X y C' C= I. (X'. X t1=(X'X)-1 +-1-(X'X)-lX'.X.(X'xt1 (4.99)
(1) (1) 1- V.. I I
Finalmente, los residuales "recursivos", en los cuales se U

considera la ordenacin temporal (o de otro orden secuencial con de aqu que:


respecto a una variable ajena al experimento) y se definen como:

para k = 1,2,... ,p

=
e =
kY -x, P -
k1
--r============== k=p+1,p+2, ... n
1
~1+X'k(X'k_lXk_lrl x, - -(X'xt
1 '
X.X.(X'xt
1
Xy
'

1-V I~I
en donde Pk-1 y Xk_1 son calculados utilizando los primeros k-1
11 Vii

casos. Estos residuales son apropiados para examinar suposiciones


que dependen del orden, tambin se utilizan para pruebas de - Yi + V ii v, ]
correlacin seriada.
= ~~- [(X'X)-1'X J [ Y + --=------=.--=..
I 1 1- V..
11

Estadsticos utilizados para el anlisis de residuales


~
=~_ [
(X'X)- 1 X, 'l(Y(1-V ..)-Y.+V ..Y]
1 11.1 11 1

Se pueden considerar estadsticos que no incluyan la 1- V


observacin "i". De este modo el modelo original:

X'Xp = X'Y = ~_
~ [ (xx): 1 Xi 'J(Y-V ..Y-Y.+V ..Y]
1 11 1 1 11 1

1- v.
Se transforma en:

(4.97)
= ~~- --1- 1V.. [(X'X)-1'X J ( Y 1 I
~) = 13-
- Y. ~ -- 1
1 1- V
(X'X)-1X.e.
'
1 1
11
160 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 161

entonces: y de esta manera:


~ ~ 1 ( )-1' (4.100)
~-~(i) =-- X'X Xiei DFFit (est) (4.104)
1- v,
A este desvo se le denomina "Desviacin de ajuste de Beta"
Ntese que este estadstico se ve "inflado" por dos motivos, si Vu
o DFBeta(i) y mide la diferencia en el ~ por la exclusin de la es grande o si el residuo estudentizado es muy grande (un "outlier"),
observacin "i".
El otro estadstico que puede considerarse es la "Distancia de
Si decimos que e= (X'X)l X, entonces: Cook". Si se tiene la distancia:

e.e.
1 1
(4.101)
DFBeta =
1- Vii

Este valor puede estandarizarse calculando:

p= ey
del "punto" P - P(i) en un espacio n dimensional, entonces:

V(P) = e V(Y.) e' = e (1cr2) e' => V(bj) = iI"c~.


JI

(4.105)
y el DFBeta estandarizado ser:
Sustituyendo por DFBeta:
e
1
(4.102)

Por otra parte si se considera:

"- (4.106)
y se obtiene se tiene el DFFits (Desvo de ajuste de Y). Para
estandarizar este valor se utilizar el siguiente desarrollo:
Esta expresion de la Distancia de Cook usa el residual
estudentizado externamente.
de aqu se deduce que:

(4.103)
160 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 161

entonces: y de esta manera:


~ ~ 1 ( )-1' (4.100)
~-~(i) =-- X'X Xiei DFFit (est) (4.104)
1- v,
A este desvo se le denomina "Desviacin de ajuste de Beta"
Ntese que este estadstico se ve "inflado" por dos motivos, si Vu
o DFBeta(i) y mide la diferencia en el ~ por la exclusin de la es grande o si el residuo estudentizado es muy grande (un "outlier"),
observacin "i".
El otro estadstico que puede considerarse es la "Distancia de
Si decimos que e= (X'X)l X, entonces: Cook". Si se tiene la distancia:

e.e.
1 1
(4.101)
DFBeta =
1- Vii

Este valor puede estandarizarse calculando:

p= ey
del "punto" P - P(i) en un espacio n dimensional, entonces:

V(P) = e V(Y.) e' = e (1cr2) e' => V(bj) = iI"c~.


JI

(4.105)
y el DFBeta estandarizado ser:
Sustituyendo por DFBeta:
e
1
(4.102)

Por otra parte si se considera:

"- (4.106)
y se obtiene se tiene el DFFits (Desvo de ajuste de Y). Para
estandarizar este valor se utilizar el siguiente desarrollo:
Esta expresion de la Distancia de Cook usa el residual
estudentizado externamente.
de aqu se deduce que:

(4.103)
ChacnI Anlisisde Regresiny Superficiesde Respuesta 163
162 Chacn I Anlisisde Regresiny Superficiesde Respuesta

Tabla 4.1. Resultados en un ejemplo ilustrativo


Criterios de decisin
v,
>
A

Observacin Xl X2 Xs Y
Segn caractersticas estudiadas de la matriz V se tiene: 1 1,5 6,0 1315 243 243
O < v < 1 L vf = v, 2 1,5 6,0 1315 261 261
r0l) = tr0l) = LVii = p' 3 1,5 9,0 1890 244 244
i = 1,2, ..., n- 4 1,5 9,0 1890 285 285
j = 1,2, ..., n- 5 2,0 7,5 1575 202 202
De aqu que se debe prestar atencin a las observaciones con 6 2,0 7,5 1575 180 180
valor de Vu ~ Y2 pues indica que tendr mucha influencia en ei.
7 2,0 7,5 1575 183 183
Con respecto al DFBeta, si el valor de ste es mayor que (4/n)1I2, 8 2,0 7,5 1575 207 207
la estimacin est sufriendo alteraciones significativas.
9 2,5 9,0 1315 216 216
Para el DFFits el valor crtico est en 2(p'/n)1I2y para el D() de
10 2,5 9,0 1315 160 160
Cook es aproximadamente D() ~ Fr/2; p; n-p), observaciones que
superan estos valores crticos deben ser analizados como posibles 11 2,5 6,0 1890 104 104
"outliers" .
12 2,5 6,0 1890 110 110
Fuente: Clculos propios
Ejemplo ilustrativo del anlisis de residuales

Como ejemplo de aplicacin se analizaron los resultados de un


La ecuacin de regresin obtenida:
experimento en el cual se quiere predecir el rendimiento de un cultivo
en relacin a los niveles de Nitrgeno, Fsforo y Materia Orgnica por y = 397,087 - 110,75 Xl + 15,5833 Xz - 0,058 Xs
parcela. .
con: S2 = 435,862 Y R2 = 0,8993
Los factores considerados como influyentes sobre los slidos en
suspensin fueron:
Los valores de los residuales, la diagonal de la matriz V, los
Xi = Nitrgeno aplicado al suelo.
residuales externamente estudentizados y los estadsticos estudiados
X2 = Fsforo aplicado al suelo. son referidos en la siguiente tabla:
X3 = Materia orgnica aplicada al suelo.
Estos tres factores fueron controlados experimentalmente
obtenindose los siguientes resultados:
ChacnI Anlisisde Regresiny Superficiesde Respuesta 163
162 Chacn I Anlisisde Regresiny Superficiesde Respuesta

Tabla 4.1. Resultados en un ejemplo ilustrativo


Criterios de decisin
v,
>
A

Observacin Xl X2 Xs Y
Segn caractersticas estudiadas de la matriz V se tiene: 1 1,5 6,0 1315 243 243
O < v < 1 L vf = v, 2 1,5 6,0 1315 261 261
r0l) = tr0l) = LVii = p' 3 1,5 9,0 1890 244 244
i = 1,2, ..., n- 4 1,5 9,0 1890 285 285
j = 1,2, ..., n- 5 2,0 7,5 1575 202 202
De aqu que se debe prestar atencin a las observaciones con 6 2,0 7,5 1575 180 180
valor de Vu ~ Y2 pues indica que tendr mucha influencia en ei.
7 2,0 7,5 1575 183 183
Con respecto al DFBeta, si el valor de ste es mayor que (4/n)1I2, 8 2,0 7,5 1575 207 207
la estimacin est sufriendo alteraciones significativas.
9 2,5 9,0 1315 216 216
Para el DFFits el valor crtico est en 2(p'/n)1I2y para el D() de
10 2,5 9,0 1315 160 160
Cook es aproximadamente D() ~ Fr/2; p; n-p), observaciones que
superan estos valores crticos deben ser analizados como posibles 11 2,5 6,0 1890 104 104
"outliers" .
12 2,5 6,0 1890 110 110
Fuente: Clculos propios
Ejemplo ilustrativo del anlisis de residuales

Como ejemplo de aplicacin se analizaron los resultados de un


La ecuacin de regresin obtenida:
experimento en el cual se quiere predecir el rendimiento de un cultivo
en relacin a los niveles de Nitrgeno, Fsforo y Materia Orgnica por y = 397,087 - 110,75 Xl + 15,5833 Xz - 0,058 Xs
parcela. .
con: S2 = 435,862 Y R2 = 0,8993
Los factores considerados como influyentes sobre los slidos en
suspensin fueron:
Los valores de los residuales, la diagonal de la matriz V, los
Xi = Nitrgeno aplicado al suelo.
residuales externamente estudentizados y los estadsticos estudiados
X2 = Fsforo aplicado al suelo. son referidos en la siguiente tabla:
X3 = Materia orgnica aplicada al suelo.
Estos tres factores fueron controlados experimentalmente
obtenindose los siguientes resultados:
Chacn I Anlisisde Regresiny Superficiesde Respuesta 165
164 ChacnI Anlisisde Regresiny Superficiesde Respuesta

Tabla 4.2. Residuales y estadsticos usados para anlisis de Es indispensable precisar con exactitud los objetivos del trabajo
re siduale s y delimitar la naturaleza del modelo a plantear.

ei V ti DFFITS D de Cook En ciertas situaciones, el investigador conoce la relacin entre


una variable respuesta y las variables independientes que afectan. A
-4,8 0,4501 -0,2923 -0,2644 0,020 este tipo de modelo se les denomina "funcionales" y son aplicados
procedimientos determinsticos.
13,2 0,4501 -0,8359 0,7563 0,149
-17,0 0,4660 -1,1372 -1,0624 0,272 En otros casos, se pueden presentar situaciones en las cuales
algunas variables independientes o regresoras no pueden ser
24,0 0,4660 1,7665 1,6503 0,538 controladas por el investigador, lo cual es un requisito para la
0,0191 0,000 aplicacin de modelos de regresin lineal mltiple.
1,3 0,0838 0,0631
-20,7 0,0838 -1,0385 -0,3142 0,024 En este tipo de situaciones, si se tiene control sobre algunas de
las variables regresoras que se considera que afectan la variable
-17,7 0,0838 -0,8698 -0,2631 0,018 respuesta, se pueden aplicar tcnicas de regresin mltiple, aunque
6,3 0,0838 0,2990 0,0905 0,002 ests deben ser utilizadas cuidadosamente, ya que los factores no
controlados, aunque reconocibles, podran hacer tan confuso cualquier
32,2 0,4501 2,8695 2,5963 0,885 efecto matemtico calculado, que haga intil el modelo.
-23,8 0,4501 1,7141 -1,5508 0,484 Si todas las variables regresoras que se utilizan en la ecuacin,
0,5 0,466_0 0,0282 0,0264 0,000 se hallan bajo el dominio total del investigador, se pueden desarrollar
modelos de "control", en otro caso se desarrollan modelos del tipo
6,5 0,4660 0,4006 0,3743 0,039 "predictivo".
Este ltimo tipo de modelos, aunque muchas veces pueden
parecer "no realistas" suelen ser muy tiles para obtener nuevas
Es posible notar que el residual asociado con la novena perspectivas acerca del problema estudiado. Es en estas situaciones
observacin es de 32,2 el cual representa el mayor residual del en donde las tcnicas de regresin mltiple son ms apropiadas. En
conjunto de datos. Adems el R-Studentizado (ti) tiene un valor de datos de esta clase puede existir mucha intercorrelacin. -,
2,8695 acompaado de un valor en la diagonal de la matriz V de
0,4501, sto reafirma la suposicin de que se trata de un valor
extremo y podramos concluir que los resultados de esta observacin Planificacin del proceso de construccin del modelo
afectan grandemente el diagnstico de regresin.
El proceso de construccin del modelo matemtico sigue a
grandes rasgos, el siguiente esquema (Drapper y Smith, 1981).
MODELOS MATEMATICOS y SU CONSTRUCCION
Definicin del problema
Mientras el problema est definido con mayor precisin en lo
En la investigacin cientfica cuando se van a utilizar referente a sus objetivos, se desarrollan con mayor facilidad las fases
procedimientos de modelaje es necesario realizar una adecuada posteriores, pues permitir la identificacin ms clara de la variable
planificacin, ya que de otra manera las tcnicas pueden ser respuesta y las variables regresoras. En las fases iniciales es ms
peligrosamente mal utilizadas e interpretadas. conveniente sugerir cualquier variable que se piense tenga efecto en
Chacn I Anlisisde Regresiny Superficiesde Respuesta 165
164 ChacnI Anlisisde Regresiny Superficiesde Respuesta

Tabla 4.2. Residuales y estadsticos usados para anlisis de Es indispensable precisar con exactitud los objetivos del trabajo
re siduale s y delimitar la naturaleza del modelo a plantear.

ei V ti DFFITS D de Cook En ciertas situaciones, el investigador conoce la relacin entre


una variable respuesta y las variables independientes que afectan. A
-4,8 0,4501 -0,2923 -0,2644 0,020 este tipo de modelo se les denomina "funcionales" y son aplicados
procedimientos determinsticos.
13,2 0,4501 -0,8359 0,7563 0,149
-17,0 0,4660 -1,1372 -1,0624 0,272 En otros casos, se pueden presentar situaciones en las cuales
algunas variables independientes o regresoras no pueden ser
24,0 0,4660 1,7665 1,6503 0,538 controladas por el investigador, lo cual es un requisito para la
0,0191 0,000 aplicacin de modelos de regresin lineal mltiple.
1,3 0,0838 0,0631
-20,7 0,0838 -1,0385 -0,3142 0,024 En este tipo de situaciones, si se tiene control sobre algunas de
las variables regresoras que se considera que afectan la variable
-17,7 0,0838 -0,8698 -0,2631 0,018 respuesta, se pueden aplicar tcnicas de regresin mltiple, aunque
6,3 0,0838 0,2990 0,0905 0,002 ests deben ser utilizadas cuidadosamente, ya que los factores no
controlados, aunque reconocibles, podran hacer tan confuso cualquier
32,2 0,4501 2,8695 2,5963 0,885 efecto matemtico calculado, que haga intil el modelo.
-23,8 0,4501 1,7141 -1,5508 0,484 Si todas las variables regresoras que se utilizan en la ecuacin,
0,5 0,466_0 0,0282 0,0264 0,000 se hallan bajo el dominio total del investigador, se pueden desarrollar
modelos de "control", en otro caso se desarrollan modelos del tipo
6,5 0,4660 0,4006 0,3743 0,039 "predictivo".
Este ltimo tipo de modelos, aunque muchas veces pueden
parecer "no realistas" suelen ser muy tiles para obtener nuevas
Es posible notar que el residual asociado con la novena perspectivas acerca del problema estudiado. Es en estas situaciones
observacin es de 32,2 el cual representa el mayor residual del en donde las tcnicas de regresin mltiple son ms apropiadas. En
conjunto de datos. Adems el R-Studentizado (ti) tiene un valor de datos de esta clase puede existir mucha intercorrelacin. -,
2,8695 acompaado de un valor en la diagonal de la matriz V de
0,4501, sto reafirma la suposicin de que se trata de un valor
extremo y podramos concluir que los resultados de esta observacin Planificacin del proceso de construccin del modelo
afectan grandemente el diagnstico de regresin.
El proceso de construccin del modelo matemtico sigue a
grandes rasgos, el siguiente esquema (Drapper y Smith, 1981).
MODELOS MATEMATICOS y SU CONSTRUCCION
Definicin del problema
Mientras el problema est definido con mayor precisin en lo
En la investigacin cientfica cuando se van a utilizar referente a sus objetivos, se desarrollan con mayor facilidad las fases
procedimientos de modelaje es necesario realizar una adecuada posteriores, pues permitir la identificacin ms clara de la variable
planificacin, ya que de otra manera las tcnicas pueden ser respuesta y las variables regresoras. En las fases iniciales es ms
peligrosamente mal utilizadas e interpretadas. conveniente sugerir cualquier variable que se piense tenga efecto en
166 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 167

el problema. Discusiones posteriores con los especialistas reducir Si el proyecto, tal como est planteado, es aceptable se pasa a la
una lista muy extensa a un nmero ms razonable. fase de desarrollo del modelo.

Accesibilidad de las variables fundamentales propuestas Desarrollo del modelo matemtico


Puede ocurrir que algunas de las variables seleccionadas no sea
medible, o requiera de instrumentacin muy costosa para ser En el desarrollo de un modelo matemtico se plantean los
examinada. Se plantea entonces la alternativa de hacer el gasto siguientes pasos:
necesario, o hacer mediciones en una variable altamente correla-
cionada con la propuesta y sustituirla en el modelo. Tambin se Recoleccin de datos
requiere que todo el conjunto de datos sea recolectado al mismo
tiempo para no introducir variabilidad no considerada. Lo mismo se
El proceso de recoleccin de datos debe ser realizado con el
debe tener en cuenta con datos de diferentes localidades si sta
mayor nivel de organizacin para que" no aparezcan errores que
variable no est explcita en el modelo.
invaliden el modelo. Dichos errores pueden presentarse desde la toma
de los datos en el campo o laboratorio hasta cuando se introducen en
Matriz de correlacin la computadora.
De existir la posibilidad. de obtener una muestra previa, deben
El consejo de un especialista en el campo donde se est
realizarse algunos clculos iniciales para obtener los estadsticos
desarrollando el modelo, aunque ste no posea un gran nivel en
principales, la matriz de correlacin y su inversa para estudiar los
estadstica, no debe ser subestimado. Las variables sugeridas pueden
elementos de la diagonal principal, que vienen a ser los factores
incorporarse y examinar las correspondientes respuestas y residuales
infladores de la varianza (V.I.F.). Drapper y Smith (1981) indican que
de las ecuaciones halladas. Tambin dichos expertos pueden sugerir
estos valores deben ser mayores que 1, pero no por encima de 10, pues
las transformaciones ms apropiadas, el probar transformaciones a
de ser as, los coeficientes mnimos cuadrados correspondientes
ciegas, pcr "ensayo y error" generalmente conduce a un desperdicio de
estaran pobremente estimados por problemas de multicolinealidad.
tiempo, dinero y energa, que puede ser evitado.
Tambin es importante analizar las correlaciones entre la variable
respuesta y las regresoras. Deberan obtenerse altos valores para Luego de toda esta fase, se debe analizar si el modelo cumple
algunas de ellas, por que si sto no ocurre, no existira asociacin con las expectativas planteadas en torno a ella, si no lo hace debe
entre las variables planteadas y la respuesta y el modelo carece de repetirse otra fase de desarrollo, hasta que finalmente el modelo est
valor predictivo. Puede que haya variables ausentes que han debido listo para ser validado.
considerarse o el intervalo de valores de "X" obtenido, no es lo
suficientemente amplio para producir una variacin notable en la Validacin del modelo matemtico
respuesta.
Establecimiento de metas El esquema para realizar la validacin y mantenimiento del
modelo matemtico es el siguiente:
Ya con esta primera aproximacin al problema, se pueden
precisar las metas a lograr, en cuanto, a nivel de variacin explicada A) Tcnicas de validacin
(coeficiente de determinacin), nmero de variables predictoras a
Los procedimientos ms utilizados para validar un modelo de
considerar, adems de establecer los niveles de significacin para los
regresin son:
coeficientes, reduccin o eliminacin de la multicolinealidad y
solucionar problemas de autocorrelacin de residuales si los hubiese. a. Comparacin de los valores predichos por el modelo con
experiencias previas, valores tericos y otros modelos, junto con
166 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 167

el problema. Discusiones posteriores con los especialistas reducir Si el proyecto, tal como est planteado, es aceptable se pasa a la
una lista muy extensa a un nmero ms razonable. fase de desarrollo del modelo.

Accesibilidad de las variables fundamentales propuestas Desarrollo del modelo matemtico


Puede ocurrir que algunas de las variables seleccionadas no sea
medible, o requiera de instrumentacin muy costosa para ser En el desarrollo de un modelo matemtico se plantean los
examinada. Se plantea entonces la alternativa de hacer el gasto siguientes pasos:
necesario, o hacer mediciones en una variable altamente correla-
cionada con la propuesta y sustituirla en el modelo. Tambin se Recoleccin de datos
requiere que todo el conjunto de datos sea recolectado al mismo
tiempo para no introducir variabilidad no considerada. Lo mismo se
El proceso de recoleccin de datos debe ser realizado con el
debe tener en cuenta con datos de diferentes localidades si sta
mayor nivel de organizacin para que" no aparezcan errores que
variable no est explcita en el modelo.
invaliden el modelo. Dichos errores pueden presentarse desde la toma
de los datos en el campo o laboratorio hasta cuando se introducen en
Matriz de correlacin la computadora.
De existir la posibilidad. de obtener una muestra previa, deben
El consejo de un especialista en el campo donde se est
realizarse algunos clculos iniciales para obtener los estadsticos
desarrollando el modelo, aunque ste no posea un gran nivel en
principales, la matriz de correlacin y su inversa para estudiar los
estadstica, no debe ser subestimado. Las variables sugeridas pueden
elementos de la diagonal principal, que vienen a ser los factores
incorporarse y examinar las correspondientes respuestas y residuales
infladores de la varianza (V.I.F.). Drapper y Smith (1981) indican que
de las ecuaciones halladas. Tambin dichos expertos pueden sugerir
estos valores deben ser mayores que 1, pero no por encima de 10, pues
las transformaciones ms apropiadas, el probar transformaciones a
de ser as, los coeficientes mnimos cuadrados correspondientes
ciegas, pcr "ensayo y error" generalmente conduce a un desperdicio de
estaran pobremente estimados por problemas de multicolinealidad.
tiempo, dinero y energa, que puede ser evitado.
Tambin es importante analizar las correlaciones entre la variable
respuesta y las regresoras. Deberan obtenerse altos valores para Luego de toda esta fase, se debe analizar si el modelo cumple
algunas de ellas, por que si sto no ocurre, no existira asociacin con las expectativas planteadas en torno a ella, si no lo hace debe
entre las variables planteadas y la respuesta y el modelo carece de repetirse otra fase de desarrollo, hasta que finalmente el modelo est
valor predictivo. Puede que haya variables ausentes que han debido listo para ser validado.
considerarse o el intervalo de valores de "X" obtenido, no es lo
suficientemente amplio para producir una variacin notable en la Validacin del modelo matemtico
respuesta.
Establecimiento de metas El esquema para realizar la validacin y mantenimiento del
modelo matemtico es el siguiente:
Ya con esta primera aproximacin al problema, se pueden
precisar las metas a lograr, en cuanto, a nivel de variacin explicada A) Tcnicas de validacin
(coeficiente de determinacin), nmero de variables predictoras a
Los procedimientos ms utilizados para validar un modelo de
considerar, adems de establecer los niveles de significacin para los
regresin son:
coeficientes, reduccin o eliminacin de la multicolinealidad y
solucionar problemas de autocorrelacin de residuales si los hubiese. a. Comparacin de los valores predichos por el modelo con
experiencias previas, valores tericos y otros modelos, junto con
168 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacln I Anlisis de Regresin y Superficies de Respuesta 169

un anlisis de los coeficientes de regresin. Se debe considerar si expresin de ~~)' el vector de coeficientes de regresin obtenido al
son estables, y si sus signos y magnitudes son razonables.
eliminar la observacin "i":
Coeficientes con signos no esperados, o que son demasiado
grandes en valor absoluto indican, ocasionalmente, que fueron
pobre o equivocadamente estimados. Los V.I.F. son una gua
apropiada en este sentido.
b. La recoleccin de datos nuevos es el mtodo ms efectivo para en donde X(i)y Y(i) son los vectores X e Y con la observacin "i"
validar un modelo de regresin. Si el modelo da predicciones eliminada. De esta manera, el residual vendr expresado como:
precisas de los datos nuevos se puede tener confianza del modelo
y del proceso empleado para construirlo. Se requieren de 15 a 20
nuevas observaciones para obtener una validacin confiable.
c. No siempre se pueden colectar datos nuevos debido a falta de
presupuesto, cambios radicales en las condiciones de campo o =Y-X~(i) (4.108)
laboratorio, y otra razones. En estos casos, lo ms conveniente es
dividir el conjunto de datos en dos grupos, uno para construir el
modelo de regresin (datos para estimacin) y el otro para validar
(datos para prediccin). Este sistema se le denomina "validacin
cruzada". ya se ha demostrado que:
Este procedimiento puede ser realizado en una diversidad de
formas. Una de stas es por medio del estadstico PRESS (Suma de
cuadrados del Error de Prediccin). (4.109)

Para calcularlo se selecciona una observacin "i", y se ajusta el


modelo de regresin para las restantes n-I observaciones, luego se
hace la estimacin del valor Yi de las respuestas, este valor se denota en donde V = X (X'X)-lX~ y de aqu que:
A

por "Y(i)"; el error de prediccin para el punto i vendr dado por


A
. =
e(l)
y._X.[(X' xr'
1 1 +
(X' xt1
X~Xi(X'X)-l
1- y.
1
X' y.
(1) (1)
e(i) = Y, - Y(i) , tambin se le denomina: "residual i-eliminado" se U

repite el procedimiento para cada observacin y se suma el cuadrado


de cada residual as obtenido.
De esta manera el Press se define como:

Presa (4.107)

Para el clculo de este estadstico, no es necesario ajustar "n"


regresiones, sino que puede calcular de los resultados de un solo
ajuste de mnimos cuadrados. Se puede ver, si se parte de la siguiente
168 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacln I Anlisis de Regresin y Superficies de Respuesta 169

un anlisis de los coeficientes de regresin. Se debe considerar si expresin de ~~)' el vector de coeficientes de regresin obtenido al
son estables, y si sus signos y magnitudes son razonables.
eliminar la observacin "i":
Coeficientes con signos no esperados, o que son demasiado
grandes en valor absoluto indican, ocasionalmente, que fueron
pobre o equivocadamente estimados. Los V.I.F. son una gua
apropiada en este sentido.
b. La recoleccin de datos nuevos es el mtodo ms efectivo para en donde X(i)y Y(i) son los vectores X e Y con la observacin "i"
validar un modelo de regresin. Si el modelo da predicciones eliminada. De esta manera, el residual vendr expresado como:
precisas de los datos nuevos se puede tener confianza del modelo
y del proceso empleado para construirlo. Se requieren de 15 a 20
nuevas observaciones para obtener una validacin confiable.
c. No siempre se pueden colectar datos nuevos debido a falta de
presupuesto, cambios radicales en las condiciones de campo o =Y-X~(i) (4.108)
laboratorio, y otra razones. En estos casos, lo ms conveniente es
dividir el conjunto de datos en dos grupos, uno para construir el
modelo de regresin (datos para estimacin) y el otro para validar
(datos para prediccin). Este sistema se le denomina "validacin
cruzada". ya se ha demostrado que:
Este procedimiento puede ser realizado en una diversidad de
formas. Una de stas es por medio del estadstico PRESS (Suma de
cuadrados del Error de Prediccin). (4.109)

Para calcularlo se selecciona una observacin "i", y se ajusta el


modelo de regresin para las restantes n-I observaciones, luego se
hace la estimacin del valor Yi de las respuestas, este valor se denota en donde V = X (X'X)-lX~ y de aqu que:
A

por "Y(i)"; el error de prediccin para el punto i vendr dado por


A
. =
e(l)
y._X.[(X' xr'
1 1 +
(X' xt1
X~Xi(X'X)-l
1- y.
1
X' y.
(1) (1)
e(i) = Y, - Y(i) , tambin se le denomina: "residual i-eliminado" se U

repite el procedimiento para cada observacin y se suma el cuadrado


de cada residual as obtenido.
De esta manera el Press se define como:

Presa (4.107)

Para el clculo de este estadstico, no es necesario ajustar "n"


regresiones, sino que puede calcular de los resultados de un solo
ajuste de mnimos cuadrados. Se puede ver, si se parte de la siguiente
ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 171
170

utilizar mtodos arbitrarios para dividir los datos, ya que si los datos
Dado que por la definicin X'Y = X~i)Y(i) + X; Y i se tiene que: utilizados para validar se ubican dentro del intervalo de los datos
para estimacin. no se puede conocer el valor predictivo del modelo.
(1-V..)V.-X.
11 1 1
y]
(X'X)-l [X'Y-X~ 1 1
Se ha desarrollado el algoritmo Duplex como metodologa formal
1-Vii para realizar eficientemente la divisin de los datos. Para su
aplicacin primero se tiene las "n" observaciones transformadas de la
siguiente manera:
i 1,2...p
1-Vii
(4.110)

En donde L..J
" (Xij - -2
X) es la suma corregida del
i=1
regresor j, por lo tanto. se estn normalizado los valores de las
Y-X.
1
Po
1 .. variables regresoras, luego la matriz Z'Z se "ortonormaliza" con una
factorizacin como:
i-v,
Z'Z = T'T
Ntese que el numerador de la expresin (4.110) es el residual
en donde T es una matriz nica h x h triangular superior se hace la
ordinario ei, por lo tanto:
transformacin:
W ZT-l
(4.111)
resultando un conjunto nuevo de variables que son ortogonales y
tienen varianza uno. Luego se calcula la distancia euclidiana entre los
De esta manera el Press se puede expresar como:
(;) puntos Y los dos ms alejados se colocan en el conjunto
. ( e. )2
n

Press = L ~
1 Vi
1=1 estimacin. y as sucesivamente.
Para medir las propiedades estadsticas de los datos utilizados
Se observa que el Press es una suma ponderada de residuales
para prediccin y estimacin se compara el cociente entre la raz
cuadrticos, en donde se afectan ms a los residuales de las
observaciones ms influyentes.
=
psima ( p nmero de parmetros) de los dos determinantes de las
matrices X'X para los dos conjuntos de datos, Si XE y Xp denotan las
Si se tienen varios modelos cuyo objetivo 'sea la prediccin se matrices de X en los conjuntos de datos de estimacin y prediccin
puede seleccionar aquel cuyo valor de Press sea menor. respectivamente, se tiene entonces:
Si se tienen datos recolectados en una secuencia temporal o
espacial, se pueden utilizar como datos para estimacin los
correspondientes a un mismo intervalo o zona y como datos de
prediccin los de otra poca o regin. Sin embargo, es arriesgado
ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 171
170

utilizar mtodos arbitrarios para dividir los datos, ya que si los datos
Dado que por la definicin X'Y = X~i)Y(i) + X; Y i se tiene que: utilizados para validar se ubican dentro del intervalo de los datos
para estimacin. no se puede conocer el valor predictivo del modelo.
(1-V..)V.-X.
11 1 1
y]
(X'X)-l [X'Y-X~ 1 1
Se ha desarrollado el algoritmo Duplex como metodologa formal
1-Vii para realizar eficientemente la divisin de los datos. Para su
aplicacin primero se tiene las "n" observaciones transformadas de la
siguiente manera:
i 1,2...p
1-Vii
(4.110)

En donde L..J
" (Xij - -2
X) es la suma corregida del
i=1
regresor j, por lo tanto. se estn normalizado los valores de las
Y-X.
1
Po
1 .. variables regresoras, luego la matriz Z'Z se "ortonormaliza" con una
factorizacin como:
i-v,
Z'Z = T'T
Ntese que el numerador de la expresin (4.110) es el residual
en donde T es una matriz nica h x h triangular superior se hace la
ordinario ei, por lo tanto:
transformacin:
W ZT-l
(4.111)
resultando un conjunto nuevo de variables que son ortogonales y
tienen varianza uno. Luego se calcula la distancia euclidiana entre los
De esta manera el Press se puede expresar como:
(;) puntos Y los dos ms alejados se colocan en el conjunto
. ( e. )2
n

Press = L ~
1 Vi
1=1 estimacin. y as sucesivamente.
Para medir las propiedades estadsticas de los datos utilizados
Se observa que el Press es una suma ponderada de residuales
para prediccin y estimacin se compara el cociente entre la raz
cuadrticos, en donde se afectan ms a los residuales de las
observaciones ms influyentes.
=
psima ( p nmero de parmetros) de los dos determinantes de las
matrices X'X para los dos conjuntos de datos, Si XE y Xp denotan las
Si se tienen varios modelos cuyo objetivo 'sea la prediccin se matrices de X en los conjuntos de datos de estimacin y prediccin
puede seleccionar aquel cuyo valor de Press sea menor. respectivamente, se tiene entonces:
Si se tienen datos recolectados en una secuencia temporal o
espacial, se pueden utilizar como datos para estimacin los
correspondientes a un mismo intervalo o zona y como datos de
prediccin los de otra poca o regin. Sin embargo, es arriesgado
172 ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 173

Se calcula luego la k-sima raz del determinante del cociente d . Polinomios ortogonales
las matrices X'X para los dos conjuntos de datos, lo cual indica una .
medida relativa de los "volmenes" abarcados por los dos conjuntos de Los polinomios ortogonales constituyen una metodologa
datos. Idealmente debera estar cercano a la unidad. aplicada al anlisis de Regresin Mltiple, a travs del procedimiento
Para aplicar este algoritmo se deben tener las siguientes de Mnimos Cuadrados Ordinarios, cuando la (s) variable(s) inde-
precauciones: pendiente(s) est(n) igualmente espaciada(s). Tales mtodos son
tiles para observaciones de la(s) variable(s) independiente(s) desi-
a. Para tener un nmero razonable de grados de libertad para el gualmente espaciada(s), pero muy dificiles de aplicar y no es expues-
error se debe tener un n ~ 2p + 25 donde p es el n de
to en este trabajo (Kendall y Stuart, 1958; Cox, 1958).
parmetros en el modelo.
. El uso de polinomios ortogonales tiene algunas ventajas sobre
b. El algoritmo Duplex no necesariamente reparte los datos los mtodos directos de regresin. Principalmente, el tiempo de
equitativamente, pero deberan haber ms datos en el conjunto clculo para ajustar' curvas utilizando esta metodologa, es mucho
de estimacin que en el de prediccin; por lo tanto se puede menor. Esta ventaja es ms apreciable cuanto mayor es el grado del
utilizar el algoritmo hasta obtener al menos 15 puntos para polinomio. Por otra parte, los polinomios ortogonales son construidos
prediccin y el resto de los datos se utilizan para construir el de forma tal que cualquier trmino del polinomio del modelo plan-
modelo. teado, es independiente del resto de los trminos. Esta propiedad de
c. Se deben eliminar los datos replicados pues puede darse que los independencia permite que se obtenga un coeficiente de regresin
conjuntos de datos sean demasiado similares. . para cada trmino y pueda ser probada su significacin por separado
en el Anlisis de la Varianza.
En este acapite se plantea el caso en el que se tiene una sola
Falta de ajuste sistemtico observacin de la variable Y para cada valor de la(s) variable(s)
Los residuales deben ser examinados de todas las maneras independiente(s). No obstante puede presentarse el caso en que para
. posibles para determinar si se han omitido variables importantes. un solo valor de la(s) variable(s) independiente (s), se obtenga ms de
una observacin para Y.
Por otra parte, si el modelo va a ser usado por personas no
estadsticas, debe llamarse la atencin hacia el riesgo de hacer
Modelo supuesto cuando utilizamos polinomios ortogonales
extrapolaciones basndose nicamente en cambios en una sola
variable pues puede que haya mucha colinelidad y esta prctica
puede llegar a conclusiones errneas. En estos casos se debe utilizar Supongamos que se asume el siguiente modelo de regresin
el modelo para hacer estimaciones dentro del intervalo de las X polinmico para el caso de una sola variable independiente:
considerado en la construccin del modelo. Yi = ~o + ~lX + ~2X2 + ... + ~qXq + ci (4.112)
Mantenimiento del modelo
Pueden haber cambios en las condiciones originales en donde un
modelo se ha venido utilizando, por lo que una revisin peridica de
las cualidades predictivas del modelo es conveniente.
172 ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 173

Se calcula luego la k-sima raz del determinante del cociente d . Polinomios ortogonales
las matrices X'X para los dos conjuntos de datos, lo cual indica una .
medida relativa de los "volmenes" abarcados por los dos conjuntos de Los polinomios ortogonales constituyen una metodologa
datos. Idealmente debera estar cercano a la unidad. aplicada al anlisis de Regresin Mltiple, a travs del procedimiento
Para aplicar este algoritmo se deben tener las siguientes de Mnimos Cuadrados Ordinarios, cuando la (s) variable(s) inde-
precauciones: pendiente(s) est(n) igualmente espaciada(s). Tales mtodos son
tiles para observaciones de la(s) variable(s) independiente(s) desi-
a. Para tener un nmero razonable de grados de libertad para el gualmente espaciada(s), pero muy dificiles de aplicar y no es expues-
error se debe tener un n ~ 2p + 25 donde p es el n de
to en este trabajo (Kendall y Stuart, 1958; Cox, 1958).
parmetros en el modelo.
. El uso de polinomios ortogonales tiene algunas ventajas sobre
b. El algoritmo Duplex no necesariamente reparte los datos los mtodos directos de regresin. Principalmente, el tiempo de
equitativamente, pero deberan haber ms datos en el conjunto clculo para ajustar' curvas utilizando esta metodologa, es mucho
de estimacin que en el de prediccin; por lo tanto se puede menor. Esta ventaja es ms apreciable cuanto mayor es el grado del
utilizar el algoritmo hasta obtener al menos 15 puntos para polinomio. Por otra parte, los polinomios ortogonales son construidos
prediccin y el resto de los datos se utilizan para construir el de forma tal que cualquier trmino del polinomio del modelo plan-
modelo. teado, es independiente del resto de los trminos. Esta propiedad de
c. Se deben eliminar los datos replicados pues puede darse que los independencia permite que se obtenga un coeficiente de regresin
conjuntos de datos sean demasiado similares. . para cada trmino y pueda ser probada su significacin por separado
en el Anlisis de la Varianza.
En este acapite se plantea el caso en el que se tiene una sola
Falta de ajuste sistemtico observacin de la variable Y para cada valor de la(s) variable(s)
Los residuales deben ser examinados de todas las maneras independiente(s). No obstante puede presentarse el caso en que para
. posibles para determinar si se han omitido variables importantes. un solo valor de la(s) variable(s) independiente (s), se obtenga ms de
una observacin para Y.
Por otra parte, si el modelo va a ser usado por personas no
estadsticas, debe llamarse la atencin hacia el riesgo de hacer
Modelo supuesto cuando utilizamos polinomios ortogonales
extrapolaciones basndose nicamente en cambios en una sola
variable pues puede que haya mucha colinelidad y esta prctica
puede llegar a conclusiones errneas. En estos casos se debe utilizar Supongamos que se asume el siguiente modelo de regresin
el modelo para hacer estimaciones dentro del intervalo de las X polinmico para el caso de una sola variable independiente:
considerado en la construccin del modelo. Yi = ~o + ~lX + ~2X2 + ... + ~qXq + ci (4.112)
Mantenimiento del modelo
Pueden haber cambios en las condiciones originales en donde un
modelo se ha venido utilizando, por lo que una revisin peridica de
las cualidades predictivas del modelo es conveniente.
174 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 175

que expresado en forma matricial sera: Con estas restricciones en los Pj, la determinacin de los
X2 xq coeficientes del modelo (4.114) a travs de la estimacin de mnimos
YI 1 Xl 1 1 13 El cuadrados se ve gravemente simplificada.
xq
Y2 1 X2 X22 2 132 E2 Para nuestro ejemplo la matriz X del modelo (4.114) sera:
Y3 1 X3 X23 xq 133 + E3 (4.113)
3

PI(XI) P2(XI) Pq(XI)


f1
Yn 1 Xn X2n xq 13q En
n 1 P1 (X2) P2(X2) Pq (X2)
supongamos adems que tenemos unos datos experimentales de la X= 1 P1 (X3) P2(X3) Pq(X3)

l~
siguiente forma:
y X
P1 (Xn) P2(Xn) Pq(Xn)
YI x.
Y2 X2
De las condiciones de ortogonalidad en los polinomios, la suma
de productos de cualquier par de polinomios es cero; por lo tanto la
Yn Xn matriz X'X es una matriz diagonal y sus valores son:
en donde n > q y las observaciones Xi, X2, ..., Xn estn igualmente
espaciadas; sto es: X2 Xi + d; Xa = =
Xz + d, ete. Se puede plantear
el modelo (4.112) de la siguiente forma:
Y; = <lO + o,IPI(xj) + o,2P2(xj) + ... + aqPq(Xj) + Ei (4.114)
en donde j = 1, 2, ..., n
y donde Pj(X) es un polinomio en X de orden j. Los p son escogidos de
forma tal que estos sean ortogonales; sto es:
Simultneamente;
n

Pj(X) =O (j = 1, 2, ..., q) r
ie I

n n

Pj(Xj)Pk(Xk) =O (k = 1, 2, ..., q); (j :t k) P1(Xj)Yi


i=l i=1
n X'Y = n

,""p
.f.... 2(X.):tO
J J (j = 1, 2, ..., q) P2(Xj)Yi
je I
j=L
174 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 175

que expresado en forma matricial sera: Con estas restricciones en los Pj, la determinacin de los
X2 xq coeficientes del modelo (4.114) a travs de la estimacin de mnimos
YI 1 Xl 1 1 13 El cuadrados se ve gravemente simplificada.
xq
Y2 1 X2 X22 2 132 E2 Para nuestro ejemplo la matriz X del modelo (4.114) sera:
Y3 1 X3 X23 xq 133 + E3 (4.113)
3

PI(XI) P2(XI) Pq(XI)


f1
Yn 1 Xn X2n xq 13q En
n 1 P1 (X2) P2(X2) Pq (X2)
supongamos adems que tenemos unos datos experimentales de la X= 1 P1 (X3) P2(X3) Pq(X3)

l~
siguiente forma:
y X
P1 (Xn) P2(Xn) Pq(Xn)
YI x.
Y2 X2
De las condiciones de ortogonalidad en los polinomios, la suma
de productos de cualquier par de polinomios es cero; por lo tanto la
Yn Xn matriz X'X es una matriz diagonal y sus valores son:
en donde n > q y las observaciones Xi, X2, ..., Xn estn igualmente
espaciadas; sto es: X2 Xi + d; Xa = =
Xz + d, ete. Se puede plantear
el modelo (4.112) de la siguiente forma:
Y; = <lO + o,IPI(xj) + o,2P2(xj) + ... + aqPq(Xj) + Ei (4.114)
en donde j = 1, 2, ..., n
y donde Pj(X) es un polinomio en X de orden j. Los p son escogidos de
forma tal que estos sean ortogonales; sto es:
Simultneamente;
n

Pj(X) =O (j = 1, 2, ..., q) r
ie I

n n

Pj(Xj)Pk(Xk) =O (k = 1, 2, ..., q); (j :t k) P1(Xj)Yi


i=l i=1
n X'Y = n

,""p
.f.... 2(X.):tO
J J (j = 1, 2, ..., q) P2(Xj)Yi
je I
j=L

176 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 177

La estimacin de los parmetros


tambin simple:
en la ecuacin (4.114) es
b.- P,OQ = [(X~XJ-(n:~lJ] (4.115)

c.- P,OQ [(X~xJ _(3n:;7rX~X)]


=

Una expresin para obtener Pr+I(X) en trminos de Pr(X) es dada


por:

(r = 1, 2, ..., n)

que sera la expresin general para obtener el polinomio ortogonal de


un trmino de cualquier orden, conociendo el de orden anterior.

Ejemplo ilustrativo del uso de los polinomios ortogonales


en regresin

Los datos que aparecen a continuacin (Tabla 4.3) representa


n
mediciones repetidas de una variable dependiente Y, en las
observaciones especificadas de una variable independiente (X).
~:>q(Xj)Yi
a =..<.j;..::.l _
q n Tabla 4.3.- Datos de rendimiento (Y) y dosis de nitrgeno (X) maz.
~>:(Xj)
j=I Y (ti ha) X (kg I ha)
De este modo, por medio del uso de los Pj en la re definicin del 2,35 o
modelo, la matriz X'X es hecha diagonal,' haciendo posible la 2,47 50
reduccin de los clculos considerablemente. 2,82 100
3,24 150
Determinacin de los polinomios 3,71 200
2,83 250
Haciendo "X" el promedio de las "X" observaciones igualmente 2,41 300
espaciados, donde el valor "d" es el "espacio" entre stas, los primeros
tres polinomios ortogonales son: Fuente: Clculos propios

a.- Asumiendo un modelo cuadrtico:


Yi = co + al Pl(Xj) + <X2P2(Xj) + (;i

176 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 177

La estimacin de los parmetros


tambin simple:
en la ecuacin (4.114) es
b.- P,OQ = [(X~XJ-(n:~lJ] (4.115)

c.- P,OQ [(X~xJ _(3n:;7rX~X)]


=

Una expresin para obtener Pr+I(X) en trminos de Pr(X) es dada


por:

(r = 1, 2, ..., n)

que sera la expresin general para obtener el polinomio ortogonal de


un trmino de cualquier orden, conociendo el de orden anterior.

Ejemplo ilustrativo del uso de los polinomios ortogonales


en regresin

Los datos que aparecen a continuacin (Tabla 4.3) representa


n
mediciones repetidas de una variable dependiente Y, en las
observaciones especificadas de una variable independiente (X).
~:>q(Xj)Yi
a =..<.j;..::.l _
q n Tabla 4.3.- Datos de rendimiento (Y) y dosis de nitrgeno (X) maz.
~>:(Xj)
j=I Y (ti ha) X (kg I ha)
De este modo, por medio del uso de los Pj en la re definicin del 2,35 o
modelo, la matriz X'X es hecha diagonal,' haciendo posible la 2,47 50
reduccin de los clculos considerablemente. 2,82 100
3,24 150
Determinacin de los polinomios 3,71 200
2,83 250
Haciendo "X" el promedio de las "X" observaciones igualmente 2,41 300
espaciados, donde el valor "d" es el "espacio" entre stas, los primeros
tres polinomios ortogonales son: Fuente: Clculos propios

a.- Asumiendo un modelo cuadrtico:


Yi = co + al Pl(Xj) + <X2P2(Xj) + (;i
F

178
Chacn I Anlisis de Regresin y Superficies de Respuesta 179
Chacn I Anlisis de Regresin y Superficies de Respuesta

De este modo la ecuacin de estimacin est dada por:


. Utilizando Pi y P2 como lo expresa la ecuacin (4.115) uno puede A

construir fcilmente una tabla dando el valor de Pi y P2 para las y = 2,8329 + 0,064X - 0,1041X2
observaciones de variable X. Estos valores se presentan en la Tabla
4.4. Los resultados estimados generales son:

Tabla 4.4.- Valores de Pl(X) y P2(X) para las observaciones de la


variable X
Variables Coeficiente Error t p
y X PI(X;) P2(X;) Pl(Xi)Y P2(Xi)Y PI2(X) P: (X) predictoras estndar

2,35 O -3 5 -7,05 11,75 9 25


- Constantes 2,832 0,1272 22,27 0,0000
2,47 50 -2 O -4,94 0,00 4 O
2,82 100
X 0,Q64 0,0636 1,01 0,3717
-1 -3 -2,82 -8,46 1 9
3,24 150 O -4 0,00 -12,96 O 16 X2 -0,104 0,0367 -2,84 0,0470
3,71 200 1 -3 3,71 -11,13 1 9
2,83 250 2 O 5,66 0,00 4 O
2,41 300 3 5 7,23 12,05 9 25
19,83 1050 O
F = 4,5290
1,80
-8,75 28 84

R;j = 54,0560
La diagonal de la matriz X'X y el vector X'Y son:
R2 = 69,3700

diag X'X = (7, 28, 84) X'Y =


l19,83]
1,80 CMRESID = 0,1133
-8,75
Cp = 3,0
y los estimadores de los coeficientes en el modelo de regresin son:

A 19,83
uo = -- = 2,8329
7

1,80
A

u
1="28 = 0,064

-8,75
=
A

u2 =~ -0,1041
F

178
Chacn I Anlisis de Regresin y Superficies de Respuesta 179
Chacn I Anlisis de Regresin y Superficies de Respuesta

De este modo la ecuacin de estimacin est dada por:


. Utilizando Pi y P2 como lo expresa la ecuacin (4.115) uno puede A

construir fcilmente una tabla dando el valor de Pi y P2 para las y = 2,8329 + 0,064X - 0,1041X2
observaciones de variable X. Estos valores se presentan en la Tabla
4.4. Los resultados estimados generales son:

Tabla 4.4.- Valores de Pl(X) y P2(X) para las observaciones de la


variable X
Variables Coeficiente Error t p
y X PI(X;) P2(X;) Pl(Xi)Y P2(Xi)Y PI2(X) P: (X) predictoras estndar

2,35 O -3 5 -7,05 11,75 9 25


- Constantes 2,832 0,1272 22,27 0,0000
2,47 50 -2 O -4,94 0,00 4 O
2,82 100
X 0,Q64 0,0636 1,01 0,3717
-1 -3 -2,82 -8,46 1 9
3,24 150 O -4 0,00 -12,96 O 16 X2 -0,104 0,0367 -2,84 0,0470
3,71 200 1 -3 3,71 -11,13 1 9
2,83 250 2 O 5,66 0,00 4 O
2,41 300 3 5 7,23 12,05 9 25
19,83 1050 O
F = 4,5290
1,80
-8,75 28 84

R;j = 54,0560
La diagonal de la matriz X'X y el vector X'Y son:
R2 = 69,3700

diag X'X = (7, 28, 84) X'Y =


l19,83]
1,80 CMRESID = 0,1133
-8,75
Cp = 3,0
y los estimadores de los coeficientes en el modelo de regresin son:

A 19,83
uo = -- = 2,8329
7

1,80
A

u
1="28 = 0,064

-8,75
=
A

u2 =~ -0,1041
180 Chacn / Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 181

Ejemplo ilustrativo
ESQUEMA D~L DESARROLLO Y VALIDACION DEL MODELO
CONSTRUCCION DE UN MODELO DE PREDICCION
DEL RENDIMIENTO DEL CULTIVO DE SOYA

OBJETIVO Modelo completo

Construir un modelo til y prctico para predecir el rendimiento I


de un cultivo de soya. Matriz de
correlacin
METAS DEL MODELO Inversa de la matriz
de correlacin
1. La ecuacin final debe explicar ms del 70% de la variacin
(R2>0,70). I Normalidad
Estudio del Mtodo Grfico
2. Todos los coeficientes estimados en el modelo, deben ser
=
estadsticamente significativos a un nivel a 0,10. cumplimiento de los Mtodo Analtico
supuestos (Wilks-Shapiro)
3. Los residuales no deben presentar patrones discernibles.
Homocedasticidad
El modelo debe tener buenas caractersticas de validacin al I Grficos:
utilizar las tcnicas de validacin cruzada. Problemas serios de
multicolinealidad
res Vs Y;
res Vs X's
MATERIALES Y METODOS
I
Autocorrelacin
Seleccin variable
Datos utilizados (p. Durbin-Watson)

Se utilizaron 50 datos extrados al azar, de un conjunto de I ~


Multicolinealidad
Backward VIF's
observaciones sobre el estudio realizado sobre el cultivo de soya
Autovalores
En el diagrama de flujo que muestra a continuacin, se indican
en forma esquemtica los pasos que se siguieron para el desarrollo y I
validacin del modelo. Seleccin de
subconjuntos de
variables
(X2, X8, X9, X15)
180 Chacn / Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 181

Ejemplo ilustrativo
ESQUEMA D~L DESARROLLO Y VALIDACION DEL MODELO
CONSTRUCCION DE UN MODELO DE PREDICCION
DEL RENDIMIENTO DEL CULTIVO DE SOYA

OBJETIVO Modelo completo

Construir un modelo til y prctico para predecir el rendimiento I


de un cultivo de soya. Matriz de
correlacin
METAS DEL MODELO Inversa de la matriz
de correlacin
1. La ecuacin final debe explicar ms del 70% de la variacin
(R2>0,70). I Normalidad
Estudio del Mtodo Grfico
2. Todos los coeficientes estimados en el modelo, deben ser
=
estadsticamente significativos a un nivel a 0,10. cumplimiento de los Mtodo Analtico
supuestos (Wilks-Shapiro)
3. Los residuales no deben presentar patrones discernibles.
Homocedasticidad
El modelo debe tener buenas caractersticas de validacin al I Grficos:
utilizar las tcnicas de validacin cruzada. Problemas serios de
multicolinealidad
res Vs Y;
res Vs X's
MATERIALES Y METODOS
I
Autocorrelacin
Seleccin variable
Datos utilizados (p. Durbin-Watson)

Se utilizaron 50 datos extrados al azar, de un conjunto de I ~


Multicolinealidad
Backward VIF's
observaciones sobre el estudio realizado sobre el cultivo de soya
Autovalores
En el diagrama de flujo que muestra a continuacin, se indican
en forma esquemtica los pasos que se siguieron para el desarrollo y I
validacin del modelo. Seleccin de
subconjuntos de
variables
(X2, X8, X9, X15)
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 183
182

I
Tabla 4.5. Datos de .rendimiento 00, y de 15 variables que
caracterizan la plantacin de soya
Evaluacin del
subconjunto de Desv.
modelos Variables Codo Media estandar c.v.
R 2
N plantas/m. 1 x. 7,58 2,64 34,86
Criterios utilizados Cp de Mallow
N vainas/m. 1 X2 484,28 173,76 35,88
Submodelos N vainas/plantas x, 65,14 19,99 30,68
seleccionados
- N" vainas vanas X4 12,98 14,04 108,16
Peso vainas vanas X5 0,85 0,91 106,54
Estudio de los
submodelos ANAVAR Vainas con 1 semilla X6 49,46 2,88 46,24
seleccionados Peso de las vainas con X7 13,83 7,02 50,73
Normalidad una semilla
Mtodo Grfico Vainas con 2 semillas Xs 251,90 93,93 37,28
Mtodo Analtico
(Wilks-Shapiro) Peso de las vainas con 2 X9 117,51 51,48 43,80
Estudio del semillas
Homocedasticidad
cumplimiento de los Vainas con 3 semillas XlO 172,08 74,26 43,15
Grficos:
sunuestos
res Vs t; Peso de las vainas con 3 Xl1 113,35 59,03 52,07
res Vs X's semillas
Validacin de los
Peso total de las vainas Xl2 247,52 107,80 46,54
submodelos finales Autocorrelacin
seleccionados Peso de 100 vainas Xl3 50,86 7,36 14,47
(P. Durbin-Watson)
Peso de las semillas de Xl4 32,73 6,59 20,12
Multicolinealidad las 100 vainas
Criterios utilizados VIF's Peso de 100 semillas Xl5 16,00 2,15 13,41
Autovalores
Peso total de las semillas Y 145,49 62,61 43,03
2
R pred Fuente: Clculos propios
Press
El tipo de anlisis a efectuar es el Anlisis de Regresin
Conclusiones Estabilidad de Signos y
Mltiple.
Magnitudes de los
coeficientes Para el procesamiento de los datos, se usaron los paquetes
estadsticos SAS, SPSS/PC y Statgraphics.
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 183
182

I
Tabla 4.5. Datos de .rendimiento 00, y de 15 variables que
caracterizan la plantacin de soya
Evaluacin del
subconjunto de Desv.
modelos Variables Codo Media estandar c.v.
R 2
N plantas/m. 1 x. 7,58 2,64 34,86
Criterios utilizados Cp de Mallow
N vainas/m. 1 X2 484,28 173,76 35,88
Submodelos N vainas/plantas x, 65,14 19,99 30,68
seleccionados
- N" vainas vanas X4 12,98 14,04 108,16
Peso vainas vanas X5 0,85 0,91 106,54
Estudio de los
submodelos ANAVAR Vainas con 1 semilla X6 49,46 2,88 46,24
seleccionados Peso de las vainas con X7 13,83 7,02 50,73
Normalidad una semilla
Mtodo Grfico Vainas con 2 semillas Xs 251,90 93,93 37,28
Mtodo Analtico
(Wilks-Shapiro) Peso de las vainas con 2 X9 117,51 51,48 43,80
Estudio del semillas
Homocedasticidad
cumplimiento de los Vainas con 3 semillas XlO 172,08 74,26 43,15
Grficos:
sunuestos
res Vs t; Peso de las vainas con 3 Xl1 113,35 59,03 52,07
res Vs X's semillas
Validacin de los
Peso total de las vainas Xl2 247,52 107,80 46,54
submodelos finales Autocorrelacin
seleccionados Peso de 100 vainas Xl3 50,86 7,36 14,47
(P. Durbin-Watson)
Peso de las semillas de Xl4 32,73 6,59 20,12
Multicolinealidad las 100 vainas
Criterios utilizados VIF's Peso de 100 semillas Xl5 16,00 2,15 13,41
Autovalores
Peso total de las semillas Y 145,49 62,61 43,03
2
R pred Fuente: Clculos propios
Press
El tipo de anlisis a efectuar es el Anlisis de Regresin
Conclusiones Estabilidad de Signos y
Mltiple.
Magnitudes de los
coeficientes Para el procesamiento de los datos, se usaron los paquetes
estadsticos SAS, SPSS/PC y Statgraphics.
184 Chacn I Anlisisde Regresiny Superficiesde Respuesta Chacn I Anlisisde Regresiny Superficiesde Respuesta 185

DESARROLLO DEL MODELO


Tabla 4.6. Valores de la parmetros
.
(3 ) y sus respectivas pruebas de
significacin
Se propone como el modelo:
A A

Variable SE(~) Beta t Sig t


~
y = ~o + ~lXl + ~2X2 + IhXa + ~X4 + ~5M + ~6X6 +
X15 7,63827 4,49043 0,26190 1,701 0,0981
~7X7 + ~8Xa + ~9X9 + ~lOXlO+ ~nXll + ~12X12+ ~laXla
+ ~14X14 + ~15X15 + Ei X4 -0,79073 1,02721 -0,17733 -0,770 0,4467
Xa 0,48804 0,46935 0,15581 -1,040 0,3058
Por medio del mtodo de los mnimos cuadrados ordinarios, se
obtuvo el modelo estimado: X7 1,58106 1,79453 0,17717 0,881 0,3845
XlO 0,21455 0,80347 -0,25449 -0,267 0,7911
A

Y = - 47,74 - 4,18Xl + 0,64X2 - 0,49Xa - 0,79X4 + 8,43Xs - X14 0,19148 1,87421 0,02014 0,102 0,9192
0,78X6 + 1,58X7 - 0,84Xs + 1,22X9 - 0,21XlO + 0,20Xn- X8 0,83879 0,76715 -1,25852 -1,093 0,2819
0,28X12 - 0,33X13 + 0,19X14 + 7,54X15
X6 -0,78688 0,91216 -0,28752 -0,863 0,3944
X5 8,43132 15,52564 0,12257 0,543 0,5906
X13 0,33492 1,91345 0,03938 0,175 0,8621
R mltiple. 0,91260 Xl -4,17849 5,11983 0,17638 -0,816 0,4201
R2. 0,83284
2 Xll 0,19850 0,33774 0,18715 0,588 0,5606
Radj . 0,75909
X9 1,22792 1,48056 1,00967 0,829 0,4127
Error Estandar 30,72817
X12 -0,27848 0,75609 -0,47949 -0,368 0,7149
X2 0,64367 0,62043 1,78652 1,037 0,3068
(cte) -43,74606 91,63134 -0,477 0,6361
ANAVAR
El modelo, present un coeficiente de determinacin
F. deV. G. de L. Suma de Cuad. Cuad. Medios
R2 = 83,28%, lo cual se ajusta a los objetivos.

Del ANAVAR que presenta un Fc =


11,293, Yun Ftab 1,634 =
Regresin 15 159948,09624 10663,20642 =
con a 0,10, como Fc > Ftab concluimos que el F es significativo, en
consecuencia, algn ~i es distinto de cero, esto implica que hay una
Residual 34 32103,50056 944,22060 relacin funcional entre las X's y Y.
F = 11,29313 Signif F = 0,0000 Analizando los valores "t", se observa que solamente ~15 '" O.
Como la prueba de F fue altamente significativa y tenemos un solo
~ '" 0, ello podra indicar que se est en presencia de multico-
linealidad en los datos, ya que de ser as la prueba "t" no es vlida.
184 Chacn I Anlisisde Regresiny Superficiesde Respuesta Chacn I Anlisisde Regresiny Superficiesde Respuesta 185

DESARROLLO DEL MODELO


Tabla 4.6. Valores de la parmetros
.
(3 ) y sus respectivas pruebas de
significacin
Se propone como el modelo:
A A

Variable SE(~) Beta t Sig t


~
y = ~o + ~lXl + ~2X2 + IhXa + ~X4 + ~5M + ~6X6 +
X15 7,63827 4,49043 0,26190 1,701 0,0981
~7X7 + ~8Xa + ~9X9 + ~lOXlO+ ~nXll + ~12X12+ ~laXla
+ ~14X14 + ~15X15 + Ei X4 -0,79073 1,02721 -0,17733 -0,770 0,4467
Xa 0,48804 0,46935 0,15581 -1,040 0,3058
Por medio del mtodo de los mnimos cuadrados ordinarios, se
obtuvo el modelo estimado: X7 1,58106 1,79453 0,17717 0,881 0,3845
XlO 0,21455 0,80347 -0,25449 -0,267 0,7911
A

Y = - 47,74 - 4,18Xl + 0,64X2 - 0,49Xa - 0,79X4 + 8,43Xs - X14 0,19148 1,87421 0,02014 0,102 0,9192
0,78X6 + 1,58X7 - 0,84Xs + 1,22X9 - 0,21XlO + 0,20Xn- X8 0,83879 0,76715 -1,25852 -1,093 0,2819
0,28X12 - 0,33X13 + 0,19X14 + 7,54X15
X6 -0,78688 0,91216 -0,28752 -0,863 0,3944
X5 8,43132 15,52564 0,12257 0,543 0,5906
X13 0,33492 1,91345 0,03938 0,175 0,8621
R mltiple. 0,91260 Xl -4,17849 5,11983 0,17638 -0,816 0,4201
R2. 0,83284
2 Xll 0,19850 0,33774 0,18715 0,588 0,5606
Radj . 0,75909
X9 1,22792 1,48056 1,00967 0,829 0,4127
Error Estandar 30,72817
X12 -0,27848 0,75609 -0,47949 -0,368 0,7149
X2 0,64367 0,62043 1,78652 1,037 0,3068
(cte) -43,74606 91,63134 -0,477 0,6361
ANAVAR
El modelo, present un coeficiente de determinacin
F. deV. G. de L. Suma de Cuad. Cuad. Medios
R2 = 83,28%, lo cual se ajusta a los objetivos.

Del ANAVAR que presenta un Fc =


11,293, Yun Ftab 1,634 =
Regresin 15 159948,09624 10663,20642 =
con a 0,10, como Fc > Ftab concluimos que el F es significativo, en
consecuencia, algn ~i es distinto de cero, esto implica que hay una
Residual 34 32103,50056 944,22060 relacin funcional entre las X's y Y.
F = 11,29313 Signif F = 0,0000 Analizando los valores "t", se observa que solamente ~15 '" O.
Como la prueba de F fue altamente significativa y tenemos un solo
~ '" 0, ello podra indicar que se est en presencia de multico-
linealidad en los datos, ya que de ser as la prueba "t" no es vlida.
186 Chacn / Anlisis de Regresin y Superficies de Respuesta Chacn / Anlisis de Regresin y Superficies de Respuesta 187

ESTUDIO DEL CUMPLIMIENTO DE LOS SUPUESTOS 1.0 4--------4--------4--------+-------**


*****
***
Normalidad de los residuales *
**
De los grficos siguientes y la prueba analtica de Wilk-Shapiro, se .75
**
concluye que hay una aproximacin a la normal. o *
0,04 b **.*
0,08
Out s
e *
*
0,20
3,00
r .*

.****
2,67 v
a
0,91 .*
1,67
2,00 d
o .25
. **

1 2,74
1,67
1,33 * ***
**
2 4,03 1,00 ** **
*****---+--------+--------+------~
5 5,31 25
0,67 ****. Esperado
9 6,26 -0,33 *****.***
Wilk-Shapiro = 0,8936
* 6,62 0,00 ******.******
9 6,26 -0,33 Figura 4.12. Pruebas de normalidad para el modelo completo
*****.***
Across - *PRED Down - *RESID
5 5,31 -0,67 ****. Out ++-----+-----r-----r----+-----r---~+
3 4,03 -1,00 3
*** Symbols:
MaxN
2,74
1,67
-1,33
2


O 0,91
-1,67
-2,00
1.0
2.0

0,45
0,20
-2,33

0,08
-2,67 o ... ,:


1 0,04
-3,00
Out * -1 - - - - - - - - - _.- - - - - - - - - - - - - - - -

-2
Figura 4.11. Histograma de residuales estandarizados para el modelo
completo
-3
Out
- 3 -2 - 1 - O 2 3 Out

Figura 4.13. Prueba de homogeneidad de varianza para el modelo


completo
186 Chacn / Anlisis de Regresin y Superficies de Respuesta Chacn / Anlisis de Regresin y Superficies de Respuesta 187

ESTUDIO DEL CUMPLIMIENTO DE LOS SUPUESTOS 1.0 4--------4--------4--------+-------**


*****
***
Normalidad de los residuales *
**
De los grficos siguientes y la prueba analtica de Wilk-Shapiro, se .75
**
concluye que hay una aproximacin a la normal. o *
0,04 b **.*
0,08
Out s
e *
*
0,20
3,00
r .*

.****
2,67 v
a
0,91 .*
1,67
2,00 d
o .25
. **

1 2,74
1,67
1,33 * ***
**
2 4,03 1,00 ** **
*****---+--------+--------+------~
5 5,31 25
0,67 ****. Esperado
9 6,26 -0,33 *****.***
Wilk-Shapiro = 0,8936
* 6,62 0,00 ******.******
9 6,26 -0,33 Figura 4.12. Pruebas de normalidad para el modelo completo
*****.***
Across - *PRED Down - *RESID
5 5,31 -0,67 ****. Out ++-----+-----r-----r----+-----r---~+
3 4,03 -1,00 3
*** Symbols:
MaxN
2,74
1,67
-1,33
2


O 0,91
-1,67
-2,00
1.0
2.0

0,45
0,20
-2,33

0,08
-2,67 o ... ,:


1 0,04
-3,00
Out * -1 - - - - - - - - - _.- - - - - - - - - - - - - - - -

-2
Figura 4.11. Histograma de residuales estandarizados para el modelo
completo
-3
Out
- 3 -2 - 1 - O 2 3 Out

Figura 4.13. Prueba de homogeneidad de varianza para el modelo


completo
188 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 189
A

Del grfico de residuales (ei) vs Yi ' se observa que los valores B) Otro indicio de la presencia de la multicolinealidad es que l~ F
estn en una franja horizontal, por lo tanto concluimos que no hay fue altamente significativa pero las t no lo son (aunque esto
heterocedasticidad (la varianza es constante). podra deberse a otras causas).
AUTOCORRELACION C) Anlisis de los VIF.
La autocorrelacin de Durbin-Watson da un valor de 1,95788, Variable G. de L. Inflador de Variable G. de L. Inflador de
valor indicativo de que no hay autocorrelacin. Varianza Varianza

MULTICOLINEALIDAD INTERCEP 1 0,0000000 X8 1 269,47654601

La presencia de multicolinealidad se evidencia por: x. 1 9,4993145 X9 1 301,45144713


X2 1 603,1313588 XlO 1 184,74319405
A) Examen de la matriz de correlacin de las variables regresoras
X3 1 4,5666295 x., 1 20,62371830
MATRIZ DE CORRELACION X4 1 10,7938244 X12 1 344,7182360
X5 1 10,3613687 X13 1 100,29413456
xi X2 X3 X4 X5 X6 X7 X8 X9 XI0 XlI X12 X13 X14 X15 y
Xl 1,000 0,782* -0,270 0,253 0,184 0,585* 0,704* 0,780* 0,734* 0,616* 0,633* 0,726* 0,284 .0,228 0,204 0,616* X6 1 22,5938337 X14 1 7,90556302
X2 0,782* 1,000 0,273 0,182 0,144 0,730* 0,725* 0,944* 0,915* 0,872* 0,865* 0,952* 0,404* 0,345* 0,360* 0,813*
X7 1 8,2246002 X15 1 4,82177853
X3 0,270 0,273 1,000 -0,000 0,005 0,302 0,062 0,189 0,228 0,294 0,257 0,273 0,124 0,97 0,236 0,199

X4 0,253 0,182 -0,000 1,000 O,~13* 0,126 0,132 00,175 0,122 0,020 0,005 0,064 .0,165 -0,137 -0,134 0,039
hay diez VIF > 10, que indica la existencia de multicolinealidad.
X5 0,184 0,144 0,005 0,913* 1,000 0,058 0,083 0,137 0,046 0,002 -0,043 0,001 .0,200 .0,182 -0,216 -0,003 D) Para determinar la severidad de la multicolinealidad detectada,
X6 0,585* 0,730* 0,302 0,126 0,058 1,000 0,829* 0,707* 0,689* 0,462* 0,512* 0,646* 362* 0,344* 0,342* 0,55* estudiamos los valores propios de la matriz XIX y calculamos el
X7 0,704*0,725* 0,062 0,132 0,0830,829* 1,0000,747*0,751*0,467*0,523*0,695*0,361*0,370* 0,249 0,610* coeficiente de multicolinealidad.
X8 0,780* 0,944* 0,189 0,175 0,137 0,707* 0,747* 1,000 0,960* 0,694* 0,728* 0,893* 0,357* 0,301 0,331* 0,756* Nmero Valor Propio Nmero Valor Propio
X9 0,734* 0,915* 0,228 0,122 0,046 0,689* 0,751 * 0,960* 1,000 0,692* 0,781* 0,941* 543* 0,481* 0,519* 0,833*
1 14,24422 9 0,02346
X10 0,616* 0,872* 0,294 0,020 0,002 0,462* 0,467* 0,694* 0,692* 1,000 0,931* 0,880* 0,389* 0,328* 0,336* 0,753*

XlI 0,633* 0,865* 0,257 0,005 -0,043 0,512* 0,523* 0,728* 0,781* 0,931* 1,000 0,929* 0,542* 0,472* 0,486* 0,826*
2 0,98344 10 0,00837
X12 0,726* 0,952* 0,273 0,064 0,001 0,646* 0,695* 0,893* 0,941* 0,880* 0,929* 1,000 0,583* 0,523* 0,529* 0,880* 3 0,32077 11 0,00532
X13 0,284 0,404* 0,124 -0,165 -0,2000,362*0,361* 0,357* 0,543* 0,389* 0,542* 0,583* 1,000 0,914* 0,804* 0,629* 4 0,17136 12 0,00411
X14 0,2280,345* 0,097 -0,137 -0,182 0,344*0,370* 0,3010,481*0,328*0,472*0,523*0,914* 1,000 0,756*0,573*
5 0,10081 13 0,00187
X15 0,2040,360* 0,236 -0,134 -0,2160,342* 0,2490,331*0,519*0,336*0,486*0,529*0,804*0,756* 1,0000,618*
6 0,05005 14 0,0008478
Y 0,616* 0,813* 0,199 0,039 -0,003 0,555* 0,610* 0,756* 0,833* 0,753* 0,826* 0,880* 0,629* 0,573 0,618* 1,000
7 0,04724 15 0,0002217
8 0,03781 16 0,0001263
Segn se observa en la matriz de correlacin, hay muchos
coeficientes altos, y 15 de ellos son mayores que el Coeficiente de
Determinacin, lo cual nos indica que estamos en presencia de V.P. mayor 0,98344
multicolinealidad. K = 7.786,53
V.P. menor 0,0001263
(muticolinealidad severa)
188 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 189
A

Del grfico de residuales (ei) vs Yi ' se observa que los valores B) Otro indicio de la presencia de la multicolinealidad es que l~ F
estn en una franja horizontal, por lo tanto concluimos que no hay fue altamente significativa pero las t no lo son (aunque esto
heterocedasticidad (la varianza es constante). podra deberse a otras causas).
AUTOCORRELACION C) Anlisis de los VIF.
La autocorrelacin de Durbin-Watson da un valor de 1,95788, Variable G. de L. Inflador de Variable G. de L. Inflador de
valor indicativo de que no hay autocorrelacin. Varianza Varianza

MULTICOLINEALIDAD INTERCEP 1 0,0000000 X8 1 269,47654601

La presencia de multicolinealidad se evidencia por: x. 1 9,4993145 X9 1 301,45144713


X2 1 603,1313588 XlO 1 184,74319405
A) Examen de la matriz de correlacin de las variables regresoras
X3 1 4,5666295 x., 1 20,62371830
MATRIZ DE CORRELACION X4 1 10,7938244 X12 1 344,7182360
X5 1 10,3613687 X13 1 100,29413456
xi X2 X3 X4 X5 X6 X7 X8 X9 XI0 XlI X12 X13 X14 X15 y
Xl 1,000 0,782* -0,270 0,253 0,184 0,585* 0,704* 0,780* 0,734* 0,616* 0,633* 0,726* 0,284 .0,228 0,204 0,616* X6 1 22,5938337 X14 1 7,90556302
X2 0,782* 1,000 0,273 0,182 0,144 0,730* 0,725* 0,944* 0,915* 0,872* 0,865* 0,952* 0,404* 0,345* 0,360* 0,813*
X7 1 8,2246002 X15 1 4,82177853
X3 0,270 0,273 1,000 -0,000 0,005 0,302 0,062 0,189 0,228 0,294 0,257 0,273 0,124 0,97 0,236 0,199

X4 0,253 0,182 -0,000 1,000 O,~13* 0,126 0,132 00,175 0,122 0,020 0,005 0,064 .0,165 -0,137 -0,134 0,039
hay diez VIF > 10, que indica la existencia de multicolinealidad.
X5 0,184 0,144 0,005 0,913* 1,000 0,058 0,083 0,137 0,046 0,002 -0,043 0,001 .0,200 .0,182 -0,216 -0,003 D) Para determinar la severidad de la multicolinealidad detectada,
X6 0,585* 0,730* 0,302 0,126 0,058 1,000 0,829* 0,707* 0,689* 0,462* 0,512* 0,646* 362* 0,344* 0,342* 0,55* estudiamos los valores propios de la matriz XIX y calculamos el
X7 0,704*0,725* 0,062 0,132 0,0830,829* 1,0000,747*0,751*0,467*0,523*0,695*0,361*0,370* 0,249 0,610* coeficiente de multicolinealidad.
X8 0,780* 0,944* 0,189 0,175 0,137 0,707* 0,747* 1,000 0,960* 0,694* 0,728* 0,893* 0,357* 0,301 0,331* 0,756* Nmero Valor Propio Nmero Valor Propio
X9 0,734* 0,915* 0,228 0,122 0,046 0,689* 0,751 * 0,960* 1,000 0,692* 0,781* 0,941* 543* 0,481* 0,519* 0,833*
1 14,24422 9 0,02346
X10 0,616* 0,872* 0,294 0,020 0,002 0,462* 0,467* 0,694* 0,692* 1,000 0,931* 0,880* 0,389* 0,328* 0,336* 0,753*

XlI 0,633* 0,865* 0,257 0,005 -0,043 0,512* 0,523* 0,728* 0,781* 0,931* 1,000 0,929* 0,542* 0,472* 0,486* 0,826*
2 0,98344 10 0,00837
X12 0,726* 0,952* 0,273 0,064 0,001 0,646* 0,695* 0,893* 0,941* 0,880* 0,929* 1,000 0,583* 0,523* 0,529* 0,880* 3 0,32077 11 0,00532
X13 0,284 0,404* 0,124 -0,165 -0,2000,362*0,361* 0,357* 0,543* 0,389* 0,542* 0,583* 1,000 0,914* 0,804* 0,629* 4 0,17136 12 0,00411
X14 0,2280,345* 0,097 -0,137 -0,182 0,344*0,370* 0,3010,481*0,328*0,472*0,523*0,914* 1,000 0,756*0,573*
5 0,10081 13 0,00187
X15 0,2040,360* 0,236 -0,134 -0,2160,342* 0,2490,331*0,519*0,336*0,486*0,529*0,804*0,756* 1,0000,618*
6 0,05005 14 0,0008478
Y 0,616* 0,813* 0,199 0,039 -0,003 0,555* 0,610* 0,756* 0,833* 0,753* 0,826* 0,880* 0,629* 0,573 0,618* 1,000
7 0,04724 15 0,0002217
8 0,03781 16 0,0001263
Segn se observa en la matriz de correlacin, hay muchos
coeficientes altos, y 15 de ellos son mayores que el Coeficiente de
Determinacin, lo cual nos indica que estamos en presencia de V.P. mayor 0,98344
multicolinealidad. K = 7.786,53
V.P. menor 0,0001263
(muticolinealidad severa)
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 191
190

SELECCION DE VARIABLES ESTUDIO DEL MODELO SELECCIONADO


MODELO POBLACIONAL
Se probaron los mtodos Forward, Stepwise y Backward, que
seleccionaron diferentes variables. Dada la presencia de
multicolinealidad, nos quedamos con las variables seleccionadas por
el mtodo Backward. Mediante este procedimiento se seleccionaron
las variables, X2,Xs X9, X15. MODELO ESTIMADO
Variables en la ecuacin
A

Variable SE (p)
A

Beta t Sig t Y = bo + blM + b2Xs + b3M + b4X15

5,6116 3,2112 0,19241 1,747 0,0874


y= 58,339807 + 0,27910M - 0,53311Xs + 0,635X9 + 5,61160X15
Xs -0,5331 0,2615 -0,79988 -2,038 0,0474
R Mtiple 0,89661
X9 0,9635 0,4498 0,79228 2,142 0,0377
R2 0,80391
X2 0,2791 0,0736 0,07746 3,792 0,0004 2
Radj. 0,78648
(Constante) 58,3980 51,7069 -1,129 0,2647
Error Estandar 28,92850

Variables eliminadas
ANAVAR
Beta de. Parcial Tolerancia t Sig t
entrada mnima Suma de Cuad. Cuad. Medios
G.deL.
Xl 0,3780 0,05163 0,02785 0,343 0,7333
Regresin 4 154392,98169 38598,24542
X3 -0,10219 -0,21372 0,02756 -1,451 0,1538
X4 -0,03565 -0,07725 0,02829 -0,514 0,6098 Residual 45 37658,61511 836,85811
X5 -1,309x103 -0,00277 0,02785 -0,018 0,9854 F = 46,12281 Signif F = 0,0000
X6 -0,12660 -0,19206 0,02781 -1,298 0,2010
ESTIMACION DE PARAMETROS
X7 6,7259x103 0,00963 0,02799 . 0,064 0,9494
XlO 0,24299 0,15427 0,01633 1,036 0,3060 Variable
A A
Beta t Sig t
P SE(P)
Xl1 0,22198 0,16976 0,01663 1,143 0,2594
X12 0,5819 0,16081 0,01079 1,081 0,2857 X15 5,61160 3,211222 0,19241 1,747 0,0874
X13 0,05984 0,07018 0,02308 0,467 0,6430 Xs -0,53311 0,26155 -0,79988 -2,038 0,0474
X14 0,05512 0,07450 0,02439 0,496 0,6227
X2 0,27910 0,07361 0,77465 3,792 0,0004

X9 0,96353 0,44987 0,79228 2,142 0,0377

En el ANAVAR tenemos un Fc = 46,12281 el cual es mayor que


Ftab = 1,99 con un a =
0,1 altamente significativo y las pruebas de
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 191
190

SELECCION DE VARIABLES ESTUDIO DEL MODELO SELECCIONADO


MODELO POBLACIONAL
Se probaron los mtodos Forward, Stepwise y Backward, que
seleccionaron diferentes variables. Dada la presencia de
multicolinealidad, nos quedamos con las variables seleccionadas por
el mtodo Backward. Mediante este procedimiento se seleccionaron
las variables, X2,Xs X9, X15. MODELO ESTIMADO
Variables en la ecuacin
A

Variable SE (p)
A

Beta t Sig t Y = bo + blM + b2Xs + b3M + b4X15

5,6116 3,2112 0,19241 1,747 0,0874


y= 58,339807 + 0,27910M - 0,53311Xs + 0,635X9 + 5,61160X15
Xs -0,5331 0,2615 -0,79988 -2,038 0,0474
R Mtiple 0,89661
X9 0,9635 0,4498 0,79228 2,142 0,0377
R2 0,80391
X2 0,2791 0,0736 0,07746 3,792 0,0004 2
Radj. 0,78648
(Constante) 58,3980 51,7069 -1,129 0,2647
Error Estandar 28,92850

Variables eliminadas
ANAVAR
Beta de. Parcial Tolerancia t Sig t
entrada mnima Suma de Cuad. Cuad. Medios
G.deL.
Xl 0,3780 0,05163 0,02785 0,343 0,7333
Regresin 4 154392,98169 38598,24542
X3 -0,10219 -0,21372 0,02756 -1,451 0,1538
X4 -0,03565 -0,07725 0,02829 -0,514 0,6098 Residual 45 37658,61511 836,85811
X5 -1,309x103 -0,00277 0,02785 -0,018 0,9854 F = 46,12281 Signif F = 0,0000
X6 -0,12660 -0,19206 0,02781 -1,298 0,2010
ESTIMACION DE PARAMETROS
X7 6,7259x103 0,00963 0,02799 . 0,064 0,9494
XlO 0,24299 0,15427 0,01633 1,036 0,3060 Variable
A A
Beta t Sig t
P SE(P)
Xl1 0,22198 0,16976 0,01663 1,143 0,2594
X12 0,5819 0,16081 0,01079 1,081 0,2857 X15 5,61160 3,211222 0,19241 1,747 0,0874
X13 0,05984 0,07018 0,02308 0,467 0,6430 Xs -0,53311 0,26155 -0,79988 -2,038 0,0474
X14 0,05512 0,07450 0,02439 0,496 0,6227
X2 0,27910 0,07361 0,77465 3,792 0,0004

X9 0,96353 0,44987 0,79228 2,142 0,0377

En el ANAVAR tenemos un Fc = 46,12281 el cual es mayor que


Ftab = 1,99 con un a =
0,1 altamente significativo y las pruebas de
192 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 193

F Y t indican que todos los Pi son diferentes de 0, excepto el 1,0 +-----+-----+-----J----**


correspondiente a po. El coeficiente de determinacin del modelo fue *
del 80,39%,lo cual cumple con nuestras metas. *****
*
****
ESTUDIO DEL CUMPLIMIENTO 0,75 **
DE LOS SUPUESTOS DEL MODELO
*
**
*
NORMALIDAD **
0,5
**
De los grficos (Fig. 4.14 Y Fig. 4.15) Y la prueba analtica se
*
concluye que hay normalidad en los residuales. *

0,08 3,00 0,25


***
*
0,20 2,67
*
2 0,45 2,33
****
***

1
0,91
1,67
2,00
1,67 *
.*
*-----+-----~---~----~
0,25 1,0

3 2,74 1,33 **. Figura 4.15. Prueba de normalidad para el modelo reducido.
Standatized Scatterplot
2
3
4,03
5,31
1,00
0,67
** Across
Out 1
'PRED

1 1
'RESIO

I
.
I
.
I SymboIs:
*** 3 MaxN

***.**
* 6,62 0,00 ******.*** 2
9 6,26 -0,33 *****.*** 1,0
: 2,0
7 5,31 -0,67 ****.** * 4,0

2 4,03 -1,00 **
o
1 2,74 -1,33 * . * *
1 1,67 -1,67 *
0,91 -2,00
-1

0,45 -2,33 -2
0,20 -2,67
0,08 -3,00 -3.
Out




I

Figura 4.14. Histograma de residuales estandarizados para el modelo 3 2 -1 O 1 2 3
reducido
Figura. 4.16. Prueba de homogeneidad de varianza para el modelo
reducido
192 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 193

F Y t indican que todos los Pi son diferentes de 0, excepto el 1,0 +-----+-----+-----J----**


correspondiente a po. El coeficiente de determinacin del modelo fue *
del 80,39%,lo cual cumple con nuestras metas. *****
*
****
ESTUDIO DEL CUMPLIMIENTO 0,75 **
DE LOS SUPUESTOS DEL MODELO
*
**
*
NORMALIDAD **
0,5
**
De los grficos (Fig. 4.14 Y Fig. 4.15) Y la prueba analtica se
*
concluye que hay normalidad en los residuales. *

0,08 3,00 0,25


***
*
0,20 2,67
*
2 0,45 2,33
****
***

1
0,91
1,67
2,00
1,67 *
.*
*-----+-----~---~----~
0,25 1,0

3 2,74 1,33 **. Figura 4.15. Prueba de normalidad para el modelo reducido.
Standatized Scatterplot
2
3
4,03
5,31
1,00
0,67
** Across
Out 1
'PRED

1 1
'RESIO

I
.
I
.
I SymboIs:
*** 3 MaxN

***.**
* 6,62 0,00 ******.*** 2
9 6,26 -0,33 *****.*** 1,0
: 2,0
7 5,31 -0,67 ****.** * 4,0

2 4,03 -1,00 **
o
1 2,74 -1,33 * . * *
1 1,67 -1,67 *
0,91 -2,00
-1

0,45 -2,33 -2
0,20 -2,67
0,08 -3,00 -3.
Out




I

Figura 4.14. Histograma de residuales estandarizados para el modelo 3 2 -1 O 1 2 3
reducido
Figura. 4.16. Prueba de homogeneidad de varianza para el modelo
reducido
194 Chacin I Anlisis de Regresin y Superficies de Respuesta

El grfico de residuales us valores predichos, nos indica que no


hay indicios de heterocedasticidad.

AUTOCORRELACION
Prueba Durbin-Watson 1,934
Autocorrelacin de primer orden 0,072
El estadstico de Durbin-Watson fue de 1,934, como es mayor
que el dv = 1,72 obtenido de la tabla, indica que no existe
autocorrelacin

MULTICOLINEALIDAD
a) Examen de la matriz de correlacin de las variables regresoras.

Correlations X2 x, X9 X15 y
X2 1,0000 0,9449** 0,9154** 0,3601* 0,8134**
x, 0,9449** 1,0000 0,9604** 0,3311* 0,7567**
X9 0,9154** 0,9604** 1,0000 0,5198** 0,8332**
X15 0,3601* 0,3311* 0,5198** 1,0000 0,6183**
Y 0,8134"** 0,7567** 0,8332** 0,6183** 1,0000

Hay coeficientes de correlacin mayores que el coeficiente de


Determinacin, por lo tanto hay evidencias de multicolinealidad.
b) De la comparacin entre el F y las pruebas t, se concluye que no
hay indicios de multicolinealidad severos, dado que tanto F como
t son significativos, excepto el correspondiente a ~o.
ANAVAR
Fuente G. de L. Suma de Cuad. Cuad. Medios F Prob>F
Regresin 4 154392,98169 38598,24542 46,123 0,0001
Residual 45 37658,61511 836,85811
C Total 49 192051,59680
Raz Cuadrada del CME 28,92850 R2 = 0,8039
2
Promedio 145,49200 Radj = 0,7865

C.v. 19,88322
194 Chacn / Anlisis de Regresin y Superficies de Respuesta
Chacn / Anlisis de Regresin y Superficies de Respuesta 195
El grfico de residuales us valores predichos, nos indica que no
Estimacin de Parmetros
hay indicios de heterocedasticidad.
Variable G. deL. Estimacin de Error t Prob> Itl
AUTOCORRELACION los parmetros estandar
Prueba Durbin-Watson 1,934 Intercep 1 -58,398070 51,70694978 -1,129 0,2647
Autocorrelacin de primer orden 0,072 0,0004
X2 1 0,279103 0,07360959 3,792
El estadstico de Durbin-Watson fue de 1,934, como es mayor X15 1 5,611604 3,21121866 1,747 0,0874
que el dv = 1,72 obtenido de la tabla, indica que' no existe
autocorrelacin Xs 1 -0,533531 0,26155352 -2,038 0,0474

MULTICOLINEALIDAD X9 1 0,963531 0,44987250 2,142 0,0377

a) Examen de la matriz de correlacin de las variables regresoras.


Correlations M x, X9 X15 y e) Anlisis de los VIF

X2 1,0000 0,9449** 0,9154** 0,3601* 0,8134** Variable G. de L. Inflador de varianza


x, 0,9449** 1,0000 0,9604** 0,3311* 0,7567** Intercep 1 0,00000000
X9 0,9154** 0,9604** 1,0000 0,5198** 0,8332** X2 1 9,57900149
X15 0,3601* 0,3311* 0,5198** 1,0000 0,6183** X15 1 2,78222498
Y 0,8134** 0,7567** 0,8332** 0,6183** 1,0000 x, 1 35,34266118

Hay coeficientes de correlacin mayores que el coeficiente de X9 1 31,40273170


Determinacin, por lo tanto hay evidencias de multicolinealidad.
b) De la comparacin entre el F y las pruebas t, se concluye que no
d) Para determinar el grado de la multicolinealidad, se determinaron
hay indicios de multicolinealidad severos, dado que tanto F como
t son significativos, excepto el correspondiente a ~o. los valores propios de X'X con los cuales se calcul K.

ANAVAR
Fuente G. deL. Suma de Cuad. Diagnstico de multicoliriealidad
Cuad. Medios F Prob>F
Regresin Nmero Valor propio
4 154392,98169 38598,24542 46,123 0,0001
Residual 45 1 4,83775
37658,61511 836,85811
C Total 49 2 0,13807
192051,59680
3 0,01539
Raz Cuadrada del CME 28,92850 R2 = 0,8039
Promedio 4 0,00734
145,49200 2
Radj = 0,7865
5 0,00145
C.V. 19,88322
Chacn I Anlisis de Regresin y Superficies de Respuesta 197
196 Chacn I Anlisis de Regresin y Superficies de Respuesta

A mayor 0,13807 Como no hay criterios concluyentes, se validarn todos los


K = = 95,22< 100 modelos, aunque_ el determinado por las variables X2, X15 podra ser el
Amenor 0,00145 mejor.
lo cual indica que no hay problemas serios de multicolinealidad. VALIDACION
Para validar se utiliz el mtodo de comparar el modelo
ELECCION DEL MEJOR SUBCONJUNTO DE VARIABLES estimado, con otro generado por 50 observaciones adicionales. De este
REGRESORAS nuevo modelo, se comparan los coeficientes de los modelos estimados.
Los resultados se muestran en las siguientes tablas.
Para seleccionar el modelo definitivo, dentro de los subcon-
VALIDACION CRUZADA
juntos...del modelo seleccionado.por el mtodo de Backward, debemos
considerar los valores del coeficiente de determinacin, el coeficiente
de determinacin ajustado, el Press y el Cp de Mal1ow.
Modelo estimado Modelo de prediccion
La seleccin debe considerar aquel Cp ms prximo a la recta, el Coeficiente coeficiente
-2
R mayor y el menor Press. Intervalo de confianza
-147,42
CUADRO RESUMEN
(-200,2 s ~o s 0,29) -47,72.
Varia- Coef. F t* Cp R2 R2adj K VIF PRESS DW
ble Estima- 0,24
do (0,24 s ~2 s 0,29) 0,21
Xl5 5,611 !,747 2,782
x, 0,533 2,038 10,90
35,342
N 0,279 46,12 3,792 5,0000 80,39 78,64 95,22 9,579 49944,95 1,698
(7,42::; ~15::; 14,39) 5,78
Xs 0,963 2,142 31,402
Cte 58,398 1,129 0,000
X2 0,200 3,094 6,960 VALIDACION CRUZADA
X9 0,177 56,25 0,740 7,1545 78,58 77,18 24,70 8,300 50609,66 1,740
Xl5 9,976 4,033 1,545
Cte 132,131 3,460 0,000
X2 0,271 3,557 9,556 Modelo estimado Modelo de prediccion
x, 0,052 55,63 0,377 7,5872 78,39 76,98 16,89 9,341 50514,29 1,748 Coeficiente coeficiente
Xl5 10,879 5,075 11,150
Cte 146,847 .4,546
Intervalo de confianza
0,000
N 0,296 3,977 9,404 -146,85
Xs 0,837 57,89 4,206 6,0576 79,06 77,70 23,47 19,626 50234,62 1,605 (-200,53 s ~o s 93,54) -11,43
X9 1,565 5,296 12,980
Cte 29,017 2,169 0,000 0,27
N 0,244 9,325 1,148 (-0,15::; ~2 s 0,18) 0,45
Xl5 10,903 84,92 5,136 5,7404 78,43 77,40 8,25 1,148 48778,04 1,750
Cte 147,420 .4,611 0,000
-0,05
Para un a = 0,10, el ttab = 1,67 (-0,28::; ~8 s 0,18) 0,45
10,88
(-7,34::; ~15 s 14,42) 3,35
Chacn I Anlisis de Regresin y Superficies de Respuesta 197
196 Chacn I Anlisis de Regresin y Superficies de Respuesta

A mayor 0,13807 Como no hay criterios concluyentes, se validarn todos los


K = = 95,22< 100 modelos, aunque_ el determinado por las variables X2, X15 podra ser el
Amenor 0,00145 mejor.
lo cual indica que no hay problemas serios de multicolinealidad. VALIDACION
Para validar se utiliz el mtodo de comparar el modelo
ELECCION DEL MEJOR SUBCONJUNTO DE VARIABLES estimado, con otro generado por 50 observaciones adicionales. De este
REGRESORAS nuevo modelo, se comparan los coeficientes de los modelos estimados.
Los resultados se muestran en las siguientes tablas.
Para seleccionar el modelo definitivo, dentro de los subcon-
VALIDACION CRUZADA
juntos...del modelo seleccionado.por el mtodo de Backward, debemos
considerar los valores del coeficiente de determinacin, el coeficiente
de determinacin ajustado, el Press y el Cp de Mal1ow.
Modelo estimado Modelo de prediccion
La seleccin debe considerar aquel Cp ms prximo a la recta, el Coeficiente coeficiente
-2
R mayor y el menor Press. Intervalo de confianza
-147,42
CUADRO RESUMEN
(-200,2 s ~o s 0,29) -47,72.
Varia- Coef. F t* Cp R2 R2adj K VIF PRESS DW
ble Estima- 0,24
do (0,24 s ~2 s 0,29) 0,21
Xl5 5,611 !,747 2,782
x, 0,533 2,038 10,90
35,342
N 0,279 46,12 3,792 5,0000 80,39 78,64 95,22 9,579 49944,95 1,698
(7,42::; ~15::; 14,39) 5,78
Xs 0,963 2,142 31,402
Cte 58,398 1,129 0,000
X2 0,200 3,094 6,960 VALIDACION CRUZADA
X9 0,177 56,25 0,740 7,1545 78,58 77,18 24,70 8,300 50609,66 1,740
Xl5 9,976 4,033 1,545
Cte 132,131 3,460 0,000
X2 0,271 3,557 9,556 Modelo estimado Modelo de prediccion
x, 0,052 55,63 0,377 7,5872 78,39 76,98 16,89 9,341 50514,29 1,748 Coeficiente coeficiente
Xl5 10,879 5,075 11,150
Cte 146,847 .4,546
Intervalo de confianza
0,000
N 0,296 3,977 9,404 -146,85
Xs 0,837 57,89 4,206 6,0576 79,06 77,70 23,47 19,626 50234,62 1,605 (-200,53 s ~o s 93,54) -11,43
X9 1,565 5,296 12,980
Cte 29,017 2,169 0,000 0,27
N 0,244 9,325 1,148 (-0,15::; ~2 s 0,18) 0,45
Xl5 10,903 84,92 5,136 5,7404 78,43 77,40 8,25 1,148 48778,04 1,750
Cte 147,420 .4,611 0,000
-0,05
Para un a = 0,10, el ttab = 1,67 (-0,28::; ~8 s 0,18) 0,45
10,88
(-7,34::; ~15 s 14,42) 3,35
198 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 199
VALIDACION CRUZADA
VALIDACION. CRUZADA

Modelo estimado Modelo de prediccion


Modelo estimado Modelo de prediccin
Coeficiente Coeficiente
Coeficiente Coeficiente
Intervalo de confianza
Intervalo de confianza
-58,39 -12,88 -132,13 21,62
(-145,25 s ~o s 28,46) (-195,25 s ~o s 68,73)
0,28 - 0,05 0,20 0,0076
(-0,11 s ~2 s 0,67) (-0,09 s ~2 s 0,31)
-0,18 0,87
-0,53 0,26
(-0,97 ~8 s 0,09)
(-0,22 s ~9 ~ 0,57)
9,98 1,28
0,96 0,52 (5,87 s ~15 s 14,10)
(0,25 s ~9 s 1,72)
5,61 1,81
(-0,22 s ~15 s 11,01) Adems del mtodo mencionado, se utiliz el estadstico Press y
R2 de prediccin, cuyos resultados se ven en el siguiente cuadro.

VALIDACION CRUZADA UTILIZACION DEL PRESS y R2 DE PREDICCION PARA LA


VALIDACION CRUZADA
Variables en el modelo R2 R2 pred Press
Modelo estimado Modelo de prediccion
X2, X8, X9, X15 80,4 48 70010
Coeficiente Coeficiente
X2, X8, X9 79,0 45 74136
Intervalo de confianza
X2,X9, X15 78,6 49 67832
29,017 42,643
(6,9445 s ~o ~ 51,09) X2, X8, X15 78,4 46 72542
0,296 -0,072 X2, X15 78,3 46 71946
(-0,17 ~ ~2 s 0,42)
-0,838 0,217 Como ninguno de estos modelos presenta caractersticas de
(-O,17 s ~8 s 0,51)
validacin que se ajusten a las metas planteadas, decidimos
1,566 0,701 investigar cual pudiera ser la causa de sto. Analizando los
(1,08 s ~o s 2,05) coeficientes de variacin de las variables estudiadas podemos ver que
estos son generalmente altos y que la falta de estabilidad del modelo
presentado al validar, podra deberse a diferencias en las muestras
198 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 199
VALIDACION CRUZADA
VALIDACION. CRUZADA

Modelo estimado Modelo de prediccion


Modelo estimado Modelo de prediccin
Coeficiente Coeficiente
Coeficiente Coeficiente
Intervalo de confianza
Intervalo de confianza
-58,39 -12,88 -132,13 21,62
(-145,25 s ~o s 28,46) (-195,25 s ~o s 68,73)
0,28 - 0,05 0,20 0,0076
(-0,11 s ~2 s 0,67) (-0,09 s ~2 s 0,31)
-0,18 0,87
-0,53 0,26
(-0,97 ~8 s 0,09)
(-0,22 s ~9 ~ 0,57)
9,98 1,28
0,96 0,52 (5,87 s ~15 s 14,10)
(0,25 s ~9 s 1,72)
5,61 1,81
(-0,22 s ~15 s 11,01) Adems del mtodo mencionado, se utiliz el estadstico Press y
R2 de prediccin, cuyos resultados se ven en el siguiente cuadro.

VALIDACION CRUZADA UTILIZACION DEL PRESS y R2 DE PREDICCION PARA LA


VALIDACION CRUZADA
Variables en el modelo R2 R2 pred Press
Modelo estimado Modelo de prediccion
X2, X8, X9, X15 80,4 48 70010
Coeficiente Coeficiente
X2, X8, X9 79,0 45 74136
Intervalo de confianza
X2,X9, X15 78,6 49 67832
29,017 42,643
(6,9445 s ~o ~ 51,09) X2, X8, X15 78,4 46 72542
0,296 -0,072 X2, X15 78,3 46 71946
(-0,17 ~ ~2 s 0,42)
-0,838 0,217 Como ninguno de estos modelos presenta caractersticas de
(-O,17 s ~8 s 0,51)
validacin que se ajusten a las metas planteadas, decidimos
1,566 0,701 investigar cual pudiera ser la causa de sto. Analizando los
(1,08 s ~o s 2,05) coeficientes de variacin de las variables estudiadas podemos ver que
estos son generalmente altos y que la falta de estabilidad del modelo
presentado al validar, podra deberse a diferencias en las muestras
li

200 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 201

utilizadas para la estimacin y la validacin. Para seleccionar la 2 0,72608633 18,29433 X7 Xl1


muestra, si las regiones de exploracin son iguales en ambas 2 0,72448968 18,65745 Xs Xl5
muestras, debe aplicarse el algoritmo duplex, no obstante, dado que 2 0,72078774 19,49935 X2 Xll
no podamos implementarlo, como aproximacin hicimos las pruebas 2 0,71861889 19,99260 Xs X9
"t" para diferencias de medias. 21,93549 X2 X9
2 0,71007583
Variable t Prob> It I 2 0,69481189 25,40686 X7 X9
2 0,66292297 32,65915 X2 XS
M 1,92 0,0612*
2 0,66249881 32,75561 X2 X7
x, 1.63 0,1105 2 0,60420390 46,01323 X7 Xl5
0,29 0,7731 2 0,57722691 52,14842 X7 Xs
X9
X15 -3.87 0,0003* 3 0,80399143 2,57690 X9 Xl1 Xl5
3 0,79930996 3,64158 Xs Xl1 Xl5
3 0,79805302 3,93743 X2 Xl1 Xl5
Las diferencias que se hallaron en la validacin se pueden deber 3 0,79060744 5,62073 X2 Xs X9
a que el grupo de validacin, aunque fue seleccionado al azar, Xll Xl5
3 0,78815231 6,17909 X7
presenta diferencias significativas en las variables M y X15, con el
3 0,78767540 6,28755 Xs X9 Xll
conjunto de observaciones con las cuales se determin el modelo de
3 0,78581094 6,71157 X2 X9 Xl5
estimacin.
3 0,78455488 6,99723 X2 X7 Xl5
-3 0,78392529 .7,14041 X2 Xs Xl5
SELECCION DEL MODELO DEFINITIVO
3 0,77555536 9,04393 X2 X9 Xll
3 0,77319473 9,58079 X7 X9 Xll
Dado que el modelo determinado por las variables X2, Xs, M, X15 3 0,74222691 16,62359 X7 X9 Xl5
y sus subconjuntos no presentan buenas caractersticas de validacin, 3 0,74126793 16,84168 Xs X9 Xl5
se agregaron las variables X7, Xll (peso de las vainas con 1, y 3 Xs
3 0,74088144 16,92958 X7 Xl1
semillas respectivamente), que podran mejorar el modelo, y se les
analiz su Cp y R2.
3 0,73407249 18,47809 X2 Xs Xl1
3 0,73269996 18,79024 X2 X7 Xl1
Nmero en el R2 C(P) Variables en el Modelo 3 0,72889622 19,65530 X7 Xs Xl5
modelo 3 0,71862495 21,99122 X7 Xs X9
1 0,69423889 23,53718 X9 3 0,71184095 23,53406 X2 X7 X9
1 0,68221941 26,27069 Xl1 3 0,66463674 34,26940 X2 X7 Xs
1 0,66160763 30,95829 X2
1 0,57261585 51,19708 Xs 4 0,80793086 3,68099 X7 X9 x., Xl5
1 0,38228648 94,48240 Xl5 4 0,80655478 3,99394 X2 X9 x., XI5
2 0,78325782 5,29221 X2 Xl5 4 0,80583938 4,15664 X7 Xs x., XI5
2 0,77279172 7,67244 X9 Xl1 4 0,80434389 4,49674 X7 Xs x.. XI5
2 0,74364357 14,30141 Xll XI5 4 0,80399742 4,57554 Xs X9 XII Xl5
2 0,74124914 14,84596 X9 Xl5 4 0,80391407 4,59449 X2 Xs X9 XI5
2 0,73334450 16,64365 _ Xs Xll 4 0,80100005 5,25721 X2 Xs Xll XI5
li

200 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 201

utilizadas para la estimacin y la validacin. Para seleccionar la 2 0,72608633 18,29433 X7 Xl1


muestra, si las regiones de exploracin son iguales en ambas 2 0,72448968 18,65745 Xs Xl5
muestras, debe aplicarse el algoritmo duplex, no obstante, dado que 2 0,72078774 19,49935 X2 Xll
no podamos implementarlo, como aproximacin hicimos las pruebas 2 0,71861889 19,99260 Xs X9
"t" para diferencias de medias. 21,93549 X2 X9
2 0,71007583
Variable t Prob> It I 2 0,69481189 25,40686 X7 X9
2 0,66292297 32,65915 X2 XS
M 1,92 0,0612*
2 0,66249881 32,75561 X2 X7
x, 1.63 0,1105 2 0,60420390 46,01323 X7 Xl5
0,29 0,7731 2 0,57722691 52,14842 X7 Xs
X9
X15 -3.87 0,0003* 3 0,80399143 2,57690 X9 Xl1 Xl5
3 0,79930996 3,64158 Xs Xl1 Xl5
3 0,79805302 3,93743 X2 Xl1 Xl5
Las diferencias que se hallaron en la validacin se pueden deber 3 0,79060744 5,62073 X2 Xs X9
a que el grupo de validacin, aunque fue seleccionado al azar, Xll Xl5
3 0,78815231 6,17909 X7
presenta diferencias significativas en las variables M y X15, con el
3 0,78767540 6,28755 Xs X9 Xll
conjunto de observaciones con las cuales se determin el modelo de
3 0,78581094 6,71157 X2 X9 Xl5
estimacin.
3 0,78455488 6,99723 X2 X7 Xl5
-3 0,78392529 .7,14041 X2 Xs Xl5
SELECCION DEL MODELO DEFINITIVO
3 0,77555536 9,04393 X2 X9 Xll
3 0,77319473 9,58079 X7 X9 Xll
Dado que el modelo determinado por las variables X2, Xs, M, X15 3 0,74222691 16,62359 X7 X9 Xl5
y sus subconjuntos no presentan buenas caractersticas de validacin, 3 0,74126793 16,84168 Xs X9 Xl5
se agregaron las variables X7, Xll (peso de las vainas con 1, y 3 Xs
3 0,74088144 16,92958 X7 Xl1
semillas respectivamente), que podran mejorar el modelo, y se les
analiz su Cp y R2.
3 0,73407249 18,47809 X2 Xs Xl1
3 0,73269996 18,79024 X2 X7 Xl1
Nmero en el R2 C(P) Variables en el Modelo 3 0,72889622 19,65530 X7 Xs Xl5
modelo 3 0,71862495 21,99122 X7 Xs X9
1 0,69423889 23,53718 X9 3 0,71184095 23,53406 X2 X7 X9
1 0,68221941 26,27069 Xl1 3 0,66463674 34,26940 X2 X7 Xs
1 0,66160763 30,95829 X2
1 0,57261585 51,19708 Xs 4 0,80793086 3,68099 X7 X9 x., Xl5
1 0,38228648 94,48240 Xl5 4 0,80655478 3,99394 X2 X9 x., XI5
2 0,78325782 5,29221 X2 Xl5 4 0,80583938 4,15664 X7 Xs x., XI5
2 0,77279172 7,67244 X9 Xl1 4 0,80434389 4,49674 X7 Xs x.. XI5
2 0,74364357 14,30141 Xll XI5 4 0,80399742 4,57554 Xs X9 XII Xl5
2 0,74124914 14,84596 X9 Xl5 4 0,80391407 4,59449 X2 Xs X9 XI5
2 0,73334450 16,64365 _ Xs Xll 4 0,80100005 5,25721 X2 Xs Xll XI5
Chacin I Anlisis de Regresin y Superficies de Respuesta 203
202 Chacn I Anlisis de Regresin y Superficies de Respuesta

X2 Xs X9 Xl1 ANAVAR
4 0,79549320 6,50960
4 0,79111177 7,50604 X2 X7 x, X9 Fuente G. de L. Suma de Cuad. Cuad. Medio F Prob > F
4 0,78890304 8,00835 X7 Xs X9 Xl1 Regresin 3 154407,83884 51469,27761 62,895 0,0001
4 0,78614549 8,63548 X2 X7 X9 X15 Residual 46 37643,75796 818,34256
4 0,78593354 8,68369 X2 X7 Xs X15
Total 49 192051,59680
4 0,77694610 10,72764 X2 X7 X9 Xll
4 0,74298213 18,45183 X2 X7 Xs Xl1 Raz Cuadrada del C.M.E. 28,60669 R2 0,8040
2
4 0,74223351 18,62209 X7 Xs X9 X15 Promedio 145,49200 Radj 0,7912
C.v. 19,66203
5 0,80956521 5,30929 X2 x, X9 x., X15
5 0,80940488 5,34576 X2 X7 X9 Xll X15
5 0,80796992 5,67210 X7 x, X9 Xl1 X15
5 0,80641327 6,02612 X2 X7 Xs Xl1 X15 =
En el ANAVAR el Fc 62,895 nos indica que hay una relacin
5 0,80393224 6,59036 X2 X7 Xs X9 X15 funcional mltiple entre Y y las variables regresoras.
5 0,79550822 8,50618 X2 X7 Xs X9 Xu
Estimacin de parmetros
6 0,81092521 7,00000 X2 X7 x, X9 Xl1 X15 Variable G. deL. Estimacin de Error t Prob> It I
parmetros estandar

De acuerdo a esta informacin, se concluye que por tener menor' Intercep 1 -59,121583 31,8795539 -1,855 0,0700
Cp y mayor R2, seleccionamos el modelo que incorpora las variables X9 1 0,495277 0,13160617 3,763 0,0005
Xs, Xl1, X15, el cual se estudia a continuacin.
Xl1 1 0,430646 0,11222726 3,837 0,0004
X15 1 6,099460 2,25410793 2,706 0,0095
ESTUDIO DEL MODELO DEFINITIVO

MODELO POBLACIONAL La tabla anterior nos indica que los parmetros son signi-
ficativos a un nivel a. = 0,10.

MODELO ESTIMADO

Yi = -59,12 + O,495X9 + 0,43lXll + 6,099X15


Chacin I Anlisis de Regresin y Superficies de Respuesta 203
202 Chacn I Anlisis de Regresin y Superficies de Respuesta

X2 Xs X9 Xl1 ANAVAR
4 0,79549320 6,50960
4 0,79111177 7,50604 X2 X7 x, X9 Fuente G. de L. Suma de Cuad. Cuad. Medio F Prob > F
4 0,78890304 8,00835 X7 Xs X9 Xl1 Regresin 3 154407,83884 51469,27761 62,895 0,0001
4 0,78614549 8,63548 X2 X7 X9 X15 Residual 46 37643,75796 818,34256
4 0,78593354 8,68369 X2 X7 Xs X15
Total 49 192051,59680
4 0,77694610 10,72764 X2 X7 X9 Xll
4 0,74298213 18,45183 X2 X7 Xs Xl1 Raz Cuadrada del C.M.E. 28,60669 R2 0,8040
2
4 0,74223351 18,62209 X7 Xs X9 X15 Promedio 145,49200 Radj 0,7912
C.v. 19,66203
5 0,80956521 5,30929 X2 x, X9 x., X15
5 0,80940488 5,34576 X2 X7 X9 Xll X15
5 0,80796992 5,67210 X7 x, X9 Xl1 X15
5 0,80641327 6,02612 X2 X7 Xs Xl1 X15 =
En el ANAVAR el Fc 62,895 nos indica que hay una relacin
5 0,80393224 6,59036 X2 X7 Xs X9 X15 funcional mltiple entre Y y las variables regresoras.
5 0,79550822 8,50618 X2 X7 Xs X9 Xu
Estimacin de parmetros
6 0,81092521 7,00000 X2 X7 x, X9 Xl1 X15 Variable G. deL. Estimacin de Error t Prob> It I
parmetros estandar

De acuerdo a esta informacin, se concluye que por tener menor' Intercep 1 -59,121583 31,8795539 -1,855 0,0700
Cp y mayor R2, seleccionamos el modelo que incorpora las variables X9 1 0,495277 0,13160617 3,763 0,0005
Xs, Xl1, X15, el cual se estudia a continuacin.
Xl1 1 0,430646 0,11222726 3,837 0,0004
X15 1 6,099460 2,25410793 2,706 0,0095
ESTUDIO DEL MODELO DEFINITIVO

MODELO POBLACIONAL La tabla anterior nos indica que los parmetros son signi-
ficativos a un nivel a. = 0,10.

MODELO ESTIMADO

Yi = -59,12 + O,495X9 + 0,43lXll + 6,099X15


Chacn I Anlisisde Regresin y Superficiesde Respuesta 205
204 Chacn I Anlisisde Regresiny Superficiesde Respuesta

Probabilidad Normal
ANALlSIS DEL CUMPLIMIENTO DE LOS SUPUESTOS
Residual Estandarizado
1,0
+----+----4-----1----"
O 0,04 Out ..... .
.....
O 0,08 3,00
O 0,20 2,67
0,7 ...
0,45 2,33 ",
O
1 0,91 2,00
o
b
s
....
"1:

1 1,67 1,67 * e 0,5 "'


2 2,74 1,33 **. r ... .>10

v
4 4,03 1,00 *** a
d
6 5,31 0,67 **** . * o 0,2
6
9
6,26
6,62
0,33
0,00
***** .
****** . **
.
."*'"
...
..
"'

.--+----t----+----+ Esperado
9 6,26 -0,33 *****. ***
0,25 0,5 0,75 1,0
5 5,31 -0,67 ****
5 4,03 -1,00 ***. *
Figura 4.18. Prueba de normalidad para el modelo reducido definitivo
1 2,74 -1,33 *
Across - "PRED Down - "RESID
O 1,67 -1,67 Out~r--~--_+--_+--_+--_+--++
3 Symbols:
O 0,91 -2,00 MaxN
O 0,45 -2,33
O 0,20 -2,67 2
1,0
O 0,08 -3,00 2,0
3,0
1 0,04 Out *
Wilk - Shapiro = 0,9175
o
Figura 4.17. Histograma de residuales estandarizados para el modelo . , .. ,
reducido definitivo
. 1

-2

-3
Out
.3 2 . 1 -o -1 2 3 Out
Figura 4.19. Prueba de homogeneidad de varianza para el modelo
reducido definitivo
De los grficos' y la prueba analtica se concluye que hay
normalidad en los residuales y no existe heterocedasticidad. .
Chacn I Anlisisde Regresin y Superficiesde Respuesta 205
204 Chacn I Anlisisde Regresiny Superficiesde Respuesta

Probabilidad Normal
ANALlSIS DEL CUMPLIMIENTO DE LOS SUPUESTOS
Residual Estandarizado
1,0
+----+----4-----1----"
O 0,04 Out ..... .
.....
O 0,08 3,00
O 0,20 2,67
0,7 ...
0,45 2,33 ",
O
1 0,91 2,00
o
b
s
....
"1:

1 1,67 1,67 * e 0,5 "'


2 2,74 1,33 **. r ... .>10

v
4 4,03 1,00 *** a
d
6 5,31 0,67 **** . * o 0,2
6
9
6,26
6,62
0,33
0,00
***** .
****** . **
.
."*'"
...
..
"'

.--+----t----+----+ Esperado
9 6,26 -0,33 *****. ***
0,25 0,5 0,75 1,0
5 5,31 -0,67 ****
5 4,03 -1,00 ***. *
Figura 4.18. Prueba de normalidad para el modelo reducido definitivo
1 2,74 -1,33 *
Across - "PRED Down - "RESID
O 1,67 -1,67 Out~r--~--_+--_+--_+--_+--++
3 Symbols:
O 0,91 -2,00 MaxN
O 0,45 -2,33
O 0,20 -2,67 2
1,0
O 0,08 -3,00 2,0
3,0
1 0,04 Out *
Wilk - Shapiro = 0,9175
o
Figura 4.17. Histograma de residuales estandarizados para el modelo . , .. ,
reducido definitivo
. 1

-2

-3
Out
.3 2 . 1 -o -1 2 3 Out
Figura 4.19. Prueba de homogeneidad de varianza para el modelo
reducido definitivo
De los grficos' y la prueba analtica se concluye que hay
normalidad en los residuales y no existe heterocedasticidad. .
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 207
206

AUTOCORRELACION maximo 0,15270


K= = =21,38
mnimo 0,00714
Prueba Durbin-Watson = 2,03511. Por ser el coeficiente de
Durbin-Watson mayor que 1,67, se concluye que no hay
autocorrelacin. VALIDACION
R2 R2 pred Press
ANALlSIS DE MUL TICOLlNEALlDAD
80,4 64 48993
Matriz de correlaciones
X9 Xll X15 y
Aunque la validacin utilizando el R2 pred y Press no fue
X9 1,0000 0,7814** 0,5198** 0,8332** ptima, probablemente debido a la escogencia de la muestra de
Xll 0,7814** 1,0000 0,4864** 0,8260** validacin, se selecciona el modelo:
X15 0,5198** 0,4864** 1,0000 0,6183**
Y 0,8332** 0,8260** 0,6183** 1,0000 Yi = -59,1215 + 0,4953X9i + 0,4307Xlli + 6,0995X15i.

Ningn coeficiente de correlacin es mayor que R2 y hay MATRIZ DE DATOS


consistencia entre F y t, por lo tanto no hay indicios de y
Xl X2 X3 X4 X5 X6 X7 X8 X9 X10 XlI X12 X13 X14 X15
multicolinealidad. _ 7 418 6 O O 16 4 215 97 187 121 222 54 37 16 173
ESTUDIO DE LOS VIF 6 282 47 2 O 30 11 144 65 106 72. 149 54 45 17 109
7 600 86 16 1 63 17 287 129 231 156303 42 26 15 148
Variable G. de L. Tolerancia Infladores de 3 306 102 9 1 26 6 157 69 144 68 144 42 27 16 91
Varianza 8 557 90 21 1 53 13 235 99 248 153 266 45 29 14 155
1 0,36386667 2,74825938 6 408 68 26 2 22 6 220 89 140 88 185 42 25 13 91
1 0,38059729 2,62744909 6 188 31 14 1 26 12 134 52 52 30 96 37 24 14 46
1 0,71331508 1,40190502 6 260 43 14 1 20 10 150 68 76 49 127 48 32 14 69
5 27:t 54 12 1 33 8 117 46 110 62 116 44 26 14 112
Ningn VIF es superior a 5, por lo tanto no hay multicolinealidad.
4 284 71 8 1 44 10 143 57 89 55 122 52 34 15 98
9 429 48 33 3 27 8 192 86 177 105 202 54 31 12 114
12 600 50 16 1 76 21 344 164 164 116 301 50 35 16 171
VALORES PROPIOS
3 313 104 4 O 92 6 117 58 91 64 128 60 40 19 80
Nmero Valor Pro io 13 624 48 17 1 95 35 338 164 173 116 316 56 38 15 179
1 3,80154 8 557 70 8 O 53 19 315 176 181 143 339 65 44 20 203
2 0,15270 6 382 64 10 1 60 17 198 88 114 73 178 47 28 16 87
3 0,03863 3 340 113 5 O 40 11 176 92 119 74 177 45 27 15 79
4 0,00714 6 566 94 40 3 52 13 276 115 198 120 251 46 28 15 152
6 334 56 2 O 20 6 166 68 146 81 155 44 22 14 111
3 201 87 15 1 41 9 115 48 30 19 76 46 29 17 47
El anlisis de los valores propios, nos ratifica que no hay 5 298 60 35 2 27 6 148 56 88 51 115 43 29 13 76
problemas con la multicolinealidad, dado que K = 21,38 8 682 85 16 1 77 21 437 212 152 100 334 49 28 16 200
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 207
206

AUTOCORRELACION maximo 0,15270


K= = =21,38
mnimo 0,00714
Prueba Durbin-Watson = 2,03511. Por ser el coeficiente de
Durbin-Watson mayor que 1,67, se concluye que no hay
autocorrelacin. VALIDACION
R2 R2 pred Press
ANALlSIS DE MUL TICOLlNEALlDAD
80,4 64 48993
Matriz de correlaciones
X9 Xll X15 y
Aunque la validacin utilizando el R2 pred y Press no fue
X9 1,0000 0,7814** 0,5198** 0,8332** ptima, probablemente debido a la escogencia de la muestra de
Xll 0,7814** 1,0000 0,4864** 0,8260** validacin, se selecciona el modelo:
X15 0,5198** 0,4864** 1,0000 0,6183**
Y 0,8332** 0,8260** 0,6183** 1,0000 Yi = -59,1215 + 0,4953X9i + 0,4307Xlli + 6,0995X15i.

Ningn coeficiente de correlacin es mayor que R2 y hay MATRIZ DE DATOS


consistencia entre F y t, por lo tanto no hay indicios de y
Xl X2 X3 X4 X5 X6 X7 X8 X9 X10 XlI X12 X13 X14 X15
multicolinealidad. _ 7 418 6 O O 16 4 215 97 187 121 222 54 37 16 173
ESTUDIO DE LOS VIF 6 282 47 2 O 30 11 144 65 106 72. 149 54 45 17 109
7 600 86 16 1 63 17 287 129 231 156303 42 26 15 148
Variable G. de L. Tolerancia Infladores de 3 306 102 9 1 26 6 157 69 144 68 144 42 27 16 91
Varianza 8 557 90 21 1 53 13 235 99 248 153 266 45 29 14 155
1 0,36386667 2,74825938 6 408 68 26 2 22 6 220 89 140 88 185 42 25 13 91
1 0,38059729 2,62744909 6 188 31 14 1 26 12 134 52 52 30 96 37 24 14 46
1 0,71331508 1,40190502 6 260 43 14 1 20 10 150 68 76 49 127 48 32 14 69
5 27:t 54 12 1 33 8 117 46 110 62 116 44 26 14 112
Ningn VIF es superior a 5, por lo tanto no hay multicolinealidad.
4 284 71 8 1 44 10 143 57 89 55 122 52 34 15 98
9 429 48 33 3 27 8 192 86 177 105 202 54 31 12 114
12 600 50 16 1 76 21 344 164 164 116 301 50 35 16 171
VALORES PROPIOS
3 313 104 4 O 92 6 117 58 91 64 128 60 40 19 80
Nmero Valor Pro io 13 624 48 17 1 95 35 338 164 173 116 316 56 38 15 179
1 3,80154 8 557 70 8 O 53 19 315 176 181 143 339 65 44 20 203
2 0,15270 6 382 64 10 1 60 17 198 88 114 73 178 47 28 16 87
3 0,03863 3 340 113 5 O 40 11 176 92 119 74 177 45 27 15 79
4 0,00714 6 566 94 40 3 52 13 276 115 198 120 251 46 28 15 152
6 334 56 2 O 20 6 166 68 146 81 155 44 22 14 111
3 201 87 15 1 41 9 115 48 30 19 76 46 29 17 47
El anlisis de los valores propios, nos ratifica que no hay 5 298 60 35 2 27 6 148 56 88 51 115 43 29 13 76
problemas con la multicolinealidad, dado que K = 21,38 8 682 85 16 1 77 21 437 212 152 100 334 49 28 16 200
ChacnI Anlisisde Regresiny Superficiesde Respuesta
208

23 2 21 5 135 54 79 45 107 49 32 15 82
4 258 65
2 O 49 16 264 150 145 122 289 69 45 21 213
7 460 66
3 O 64 19 363 223 301 261 503 70 50 21 341
8 731 104
4 77 24 363 201 367 279 503 61 40 21 306
11 811 74 O
36 3 75 19 375 142 288 162 326 46 31 13 195
9 774 86
27 6 80 31 60 37 73 52 36 15 49
4 167 42 O O
3 O 28 8 183 82 208 36 226 53 37 16 116
5 423 85
9 756 84 O O 51 16 387 210 318 251 478 65 46 18 146 Captulo 5
35 10 221 105 280 198 313 54 35 17 207
8 536 67 O O
12 784 65 12 1 88 25 368 172 316 220 418 58 37 15 211
6 332 55 O O 20 14 206- 99 106 76 190 49 33 14 143 DETERMINACION DE LAS CONDICIONES
16 294 149 213 163 330 60 41 18 219
9 594 66 27 2 60
22 342 155 159 105 282 51 35 16 164
OPTIMAS DE OPERACION
9 582 65 3 O 78
10 624 62 7 O 70 16 280 123 267 184 322 50 30 16 150
11 726 66 18 2 70 19 389 176 249 162 359 44 30 16 181
10 624 48 17 1 95 35 338 164 173 116 316 56 38 15 179
11 568 52 11 1 55 17 315 125 187 110 253 49 26 14 116
En muchos casos en la investigacin, el inters de los trabajos
9 384 43 9 O 36 12 171 76 168 92 180 45 25 13 90
41 26 16 83
cientficos est centrado en determinar las condiciones experimen-
7 348 50 2 O 21 4 180 62 145 70 136
43 22 13 103
tales que ms favorecen el comportamiento del problema o fenmeno
7 416 59 12 1 19 6 215 80 170 95 182
54 33 17 140 bajo estudio, dependiendo por supuesto de algunos criterios previa-
9 579 66 3 O 54 12 375 171 165 126 309
45 29 15 182 mente establecidos.
9 690 77 9 O 78 19 393 178 210 137 335
12 500 42 20 1 52 12 280 136 148 107 256 54 34 19 182 Por ejemplo en la investigacin agrcola es de sumo inters
9 531 59 6 O 57 13 303 140 165 111 264 46 27 15 152 establecer los niveles de nutrimento que optimizan la respuesta o
6 368 61 O O 28 8 212 99 128 85 192 53 28 16 110 rendimiento de los cultivos, tanto en trminos fsicos como econ-
9 621 69 12 O 63 19 297 155 249 166 341 59 38 20 231 micos. En la agroindustria puede ser importante por ejemplo, la
7 478 68 7 1 49 13 282 130 140 96 239 52 33 17 204
temperatura, presin y concentracin de materia prima que minimi-
zan la sntesis de un determinado subproducto indeseable en un pro-
ceso dado.
La solucin a estos planteamientos puede abordarse a travs de
la Metodologa de Superficies de Respuesta. Es posible que ms de
una "respuesta" sea de inters. El propsito del investigador puede
ser, citando el ejemplo anterior, maximizar la cantidad de producto
comercial y minimizar la cantidad de subproducto indeseable. En la
prctica, el problema de las respuestas mltiples requiere la
determinacin de las condiciones ptimas de operacin.
En este captulo se describen algunos procedimientos para
hallar el "ptimo". En tal sentido se puede presentar cualquiera de
estas situaciones: a) El caso en el cual el investigador tiene elementos
suficientes como para suponer que el ptimo se encuentra contenido
ChacnI Anlisisde Regresiny Superficiesde Respuesta
208

23 2 21 5 135 54 79 45 107 49 32 15 82
4 258 65
2 O 49 16 264 150 145 122 289 69 45 21 213
7 460 66
3 O 64 19 363 223 301 261 503 70 50 21 341
8 731 104
4 77 24 363 201 367 279 503 61 40 21 306
11 811 74 O
36 3 75 19 375 142 288 162 326 46 31 13 195
9 774 86
27 6 80 31 60 37 73 52 36 15 49
4 167 42 O O
3 O 28 8 183 82 208 36 226 53 37 16 116
5 423 85
9 756 84 O O 51 16 387 210 318 251 478 65 46 18 146 Captulo 5
35 10 221 105 280 198 313 54 35 17 207
8 536 67 O O
12 784 65 12 1 88 25 368 172 316 220 418 58 37 15 211
6 332 55 O O 20 14 206- 99 106 76 190 49 33 14 143 DETERMINACION DE LAS CONDICIONES
16 294 149 213 163 330 60 41 18 219
9 594 66 27 2 60
22 342 155 159 105 282 51 35 16 164
OPTIMAS DE OPERACION
9 582 65 3 O 78
10 624 62 7 O 70 16 280 123 267 184 322 50 30 16 150
11 726 66 18 2 70 19 389 176 249 162 359 44 30 16 181
10 624 48 17 1 95 35 338 164 173 116 316 56 38 15 179
11 568 52 11 1 55 17 315 125 187 110 253 49 26 14 116
En muchos casos en la investigacin, el inters de los trabajos
9 384 43 9 O 36 12 171 76 168 92 180 45 25 13 90
41 26 16 83
cientficos est centrado en determinar las condiciones experimen-
7 348 50 2 O 21 4 180 62 145 70 136
43 22 13 103
tales que ms favorecen el comportamiento del problema o fenmeno
7 416 59 12 1 19 6 215 80 170 95 182
54 33 17 140 bajo estudio, dependiendo por supuesto de algunos criterios previa-
9 579 66 3 O 54 12 375 171 165 126 309
45 29 15 182 mente establecidos.
9 690 77 9 O 78 19 393 178 210 137 335
12 500 42 20 1 52 12 280 136 148 107 256 54 34 19 182 Por ejemplo en la investigacin agrcola es de sumo inters
9 531 59 6 O 57 13 303 140 165 111 264 46 27 15 152 establecer los niveles de nutrimento que optimizan la respuesta o
6 368 61 O O 28 8 212 99 128 85 192 53 28 16 110 rendimiento de los cultivos, tanto en trminos fsicos como econ-
9 621 69 12 O 63 19 297 155 249 166 341 59 38 20 231 micos. En la agroindustria puede ser importante por ejemplo, la
7 478 68 7 1 49 13 282 130 140 96 239 52 33 17 204
temperatura, presin y concentracin de materia prima que minimi-
zan la sntesis de un determinado subproducto indeseable en un pro-
ceso dado.
La solucin a estos planteamientos puede abordarse a travs de
la Metodologa de Superficies de Respuesta. Es posible que ms de
una "respuesta" sea de inters. El propsito del investigador puede
ser, citando el ejemplo anterior, maximizar la cantidad de producto
comercial y minimizar la cantidad de subproducto indeseable. En la
prctica, el problema de las respuestas mltiples requiere la
determinacin de las condiciones ptimas de operacin.
En este captulo se describen algunos procedimientos para
hallar el "ptimo". En tal sentido se puede presentar cualquiera de
estas situaciones: a) El caso en el cual el investigador tiene elementos
suficientes como para suponer que el ptimo se encuentra contenido
Chacn I Anlisis de Regresin y Superficies de Respuesta 211
210 Chacn I Anlisis de Regresin y Superficies de Respuesta

en la regin de exploracin seleccionada, (o cerca a ella) y b) cuando el excepcin de las pruebas "t" de Student, ya que han sido cuestionadas
ptimo est lejos de dicha regin. por la independencia que suponen dichas pruebas.

Por supuesto, en la prctica, el investigador no desea estar en el En: cualquier caso, el anlisis de la' superficie fijada requiere la
ltimo de los casos. Es por ello que se requiere una planificacin obtencin de un modelo lgico, en torno al cual es necesario establecer
estricta y prudente de los experimentos, basada en la informacin consideraciones ligadas a la experiencia y al conocimiento que tenga
previa existente acerca del problema bajo estudio, adems del el investigador sobre el material experimental. Cabe destacar en este
basamento terico y la experiencia del investigador. momento que el modelo al cual se hace referencia es un modelo de
regresin, para el cual se deben cumplir todos los supuestos y
Cuando no se dispone de los elementos antes sealados es muy condiciones que el anlisis de regresin establece.
factible hallarse en la ltima de.Ias situaciones planteadas, en cuyo
caso la experimentacin secuencial es una alternativa, sobre todo en En esta seccin se considera la situacin en la cual el
experimentos controlados o de laboratorio. investigador ha seleccionado una regin de exploracin en la cual est
contenido el ptimo, conduce una serie de experimentos y decide
analizar una funcin de respuesta de segundo orden para las "k"
variables includas en el experimento.
ANALISIS DE LA SUPERFICIE FIJADA
El modelo polinmico de segundo orden asumido para alguna
regin de los X' s ser:
Al abordar este anlisis puede adaptarse uno de los siguientes
criterios: Tli =
k
po + "p.X.
~
i=I
I 1 ~
k
+ "p
i=l
..X~+
11 1
""A..
k k-l

~~PIJ
i( j
X.X.+E.
1 J 1
(5.1)
Incluir todos los trminos del modelo independientemente de los
resultados de las pruebas de significacin (Anavar). Este criterio
supone que la inclusin de todas las variables tiene importancia desde Si un diseo experimental ha sido elegido y conducido un
el punto de vista biolgico, qumico, etc. (segn sea el caso), y por ello experimento, se podra utilizar entonces la tcnica de los modelos
son de inters para el investigador, el cual las h'a considerado lineales generales para estimar los coeficientes de la ecuacin
inicialmente en su estudio. Desde luego que para que un modelo de anterior. Los estimadores seran denotados por bo, bi ,..., bi, bu, ..., bkk;
este tipo pueda ser considerado como una funcin de respuesta bis ,..., b(k.l)k.La ecuacin de estimacin o ecuacin de prediccin,
aplicada al fenmeno bajo estudio, debe existir significacin en el frecuentemente referida como la Superficie de Respuesta Fijada, es
anlisis de regresin. dada por la expresin (5.2):

La segunda tendencia consiste en fijar el modelo cuyos trminos


resulten significativos en las pruebas correspondientes (Anavar). Este (5.2)
criterio es idneo en los casos en los que se manejan diseos
ortogonales, ya que dada la independencia de todos los coeficientes del
modelo, es posible probar la significacin de todos los efectos por Esta ecuacin es utilizada para la prediccin de la respuesta
separado a travs de las pruebas de "F". para valores de Xi, Xz,...Xk. Se har nfasis en este momento, en que
no es apropiado realizar extrapolaciones fuera de la regin
. N~ obstante, cuando se tienen diseos no ortogonales, las experimental.
estimaciones de algunos parmetros del modelo no son
independientes y sus efectos no pueden ser separados por sta va. Se Despus de obtenida la ecuacin (5.2), el experimentador est
hace necesario completar la informacin del anlisis de la varianza preparado para conducir el anlisis de la superficie fijada. La
con pruebas para la seleccin de variables en modelos de regresin, a
Chacn I Anlisis de Regresin y Superficies de Respuesta 211
210 Chacn I Anlisis de Regresin y Superficies de Respuesta

en la regin de exploracin seleccionada, (o cerca a ella) y b) cuando el excepcin de las pruebas "t" de Student, ya que han sido cuestionadas
ptimo est lejos de dicha regin. por la independencia que suponen dichas pruebas.

Por supuesto, en la prctica, el investigador no desea estar en el En: cualquier caso, el anlisis de la' superficie fijada requiere la
ltimo de los casos. Es por ello que se requiere una planificacin obtencin de un modelo lgico, en torno al cual es necesario establecer
estricta y prudente de los experimentos, basada en la informacin consideraciones ligadas a la experiencia y al conocimiento que tenga
previa existente acerca del problema bajo estudio, adems del el investigador sobre el material experimental. Cabe destacar en este
basamento terico y la experiencia del investigador. momento que el modelo al cual se hace referencia es un modelo de
regresin, para el cual se deben cumplir todos los supuestos y
Cuando no se dispone de los elementos antes sealados es muy condiciones que el anlisis de regresin establece.
factible hallarse en la ltima de.Ias situaciones planteadas, en cuyo
caso la experimentacin secuencial es una alternativa, sobre todo en En esta seccin se considera la situacin en la cual el
experimentos controlados o de laboratorio. investigador ha seleccionado una regin de exploracin en la cual est
contenido el ptimo, conduce una serie de experimentos y decide
analizar una funcin de respuesta de segundo orden para las "k"
variables includas en el experimento.
ANALISIS DE LA SUPERFICIE FIJADA
El modelo polinmico de segundo orden asumido para alguna
regin de los X' s ser:
Al abordar este anlisis puede adaptarse uno de los siguientes
criterios: Tli =
k
po + "p.X.
~
i=I
I 1 ~
k
+ "p
i=l
..X~+
11 1
""A..
k k-l

~~PIJ
i( j
X.X.+E.
1 J 1
(5.1)
Incluir todos los trminos del modelo independientemente de los
resultados de las pruebas de significacin (Anavar). Este criterio
supone que la inclusin de todas las variables tiene importancia desde Si un diseo experimental ha sido elegido y conducido un
el punto de vista biolgico, qumico, etc. (segn sea el caso), y por ello experimento, se podra utilizar entonces la tcnica de los modelos
son de inters para el investigador, el cual las h'a considerado lineales generales para estimar los coeficientes de la ecuacin
inicialmente en su estudio. Desde luego que para que un modelo de anterior. Los estimadores seran denotados por bo, bi ,..., bi, bu, ..., bkk;
este tipo pueda ser considerado como una funcin de respuesta bis ,..., b(k.l)k.La ecuacin de estimacin o ecuacin de prediccin,
aplicada al fenmeno bajo estudio, debe existir significacin en el frecuentemente referida como la Superficie de Respuesta Fijada, es
anlisis de regresin. dada por la expresin (5.2):

La segunda tendencia consiste en fijar el modelo cuyos trminos


resulten significativos en las pruebas correspondientes (Anavar). Este (5.2)
criterio es idneo en los casos en los que se manejan diseos
ortogonales, ya que dada la independencia de todos los coeficientes del
modelo, es posible probar la significacin de todos los efectos por Esta ecuacin es utilizada para la prediccin de la respuesta
separado a travs de las pruebas de "F". para valores de Xi, Xz,...Xk. Se har nfasis en este momento, en que
no es apropiado realizar extrapolaciones fuera de la regin
. N~ obstante, cuando se tienen diseos no ortogonales, las experimental.
estimaciones de algunos parmetros del modelo no son
independientes y sus efectos no pueden ser separados por sta va. Se Despus de obtenida la ecuacin (5.2), el experimentador est
hace necesario completar la informacin del anlisis de la varianza preparado para conducir el anlisis de la superficie fijada. La
con pruebas para la seleccin de variables en modelos de regresin, a
212 ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 213

extensin del anlisis depende de las metas y objetivos del La ecuacin (5.7)representa el punto estacionario, el cual no es
investigador. necesariamente- el punto que maximiza la respuesta, puede ser
cualquiera de los tres casos descritos anteriormente.
Supngase que el objetivo consiste en estimar las condiciones en
Xi, X2 ,... Xk que maximizan la respuesta n. Si la superficie fijada de En el primer caso, si el punto estacionario es un mximo,
segundo orden tiene slo una variable, el modelo sera: cuando se' mueve imaginariamente del punto Xo resulta un
decrecimiento de la respuesta. Si Xo es un mnimo y se mueve del
(5.3) punto Xose obtiene como resultado uh incremento en la respuesta. En
el tercer caso, cuando se genera un punto de silla (saddle point) , se
al derivar e igualar a cero se obtiene: puede producir un incremento o un decrecimiento de la respuesta al
moverse del punto estacionario, dependiendo de la direccin que se
tome.
&y/&X = b + 2bX = O = > I X = -b /2b I (5.4) Si el investigador est buscando la localizacin de la mejor
respuesta posible y el punto estacionario encontrado fuese un punto
este valor de X representa el punto estacionario, el cual puede ser de silla, podra estar muy interesado en conocer cual es la direccin
mximo si &2Y/&X2 es negativa; en caso contrario si &2Y/8X2es que se debe tomar para obtener un incremento en la respuesta. En
positiva se tendra un mnimo. este caso el investigador no averiguara la naturaleza del punto
estacionario solamente calculndolo sino mediante otros procedi-
Cuando la superficie fijada envuelve ms de una variable
mientos que se vern posteriormente.
independiente, el punto estacionario ser un conjunto de condiciones
(Xi, X2, ..., Xk) tal que las derivadas &YIXI, 8YIM, ... 8YIXk sean En el caso especial de una o dos variables, se pueden elaborar
simultneamente iguales a cero, tal como se describe a continuacin. grficos donde se obtienen contornos de respuesta constantes y de
Expresado matricialmente el modelo general; esta forma obtener una clara indicacin de la naturaleza de Xo.En las
Figuras 5.1 a la 5.3 se ilustra esta situacin utilizando los resultados
de un experimento realizado en al ao 1992 por Machado y Chacn, en
y = bo + X'b + X'BX, en donde (5.5) el cual se prob el efecto de niveles de nitrgeno y densidades de
siembra sobre el rendimiento y algunos de sus componentes en el
bll b12/2
cultivo de maz (Zea mays) , utilizando el diseo Compuesto Central
Y B= b22 Rotable Doble Estrella (D.C.C.R.D.E.) con la adicin de un nuevo
[ ncleo estrella (k =2, e = 2, no = 4) desarrollado por Villasmil (1987),
simetrica
ejecutado en bloques al azar.
X'b da los trminos de primer orden en la funcin de respuesta y Para el caso de tres o ms variables el anlisis grfico se
la forma cuadrtica X'BX da la contribucin cuadrtica. Al derivar la complica considerablemente, por lo cual en esta situacin y en
ecuacin (5.5) e igualar a cero se obtiene finalmente: general, es necesario recurrir a otros procedimientos.

8Y ~(bo +X'b + X'BX) = O


(5.6)
&X &X

&Y/&X= b + 2BX =. O => IXo = -Blb/21 (5.7)


212 ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 213

extensin del anlisis depende de las metas y objetivos del La ecuacin (5.7)representa el punto estacionario, el cual no es
investigador. necesariamente- el punto que maximiza la respuesta, puede ser
cualquiera de los tres casos descritos anteriormente.
Supngase que el objetivo consiste en estimar las condiciones en
Xi, X2 ,... Xk que maximizan la respuesta n. Si la superficie fijada de En el primer caso, si el punto estacionario es un mximo,
segundo orden tiene slo una variable, el modelo sera: cuando se' mueve imaginariamente del punto Xo resulta un
decrecimiento de la respuesta. Si Xo es un mnimo y se mueve del
(5.3) punto Xose obtiene como resultado uh incremento en la respuesta. En
el tercer caso, cuando se genera un punto de silla (saddle point) , se
al derivar e igualar a cero se obtiene: puede producir un incremento o un decrecimiento de la respuesta al
moverse del punto estacionario, dependiendo de la direccin que se
tome.
&y/&X = b + 2bX = O = > I X = -b /2b I (5.4) Si el investigador est buscando la localizacin de la mejor
respuesta posible y el punto estacionario encontrado fuese un punto
este valor de X representa el punto estacionario, el cual puede ser de silla, podra estar muy interesado en conocer cual es la direccin
mximo si &2Y/&X2 es negativa; en caso contrario si &2Y/8X2es que se debe tomar para obtener un incremento en la respuesta. En
positiva se tendra un mnimo. este caso el investigador no averiguara la naturaleza del punto
estacionario solamente calculndolo sino mediante otros procedi-
Cuando la superficie fijada envuelve ms de una variable
mientos que se vern posteriormente.
independiente, el punto estacionario ser un conjunto de condiciones
(Xi, X2, ..., Xk) tal que las derivadas &YIXI, 8YIM, ... 8YIXk sean En el caso especial de una o dos variables, se pueden elaborar
simultneamente iguales a cero, tal como se describe a continuacin. grficos donde se obtienen contornos de respuesta constantes y de
Expresado matricialmente el modelo general; esta forma obtener una clara indicacin de la naturaleza de Xo.En las
Figuras 5.1 a la 5.3 se ilustra esta situacin utilizando los resultados
de un experimento realizado en al ao 1992 por Machado y Chacn, en
y = bo + X'b + X'BX, en donde (5.5) el cual se prob el efecto de niveles de nitrgeno y densidades de
siembra sobre el rendimiento y algunos de sus componentes en el
bll b12/2
cultivo de maz (Zea mays) , utilizando el diseo Compuesto Central
Y B= b22 Rotable Doble Estrella (D.C.C.R.D.E.) con la adicin de un nuevo
[ ncleo estrella (k =2, e = 2, no = 4) desarrollado por Villasmil (1987),
simetrica
ejecutado en bloques al azar.
X'b da los trminos de primer orden en la funcin de respuesta y Para el caso de tres o ms variables el anlisis grfico se
la forma cuadrtica X'BX da la contribucin cuadrtica. Al derivar la complica considerablemente, por lo cual en esta situacin y en
ecuacin (5.5) e igualar a cero se obtiene finalmente: general, es necesario recurrir a otros procedimientos.

8Y ~(bo +X'b + X'BX) = O


(5.6)
&X &X

&Y/&X= b + 2BX =. O => IXo = -Blb/21 (5.7)


Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 215
214
SUPERFICIE DE RESPUESTA
D.C.C.R.D.E.VARIABLE LONGITUD DE MAZOR.

DENSIDAD DE SIEMBRA (Kg. SEMILLA/ha)

Figura 5.3. Ilustracin de un punto de silla


DENSIDAD DE SIEMBRA (Kg/SEMILLAlha)

Figura 5.1. Ilustracin de un punto mximo


SUPERFICIE DE RESPUESTA
ANALISIS CANONICO
VARIABLE LONGITUD DE MAZORCAS

/~
h -.............
Tal como se sealara en prrafos anteriores, la funcin de
~ , . respuesta de segundo orden viene dada por:
.13.8
k k k k-l
Yi = be + "b.X.
~ 1 1
+ "b
~
..X2
II 1
+ ~~
""b ..X.X.
lJ 1 J
< j

!:::/IX~I~flll
i=l i=l i

la cual puede ser expresada en trminos matriciales de la siguiente


forma:
a=>
:z
12.3 't<!O~:';.!/l~,/J,/J/I(f.~. ........:.:
"~,.Iv.&.t~,....
,~"r. :.
.... ".. 200240 y = bo + X'b + X'BX (5.8)
g 12 -F.'a~~"
"0: .. ' .' ""'" /160
22: .. ~;~~~ ..:/::::::: <.:::::~. ::120
El procedimiento tiene como objetivo determinar la naturaleza
26 28 ~':"'" '. 40NITROGENO(Kgi1la)
30 32 o del punto estacionario y el sistema de respuesta en generaL Se
comienza con un traslado de la funcin de respuesta del origen
DENSIDAD DE SIEMBRA (Kg/SEMILLAlha) (Xi = 0, X2 = 0, oO., Xk = O)hacia el punto estacionario Xo. Luego la
funcin de respuesta es expresada en trminos de nuevas variables
Figura 5.2. Ilustracin de un punto mnimo.
Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 215
214
SUPERFICIE DE RESPUESTA
D.C.C.R.D.E.VARIABLE LONGITUD DE MAZOR.

DENSIDAD DE SIEMBRA (Kg. SEMILLA/ha)

Figura 5.3. Ilustracin de un punto de silla


DENSIDAD DE SIEMBRA (Kg/SEMILLAlha)

Figura 5.1. Ilustracin de un punto mximo


SUPERFICIE DE RESPUESTA
ANALISIS CANONICO
VARIABLE LONGITUD DE MAZORCAS

/~
h -.............
Tal como se sealara en prrafos anteriores, la funcin de
~ , . respuesta de segundo orden viene dada por:
.13.8
k k k k-l
Yi = be + "b.X.
~ 1 1
+ "b
~
..X2
II 1
+ ~~
""b ..X.X.
lJ 1 J
< j

!:::/IX~I~flll
i=l i=l i

la cual puede ser expresada en trminos matriciales de la siguiente


forma:
a=>
:z
12.3 't<!O~:';.!/l~,/J,/J/I(f.~. ........:.:
"~,.Iv.&.t~,....
,~"r. :.
.... ".. 200240 y = bo + X'b + X'BX (5.8)
g 12 -F.'a~~"
"0: .. ' .' ""'" /160
22: .. ~;~~~ ..:/::::::: <.:::::~. ::120
El procedimiento tiene como objetivo determinar la naturaleza
26 28 ~':"'" '. 40NITROGENO(Kgi1la)
30 32 o del punto estacionario y el sistema de respuesta en generaL Se
comienza con un traslado de la funcin de respuesta del origen
DENSIDAD DE SIEMBRA (Kg/SEMILLAlha) (Xi = 0, X2 = 0, oO., Xk = O)hacia el punto estacionario Xo. Luego la
funcin de respuesta es expresada en trminos de nuevas variables
Figura 5.2. Ilustracin de un punto mnimo.
Chacn I Anlisis de Regresin y Superficies de Respuesta 217
216 Chacn I Anlisis de Regresin y Superficies de Respuesta

Wl, W2, ..., Wk. Consiguindose ejes relacionados con los principales
La reduccin de la superficie de respuesta en la forma cannica
es denominado Anlisis Cannico, cuyo desarrollo metodolgico es
ejes del sistema de contorno. Esta situacin se ilustra en la
expuesto a continuacin.
Figura 5.4 para el caso de dos variables.
La respuesta estimada en el punto estacionario, Yo' puede ser
x, w, escrita en trminos de bo, del punto estacionario Xo y del vector b de
los coeficientes de primer orden (Ecuacin 5.10).

Yo = bo + X~b + X~BXo

Yo = bo + [-B-I b/2], b + [-BI b/2] , B [-B-I b/2]

b'
Yo = bo-b'B-1 b/2 + I- -B-I B (-B-I b/2)]
2

Yo = bo- b'BI b/2 + b' B-IBB-I b/4

Yo = bo - b'B:' b/2 + b' B-I b/4

X,
sustituyendo: Xo = -B-l b/2

Yo = bo + X~b - X~b/2
Figura 5.4. Ilustracin de la forma cannica para una superficie de
respuesta con dos variables
El origen ha sido trasladado como centro del sistema de
I Yo = bo + X~ b/2 I
respuesta y los ejes de nuevas variables W 1 y W 2 han sido formados. La funcin de respuesta trasladada al nuevo origen Xo, en
La forma de la funcin en trminos de esas variables es llamada trminos del vector Z (Z = X - Xo), equivale, sustituyendo en (5.8) a:
Forma Cannica y es dada por:
2 2 W2
y = bo + (Z' + X~) b + (Z' + X~) B (Z + Xo)
y = Yo +
A A
(lW 1 + n2 W 2 + ..... + nk k (5.9)

Y bo + Z' b + X~ b + (Z'B + X~B) (Z + Xo)


donde Yo es la respuesta estimada en el punto estacionario y las ni
son constantes. Es de inters para el investigador saber el signo y la
magnitud de los ni ya que stos ayudan a la determinacin de la y = bo + Z' b + X~ b + Z' BZ + X~BZ + Z'BXo + X~BXo
naturaleza del punto estacionario y del sistema de respuesta. La
relacin entre las W y las X es importante tambin cuando se quiere Y = be + X~ b + X~ B Xo + Z' b + Z'BXo + X~ BZ + Z'BZ (5.11)
profundizar sobre el estudio del sistema de respuesta. Esta expresin
indica la regin satisfactoria para efectuar una exploracin adicional El orden de los trminos ha sido conveniente alterado, Z'BXoy
cuando el punto estacionario no es satisfactorio para establecer las
X~BZ son equivalentes y los tres primeros trminos representan la
condiciones adecuadas de operacin.
funcin de respuesta evaluada en el punto estacionario.
Chacn I Anlisis de Regresin y Superficies de Respuesta 217
216 Chacn I Anlisis de Regresin y Superficies de Respuesta

Wl, W2, ..., Wk. Consiguindose ejes relacionados con los principales
La reduccin de la superficie de respuesta en la forma cannica
es denominado Anlisis Cannico, cuyo desarrollo metodolgico es
ejes del sistema de contorno. Esta situacin se ilustra en la
expuesto a continuacin.
Figura 5.4 para el caso de dos variables.
La respuesta estimada en el punto estacionario, Yo' puede ser
x, w, escrita en trminos de bo, del punto estacionario Xo y del vector b de
los coeficientes de primer orden (Ecuacin 5.10).

Yo = bo + X~b + X~BXo

Yo = bo + [-B-I b/2], b + [-BI b/2] , B [-B-I b/2]

b'
Yo = bo-b'B-1 b/2 + I- -B-I B (-B-I b/2)]
2

Yo = bo- b'BI b/2 + b' B-IBB-I b/4

Yo = bo - b'B:' b/2 + b' B-I b/4

X,
sustituyendo: Xo = -B-l b/2

Yo = bo + X~b - X~b/2
Figura 5.4. Ilustracin de la forma cannica para una superficie de
respuesta con dos variables
El origen ha sido trasladado como centro del sistema de
I Yo = bo + X~ b/2 I
respuesta y los ejes de nuevas variables W 1 y W 2 han sido formados. La funcin de respuesta trasladada al nuevo origen Xo, en
La forma de la funcin en trminos de esas variables es llamada trminos del vector Z (Z = X - Xo), equivale, sustituyendo en (5.8) a:
Forma Cannica y es dada por:
2 2 W2
y = bo + (Z' + X~) b + (Z' + X~) B (Z + Xo)
y = Yo +
A A
(lW 1 + n2 W 2 + ..... + nk k (5.9)

Y bo + Z' b + X~ b + (Z'B + X~B) (Z + Xo)


donde Yo es la respuesta estimada en el punto estacionario y las ni
son constantes. Es de inters para el investigador saber el signo y la
magnitud de los ni ya que stos ayudan a la determinacin de la y = bo + Z' b + X~ b + Z' BZ + X~BZ + Z'BXo + X~BXo
naturaleza del punto estacionario y del sistema de respuesta. La
relacin entre las W y las X es importante tambin cuando se quiere Y = be + X~ b + X~ B Xo + Z' b + Z'BXo + X~ BZ + Z'BZ (5.11)
profundizar sobre el estudio del sistema de respuesta. Esta expresin
indica la regin satisfactoria para efectuar una exploracin adicional El orden de los trminos ha sido conveniente alterado, Z'BXoy
cuando el punto estacionario no es satisfactorio para establecer las
X~BZ son equivalentes y los tres primeros trminos representan la
condiciones adecuadas de operacin.
funcin de respuesta evaluada en el punto estacionario.
218 ChacnI Anlisisde Regresiny Superficiesde Respuesta Chacn I Anlisisde Regresiny Superficiesde Respuesta 219

La ecuacin (5.11) puede ser escrita sustituyendo: Xo = -Bl b/2 caractersticas de la matriz A. La matriz 11 usada en la trans-
= z' formacin es ua matriz ortogonal k x k. Esto es u'u = h. Las ni
Y Yo + [ b + 2BXo + BZ]
(todas reales dado que B es una matriz simtrica), son las constantes
Y = Yo + z' [b + 2B(-B-l b/2 + BZ] que aparecen en la forma cannica mostrada en la ecuacin (5.9). La
matriz W se obtiene por premultiplicacin de Z por 11':
Y = Yo + z' [b - 2BBl (b/2) + BZ]
W = Il'Z
Y = Yo + Z' BZ (5.12)
donde Il = [ur, 1l2, ... , Ilk 1 Y Ili es la i-sima columna de u. Ili se
Esta es la ecuacin cannica de la superficie de respuesta de obtiene de un autovector asociado con ni y normalizado de manera
segundo orden trasladada al nuevo origen (Xl,O,X2,O,..., Xk,O). que la suma de cuadrados de los elementos en Ili sea la unidad,
siendo ste encontrado de la ecuacin:
La Forma Cannica de la ecuacin (5.9) es obtenida de la Forma
Cuadrtica Z'BZ, que debe ser reducida a una expresin que envuelva (B - ni h) Ili = o (5.14)
solamente trminos cuadraticos en las variables Wl, W2,..., Wk. Si
hacemos donde Ilies:

Z = 11
W, donde Il es el vector de medias: (5.13)

Il = [ui, 1l2, ... , Ilk 1, entonces W = Il'Z


Il =
tal que
Z'BZ = (uW)' B(1l W)
Z'BZ = W'Il'B IlW 2 2 2
y adems Illi +1l2+.+Il ki =1
Z'BZ = o.w: 2
+ n2W
2
2 + ..... + nKW k
2
En lneas posteriores se ofrece un ejemplo numrico del anlisis
Esto proviene de la reduccin de Formas Cuadrticas en Formas cannico para facilitar su interpretacin.
Cannicas, cuya manipulacin es extremadamente til en la
descripcin de la naturaleza de la superficie de respuesta y en la
Interpretacin del sistema
localizacin de la regin de condiciones ptimas. El siguiente teorema
describe la naturaleza de la siguiente transformacin: Luego de haber realizado el anlisis cannico, es posible
determinar la naturaleza del punto estacionario y del sistema de
TEOREMA: Si nI, n2, ..., nk son las races caractersticas
respuestas observando el signo y la magnitud de los n 's.
(todas reales) de la matriz simtrica real A, existe una transfor-
macin ortogonal X = PW, tal que la Forma Cuadrtica real Q Se puede apreciar en la ecuacin (5.9) que si los nl, n2, ..., nk
X'AX es transformada en la expresin cannica: son todos negativos, un movimiento en cualquier direccin del punto
estacionario resulta en un decrecimiento de la respuesta. Conse-
2 2 2
nlW 1 + n2W 2 + ..... + nKW k cuentemente si se trata de un punto estacionario mximo cuya
respuesta estimada, se puede obtener con la ecuacin (5.10). Por otra
Esta es la Forma Cuadrtica Q que es transformada en una parte si todas las constantes (nl, n2, ..., nk) son positivas, Xo es un
matriz diagonal. Los elementos de la diagonal seran las races mnimo para la superficie de respuesta fijada. En el caso de que los
ni'S tengan signos diferentes, el punto estacionario es un punto de
218 ChacnI Anlisisde Regresiny Superficiesde Respuesta Chacn I Anlisisde Regresiny Superficiesde Respuesta 219

La ecuacin (5.11) puede ser escrita sustituyendo: Xo = -Bl b/2 caractersticas de la matriz A. La matriz 11 usada en la trans-
= z' formacin es ua matriz ortogonal k x k. Esto es u'u = h. Las ni
Y Yo + [ b + 2BXo + BZ]
(todas reales dado que B es una matriz simtrica), son las constantes
Y = Yo + z' [b + 2B(-B-l b/2 + BZ] que aparecen en la forma cannica mostrada en la ecuacin (5.9). La
matriz W se obtiene por premultiplicacin de Z por 11':
Y = Yo + z' [b - 2BBl (b/2) + BZ]
W = Il'Z
Y = Yo + Z' BZ (5.12)
donde Il = [ur, 1l2, ... , Ilk 1 Y Ili es la i-sima columna de u. Ili se
Esta es la ecuacin cannica de la superficie de respuesta de obtiene de un autovector asociado con ni y normalizado de manera
segundo orden trasladada al nuevo origen (Xl,O,X2,O,..., Xk,O). que la suma de cuadrados de los elementos en Ili sea la unidad,
siendo ste encontrado de la ecuacin:
La Forma Cannica de la ecuacin (5.9) es obtenida de la Forma
Cuadrtica Z'BZ, que debe ser reducida a una expresin que envuelva (B - ni h) Ili = o (5.14)
solamente trminos cuadraticos en las variables Wl, W2,..., Wk. Si
hacemos donde Ilies:

Z = 11
W, donde Il es el vector de medias: (5.13)

Il = [ui, 1l2, ... , Ilk 1, entonces W = Il'Z


Il =
tal que
Z'BZ = (uW)' B(1l W)
Z'BZ = W'Il'B IlW 2 2 2
y adems Illi +1l2+.+Il ki =1
Z'BZ = o.w: 2
+ n2W
2
2 + ..... + nKW k
2
En lneas posteriores se ofrece un ejemplo numrico del anlisis
Esto proviene de la reduccin de Formas Cuadrticas en Formas cannico para facilitar su interpretacin.
Cannicas, cuya manipulacin es extremadamente til en la
descripcin de la naturaleza de la superficie de respuesta y en la
Interpretacin del sistema
localizacin de la regin de condiciones ptimas. El siguiente teorema
describe la naturaleza de la siguiente transformacin: Luego de haber realizado el anlisis cannico, es posible
determinar la naturaleza del punto estacionario y del sistema de
TEOREMA: Si nI, n2, ..., nk son las races caractersticas
respuestas observando el signo y la magnitud de los n 's.
(todas reales) de la matriz simtrica real A, existe una transfor-
macin ortogonal X = PW, tal que la Forma Cuadrtica real Q Se puede apreciar en la ecuacin (5.9) que si los nl, n2, ..., nk
X'AX es transformada en la expresin cannica: son todos negativos, un movimiento en cualquier direccin del punto
estacionario resulta en un decrecimiento de la respuesta. Conse-
2 2 2
nlW 1 + n2W 2 + ..... + nKW k cuentemente si se trata de un punto estacionario mximo cuya
respuesta estimada, se puede obtener con la ecuacin (5.10). Por otra
Esta es la Forma Cuadrtica Q que es transformada en una parte si todas las constantes (nl, n2, ..., nk) son positivas, Xo es un
matriz diagonal. Los elementos de la diagonal seran las races mnimo para la superficie de respuesta fijada. En el caso de que los
ni'S tengan signos diferentes, el punto estacionario es un punto de
Chacin I Anlisis de Regresin y Superficies de Respuesta 221
220 Chacn I Anlisis de Regresin y Superficies de Respuesta

x, w,
silla. Por ejemplo, supngase que nl<O y n2>0; un movimiento del
punto estacionario en el eje W 1 se traducira en una disminucin en la
respuesta obtenida y un movimiento en el eje W2 se correspondera
con un incremento en la respuesta. Esta situacin pudiera implicar en
la prctica, la existencia de un sistema con dos "picos" donde dos
mximos estaran ocurriendo en dos regiones diferentes.
La magnitud de los ni 's puede ofrecer una valiosa informacin
para estudiar el sistema. Por ejemplo para k = 2, YnI y n2 negativos y
In21 considerablemente superior que Inll se tiene un punto esta-
cionario mximo; sin embargo una situacin interesante en este
sistema es la diferencia en sensibilidad de la respuesta con respecto a
las variables Wl y W2. Un movimiento en el eje Wl a partir del punto
estacionario producira un pequeo cambio en la respuesta estimada x,
'comparado con el cambio ocurrido con un movimiento de la misma
magnitud en el eje W2 a partir del punto estacionario mximo o punto Figura 5.5. Ilustracin de una forma cannica con mayor elongacin
estacionario mnimo o punto de silla. Esta situacin se ilustra en la en el eje WI.
Figura 5.5. x,
El extremo de esta situacin para el caso de dos variables es el
denominado punto estacionario ridge, en el cual uno de los ni es igual 65
a cero (Figura 5.6). En la prctica es muy dificil conseguir esta 70
situacin, sin embargo si puede ocurrir un valor muy pequeo de
alguno de los ni con la consecuente aproximacin al punto esta-
70
cionario ridge. Por ejemplo si el punto estacionario fuera un mximo y
ni estuviera muy cercano a cero, el sistema tendra un ptimo no 65

necesariamente igual al punto estacionario, lo cual ofrecera al


investigador un rango de posibles condiciones de operacin sobre el
x,
eje W 1, cada una de las cuales dara aproximadamente una respuesta
estimada ptima, situaciones similares pueden ocurrir en funciones
Figura 5.6. Ilustracin de un sistema estacionario ridge en una
de respuesta cuadrticas con ms de dos variables, sin embargo
superficie fijada
resulta complicado ilustrarlo grficamente.
Hasta el momento se ha supuesto que el punto ptimo se
encuentra dentro de la regin de exploracin seleccionada o cercano a EJEMPLO ILUSTRATIVO
ella. Cuando ello no ocurre, es decir, el punto ptimo se encuentra
lejano a la regin explorada y uno de los ni est cercano a cero se
puede analizar el sistema de respuesta como una aproximacin al A continuacin se ilustrar la metodologa antes descrita, del
ridge. anlisis cannico y fijacin de la superficie mediante el uso de un
ejemplo. En nuestro caso se usarn los datos correspondientes a un
ensayo en fertilizacin cuyo objetivo es la determinacin de la dosis
ptima de los nutrimentos nitrgeno (N o XI), fsforo (P o Xz)y potasio
Chacin I Anlisis de Regresin y Superficies de Respuesta 221
220 Chacn I Anlisis de Regresin y Superficies de Respuesta

x, w,
silla. Por ejemplo, supngase que nl<O y n2>0; un movimiento del
punto estacionario en el eje W 1 se traducira en una disminucin en la
respuesta obtenida y un movimiento en el eje W2 se correspondera
con un incremento en la respuesta. Esta situacin pudiera implicar en
la prctica, la existencia de un sistema con dos "picos" donde dos
mximos estaran ocurriendo en dos regiones diferentes.
La magnitud de los ni 's puede ofrecer una valiosa informacin
para estudiar el sistema. Por ejemplo para k = 2, YnI y n2 negativos y
In21 considerablemente superior que Inll se tiene un punto esta-
cionario mximo; sin embargo una situacin interesante en este
sistema es la diferencia en sensibilidad de la respuesta con respecto a
las variables Wl y W2. Un movimiento en el eje Wl a partir del punto
estacionario producira un pequeo cambio en la respuesta estimada x,
'comparado con el cambio ocurrido con un movimiento de la misma
magnitud en el eje W2 a partir del punto estacionario mximo o punto Figura 5.5. Ilustracin de una forma cannica con mayor elongacin
estacionario mnimo o punto de silla. Esta situacin se ilustra en la en el eje WI.
Figura 5.5. x,
El extremo de esta situacin para el caso de dos variables es el
denominado punto estacionario ridge, en el cual uno de los ni es igual 65
a cero (Figura 5.6). En la prctica es muy dificil conseguir esta 70
situacin, sin embargo si puede ocurrir un valor muy pequeo de
alguno de los ni con la consecuente aproximacin al punto esta-
70
cionario ridge. Por ejemplo si el punto estacionario fuera un mximo y
ni estuviera muy cercano a cero, el sistema tendra un ptimo no 65

necesariamente igual al punto estacionario, lo cual ofrecera al


investigador un rango de posibles condiciones de operacin sobre el
x,
eje W 1, cada una de las cuales dara aproximadamente una respuesta
estimada ptima, situaciones similares pueden ocurrir en funciones
Figura 5.6. Ilustracin de un sistema estacionario ridge en una
de respuesta cuadrticas con ms de dos variables, sin embargo
superficie fijada
resulta complicado ilustrarlo grficamente.
Hasta el momento se ha supuesto que el punto ptimo se
encuentra dentro de la regin de exploracin seleccionada o cercano a EJEMPLO ILUSTRATIVO
ella. Cuando ello no ocurre, es decir, el punto ptimo se encuentra
lejano a la regin explorada y uno de los ni est cercano a cero se
puede analizar el sistema de respuesta como una aproximacin al A continuacin se ilustrar la metodologa antes descrita, del
ridge. anlisis cannico y fijacin de la superficie mediante el uso de un
ejemplo. En nuestro caso se usarn los datos correspondientes a un
ensayo en fertilizacin cuyo objetivo es la determinacin de la dosis
ptima de los nutrimentos nitrgeno (N o XI), fsforo (P o Xz)y potasio
222 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 223

(K o X3) que maximicen, la respuesta (rendimiento) de una especie de donde los estimadoresmnimos cuadrticos de los coeficientes se
inters agronmico, para lo cual se empleo un diseo de bloques al obtienen al resolver el sistema de ecuaciones normales:
azar en un diseo compuesto central rotable con precisin uniforme X'Xb = X'Y
para la estimacin de la superficie de respuesta. Los niveles
en donde b es el vector columna de los coeficientes de regresin, X es
codificados de los factores se muestran en la matriz de diseo (D), as
la matriz de diseo y Y es el vector columna que contiene las
como su correspondiente vector Y de respuesta:
observaciones de la variable respuesta.
-1 -1 -1 1872
Una vez resuelto el sistema, fijamos nuestra funcin polinmica:
-1 -1 1 1921
-1 1 -1 2132
Yi = 2576,45 + 643,76N + 1132,46P + 69,02K + 140,l1N2
-21,87p2 - 27,96K2 + 31NP + 42,62NK - 3,75PK
-1 1 1 1981
1 -1 -1 2723 En este punto se aplica un anlisis de la varianza donde se
prueba la significacin de cada uno de los trminos del modelo, el
1 -1 1 2621
efecto de regresin, la falta de ajuste y efecto aleatorio de bloques
1 1 -1 2931 (Tabla 5.1). El esquema de este anlisis fue incluido en la parte
1 1 1 3132 terica.
-1,682 O O 1431 Para el anlisis de la superficie fijada se tom el criterio de
1,682 O O 4150 inclusin de todos los trminos del modelo, adems se supuso que bajo
D O -1,682 O y 2130 las condiciones de ejecucin del experimento, se ha seleccionado la
regin de exploracin que contiene el mximo. El punto estacionario
O 1,68.2 O 2821
es calculado a travs de la formula:
O O -1,682 2150
Xo = -Bl.b/2
O O 1,682 2721
O O O 2521 -1,399]
x, = [
1,841
O O O 2729
0,389
O O O 1987
O O O 2523
O O O 2321
O O
2470

El modelo de segundo orden para la respuesta estimada viene


dado por:
222 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 223

(K o X3) que maximicen, la respuesta (rendimiento) de una especie de donde los estimadoresmnimos cuadrticos de los coeficientes se
inters agronmico, para lo cual se empleo un diseo de bloques al obtienen al resolver el sistema de ecuaciones normales:
azar en un diseo compuesto central rotable con precisin uniforme X'Xb = X'Y
para la estimacin de la superficie de respuesta. Los niveles
en donde b es el vector columna de los coeficientes de regresin, X es
codificados de los factores se muestran en la matriz de diseo (D), as
la matriz de diseo y Y es el vector columna que contiene las
como su correspondiente vector Y de respuesta:
observaciones de la variable respuesta.
-1 -1 -1 1872
Una vez resuelto el sistema, fijamos nuestra funcin polinmica:
-1 -1 1 1921
-1 1 -1 2132
Yi = 2576,45 + 643,76N + 1132,46P + 69,02K + 140,l1N2
-21,87p2 - 27,96K2 + 31NP + 42,62NK - 3,75PK
-1 1 1 1981
1 -1 -1 2723 En este punto se aplica un anlisis de la varianza donde se
prueba la significacin de cada uno de los trminos del modelo, el
1 -1 1 2621
efecto de regresin, la falta de ajuste y efecto aleatorio de bloques
1 1 -1 2931 (Tabla 5.1). El esquema de este anlisis fue incluido en la parte
1 1 1 3132 terica.
-1,682 O O 1431 Para el anlisis de la superficie fijada se tom el criterio de
1,682 O O 4150 inclusin de todos los trminos del modelo, adems se supuso que bajo
D O -1,682 O y 2130 las condiciones de ejecucin del experimento, se ha seleccionado la
regin de exploracin que contiene el mximo. El punto estacionario
O 1,68.2 O 2821
es calculado a travs de la formula:
O O -1,682 2150
Xo = -Bl.b/2
O O 1,682 2721
O O O 2521 -1,399]
x, = [
1,841
O O O 2729
0,389
O O O 1987
O O O 2523
O O O 2321
O O
2470

El modelo de segundo orden para la respuesta estimada viene


dado por:
224 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 225
Tabla 5.1. Anlisis de la varianza para el rendimiento de maz
La forma cannica, que muestra la naturaleza de la superficie
(kglha) bajo un diseo compuesto central rotable
de respuesta ea;
F.deV. G.deL. SC CM F a=0,05
Tratamiento 14 14697757,85 1049839,85 54,37 * )Ti = 1889,80 + 407,82 wi - 61,29W; - 91,12W;
Regresin 9 1262219,00 1402446,60 72,73 *
E Lineales (N) 1 11320728,52 11320728,52 586,2 * Dado que los signos correspondientes a los Oi difieren se
(P) 1 479307,69 479307,69 24,82 * concluye que existe un punto de silla.
(K) 1 130118,12 130118,12 6,74 *
E. Cuadrtico 3 647193,00 215731,00 11,17 *
E. Cruzados (NP) 1 15376,00 15376,00 0,80 ns ANALISIS DE ARISTAS O CORDILLERAS
(NK) 1 29070,25 29070,25 1,51 ns
(PK) 1 225,00 225,00 0,01 ns
Falta de Ajuste 5 2075738,00 415147,77 21,5* * Cuando se ha realizado el anlisis cannico existe la posibilidad
Bloques 1 1221502,50 1221502,50 63,26 * de obtener puntos ptimos mximos o mnimos, sin embargo algunas
Error experimental veces obtenemos lo que denominamos puntos de silla en los cuales
Trat. Bloque 14 270343,08 19310,22 resulta dificil decidir sobre las condiciones ptimas. Generalmente se
Trat. Central 10 631334,17 63133,42 est en presencia de aristas estacionarias ascendentes o descendentes
Total 39 16820937,60 en sistemas de puntos de silla. El procedimiento de anlisis de aristas
CV= 9,5% es importante para el estudio de tales situaciones.
y la respuesta estimada en ste punto obtenida con uso de la Si se ha fijado una Superficie de Respuesta de la forma
expresin )Ti = bo + Xo'b/2 sera: siguiente:
A

Matricialmente: Y = bo + x'b + x'Bx


)Ti = 1889,809
k k k k-l

El paso siguiente lgicamente seria el anlisis cannico. Este


o tambin Y = bo+ ~b.x.+
L...J 1 1 ~b 11 1L..J L..J ..XX.
L..J ..X~ + ~~b IJ 1 J

i=l i=l i ( j
anlisis requiere las races caractersticas 01, 02, Y 03 de la matriz B,
se precisa entonces, resolver la ecuacin del determinante y se esta interesado en obtener los puntos estacionarios del
modelo, restringiendo los puntos a esferas de radio variable que de
acuerdo a la codificacin usual sera:
(140,11-0) 15,5 21,31 k

lB-mi = 15,5 (-21,87-0) -1,845 = X2 =R2


i=l
21,31 -1,845 (-27,96-0)
Utilizando los multiplicadores de Lagrange, Myer (1971)
A

al expandir este determinante se obtiene una ecuacin cbica cuyas


F = Y - J.l.(X'X - R2)
races son:

01 = 407,82 02 = 61,29 y 03 = '-91,12


224 Chacn I Anlisis de Regresin y Superficies de Respuesta
Chacn I Anlisis de Regresin y Superficies de Respuesta 225
Tabla 5.1. Anlisis de la varianza para el rendimiento de maz
La forma cannica, que muestra la naturaleza de la superficie
(kglha) bajo un diseo compuesto central rotable
de respuesta ea;
F.deV. G.deL. SC CM F a=0,05
Tratamiento 14 14697757,85 1049839,85 54,37 * )Ti = 1889,80 + 407,82 wi - 61,29W; - 91,12W;
Regresin 9 1262219,00 1402446,60 72,73 *
E Lineales (N) 1 11320728,52 11320728,52 586,2 * Dado que los signos correspondientes a los Oi difieren se
(P) 1 479307,69 479307,69 24,82 * concluye que existe un punto de silla.
(K) 1 130118,12 130118,12 6,74 *
E. Cuadrtico 3 647193,00 215731,00 11,17 *
E. Cruzados (NP) 1 15376,00 15376,00 0,80 ns ANALISIS DE ARISTAS O CORDILLERAS
(NK) 1 29070,25 29070,25 1,51 ns
(PK) 1 225,00 225,00 0,01 ns
Falta de Ajuste 5 2075738,00 415147,77 21,5* * Cuando se ha realizado el anlisis cannico existe la posibilidad
Bloques 1 1221502,50 1221502,50 63,26 * de obtener puntos ptimos mximos o mnimos, sin embargo algunas
Error experimental veces obtenemos lo que denominamos puntos de silla en los cuales
Trat. Bloque 14 270343,08 19310,22 resulta dificil decidir sobre las condiciones ptimas. Generalmente se
Trat. Central 10 631334,17 63133,42 est en presencia de aristas estacionarias ascendentes o descendentes
Total 39 16820937,60 en sistemas de puntos de silla. El procedimiento de anlisis de aristas
CV= 9,5% es importante para el estudio de tales situaciones.
y la respuesta estimada en ste punto obtenida con uso de la Si se ha fijado una Superficie de Respuesta de la forma
expresin )Ti = bo + Xo'b/2 sera: siguiente:
A

Matricialmente: Y = bo + x'b + x'Bx


)Ti = 1889,809
k k k k-l

El paso siguiente lgicamente seria el anlisis cannico. Este


o tambin Y = bo+ ~b.x.+
L...J 1 1 ~b 11 1L..J L..J ..XX.
L..J ..X~ + ~~b IJ 1 J

i=l i=l i ( j
anlisis requiere las races caractersticas 01, 02, Y 03 de la matriz B,
se precisa entonces, resolver la ecuacin del determinante y se esta interesado en obtener los puntos estacionarios del
modelo, restringiendo los puntos a esferas de radio variable que de
acuerdo a la codificacin usual sera:
(140,11-0) 15,5 21,31 k

lB-mi = 15,5 (-21,87-0) -1,845 = X2 =R2


i=l
21,31 -1,845 (-27,96-0)
Utilizando los multiplicadores de Lagrange, Myer (1971)
A

al expandir este determinante se obtiene una ecuacin cbica cuyas


F = Y - J.l.(X'X - R2)
races son:

01 = 407,82 02 = 61,29 y 03 = '-91,12


226 Chacn I Anlisis de Regresin y Supercies de Respuesta Chacn I Anlisis de Regresin y Supemcies de Respuesta

donde Este teorema es extremadamente importante para conocer el


.t = multiplicador de Lagrange tipo de respuesta estimada. La demostracin del teorema puede ser
y revisada en Myer (1971).
respuesta estimada o predicha
Los pasos que hay que seguir en el Anlisis de Aristas son:
R = radio de la esfera
1. Calcular las races caractersticas o valores propios de la matriz
8F/8X = b + 2BX - 2.tX B (Este clculo se realiza cuando se efecta el Anlisis Cannico).
8F/8X = O => (B - .th)X = -b/2 2. Seleccionar valores de .tmayores que la mayor raz caracterstica
Si se utilizan valores de .ten la ecuacin anterior, se obtendrn si se requiere un mximo y menores que la menor raz
puntos estacionarios. Es conveniente elegir apropiadamente los caracterstica, si se desea un mnimo. Posteriormente se utiliza la
valores de .t para poder localizar puntos estacionarios que ecuacin (B - !.l.h)X = -b/2 para obtener los valores de Xi para
representan puntos de mxima respuesta. dicha respuesta ..
Los siguientes teoremas expuestos por Myer (1971), son 3. La distancia al centro del diseo se obtiene mediante la ecuacin
importantes para entender la naturaleza de los puntos. R = (X'X)1I2encontrando Y por sustitucin de X en la respuesta
ajustada. El proceso se repite hasta obtener un nmero de puntos
Teorema 1. Si X; = [al, as,..., ak] para .t = .tI Y X~ = [ Ci, suficientes de .t y R que permitan el trazado de las curvas
adecuadas. Es conveniente considerar con extremo cuidado la
C2,....Cx ] para .t= .t2son dos soluciones para la ecuacin (B - .th)X porcin de la superficie que est fuera de la regin de exploracin
~ ~
= -b/2 que tienen por respuestas Y y Y2 en esferas de radio RI y R2 experimental.
~ ~
respectivamente. Luegosi Ri = R2 Y .tI > .t2,entonces Y > Y2
El teorema permite aclarar que si se tienen dos puntos SISTEMA DE LOMAS
estacionarios ubicados a igual distancia del origen del diseo, el punto
que tiene la mayor respuesta estimada es aquel que presenta un
mayor valor de .t asociado. La demostracin del teorema puede ser Cuando se realiza el anlisis de la superficie fijada y se
revisada en el trabajo de Drapper (1963). .
determina el punto estacionario, este punto puede ser tal como hemos
mencionado 1) mximo 2) mnimo 3) punto de silla o mnimax, pero
Teorema 2. Si RI = R2 Y M(XI) Y M(Xz)basados en la ecuacin puede haber variaciones a este tipo de superficies puras y se
M(Xi) = 2(B .th) son definidos positivos e indefinidos denominan "Lomas". Los sistemas de lomas son bastantes comunes en
~ ~
respectivamente. Luego YJ > Y2 el estudio de la superficie de respuesta. Considrese la forma
cannica del modelo polinmico de segundo orden siguiente:
La demostracin del teorema puede ser revisada en Myer (1971).
2 2 2
Este teorema se utiliza cuando se tienen dos radios iguales y se desea
A ~

Y=Yo +A.IW +A.2 W2 + ...+A.k Wk


encontrar el punto de mayor respuesta estimada.
presentado en secciones anteriores. Si se trata por ejemplo de k = 2 Y
Te-orema 3. Si .tI > A.i para toda i, con A.icomo la i-sima
raz caracterstica de B, luego Xi, encontrado en la ecuacin Al = O cercana a cero, el modelo cannico para esta superficie es en
(B - .th)X = -b/2 para .t = ui es un punto en el cual la respuesta teora:
estimada Y, alcanza un mximo local sobre RI (Radio asociado a ui).
Cuando ui < A.ipara toda i, X, es un punto en el cual Y alcanza un
mnimo local sobre RI.
226 Chacn I Anlisis de Regresin y Supercies de Respuesta Chacn I Anlisis de Regresin y Supemcies de Respuesta

donde Este teorema es extremadamente importante para conocer el


.t = multiplicador de Lagrange tipo de respuesta estimada. La demostracin del teorema puede ser
y revisada en Myer (1971).
respuesta estimada o predicha
Los pasos que hay que seguir en el Anlisis de Aristas son:
R = radio de la esfera
1. Calcular las races caractersticas o valores propios de la matriz
8F/8X = b + 2BX - 2.tX B (Este clculo se realiza cuando se efecta el Anlisis Cannico).
8F/8X = O => (B - .th)X = -b/2 2. Seleccionar valores de .tmayores que la mayor raz caracterstica
Si se utilizan valores de .ten la ecuacin anterior, se obtendrn si se requiere un mximo y menores que la menor raz
puntos estacionarios. Es conveniente elegir apropiadamente los caracterstica, si se desea un mnimo. Posteriormente se utiliza la
valores de .t para poder localizar puntos estacionarios que ecuacin (B - !.l.h)X = -b/2 para obtener los valores de Xi para
representan puntos de mxima respuesta. dicha respuesta ..
Los siguientes teoremas expuestos por Myer (1971), son 3. La distancia al centro del diseo se obtiene mediante la ecuacin
importantes para entender la naturaleza de los puntos. R = (X'X)1I2encontrando Y por sustitucin de X en la respuesta
ajustada. El proceso se repite hasta obtener un nmero de puntos
Teorema 1. Si X; = [al, as,..., ak] para .t = .tI Y X~ = [ Ci, suficientes de .t y R que permitan el trazado de las curvas
adecuadas. Es conveniente considerar con extremo cuidado la
C2,....Cx ] para .t= .t2son dos soluciones para la ecuacin (B - .th)X porcin de la superficie que est fuera de la regin de exploracin
~ ~
= -b/2 que tienen por respuestas Y y Y2 en esferas de radio RI y R2 experimental.
~ ~
respectivamente. Luegosi Ri = R2 Y .tI > .t2,entonces Y > Y2
El teorema permite aclarar que si se tienen dos puntos SISTEMA DE LOMAS
estacionarios ubicados a igual distancia del origen del diseo, el punto
que tiene la mayor respuesta estimada es aquel que presenta un
mayor valor de .t asociado. La demostracin del teorema puede ser Cuando se realiza el anlisis de la superficie fijada y se
revisada en el trabajo de Drapper (1963). .
determina el punto estacionario, este punto puede ser tal como hemos
mencionado 1) mximo 2) mnimo 3) punto de silla o mnimax, pero
Teorema 2. Si RI = R2 Y M(XI) Y M(Xz)basados en la ecuacin puede haber variaciones a este tipo de superficies puras y se
M(Xi) = 2(B .th) son definidos positivos e indefinidos denominan "Lomas". Los sistemas de lomas son bastantes comunes en
~ ~
respectivamente. Luego YJ > Y2 el estudio de la superficie de respuesta. Considrese la forma
cannica del modelo polinmico de segundo orden siguiente:
La demostracin del teorema puede ser revisada en Myer (1971).
2 2 2
Este teorema se utiliza cuando se tienen dos radios iguales y se desea
A ~

Y=Yo +A.IW +A.2 W2 + ...+A.k Wk


encontrar el punto de mayor respuesta estimada.
presentado en secciones anteriores. Si se trata por ejemplo de k = 2 Y
Te-orema 3. Si .tI > A.i para toda i, con A.icomo la i-sima
raz caracterstica de B, luego Xi, encontrado en la ecuacin Al = O cercana a cero, el modelo cannico para esta superficie es en
(B - .th)X = -b/2 para .t = ui es un punto en el cual la respuesta teora:
estimada Y, alcanza un mximo local sobre RI (Radio asociado a ui).
Cuando ui < A.ipara toda i, X, es un punto en el cual Y alcanza un
mnimo local sobre RI.
..
ChacinI Anlisisde Regresiny Superficiesde Respuesta 229
228 ChacnI Anlisisde Regresiny Superficiesde Respuesta

si 1.,2 es negativa se produce un alargamiento en la direccin de Wl. y


el valor mximo se puede tomar de cualquier lugar de esta lnea. Este METODOS UTILIZADOS PARA ESTUDIAR LAS
tipo de superficie se llama Sistema de Loma Estacionaria.
SUPERFICIES DE RESPUESTA Y DETERMINAR
Cuando el punto estacionario est muy alejado de la regin de CONDICIONES OPTIMAS DE OPERACION
exploracin para el ajuste del modelo de segundo orden y una o ms
de las races caractersticas son cercanas a cero. la superficie sera
una Loma Ascendente. En este sistema no es posible hacer inferencia Es frecuente en la investigacin en general. suponer que una
acerca del punto estacionario o de la superficie verdadera. debido a respuesta es afectada por un nmero determinado de factores
que el punto est fuera de la regin de exploracin donde se ha cuantitativos (Xi, X2...Xk). Para investigar cuales factores estn
ajustado el modelo. A pesar de esto es necesario explorar en la involucrados en determinada respuesta. se pone en prctica un
direccin de W1. Si la raz caracterstica 1.,2 es positiva. se llamara al programa experimental para obtener la dosis nivel de cada uno de
sistema Loma Descendente. estos factores que permita lograr una mxima. o en algunos casos.
La distancia al punto estacionario desde el centro del diseo es: una mnima respuesta. El problema consiste en especificar como se va
a conducir o planificar ste programa experimental. que nos permita
k ]1/2 encontrar la respuesta mxima. mnima u ptima econmica. Si
R = [ ~x; suponemos que nos interesa localizar un mximo. no solo ef1
conveniente encontrar dicho mximo. sino tambin. determinar COMO
vara la respuesta en la vecindad del mximo cuando los niveles !;e
Donde Xi son las coordenadas del punto estacionario. Cuando se
cambian de los niveles ptimos. segn Cochran y Cox (1980) las
realiza la interpretacin de lomas ascendentes o descendentes, R
razones por las cuales esto es necesario. seran:
generalmente es mayor que la unidad. por lo tanto. se considera
riesgoso acometer conclusiones acerca del comportamiento de la 1. Cuando se van a hacer aplicaciones a gran escala puede no ser
Superficie de Respuesta en el punto estacionario a lo largo de la loma factible o posible establecer cada factor exactamente en su ptimo
en direccin al valor ptimo. En dichos casos es til otra forma nivel y debido a esto es necesario obtener combinaciones de los
cannica niveles de los factores diferentes de los ptimos. pero que puedan
ser econmicos de-mantener.
2. Los cambios de niveles de algunas X's, son necesarios a causa de
= po+w'e + W'A W su efecto sobre las otras variables regresoras.
3. La forma de la superficie de respuesta cerca del ptimo puede dar
donde e = u'b Y A = diag (Al. 1..2... Ak). En esta forma cannica
indicios importantes acerca de la naturaleza del proceso.
los A, al igual que la forma anterior. determinan el tipo de superficie
4. La superficie puede carecer de un verdadero mximo en la regin
ajustada y los e' miden las pendientes de la superficie en el origen
experimental. El objetivo principal es conocer la naturaleza de la
inicial (Xl = O. M = O... Xk = O) en las direcciones de los ejes
rotados Wl. W2 ... Wk. superficie en zonas de respuesta relativamente alta.
Cuando el investigador inicia el programa experimental
mencionado. por supuesto. desconoce la naturaleza del punto
estacionario y es conveniente elegir un tipo de experimentacin
secuencial. Esta experimentacin se inicia generalmente con un
ensayo sencillo que oriente razonablemente para luego proyectar
..
ChacinI Anlisisde Regresiny Superficiesde Respuesta 229
228 ChacnI Anlisisde Regresiny Superficiesde Respuesta

si 1.,2 es negativa se produce un alargamiento en la direccin de Wl. y


el valor mximo se puede tomar de cualquier lugar de esta lnea. Este METODOS UTILIZADOS PARA ESTUDIAR LAS
tipo de superficie se llama Sistema de Loma Estacionaria.
SUPERFICIES DE RESPUESTA Y DETERMINAR
Cuando el punto estacionario est muy alejado de la regin de CONDICIONES OPTIMAS DE OPERACION
exploracin para el ajuste del modelo de segundo orden y una o ms
de las races caractersticas son cercanas a cero. la superficie sera
una Loma Ascendente. En este sistema no es posible hacer inferencia Es frecuente en la investigacin en general. suponer que una
acerca del punto estacionario o de la superficie verdadera. debido a respuesta es afectada por un nmero determinado de factores
que el punto est fuera de la regin de exploracin donde se ha cuantitativos (Xi, X2...Xk). Para investigar cuales factores estn
ajustado el modelo. A pesar de esto es necesario explorar en la involucrados en determinada respuesta. se pone en prctica un
direccin de W1. Si la raz caracterstica 1.,2 es positiva. se llamara al programa experimental para obtener la dosis nivel de cada uno de
sistema Loma Descendente. estos factores que permita lograr una mxima. o en algunos casos.
La distancia al punto estacionario desde el centro del diseo es: una mnima respuesta. El problema consiste en especificar como se va
a conducir o planificar ste programa experimental. que nos permita
k ]1/2 encontrar la respuesta mxima. mnima u ptima econmica. Si
R = [ ~x; suponemos que nos interesa localizar un mximo. no solo ef1
conveniente encontrar dicho mximo. sino tambin. determinar COMO
vara la respuesta en la vecindad del mximo cuando los niveles !;e
Donde Xi son las coordenadas del punto estacionario. Cuando se
cambian de los niveles ptimos. segn Cochran y Cox (1980) las
realiza la interpretacin de lomas ascendentes o descendentes, R
razones por las cuales esto es necesario. seran:
generalmente es mayor que la unidad. por lo tanto. se considera
riesgoso acometer conclusiones acerca del comportamiento de la 1. Cuando se van a hacer aplicaciones a gran escala puede no ser
Superficie de Respuesta en el punto estacionario a lo largo de la loma factible o posible establecer cada factor exactamente en su ptimo
en direccin al valor ptimo. En dichos casos es til otra forma nivel y debido a esto es necesario obtener combinaciones de los
cannica niveles de los factores diferentes de los ptimos. pero que puedan
ser econmicos de-mantener.
2. Los cambios de niveles de algunas X's, son necesarios a causa de
= po+w'e + W'A W su efecto sobre las otras variables regresoras.
3. La forma de la superficie de respuesta cerca del ptimo puede dar
donde e = u'b Y A = diag (Al. 1..2... Ak). En esta forma cannica
indicios importantes acerca de la naturaleza del proceso.
los A, al igual que la forma anterior. determinan el tipo de superficie
4. La superficie puede carecer de un verdadero mximo en la regin
ajustada y los e' miden las pendientes de la superficie en el origen
experimental. El objetivo principal es conocer la naturaleza de la
inicial (Xl = O. M = O... Xk = O) en las direcciones de los ejes
rotados Wl. W2 ... Wk. superficie en zonas de respuesta relativamente alta.
Cuando el investigador inicia el programa experimental
mencionado. por supuesto. desconoce la naturaleza del punto
estacionario y es conveniente elegir un tipo de experimentacin
secuencial. Esta experimentacin se inicia generalmente con un
ensayo sencillo que oriente razonablemente para luego proyectar
230 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 231

otros ensayos complementarios en funcin de los resultados obtenidos Investigadores como Hottelling (1941) citado por Cochran y Cox
en el primero con el cual se logre sucesivamente estudiar el punto (1980) han referido que iguales distanciamiento s, no constituyen en
estacionario y la naturaleza de la superficie vecina. general el procedimiento ms eficiente para localizar el ptimo.
El investigador puede haber realizado un ensayo Cuando los puntos experimentales no definen especificamente la
suficientemente completo con el cual pueda estimar la posicin del mxima respuesta, este punto puede estimarse mediante el siguiente
punto estacionario dentro de la regin de exploracin, en este caso, polinomio de segundo orden:
debe recurrir al anlisis cannico para establecer si el punto A 2
estacionario es un mximo, mnimo o un punto de silla. En este caso Y = bo+ b1X1+ bllX1
la situacin queda solucionada cuando ocurre un mximo o un el ptimo se obtiene por la ecuacin
mnimo; sin embargo, si se produce un punto de silla, es posible que el XlQ = -bl/2bll
experimentador decida examinar nuevos puntos experimentales en la
direccin del mayor o menor segn sea el caso, incremento o En algunas oportunidades el valor de Xi con el cual se obtiene la
decremento de la respuesta. Para examinar el recorrido de los puntos mayor respuesta observada est bastante cercana al ptimo estimado
ptimos se puede utilizar el anlisis de la cordillera o de las lomas. o respuesta mxima estimada (X1O).
Para descubrir la ruta experimental' existen varios mtodos que En el segundo ensayo, Xi se fija al nivel de la mxima respuesta
describiremos a continuacin. estimada (X1O),X2 se ensaya a varios niveles y X3, ... Xk permanece
constante a sus niveles iniciales, con este experimento se trata de
Mtodo del factor nico obtener al nivel ptimo (X20).
En el tercer ensayo se investiga el factor X3 de la misma forma,
El mtodo fue descrito por Friedman y Savage (1947). El los otros factores mantienen los niveles XlO, X20, X41, ... Xkl
investigador hace en primer lugar una estimacin preliminar de la respectivamente. El proceso continua hasta obtener la respuesta
combinacin ptima de los niveles de los factores, el cual se debe ptima (mxima, mnima) para los k factores.
denotar como (X11, X21, ... Xxi). Cada experimento trata con un solo
factor. Los factoresse arreglan en el orden en que sern probados. Lo En este momento ha finalizado la primera etapa de experimen-
conveniente es ir probando los factores de acuerdo a su posible mayor tacin, la combinacin ptima estimada de los factores es (XlQ,X20,...,
contribucin a la respuesta. . XkO).Si esta nueva combinacin de niveles o dosis es parecida al
conjunto inicial (X11, X21,..., Xkl) Y si los valores de la respuesta "Y"
En el primer ensayo todos los factores excepto el primero se han mejorado durante la primera etapa, el investigador puede tomar
mantienen constantes en sus niveles iniciales (X21, X31,..:.,XkI).El la decisin de terminar los ensayos, concluyendo que no es posible
objetivo primordial de este experimento es conseguir el nivel del mejorar apreciablemente la estimacin inicial del ptimo. Si se
factor Xi, el cual maximiza la respuesta a los niveles fijados como producen cambios considerables, se sigue con una segunda etapa.
ptimos de los otros factores, Cochran y Cox (1980) sealan cmo
puede realizarse dicho ensayo. Para establecer un mximo, deben La segunda etapa se inicia con los niveles constantes fijados en
compararse al menos 3 niveles del factor Xi, Son convenientes 4 5 la primera etapa (X1O,X20,X30,... , XkO)y se prueban varios niveles de
niveles si la amplitud de Xi es grande y la posicin de su ptimo casi Xi para determinar si el nivel del punto para Xi ha cambiado del nivel
no se conoce, o realizarse un ensayo inicial con 5 niveles, XlO, conseguido en la primera etapa. Al final de esta etapa se ha
ampliamente espaciados seguidos de un ensayo con 3 niveles con un encontrado un nuevo conjunto de estimaciones o nuevo punto
espaciamiento estrecho. estacionario
,
(X , ,)
10 ,X 20 '''' X kO
230 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 231

otros ensayos complementarios en funcin de los resultados obtenidos Investigadores como Hottelling (1941) citado por Cochran y Cox
en el primero con el cual se logre sucesivamente estudiar el punto (1980) han referido que iguales distanciamiento s, no constituyen en
estacionario y la naturaleza de la superficie vecina. general el procedimiento ms eficiente para localizar el ptimo.
El investigador puede haber realizado un ensayo Cuando los puntos experimentales no definen especificamente la
suficientemente completo con el cual pueda estimar la posicin del mxima respuesta, este punto puede estimarse mediante el siguiente
punto estacionario dentro de la regin de exploracin, en este caso, polinomio de segundo orden:
debe recurrir al anlisis cannico para establecer si el punto A 2
estacionario es un mximo, mnimo o un punto de silla. En este caso Y = bo+ b1X1+ bllX1
la situacin queda solucionada cuando ocurre un mximo o un el ptimo se obtiene por la ecuacin
mnimo; sin embargo, si se produce un punto de silla, es posible que el XlQ = -bl/2bll
experimentador decida examinar nuevos puntos experimentales en la
direccin del mayor o menor segn sea el caso, incremento o En algunas oportunidades el valor de Xi con el cual se obtiene la
decremento de la respuesta. Para examinar el recorrido de los puntos mayor respuesta observada est bastante cercana al ptimo estimado
ptimos se puede utilizar el anlisis de la cordillera o de las lomas. o respuesta mxima estimada (X1O).
Para descubrir la ruta experimental' existen varios mtodos que En el segundo ensayo, Xi se fija al nivel de la mxima respuesta
describiremos a continuacin. estimada (X1O),X2 se ensaya a varios niveles y X3, ... Xk permanece
constante a sus niveles iniciales, con este experimento se trata de
Mtodo del factor nico obtener al nivel ptimo (X20).
En el tercer ensayo se investiga el factor X3 de la misma forma,
El mtodo fue descrito por Friedman y Savage (1947). El los otros factores mantienen los niveles XlO, X20, X41, ... Xkl
investigador hace en primer lugar una estimacin preliminar de la respectivamente. El proceso continua hasta obtener la respuesta
combinacin ptima de los niveles de los factores, el cual se debe ptima (mxima, mnima) para los k factores.
denotar como (X11, X21, ... Xxi). Cada experimento trata con un solo
factor. Los factoresse arreglan en el orden en que sern probados. Lo En este momento ha finalizado la primera etapa de experimen-
conveniente es ir probando los factores de acuerdo a su posible mayor tacin, la combinacin ptima estimada de los factores es (XlQ,X20,...,
contribucin a la respuesta. . XkO).Si esta nueva combinacin de niveles o dosis es parecida al
conjunto inicial (X11, X21,..., Xkl) Y si los valores de la respuesta "Y"
En el primer ensayo todos los factores excepto el primero se han mejorado durante la primera etapa, el investigador puede tomar
mantienen constantes en sus niveles iniciales (X21, X31,..:.,XkI).El la decisin de terminar los ensayos, concluyendo que no es posible
objetivo primordial de este experimento es conseguir el nivel del mejorar apreciablemente la estimacin inicial del ptimo. Si se
factor Xi, el cual maximiza la respuesta a los niveles fijados como producen cambios considerables, se sigue con una segunda etapa.
ptimos de los otros factores, Cochran y Cox (1980) sealan cmo
puede realizarse dicho ensayo. Para establecer un mximo, deben La segunda etapa se inicia con los niveles constantes fijados en
compararse al menos 3 niveles del factor Xi, Son convenientes 4 5 la primera etapa (X1O,X20,X30,... , XkO)y se prueban varios niveles de
niveles si la amplitud de Xi es grande y la posicin de su ptimo casi Xi para determinar si el nivel del punto para Xi ha cambiado del nivel
no se conoce, o realizarse un ensayo inicial con 5 niveles, XlO, conseguido en la primera etapa. Al final de esta etapa se ha
ampliamente espaciados seguidos de un ensayo con 3 niveles con un encontrado un nuevo conjunto de estimaciones o nuevo punto
espaciamiento estrecho. estacionario
,
(X , ,)
10 ,X 20 '''' X kO
232 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacnl Anlisis de Regresin y Superficies de Respuesta 233

El investigador estudia la situacin y toma la decisin de El anlisis de varianza obtenido es:


continuar o no con una tercera etapa. Cochran y Cox (1986) plantean
que pueden introducirse variaciones al mtodo. ANAVAR

En la segunda etapa, Friedman y Savage (1947) sugieren un F. deV. G. deL. SC CM Fc


movimiento a lo largo del vector definido por los extremos de las dos
TRAT 4 251,57 62,893 16,91
primeras etapas. Estos implicaran que comienzo de la tercera etapa
todas las variables Xj se cambian simultneamente, el cambio en Xj es EE 15 55,78 3,719
proporcional a (Xj3 - Xj2). Esta modificacin lo aleja del original
TOTAL 19 307,36
Mtodo de Factor Unico y lo asemeja al Mtodo de la Mxima
Pendiente. Otra consideracin es omitir algunos de los factores en
etapas posteriores sobre la base de que no han sido significativos en
las primeras etapas. Modelo de regresin obtenido

El mtodo no permite una estimacin de la forma de la curva de Variable Coeficiente Error t P


respuesta, cuando el proceso termina es conveniente realizar regresora de regresion estandar
experimentos adicionales para cumplir con este objetivo. Constante(bo) 21,001 0,84417 24,08 0,005
Ejemplo ilustrativo Xl -1,3275 0,38303 -0,86 0,404

Experimentos realizados con el mtodo del factor nico en el X2 -1,9054 0,32372 -5,89 0,000
I
cultivo de la yuca (Manihot esculentum), usando tres factores
nitrgeno, fsforo y potasio (N, P y K respectivamente). Los ensayos R2 = 64,54%
fueron realizados a nivel de umbrculo en un diseo completamente A

aleatorio. Los resultados se muestran a continuacin: Y = 21,001 - 1,3275XI -1,9054X


2

Ensayo 1 Se obtiene el punto mximo de la manera siguiente:


Niveles Codificados Niveles
Reales
Observaciones de rendimiento ay / aXI = -1,3275 -3,8108XI = O
(tlha)
Xi = ':"1,3275/3,8108 = -0,0859
Trat N P K N P K 1 2 3 4
Este valor es equivalente a lo siguiente:
1 -2 -2 -2 O O O 16,7 14,1 12,4 13,2
1 . 50 kglha
2 -1 -2 -2 50 O O 20,3 18,2 17,1 18,1
0,0859 . x ==> x = 4,295 <=::! 4,3
3 O -2 -2 100 O O 24,2 21,3 22,4 25,3
Por consiguiente la respuesta mxima para el nitrgeno sera
4 1 -2 -2 150 O O 18,3 17,4 16,8 14;3 100-4.3 = 95.7 kg/ha - 96 kglha. Esta es 21.02 t/ha superior al
5 2 -2 -2 200 O O 15,1 16,1 11,9 10,4 testigo cuyo valor es 14.15 tlha, se ha mejorado, por lo tanto,
continuamos el proceso.
232 Chacin I Anlisis de Regresin y Superficies de Respuesta Chacnl Anlisis de Regresin y Superficies de Respuesta 233

El investigador estudia la situacin y toma la decisin de El anlisis de varianza obtenido es:


continuar o no con una tercera etapa. Cochran y Cox (1986) plantean
que pueden introducirse variaciones al mtodo. ANAVAR

En la segunda etapa, Friedman y Savage (1947) sugieren un F. deV. G. deL. SC CM Fc


movimiento a lo largo del vector definido por los extremos de las dos
TRAT 4 251,57 62,893 16,91
primeras etapas. Estos implicaran que comienzo de la tercera etapa
todas las variables Xj se cambian simultneamente, el cambio en Xj es EE 15 55,78 3,719
proporcional a (Xj3 - Xj2). Esta modificacin lo aleja del original
TOTAL 19 307,36
Mtodo de Factor Unico y lo asemeja al Mtodo de la Mxima
Pendiente. Otra consideracin es omitir algunos de los factores en
etapas posteriores sobre la base de que no han sido significativos en
las primeras etapas. Modelo de regresin obtenido

El mtodo no permite una estimacin de la forma de la curva de Variable Coeficiente Error t P


respuesta, cuando el proceso termina es conveniente realizar regresora de regresion estandar
experimentos adicionales para cumplir con este objetivo. Constante(bo) 21,001 0,84417 24,08 0,005
Ejemplo ilustrativo Xl -1,3275 0,38303 -0,86 0,404

Experimentos realizados con el mtodo del factor nico en el X2 -1,9054 0,32372 -5,89 0,000
I
cultivo de la yuca (Manihot esculentum), usando tres factores
nitrgeno, fsforo y potasio (N, P y K respectivamente). Los ensayos R2 = 64,54%
fueron realizados a nivel de umbrculo en un diseo completamente A

aleatorio. Los resultados se muestran a continuacin: Y = 21,001 - 1,3275XI -1,9054X


2

Ensayo 1 Se obtiene el punto mximo de la manera siguiente:


Niveles Codificados Niveles
Reales
Observaciones de rendimiento ay / aXI = -1,3275 -3,8108XI = O
(tlha)
Xi = ':"1,3275/3,8108 = -0,0859
Trat N P K N P K 1 2 3 4
Este valor es equivalente a lo siguiente:
1 -2 -2 -2 O O O 16,7 14,1 12,4 13,2
1 . 50 kglha
2 -1 -2 -2 50 O O 20,3 18,2 17,1 18,1
0,0859 . x ==> x = 4,295 <=::! 4,3
3 O -2 -2 100 O O 24,2 21,3 22,4 25,3
Por consiguiente la respuesta mxima para el nitrgeno sera
4 1 -2 -2 150 O O 18,3 17,4 16,8 14;3 100-4.3 = 95.7 kg/ha - 96 kglha. Esta es 21.02 t/ha superior al
5 2 -2 -2 200 O O 15,1 16,1 11,9 10,4 testigo cuyo valor es 14.15 tlha, se ha mejorado, por lo tanto,
continuamos el proceso.
Chacn I Anlisis de Regresin y Superficies de Respuesta 235
234 Chacn I Anlisis de Regresin y Superficies de Respuesta

Ensayo 2 El modelo
A 2
Y = 25,861 -O,197X2 -1,748X2
Niveles Niveles Observaciones de
codificados reales rendimiento (tlha) Se obtiene el punto mximo de la manera siguiente:

Trat N P K N P K 1 2 3 4
ay I aX2 = -0,197 -3, 496X2 = o
X2 = -0,0565
1 -0,0859 2 -2 96 o O 19,3 21,2 19,2 18,2
Este valor es equivalente a lo siguiente:
2 -0,0859 1 -2 96 25 O 22,1 23,1 22,3 23,4 1 25kglha
0,0565 x ==> x=I,4125 - 1,5
3 -0,0859 O -2 96 50 O 27,3 28,3 28,1 30,1
Por consiguiente con 48,5 kg de fsforo y 96 kg de nitrgeno se
4 -0,0859 1 -2 96 75 O 21,4 22,4 21,3 23,1 obtiene el mximo rendimiento que es de 25,87 tonlha. Se ha
mejorado el rendimiento, continuamos el proceso.
5 -0,0859 2 -2 96 100 17,8 19,3 18,4 20,4
Ensayo 3
El anlisis de varianza obtenido: Niveles Niveles Observaciones de
codificados reales rendimiento
(tonlha)
ANAVAR
Trat N P K N P K 1 2 3 4
F. deV. G.deL. se CM Fc
19,1
1 -0,0859 -0,0565 -2 96 48,5 O 23,2 21,3 20,4
TRAT 4 225,02 56,256 52,53
2 -0,0859 -0,0565 -1 96 48,5 50 26,4 25,8 27,1 25,3

TOTAL
EE 15
19
16,06
241,08
1,070
3 -0,0859 -0,0565 96 48,5 100 21,3 20,4 23,0 20,2

4 -0,0859 -0,0565 1 96 48,5 150 20,4 21,3 20,1 18,3

5 -0,0859 -0,0565 2 96 48,5 200 17,2 16,8 18,3 17,1


Modelo de regresin obtenido
El anlisis de varianza obtenido:
Variable Coeficiente Error t P
regresara regresin estandar
CONSTANTE 25,861 0,698 37,01 0,000 ANAVAR
F. de V. G. de L. SC CM Fc
-0,197 0,3171 -0,86 0,541
Trat 4 162,93 40,734 28,24
-1,748 0,268 -6,52 0,000
EE 15 16,06 1,442
R2 = 71,64%
Total 19 184,57
Chacn I Anlisis de Regresin y Superficies de Respuesta 235
234 Chacn I Anlisis de Regresin y Superficies de Respuesta

Ensayo 2 El modelo
A 2
Y = 25,861 -O,197X2 -1,748X2
Niveles Niveles Observaciones de
codificados reales rendimiento (tlha) Se obtiene el punto mximo de la manera siguiente:

Trat N P K N P K 1 2 3 4
ay I aX2 = -0,197 -3, 496X2 = o
X2 = -0,0565
1 -0,0859 2 -2 96 o O 19,3 21,2 19,2 18,2
Este valor es equivalente a lo siguiente:
2 -0,0859 1 -2 96 25 O 22,1 23,1 22,3 23,4 1 25kglha
0,0565 x ==> x=I,4125 - 1,5
3 -0,0859 O -2 96 50 O 27,3 28,3 28,1 30,1
Por consiguiente con 48,5 kg de fsforo y 96 kg de nitrgeno se
4 -0,0859 1 -2 96 75 O 21,4 22,4 21,3 23,1 obtiene el mximo rendimiento que es de 25,87 tonlha. Se ha
mejorado el rendimiento, continuamos el proceso.
5 -0,0859 2 -2 96 100 17,8 19,3 18,4 20,4
Ensayo 3
El anlisis de varianza obtenido: Niveles Niveles Observaciones de
codificados reales rendimiento
(tonlha)
ANAVAR
Trat N P K N P K 1 2 3 4
F. deV. G.deL. se CM Fc
19,1
1 -0,0859 -0,0565 -2 96 48,5 O 23,2 21,3 20,4
TRAT 4 225,02 56,256 52,53
2 -0,0859 -0,0565 -1 96 48,5 50 26,4 25,8 27,1 25,3

TOTAL
EE 15
19
16,06
241,08
1,070
3 -0,0859 -0,0565 96 48,5 100 21,3 20,4 23,0 20,2

4 -0,0859 -0,0565 1 96 48,5 150 20,4 21,3 20,1 18,3

5 -0,0859 -0,0565 2 96 48,5 200 17,2 16,8 18,3 17,1


Modelo de regresin obtenido
El anlisis de varianza obtenido:
Variable Coeficiente Error t P
regresara regresin estandar
CONSTANTE 25,861 0,698 37,01 0,000 ANAVAR
F. de V. G. de L. SC CM Fc
-0,197 0,3171 -0,86 0,541
Trat 4 162,93 40,734 28,24
-1,748 0,268 -6,52 0,000
EE 15 16,06 1,442
R2 = 71,64%
Total 19 184,57
236 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 237
Modelo de regresin obtenido Mtodo de ascenso ms pronunciado o pendiente en ascenso
Variable Coeficiente
regresora regresin El mtodo fue propuesto por Box y Wilson (1951) y establece un
procedimiento que permite pasar de una regin experimental al
Constantes (bo) 22,854 centro de otra subregin con la intencin de encontrar la respuesta
X3 -1,342 mxima. Este procedimiento se puede emplear dentro de un
2 programa de experimentacin secuencial.
X 3 -1,905
Tal como en el mtodo del factor nico, el mximo se localiza
R2 = 61,07% mediante una serie de experimentos cada uno planificado en base a
los resultados del anterior.
El modelo de regresin polinominal cuadrtico sera: Fundamentacin terica
Si se supone que las derivadas de la funcin de respuesta de
y = 22,854 - 1,342X3 -, 1 905X 32
inters son contnuas en la parte interior de una sub-regin
experimental, el inters fundamental estara centrado en movernos
El punto de la mxima respuesta:
de un punto "O" a un punto "p" en el espacio "k" dimensional de
ay / aXa = -1,342 3,810 X3 = o factores, donde la ganancia en la respuesta es mxima en el punto
"p". Sea "d" distancia entre O y p. (Sinha. 1976).
X3 = -1,342/3,810 = -0,352
Se tomar "O" como el origen de un sistema de coordenadas "k"
Este valor es equivalente a lo siguiente: dimensional, por consiguiente la respuesta en el punto "O" sera:
1 50 kglha
0,352 x ==> x = 17,6 - 18 kg/ha 9(0) y en el punto "p" es 9(P) = 9(Xl,. X2,..., XK) Y d2 = L.JXi'2
'"

El valor real sera (100 - 18 kglha) = 82 kg/ha de potasio.


.E~rendimiento sera de 23,38 ton/ha de yuca que es un valor de Si se utiliza el mtodo de los multiplicadores de Lagrange para
re,ndimlento que se obtiene con 96kglha de Nitrgeno: 28,5 kg/ha de
Fosforo y 82 kglha de potasio, inferior a los 25,7 ton/ha que se obtiene
maximizar la funcin 9(P) - 9(0) sujeta a la restriccin d2 = IX~2
con .96. kg/ha de N, 28,5 kg/ha de P y O kg/ha de potasio, por
luego
consl~Ulente detenemos el proceso y se puede proceder a realizar
experimentos adicionales como un diseo de superficie de respuesta 't = 9(P) - 9(0) - 1/2 ~ Xi'2
~e segundo orden. para estudiar las curvas de respuesta y las
mtera~cIOnes .de ~:uner orden que no se estudian con este mtodo y entonces
posterior realizacin d~ un ensayo nico de superficie de respuesta,
8t / 8X = 89/8X - ~ Xi = O; ( i = 1, 2, ... k)
dond~ el centro del diseo son los niveles obtenidos en el ensayo
anterior.
se obtendra la ecuacin para Xi

1 89
X=--
1 ~ 8X
236 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 237
Modelo de regresin obtenido Mtodo de ascenso ms pronunciado o pendiente en ascenso
Variable Coeficiente
regresora regresin El mtodo fue propuesto por Box y Wilson (1951) y establece un
procedimiento que permite pasar de una regin experimental al
Constantes (bo) 22,854 centro de otra subregin con la intencin de encontrar la respuesta
X3 -1,342 mxima. Este procedimiento se puede emplear dentro de un
2 programa de experimentacin secuencial.
X 3 -1,905
Tal como en el mtodo del factor nico, el mximo se localiza
R2 = 61,07% mediante una serie de experimentos cada uno planificado en base a
los resultados del anterior.
El modelo de regresin polinominal cuadrtico sera: Fundamentacin terica
Si se supone que las derivadas de la funcin de respuesta de
y = 22,854 - 1,342X3 -, 1 905X 32
inters son contnuas en la parte interior de una sub-regin
experimental, el inters fundamental estara centrado en movernos
El punto de la mxima respuesta:
de un punto "O" a un punto "p" en el espacio "k" dimensional de
ay / aXa = -1,342 3,810 X3 = o factores, donde la ganancia en la respuesta es mxima en el punto
"p". Sea "d" distancia entre O y p. (Sinha. 1976).
X3 = -1,342/3,810 = -0,352
Se tomar "O" como el origen de un sistema de coordenadas "k"
Este valor es equivalente a lo siguiente: dimensional, por consiguiente la respuesta en el punto "O" sera:
1 50 kglha
0,352 x ==> x = 17,6 - 18 kg/ha 9(0) y en el punto "p" es 9(P) = 9(Xl,. X2,..., XK) Y d2 = L.JXi'2
'"

El valor real sera (100 - 18 kglha) = 82 kg/ha de potasio.


.E~rendimiento sera de 23,38 ton/ha de yuca que es un valor de Si se utiliza el mtodo de los multiplicadores de Lagrange para
re,ndimlento que se obtiene con 96kglha de Nitrgeno: 28,5 kg/ha de
Fosforo y 82 kglha de potasio, inferior a los 25,7 ton/ha que se obtiene
maximizar la funcin 9(P) - 9(0) sujeta a la restriccin d2 = IX~2
con .96. kg/ha de N, 28,5 kg/ha de P y O kg/ha de potasio, por
luego
consl~Ulente detenemos el proceso y se puede proceder a realizar
experimentos adicionales como un diseo de superficie de respuesta 't = 9(P) - 9(0) - 1/2 ~ Xi'2
~e segundo orden. para estudiar las curvas de respuesta y las
mtera~cIOnes .de ~:uner orden que no se estudian con este mtodo y entonces
posterior realizacin d~ un ensayo nico de superficie de respuesta,
8t / 8X = 89/8X - ~ Xi = O; ( i = 1, 2, ... k)
dond~ el centro del diseo son los niveles obtenidos en el ensayo
anterior.
se obtendra la ecuacin para Xi

1 89
X=--
1 ~ 8X
238 Chacn I Anlisis de Regresin y Superficies de Respuesta 239
Chacn I Anlisis de Regresin y Superficies de Respuesta

donde: aproximacin de la superficie de respuesta mediante un polinomio


llega a ser menos satisfactoria siendo conveniente considerar los
trminos de orden superior.
En estos casos, si bien el uso del mtodo de la mxima pendiente
o de la pendiente en ascenso no logra ubicar el punto de la mxima
respuesta, la cual se identifica por obtencin de estimadores de
parmetros que son pequeos en valores absolutos en relacin a los
Esta solucin que refiere Sinha nos muestra que las errores estandar de estimacin, se requiere luego pruebas adicionales,
coordenadas del punto "p" deben ser proporcional a las derivadas agregando algunos puntos experimentales para confirmar que nos
parciales de primer orden en el punto p. encontramos en una regin semiestacionaria.
Esta funcin 8 se puede representar por una serie de Taylor Es conveniente sealar que todos los factores son incluidos en
(descrito anteriormente) en la regin bajo estudio y verificar si los los ensayos iniciales. Al final de cada ensayo se ajusta una funcin
trminos de segundo orden o superiores pueden ser omitidos. polinomial aproximada a la superficie de respuesta 8(Xl, X2, ..., Xi)
con los resultados experimentales y se utiliza para determinar las
Se obtendrn las siguientes ecuaciones de la mxima pendiente
condiciones del siguiente experimento.
i = 1, 2,.., k A.- El primer ensayo a realizar tiene los siguientes propsitos:
En la aplicacin del mtodo de la mxima pendiente, se 1. Ajustar una ecuacin de primer orden como una aproximacin de
selecciona un determinado nmero de puntos en una subregin 8 en la cercana del punto inicial.
experimental.
y = ba + b 1 Xli + b2X2i +...+ bkXki
Muchos autores sugieren que el nmero de puntos experi-
mentales en esta etapa de la investigacin preliminar no debe ser 2. Comprobar si la aproximacin lineal se ajusta dentro de los
grande. Los diseos de primer orden 2k o sus fracciones son tiles en lmites de los errores experimentales.
esta fase. Con el uso de estos diseos se obtiene la estimacin del
modelo de primer orden. Con este propsito se utilizan factoriales 2k o sus fracciones. El
experimento debe ofrecer algunos grados de libertad para medir la
falta de ajuste y para estimar el error puro, por consiguiente en la
mayora de los casos se requieren suficientes grados de libertad, bien
Luego se sigue el recorrido de la mxima pendiente. sea mediante la adicin de puntos al centro de diseo o por
Este recorrido se buscara en la direccin perpendicular a las repeticiones de todos los puntos.
curvas de nivel e indica las cantidades relativas en las cuales los El siguiente paso es decidir la cantidad de variacin que tendr
niveles de los factores deben variarse para encontrar un aumento en el primer experimento. Una alternativa es cambiar la dosis de un
mximo en la respuesta. Sinha (1976) refiere que con la utilizacin factor que permita mostrar suficientemente su efecto, no con un
del procedimiento de la mxima pendiente se llegan a auto-eliminar intervalo tan amplio que cause dudas acerca de que en esa amplitud
las etapas iniciales de la investigacin una vez cumplida su funcin y se presenta una respuesta curva. Los errores en estos casos suelen
refiere que la aplicacin se encuentra con la dificultad de que corregirse en futuras experiencias, por supuesto una buena seleccin
~ientras ms alta es la superficie de respuesta lograda, mas redu- implicara que mas rpidamente se logre el punto ptimo.
cidos o pequeos son los valores de los estimadores de (~l, ~2, ... ~k) Y
ms dificultoso seria estimar los parmetros con una precisin
apropiada en los puntos secuenciales posteriores e incluso, la
238 Chacn I Anlisis de Regresin y Superficies de Respuesta 239
Chacn I Anlisis de Regresin y Superficies de Respuesta

donde: aproximacin de la superficie de respuesta mediante un polinomio


llega a ser menos satisfactoria siendo conveniente considerar los
trminos de orden superior.
En estos casos, si bien el uso del mtodo de la mxima pendiente
o de la pendiente en ascenso no logra ubicar el punto de la mxima
respuesta, la cual se identifica por obtencin de estimadores de
parmetros que son pequeos en valores absolutos en relacin a los
Esta solucin que refiere Sinha nos muestra que las errores estandar de estimacin, se requiere luego pruebas adicionales,
coordenadas del punto "p" deben ser proporcional a las derivadas agregando algunos puntos experimentales para confirmar que nos
parciales de primer orden en el punto p. encontramos en una regin semiestacionaria.
Esta funcin 8 se puede representar por una serie de Taylor Es conveniente sealar que todos los factores son incluidos en
(descrito anteriormente) en la regin bajo estudio y verificar si los los ensayos iniciales. Al final de cada ensayo se ajusta una funcin
trminos de segundo orden o superiores pueden ser omitidos. polinomial aproximada a la superficie de respuesta 8(Xl, X2, ..., Xi)
con los resultados experimentales y se utiliza para determinar las
Se obtendrn las siguientes ecuaciones de la mxima pendiente
condiciones del siguiente experimento.
i = 1, 2,.., k A.- El primer ensayo a realizar tiene los siguientes propsitos:
En la aplicacin del mtodo de la mxima pendiente, se 1. Ajustar una ecuacin de primer orden como una aproximacin de
selecciona un determinado nmero de puntos en una subregin 8 en la cercana del punto inicial.
experimental.
y = ba + b 1 Xli + b2X2i +...+ bkXki
Muchos autores sugieren que el nmero de puntos experi-
mentales en esta etapa de la investigacin preliminar no debe ser 2. Comprobar si la aproximacin lineal se ajusta dentro de los
grande. Los diseos de primer orden 2k o sus fracciones son tiles en lmites de los errores experimentales.
esta fase. Con el uso de estos diseos se obtiene la estimacin del
modelo de primer orden. Con este propsito se utilizan factoriales 2k o sus fracciones. El
experimento debe ofrecer algunos grados de libertad para medir la
falta de ajuste y para estimar el error puro, por consiguiente en la
mayora de los casos se requieren suficientes grados de libertad, bien
Luego se sigue el recorrido de la mxima pendiente. sea mediante la adicin de puntos al centro de diseo o por
Este recorrido se buscara en la direccin perpendicular a las repeticiones de todos los puntos.
curvas de nivel e indica las cantidades relativas en las cuales los El siguiente paso es decidir la cantidad de variacin que tendr
niveles de los factores deben variarse para encontrar un aumento en el primer experimento. Una alternativa es cambiar la dosis de un
mximo en la respuesta. Sinha (1976) refiere que con la utilizacin factor que permita mostrar suficientemente su efecto, no con un
del procedimiento de la mxima pendiente se llegan a auto-eliminar intervalo tan amplio que cause dudas acerca de que en esa amplitud
las etapas iniciales de la investigacin una vez cumplida su funcin y se presenta una respuesta curva. Los errores en estos casos suelen
refiere que la aplicacin se encuentra con la dificultad de que corregirse en futuras experiencias, por supuesto una buena seleccin
~ientras ms alta es la superficie de respuesta lograda, mas redu- implicara que mas rpidamente se logre el punto ptimo.
cidos o pequeos son los valores de los estimadores de (~l, ~2, ... ~k) Y
ms dificultoso seria estimar los parmetros con una precisin
apropiada en los puntos secuenciales posteriores e incluso, la
240 ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 241

B.- Direccionalidad de la pendiente en ascenso. De manera tal que el cambio de Xi en busca de la maxima
?uando ha terminado el primer experimento, la regin pendiente es proporcional a b., considerando por supuesto que la
expenmental se cambia a otra. Este ltimo conjunto se cambia a una ecuacin lineal es valida.
regin donde se procura encontrar el mximo incremento esperado de C.- Prueba de una investigacin factorial simple en algn punto del
la respuesta. Si el centro de los niveles del primer ensayo se toma transito hacia la mxima pendiente.
como el origen del segundo, el problema es como transitar de X (O, O, =
....0) a la posicin "p" con coordenadas (X1',X2', ... , Xk') de manera El objetivo es conseguir si el incremento de la respuesta pre-
que la respuesta sea mxima. dicha realmente se efecta. La magnitud de la distancia a recorrer la
fija el investigador de acuerdo con su criterio. Recorridos rela-
El cambio en 8 va a depender de la amplitud de cambio de "O" a tivamente muy grandes pueden dar origen a que sobrepasemos la
"p". La distancia "d" de "O" a "p" se define como se ha referido regin estacionaria o semiestacionaria. Si el rendimiento verdadero
del nuevo experimento est cercano al predicho, se d otro salto.
Se conduce un nuevo experimento factorial Zs, con el centro en el
ltimo punto del experimento anterior, si la regresin lineal se ajusta
Con el supuesto de que el investigador ha seleccionado la
satisfactoriamente a los nuevos datos, se encuentra un nuevo
distancia "d" que determina los valores de X' que maximizan la recorrido a la mxima pendiente y las pruebas se hacen a este nuevo
superficie de respuesta 8(Xl, Xz, ... , Xi). El recorrido de la pendiente recorrido.
en ascenso es aquel que va desde "O" hasta "p" cuyas coordenadas
maximiza a X'. A medida que se efectan estos experimentos se puede llegar a
I
uno de los siguientes resultados (Cochran y Cox, 1980).
Se haba referido-que el valor que maximiza a Xi es 1.- La regresin lineal an parece ajustarse, pero los coeficientes "bi"
1 08 son pequeos. Esto sugiere que se ha llegado a una regin
X=--
u sx,
(i = 1,.2, ... k) semiestacionaria.
2.- Los trminos de la falta de ajuste muestran que la aproximacin
donde: lineal es inadecuada. Esto implica que se ha llegado a una regin
l/2
en la cual la curvatura de la superficie debe tomarse en cuenta.

f..l=
[ I8~(p) J En estos casos se deben usar posteriormente diseos de segundo
orden en los cuales la superficie 8 se aproxima por una funcin
cuadrtica de las variables regresaras.
d
D.- Correccin de errores en la escogencia de los niveles del primer
experimento.
8 puede representarse mediante la ecuacin:
Este paso se realiza si la eleccin de los niveles del primer
8 = 80 +blXli + bzX2i+ ... + bkXki experimento ha sido inapropiada y es necesario hacer la debida
correccin.
donde 80es el valor de 8 en el origen.
Cuando una variable o factor, muestra un efecto pequeo en el
De la relacin funcional lineal se tiene que: primer experimento y el cambio en los niveles o dosis se considera
pequeo, se debe hacer un cambio mayor en las dosis o cantidades de
o 810 X, = b, tal manera que esto permita el recorrido de la mxima pendiente en
240 ChacnI Anlisisde Regresiny Superficiesde Respuesta ChacnI Anlisisde Regresiny Superficiesde Respuesta 241

B.- Direccionalidad de la pendiente en ascenso. De manera tal que el cambio de Xi en busca de la maxima
?uando ha terminado el primer experimento, la regin pendiente es proporcional a b., considerando por supuesto que la
expenmental se cambia a otra. Este ltimo conjunto se cambia a una ecuacin lineal es valida.
regin donde se procura encontrar el mximo incremento esperado de C.- Prueba de una investigacin factorial simple en algn punto del
la respuesta. Si el centro de los niveles del primer ensayo se toma transito hacia la mxima pendiente.
como el origen del segundo, el problema es como transitar de X (O, O, =
....0) a la posicin "p" con coordenadas (X1',X2', ... , Xk') de manera El objetivo es conseguir si el incremento de la respuesta pre-
que la respuesta sea mxima. dicha realmente se efecta. La magnitud de la distancia a recorrer la
fija el investigador de acuerdo con su criterio. Recorridos rela-
El cambio en 8 va a depender de la amplitud de cambio de "O" a tivamente muy grandes pueden dar origen a que sobrepasemos la
"p". La distancia "d" de "O" a "p" se define como se ha referido regin estacionaria o semiestacionaria. Si el rendimiento verdadero
del nuevo experimento est cercano al predicho, se d otro salto.
Se conduce un nuevo experimento factorial Zs, con el centro en el
ltimo punto del experimento anterior, si la regresin lineal se ajusta
Con el supuesto de que el investigador ha seleccionado la
satisfactoriamente a los nuevos datos, se encuentra un nuevo
distancia "d" que determina los valores de X' que maximizan la recorrido a la mxima pendiente y las pruebas se hacen a este nuevo
superficie de respuesta 8(Xl, Xz, ... , Xi). El recorrido de la pendiente recorrido.
en ascenso es aquel que va desde "O" hasta "p" cuyas coordenadas
maximiza a X'. A medida que se efectan estos experimentos se puede llegar a
I
uno de los siguientes resultados (Cochran y Cox, 1980).
Se haba referido-que el valor que maximiza a Xi es 1.- La regresin lineal an parece ajustarse, pero los coeficientes "bi"
1 08 son pequeos. Esto sugiere que se ha llegado a una regin
X=--
u sx,
(i = 1,.2, ... k) semiestacionaria.
2.- Los trminos de la falta de ajuste muestran que la aproximacin
donde: lineal es inadecuada. Esto implica que se ha llegado a una regin
l/2
en la cual la curvatura de la superficie debe tomarse en cuenta.

f..l=
[ I8~(p) J En estos casos se deben usar posteriormente diseos de segundo
orden en los cuales la superficie 8 se aproxima por una funcin
cuadrtica de las variables regresaras.
d
D.- Correccin de errores en la escogencia de los niveles del primer
experimento.
8 puede representarse mediante la ecuacin:
Este paso se realiza si la eleccin de los niveles del primer
8 = 80 +blXli + bzX2i+ ... + bkXki experimento ha sido inapropiada y es necesario hacer la debida
correccin.
donde 80es el valor de 8 en el origen.
Cuando una variable o factor, muestra un efecto pequeo en el
De la relacin funcional lineal se tiene que: primer experimento y el cambio en los niveles o dosis se considera
pequeo, se debe hacer un cambio mayor en las dosis o cantidades de
o 810 X, = b, tal manera que esto permita el recorrido de la mxima pendiente en
242 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 243

experimentos posteriores. Si el factor no produce efecto, esto se aclara 3.- Algunas races caractersticas son positivas y otras negativas. Se
posteriormente incluso hasta eliminar dicho factor. En forma ha obtenido un punto de silla o Minimax, siendo mnimo el punto
alternativa Cochran y Cox (1980) recomiendan un ensayo confir- estacionario para unas variables de "X" y mximo para otras. Si
matorio, manteniendo los otros factores fijos a sus mejores niveles. este es el caso, se espera que la respuesta se incremente ms
Si la amplitud o distancia entre las dosis es muy alta, de rpidamente a medida que se incremente~ las variables. regre-
soras "X" que tienen la ms alta Ai (positiva). Puede incluso
manera que la respuesta al factor es curvilinea en el intervalo entre
los dos niveles estudiados, el error cometido se revelar en la probarse varias combinaciones que den valores incrementados a
regresin obtenida, por la significacin de la falta de ajuste. En este este "Xi".
caso el investigador disear experimentos que le permitan obtener la 4.- La superficie cuadrtica no se ajusta, La solucin para este caso
respuesta cuadrtica como los diseos de segundo orden. particular es variable: .
E.- Simplificacin de la superficie cuadrtica. Adicin de puntos para estudiar la superficie cbica.
Cuando se ha logrado obtener el modelo polinomial de segundo Nuevos experimentos en la regin vecina de un punto de
orden, el punto estacionario se calcula diferenciando la respuesta relativa alta respuesta con amplitudes pequeas entre los
predicha con respecto a los valores de X tal como referimos en factores.
secciones anteriores de este capitulo.
Si las soluciones en el punto estacionario la denotamos "Xa", El mtodo de la pendiente ascendente tiene la desventaja de que
A

sto permite encontrar el punto estacionario" Yo" y posteriormente se no es invariante ante cambios de escala, condicin que da lugar a
diferentes rutas. (Martnez Garza, 1988).
simplifica la ecuacin cannica (ya descrita).
F.- Interpretacin y ensayos adicionales.
Ejemplo ilustrativo
Una vez realizado los experimentos y analizados los resultados
se pueden presentar las siguientes situaciones.
1.- Todas las races caractersticas Ai son negativas, en este caso la Un ingeniero agrnomo especialista en agroindustria est
superficie cuadrtica tiene un mximo. Si el punto esta dentro de interesado en determinar los valores de tiempo y temperatura que
la regin de exploracin se ha tenido xito en la obtencin de la maximizan el rendimiento de una reaccin qiimica. Inicialmente se
mxima respuesta. Es conveniente realizar posteriores pruebas trabajo con un tiempo de 35 minutos a una temperatura de 70C sto
de validacin del mximo y de la superficie de respuesta. produce un rendimiento cercano al 50%. Se aplic en este caso el
Tambin, el anlisis grfico es una ayuda muy valiosa para la mtodo de la pendiente en ascenso.
interpretacin, tal como lo hemos referido en secciones anterio-
res.
1.- El primer experimento se dise en un factorial z'' aumenta~o en
2.- Todas las races caractersticas Ai, son negativas pero el punto
5 puntos centrales. Las observaciones repetidas del tratamIento
mximo se determina fuera de la regin de exploracin. En este control sirven para estimar el error experimental (Tabla 5.2).
caso es aconsejable proceder a moverse en la direccin del
mximo estimado. Si este camino conduce a valores variables, es
conveniente realizar otros ensayos para ajustar una nueva
superficie, considerando los resultados de la primera.
242 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 243

experimentos posteriores. Si el factor no produce efecto, esto se aclara 3.- Algunas races caractersticas son positivas y otras negativas. Se
posteriormente incluso hasta eliminar dicho factor. En forma ha obtenido un punto de silla o Minimax, siendo mnimo el punto
alternativa Cochran y Cox (1980) recomiendan un ensayo confir- estacionario para unas variables de "X" y mximo para otras. Si
matorio, manteniendo los otros factores fijos a sus mejores niveles. este es el caso, se espera que la respuesta se incremente ms
Si la amplitud o distancia entre las dosis es muy alta, de rpidamente a medida que se incremente~ las variables. regre-
soras "X" que tienen la ms alta Ai (positiva). Puede incluso
manera que la respuesta al factor es curvilinea en el intervalo entre
los dos niveles estudiados, el error cometido se revelar en la probarse varias combinaciones que den valores incrementados a
regresin obtenida, por la significacin de la falta de ajuste. En este este "Xi".
caso el investigador disear experimentos que le permitan obtener la 4.- La superficie cuadrtica no se ajusta, La solucin para este caso
respuesta cuadrtica como los diseos de segundo orden. particular es variable: .
E.- Simplificacin de la superficie cuadrtica. Adicin de puntos para estudiar la superficie cbica.
Cuando se ha logrado obtener el modelo polinomial de segundo Nuevos experimentos en la regin vecina de un punto de
orden, el punto estacionario se calcula diferenciando la respuesta relativa alta respuesta con amplitudes pequeas entre los
predicha con respecto a los valores de X tal como referimos en factores.
secciones anteriores de este capitulo.
Si las soluciones en el punto estacionario la denotamos "Xa", El mtodo de la pendiente ascendente tiene la desventaja de que
A

sto permite encontrar el punto estacionario" Yo" y posteriormente se no es invariante ante cambios de escala, condicin que da lugar a
diferentes rutas. (Martnez Garza, 1988).
simplifica la ecuacin cannica (ya descrita).
F.- Interpretacin y ensayos adicionales.
Ejemplo ilustrativo
Una vez realizado los experimentos y analizados los resultados
se pueden presentar las siguientes situaciones.
1.- Todas las races caractersticas Ai son negativas, en este caso la Un ingeniero agrnomo especialista en agroindustria est
superficie cuadrtica tiene un mximo. Si el punto esta dentro de interesado en determinar los valores de tiempo y temperatura que
la regin de exploracin se ha tenido xito en la obtencin de la maximizan el rendimiento de una reaccin qiimica. Inicialmente se
mxima respuesta. Es conveniente realizar posteriores pruebas trabajo con un tiempo de 35 minutos a una temperatura de 70C sto
de validacin del mximo y de la superficie de respuesta. produce un rendimiento cercano al 50%. Se aplic en este caso el
Tambin, el anlisis grfico es una ayuda muy valiosa para la mtodo de la pendiente en ascenso.
interpretacin, tal como lo hemos referido en secciones anterio-
res.
1.- El primer experimento se dise en un factorial z'' aumenta~o en
2.- Todas las races caractersticas Ai, son negativas pero el punto
5 puntos centrales. Las observaciones repetidas del tratamIento
mximo se determina fuera de la regin de exploracin. En este control sirven para estimar el error experimental (Tabla 5.2).
caso es aconsejable proceder a moverse en la direccin del
mximo estimado. Si este camino conduce a valores variables, es
conveniente realizar otros ensayos para ajustar una nueva
superficie, considerando los resultados de la primera.
Chacn/ Anlisisde Regresiny Superficiesde Respuesta 245
244 Chacn/ Anlisisde Regresiny Superficiesde Respuesta
Estimacin del error experimental
Tabla 5.2. Datos del primer ensayo para ajustar un modelo de primer
(50,3)2 + (50;ll + (50,3)2 + (50,6)2 + (50,1)2 - (50,3 + 50,1 + 50,3 + 50,6 + 50,1)2/5
orden.
A

0'=
4
Niveles Codificadas Niveles Reales Respuesta
Xl Xz Xl X2 y e? = 0,168/4 = 0,0452
-1 -1 30 65 49,3 El modelo polinomial del primer orden supone que las variables
Xl y Xz tienen efectos aditivos sobre la respuesta.
-1 1 30 75 50,0
La estimacin mnimo cuadrada de ~12es bia
1 -1 40 65 50,8
b12 = -0,24784*10'10
1 1 40 75 51,5
La suma de cuadrados para la interaccin
35 70 50,3
35 70 50,1
SCXlM = 0,24*10-20 con un grado de libertad

50,3
CMXlM = SCXlM/1 = 0,24*10-20

35
35
70
70 50,6
una prueba de F de las interacciones con el residual nos permite

35 70 50,1
obtener la prueba estadstica de la falta de ajuste.

F = CMXlX2/CMresidual = 0,24*10.20/0,042< 1 ns

Por consiguiente el modelo lineal es el adecuado y la interaccin


no debe incluirse en el modelo.
El modelo de primer orden obtenido sera:
Otra prueba que permite conocer si el modelo es no adecuado
Variable Coeficiente Error "t" P se obtiene comparando el promedio de las respuesta de los puntos
regresora de regresin estandard correspondientes al factorial 22 con la respuesta promedio de los
puntos centrales. Si el diseo se encuentra en una superficie
Constantes (ho) 50,333 0,060858 827,06 0,000
cuadrtica, (Yi -Yo) es una medida de la curvatura total de la
Xl 0,750 0,091287 8,22 0,000
superficie. Si ~ll y ~22son los coeficientes de los trminos cuadrticos
X2 0,350 0,091287 3,83 0,000 puros X12 y X22 luego (Yi -Yo) proporcionan una estimacin de
~1l + ~22. En el ensayo
El modelo de primer orden sera:
~estll + ~est22 Yi -Yo = 50,4 - 50,28
~
Y = 50,33 + 0,75Xl + 0,35Xz ~estll + ~est22 = 0,12
Antes de iniciar el estudio de la ruta de la pendiente en ascenso La suma de cuadrados con un grado de libertad asociado a la Ho:
es conveniente estudiar la bondad del modelo de primer orden. El
dls~o _,:tilizado permite, (Montgomery, 1991): (1) obtener una
~1l + ~22 = sera:
ninO(Y-YO)2 4(5)(0,12)2
estimacin del error (2) verificar en busca de interacciones (trminos SC (Cuadrticos) = ==
cruzados) (3) Verificar en busca de efectos cuadrticos (curvatura). ni+nO 9
Chacn/ Anlisisde Regresiny Superficiesde Respuesta 245
244 Chacn/ Anlisisde Regresiny Superficiesde Respuesta
Estimacin del error experimental
Tabla 5.2. Datos del primer ensayo para ajustar un modelo de primer
(50,3)2 + (50;ll + (50,3)2 + (50,6)2 + (50,1)2 - (50,3 + 50,1 + 50,3 + 50,6 + 50,1)2/5
orden.
A

0'=
4
Niveles Codificadas Niveles Reales Respuesta
Xl Xz Xl X2 y e? = 0,168/4 = 0,0452
-1 -1 30 65 49,3 El modelo polinomial del primer orden supone que las variables
Xl y Xz tienen efectos aditivos sobre la respuesta.
-1 1 30 75 50,0
La estimacin mnimo cuadrada de ~12es bia
1 -1 40 65 50,8
b12 = -0,24784*10'10
1 1 40 75 51,5
La suma de cuadrados para la interaccin
35 70 50,3
35 70 50,1
SCXlM = 0,24*10-20 con un grado de libertad

50,3
CMXlM = SCXlM/1 = 0,24*10-20

35
35
70
70 50,6
una prueba de F de las interacciones con el residual nos permite

35 70 50,1
obtener la prueba estadstica de la falta de ajuste.

F = CMXlX2/CMresidual = 0,24*10.20/0,042< 1 ns

Por consiguiente el modelo lineal es el adecuado y la interaccin


no debe incluirse en el modelo.
El modelo de primer orden obtenido sera:
Otra prueba que permite conocer si el modelo es no adecuado
Variable Coeficiente Error "t" P se obtiene comparando el promedio de las respuesta de los puntos
regresora de regresin estandard correspondientes al factorial 22 con la respuesta promedio de los
puntos centrales. Si el diseo se encuentra en una superficie
Constantes (ho) 50,333 0,060858 827,06 0,000
cuadrtica, (Yi -Yo) es una medida de la curvatura total de la
Xl 0,750 0,091287 8,22 0,000
superficie. Si ~ll y ~22son los coeficientes de los trminos cuadrticos
X2 0,350 0,091287 3,83 0,000 puros X12 y X22 luego (Yi -Yo) proporcionan una estimacin de
~1l + ~22. En el ensayo
El modelo de primer orden sera:
~estll + ~est22 Yi -Yo = 50,4 - 50,28
~
Y = 50,33 + 0,75Xl + 0,35Xz ~estll + ~est22 = 0,12
Antes de iniciar el estudio de la ruta de la pendiente en ascenso La suma de cuadrados con un grado de libertad asociado a la Ho:
es conveniente estudiar la bondad del modelo de primer orden. El
dls~o _,:tilizado permite, (Montgomery, 1991): (1) obtener una
~1l + ~22 = sera:
ninO(Y-YO)2 4(5)(0,12)2
estimacin del error (2) verificar en busca de interacciones (trminos SC (Cuadrticos) = ==
cruzados) (3) Verificar en busca de efectos cuadrticos (curvatura). ni+nO 9
ChacnI Anlisisde Regresiny Superficiesde Respuesta 247
246 ChacnI Anlisisde Regresiny Superficiesde Respuesta

Tabla 5.4. Resultados de la aplicacin del mtodo del ascenso ms


El valor de F para la porcin cuadrtica sera
pronunciado.
SC(Cuadrticos)/l 0,032 6 Reales Respftestas
F =--=0,07 ns Codificadas
0,042 0,042
Incremento Xl X2 Xl M Y
Por consiguiente los efectos cuadrticos puros no son 0,00 35,00 70,00
Origen 0,00
significativos. El anlisis de varianza se muestra en la Tabla 5.3.
p 1,00 0,47 5,00 2,35
Tabla 5.3 .. Anlisis de la varianza para el modelo de primer orden Origen + lp 1,00 0,47 40,00 72,35 51,1
(Ensayo 1).
Origen + 2p 2,00 0,94 45,00 74,70 52,7
F.deV. G.de L. SC CM Fc
Origen + 3p 3,00 1,41 50,00 77,05 58,2
Regresin 2 2,74 1,37 41,14
Origen + 4p 4,00 1,88 55,00 79,40 59,1
Residual 6 0,20 0,03
Interaccin 1 0,24629* 10-20 < 1 ns Origen + 5p 5,00 2,35 60,00 81,75 62,9

Cuadrticos 1 0,03 < 1 ns Origen + 6p 6,00 2,82 65,00 84,50 69,7


Error puro 4 0,16 Origen + 7p 7,00 3,29 70,00 86,45 74,3
Total 8 2,94 Origen + 8p 8,00 3,76 75,00 88,80 81,3

Origen + 9p 9,00 4,23 80,00 91,15 88,3


La prueba de hiptesis indica la no significacin para la
interaccin y para el efecto cuadrtico. Los coeficientes de regresin bi Origen + 10p 10,00 4,70 85,00 93,50 76,3
y ba son grandes en relacin con sus errores estndar. En estos
momentos no hay razones para dudar de -la bondad del modelo de Origen + 11p 11,00 5,17 90,00 95,85 74,3
primer orden. Origen + 12p 12,00 5,64 95,00 98,20 73,8
Habra de moverse 0,75 en la direccin de Xr por cada 0,35
unidades de direccin de M para alejarse del centro del diseo
(Xi = 0, M =
O) a lo largo del recorrido hacia la mxima pendiente.
Por consiguiente, la ruta del mximo ascenso pasa por el punto
central (Xi = 0, M = O) y tiene una pendiente igual a 0.35/0.75. El
investigador decide como criterio tomar 5 minutos como el incremento
bsico del tiempo.
Si se utiliza la relacin entre el valor real y el valor codificado,
incrementos a lo largo de la ruta de la mxima pendiente son:
0,35/0,75 - 0,47. El especialista en agroindustria calcul los puntos a
lo largo de la ruta y analiz el rendimiento en cada punto hasta lograr
obtener un incremento en la respuesta. Los resultados se muestran en
la tabla 5.4 los incrementos se muestran tanto para las variables
reales como para las codificadas.
ChacnI Anlisisde Regresiny Superficiesde Respuesta 247
246 ChacnI Anlisisde Regresiny Superficiesde Respuesta

Tabla 5.4. Resultados de la aplicacin del mtodo del ascenso ms


El valor de F para la porcin cuadrtica sera
pronunciado.
SC(Cuadrticos)/l 0,032 6 Reales Respftestas
F =--=0,07 ns Codificadas
0,042 0,042
Incremento Xl X2 Xl M Y
Por consiguiente los efectos cuadrticos puros no son 0,00 35,00 70,00
Origen 0,00
significativos. El anlisis de varianza se muestra en la Tabla 5.3.
p 1,00 0,47 5,00 2,35
Tabla 5.3 .. Anlisis de la varianza para el modelo de primer orden Origen + lp 1,00 0,47 40,00 72,35 51,1
(Ensayo 1).
Origen + 2p 2,00 0,94 45,00 74,70 52,7
F.deV. G.de L. SC CM Fc
Origen + 3p 3,00 1,41 50,00 77,05 58,2
Regresin 2 2,74 1,37 41,14
Origen + 4p 4,00 1,88 55,00 79,40 59,1
Residual 6 0,20 0,03
Interaccin 1 0,24629* 10-20 < 1 ns Origen + 5p 5,00 2,35 60,00 81,75 62,9

Cuadrticos 1 0,03 < 1 ns Origen + 6p 6,00 2,82 65,00 84,50 69,7


Error puro 4 0,16 Origen + 7p 7,00 3,29 70,00 86,45 74,3
Total 8 2,94 Origen + 8p 8,00 3,76 75,00 88,80 81,3

Origen + 9p 9,00 4,23 80,00 91,15 88,3


La prueba de hiptesis indica la no significacin para la
interaccin y para el efecto cuadrtico. Los coeficientes de regresin bi Origen + 10p 10,00 4,70 85,00 93,50 76,3
y ba son grandes en relacin con sus errores estndar. En estos
momentos no hay razones para dudar de -la bondad del modelo de Origen + 11p 11,00 5,17 90,00 95,85 74,3
primer orden. Origen + 12p 12,00 5,64 95,00 98,20 73,8
Habra de moverse 0,75 en la direccin de Xr por cada 0,35
unidades de direccin de M para alejarse del centro del diseo
(Xi = 0, M =
O) a lo largo del recorrido hacia la mxima pendiente.
Por consiguiente, la ruta del mximo ascenso pasa por el punto
central (Xi = 0, M = O) y tiene una pendiente igual a 0.35/0.75. El
investigador decide como criterio tomar 5 minutos como el incremento
bsico del tiempo.
Si se utiliza la relacin entre el valor real y el valor codificado,
incrementos a lo largo de la ruta de la mxima pendiente son:
0,35/0,75 - 0,47. El especialista en agroindustria calcul los puntos a
lo largo de la ruta y analiz el rendimiento en cada punto hasta lograr
obtener un incremento en la respuesta. Los resultados se muestran en
la tabla 5.4 los incrementos se muestran tanto para las variables
reales como para las codificadas.
248 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 249

En la Figura 5.7 se realiza el grfico del rendimiento en la ruta La ecuacin de regresin de primer orden ajustada a los datos
del mximo en ascenso. codificados es:
A
100,----------- -,
Y = 85,367 + 210XI + 120M

90 ........................................................ En la tabla 5.6 se muestra el anlisis de varianza para el


modelo, incluyendo las pruebas para los trminos cuadrticos puros y
la interaccin. La prueba del trmino cuadrtico puro es altamente
~80
~ significativa, lo que indica que el modelo de primer orden no es la
.B aproximacin adecuada .
c:
.~ 70
i3 Tabla 5.6. Anlisis de la varianza para el modelo de primer orden
e
<ll
o: (Ensayo 2).
60
F. deV. G. deL. SC CM Fc
Regresin 2 23,400 1,37 41,14
10 11 12
Incrementos Residual 6 66,680 0,033
Figura 5.7. Rendimiento contra incremento en la ruta de la mxima Interaccin 1 0,090 0,090 < 1NS
pendiente para el ejemplo citado.
Cuadrticos 1 65,522 65,522 245,4**
Se muestra Un incremento hasta el noveno paso, pero a partir
del dcimo se produce l decrecimiento. Por consiguiente es-necesario Error Puro 4 1,068 0,267
ajustar un modelo de primer orden alrededor del punto Xi 80 Y = TOTAL 8 90,080
X2 = 91.15. La regin de exploracin para Xl es de 75-85 y para
X2de 85-95.
La curvatura en el punto ptimo puede indicar la vecindad al
Ensayo 2
punto ptimo. En este momento debe realizarse un anlisis adicional
Nuevamente el diseo 22 con el agregado de 5 puntos centrales. para tratar de conseguir el ptimo con una mayor precisin.
Los datos se presentan en la tabla 5.5.
Se puede observar que la ruta hacia el ascenso mas pronunciado
Tabla 5.5. Datos del segundo ensayo para ajustar un modelo de
es proporcional a los signos y magnitudes de los coeficientes de
primer orden.
regresin lineal. Montgomery (1991) afirma que se puede formular un
Niveles Codificados Niveles Reales Respuesta algoritmo general para determinar las coordenadas de un punto en la
y ruta de la mxima pendiente en ascenso.
-1
-1
-1
1
75
75
85
95
79,3
81,3
Supongamos que el punto central Xi = O; M = O; ... ; Xk = es la
base o punto de origen. Luego:
1 -1 85 85 83,1
1 1 85 95 85,8 1. Se selecciona un tamao de incremento en una de las variables
O O 80 90 87,4 del proceso. Generalmente se elige la variable de la cual se tiene
O O 80 90 88,2 mayor conocimiento o la que tiene el mayor de los coeficientes de
O O 80 90 87,7 regresin en valor absoluto IPil.
O O 80 90 88,3
O O 80 90 87,1
248 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 249

En la Figura 5.7 se realiza el grfico del rendimiento en la ruta La ecuacin de regresin de primer orden ajustada a los datos
del mximo en ascenso. codificados es:
A
100,----------- -,
Y = 85,367 + 210XI + 120M

90 ........................................................ En la tabla 5.6 se muestra el anlisis de varianza para el


modelo, incluyendo las pruebas para los trminos cuadrticos puros y
la interaccin. La prueba del trmino cuadrtico puro es altamente
~80
~ significativa, lo que indica que el modelo de primer orden no es la
.B aproximacin adecuada .
c:
.~ 70
i3 Tabla 5.6. Anlisis de la varianza para el modelo de primer orden
e
<ll
o: (Ensayo 2).
60
F. deV. G. deL. SC CM Fc
Regresin 2 23,400 1,37 41,14
10 11 12
Incrementos Residual 6 66,680 0,033
Figura 5.7. Rendimiento contra incremento en la ruta de la mxima Interaccin 1 0,090 0,090 < 1NS
pendiente para el ejemplo citado.
Cuadrticos 1 65,522 65,522 245,4**
Se muestra Un incremento hasta el noveno paso, pero a partir
del dcimo se produce l decrecimiento. Por consiguiente es-necesario Error Puro 4 1,068 0,267
ajustar un modelo de primer orden alrededor del punto Xi 80 Y = TOTAL 8 90,080
X2 = 91.15. La regin de exploracin para Xl es de 75-85 y para
X2de 85-95.
La curvatura en el punto ptimo puede indicar la vecindad al
Ensayo 2
punto ptimo. En este momento debe realizarse un anlisis adicional
Nuevamente el diseo 22 con el agregado de 5 puntos centrales. para tratar de conseguir el ptimo con una mayor precisin.
Los datos se presentan en la tabla 5.5.
Se puede observar que la ruta hacia el ascenso mas pronunciado
Tabla 5.5. Datos del segundo ensayo para ajustar un modelo de
es proporcional a los signos y magnitudes de los coeficientes de
primer orden.
regresin lineal. Montgomery (1991) afirma que se puede formular un
Niveles Codificados Niveles Reales Respuesta algoritmo general para determinar las coordenadas de un punto en la
y ruta de la mxima pendiente en ascenso.
-1
-1
-1
1
75
75
85
95
79,3
81,3
Supongamos que el punto central Xi = O; M = O; ... ; Xk = es la
base o punto de origen. Luego:
1 -1 85 85 83,1
1 1 85 95 85,8 1. Se selecciona un tamao de incremento en una de las variables
O O 80 90 87,4 del proceso. Generalmente se elige la variable de la cual se tiene
O O 80 90 88,2 mayor conocimiento o la que tiene el mayor de los coeficientes de
O O 80 90 87,7 regresin en valor absoluto IPil.
O O 80 90 88,3
O O 80 90 87,1
250 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn i Anlisis de Regresin y Superficies de Respuesta 251

2. El tamao del incremento en las otras variables es:

LlXi = ~)~/~XJ i=1,2, ...k j=1,2, ...k Tabla 5.7. Datos obtenidos con un diseo compuesto central rotable
K = 2, no =
5 (Ensayo 3).
Codificadas Reales Respuesta
3. Se convierte ~i de variables codificadas a las reales. Xl Xz Xl X2 y

Dado que Xi tiene el mayor coeficiente de regresin se toma el -1 -1 75 85 77,1


tiempo como variable en el paso 1. Cinco minutos de tiempo es el -1 1 75 95 81,2
tamao del incremento (se toma un incremento de cinco minutos). En
1 -1 85 85 84,2
trminos de las variables codificadas, esto es ~XI = 1, O. Por lo tanto,
en base a la regla 2 el tamao del incremento en la temperatura es 1 1 85 95 87,1
-1,414 O 72,93 90 75,1
1,414 O 87,07 90 81,3
O -1,414 80 82,93 79,2
O 1,414 - 80 97,07 84,3
Para convertir los tamaos de los incrementos codificados en las O O 80 90 86,9
unidades reales, se realiza una conversin que resulta en 5 min y O O 80 90 89,0
2,35C como valores reales.
O O 80 90 86,7
O O 80 90 89,4
Ensayo 3 O O 80 90 85,8
Con la informacin del ensayo 2 no es posible ajustar un modelo
polinomio de segundo orden, por lo tanto, el Ingeniero Agroindustrial
decide realizar un ensayo con un diseo de Superficie de Respuesta
Tabla 5.8. Anlisis del modelo polinomial central rotable k = 2, no = 5
para fijar modelos de segundo orden "Compuesto Central Rotable" (Ensayo 3)
K = 2 y no = 5 que se estudiar en captulos posteriores. Los
Variable Coeficiente Error t P
resultados aparecen en las Tablas 5.7. y 5.8.
regresara de regresin estandar
Canstantes(bo) 87,56 0,82383 106,28 0,0000
Xl 2,72 0,65135 4,18 0,0041
Xz 1,77 0,65135 2;73 0,0294
X21 -4,07 0,69859 -5,83 0,0006

X22 -2,29 0,69859 -3,29 0,0133

XIX2 -0,30 0,92107 0,33 0,7442


RZ = 90,35% RZaj = 83,46%
250 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn i Anlisis de Regresin y Superficies de Respuesta 251

2. El tamao del incremento en las otras variables es:

LlXi = ~)~/~XJ i=1,2, ...k j=1,2, ...k Tabla 5.7. Datos obtenidos con un diseo compuesto central rotable
K = 2, no =
5 (Ensayo 3).
Codificadas Reales Respuesta
3. Se convierte ~i de variables codificadas a las reales. Xl Xz Xl X2 y

Dado que Xi tiene el mayor coeficiente de regresin se toma el -1 -1 75 85 77,1


tiempo como variable en el paso 1. Cinco minutos de tiempo es el -1 1 75 95 81,2
tamao del incremento (se toma un incremento de cinco minutos). En
1 -1 85 85 84,2
trminos de las variables codificadas, esto es ~XI = 1, O. Por lo tanto,
en base a la regla 2 el tamao del incremento en la temperatura es 1 1 85 95 87,1
-1,414 O 72,93 90 75,1
1,414 O 87,07 90 81,3
O -1,414 80 82,93 79,2
O 1,414 - 80 97,07 84,3
Para convertir los tamaos de los incrementos codificados en las O O 80 90 86,9
unidades reales, se realiza una conversin que resulta en 5 min y O O 80 90 89,0
2,35C como valores reales.
O O 80 90 86,7
O O 80 90 89,4
Ensayo 3 O O 80 90 85,8
Con la informacin del ensayo 2 no es posible ajustar un modelo
polinomio de segundo orden, por lo tanto, el Ingeniero Agroindustrial
decide realizar un ensayo con un diseo de Superficie de Respuesta
Tabla 5.8. Anlisis del modelo polinomial central rotable k = 2, no = 5
para fijar modelos de segundo orden "Compuesto Central Rotable" (Ensayo 3)
K = 2 y no = 5 que se estudiar en captulos posteriores. Los
Variable Coeficiente Error t P
resultados aparecen en las Tablas 5.7. y 5.8.
regresara de regresin estandar
Canstantes(bo) 87,56 0,82383 106,28 0,0000
Xl 2,72 0,65135 4,18 0,0041
Xz 1,77 0,65135 2;73 0,0294
X21 -4,07 0,69859 -5,83 0,0006

X22 -2,29 0,69859 -3,29 0,0133

XIX2 -0,30 0,92107 0,33 0,7442


RZ = 90,35% RZaj = 83,46%
252 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 253

El modelo Tabla 5.10. Anlisis del Modelo Polinomial cuadrtico reducido del
ensayo 3.
A 2 2
Y = 87,56 + 2,72Xl + 1,77X2- 4,07 Xl -2,29 X2 -0,3XIM Variable Coeficiente Error t P
regresara de regresin estandar
El anlisis de varianza se muestra en la Tabla 5.9.
Constantetbo) 87,560 0,823 106,28 0,0000
Tabla 5.9 Anlisis de Varianza para el modelo de segundo orden del
ensayo 3. Xl 2,721 0,651 4,18 0,0041
M 1,776 0,651 2,73 0,0294
F. de V. G. de L. SC CM Fc
X21 -4,074 0,698 -5,83 0,0006
Regresin 5 222,38 44,475 13,11**
X2 -2,298 0,698 -3,29 0,0133
2
Residual 7 23,75 3,393
Falta de ajuste
R2 = 90,20% R2.
a.J
= 8330%
'
3 14,01 4,673 1,92 ns
Error puro 4 0,03 2,433 Determinacin del mximo
ay
Total 12 246,13
aX1
= 2,721 - 8,149XI = => Xl =
2,721
8,149
= 0,334

La falta de ajuste no es significativa y la Regresin es altamente ay


significativa concluyendose que el modelo de segundo orden se = 1,776 - 4,597M = => X2 =
1,776
---
4,597
0,386
aproxima apropiadamente a la superficie real. Montgomery (1991)
afirma que es "Importante asegurarse que el modelo de segundo
orden sea adecuado, ya que en muchos casos el error consiste en
Po = (X01,X02) = (0,334; 0,386)
interpretar una superficie que se ha estimado inadecuadamente" En trminos de los valores reales sera:
El modelo de segundo orden debe ser sometido al anlisis 1-5 1 -5
cannico, grficos de contorno y todos los anlisis necesarios para una
adecuada interpretacin. Este tipo de anlisis ya fue explicado en la 0,334-x 0,3864 -x
seccin anterior. El lector puede aplicarlo a este ejemplo ilustrativo. x = 1,67 x = 1,93
Sin embargo, se determinaron los puntos mximos al modelo
polinominal del tercer ensayo, que es el objetivo fundamental de estos Los valores reales de los X's para el punto mximo seran:
experimentos. Para la determinacin de los puntos mximos se hace Po' = (81,67 min, 91,93C)
una pequea modificacin, y es eliminar la interaccin (XIX2)ya que
su contribucin al modelo es muy poca. El modelo seleccionado se Con estos valores se obtiene una respuesta en el punto
muestra en la Tabla 5.10 estacionario.
Yo = 88,357 (rendimiento predicho).
252 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 253

El modelo Tabla 5.10. Anlisis del Modelo Polinomial cuadrtico reducido del
ensayo 3.
A 2 2
Y = 87,56 + 2,72Xl + 1,77X2- 4,07 Xl -2,29 X2 -0,3XIM Variable Coeficiente Error t P
regresara de regresin estandar
El anlisis de varianza se muestra en la Tabla 5.9.
Constantetbo) 87,560 0,823 106,28 0,0000
Tabla 5.9 Anlisis de Varianza para el modelo de segundo orden del
ensayo 3. Xl 2,721 0,651 4,18 0,0041
M 1,776 0,651 2,73 0,0294
F. de V. G. de L. SC CM Fc
X21 -4,074 0,698 -5,83 0,0006
Regresin 5 222,38 44,475 13,11**
X2 -2,298 0,698 -3,29 0,0133
2
Residual 7 23,75 3,393
Falta de ajuste
R2 = 90,20% R2.
a.J
= 8330%
'
3 14,01 4,673 1,92 ns
Error puro 4 0,03 2,433 Determinacin del mximo
ay
Total 12 246,13
aX1
= 2,721 - 8,149XI = => Xl =
2,721
8,149
= 0,334

La falta de ajuste no es significativa y la Regresin es altamente ay


significativa concluyendose que el modelo de segundo orden se = 1,776 - 4,597M = => X2 =
1,776
---
4,597
0,386
aproxima apropiadamente a la superficie real. Montgomery (1991)
afirma que es "Importante asegurarse que el modelo de segundo
orden sea adecuado, ya que en muchos casos el error consiste en
Po = (X01,X02) = (0,334; 0,386)
interpretar una superficie que se ha estimado inadecuadamente" En trminos de los valores reales sera:
El modelo de segundo orden debe ser sometido al anlisis 1-5 1 -5
cannico, grficos de contorno y todos los anlisis necesarios para una
adecuada interpretacin. Este tipo de anlisis ya fue explicado en la 0,334-x 0,3864 -x
seccin anterior. El lector puede aplicarlo a este ejemplo ilustrativo. x = 1,67 x = 1,93
Sin embargo, se determinaron los puntos mximos al modelo
polinominal del tercer ensayo, que es el objetivo fundamental de estos Los valores reales de los X's para el punto mximo seran:
experimentos. Para la determinacin de los puntos mximos se hace Po' = (81,67 min, 91,93C)
una pequea modificacin, y es eliminar la interaccin (XIX2)ya que
su contribucin al modelo es muy poca. El modelo seleccionado se Con estos valores se obtiene una respuesta en el punto
muestra en la Tabla 5.10 estacionario.
Yo = 88,357 (rendimiento predicho).
Chacn I Anlisis de Regresin y Superficies de Respuesta 255
254 Chacn I Anlisis de Regresin y Superficies de Respuesta

Cochran y Cox (1980), refieren que aunque este mtodo no tiene


Mtodo del experimento nico
una estrategia planificada, cuando el nmero de los factores es
grande y los errores pequeos, puede tener utilidad. Explican que
Cochran y Cox (1980) refieren que para la aplicacin de los existen dos metas cuyo logro puede esperar el investigador: 1) Llegar
mtodos anteriores se hace necesario. que los resultados de cada a una regin de exploracin de relativa alta respuesta, 2) Conocer
ensayo se conozcan en corto tiempo, debido fundamentalmente a que algo con respecto a las variables X's que ejercen la mayor influencia
cada experimento requiere la culminacin y posterior anlisis del sobre la respuesta "Y", de manera tal que los experimentos futuros
anterior. En reas de investigacin donde los experimentos pueden puedan reducirse a un nmero mas pequeo de factores.
extenderse un tiempo relativamente largo para lograr conocer los
resultados de los ensayos, como generalmente ocurre en la
Comparacin de los mtodos
investigacin agrcola, es una estratgica lgica tratar de obtener la
combinacin de variables ptimas con un experimento nico. Muchos
de los diseos que se estudiaran en los captulos posteriores tratan Expresan Cochran y Cox (1980) que la comparacin prctica es
sobre esta situacin. difcil por lo costoso que sera y refieren que Brooks (1955) desarroll
una comparacin matemtica que simula una comparacin prctica.
Cuando la regin de exploracin donde se realizar el ensayo es El autor construy cuatro superficies, cada una de stas con punto
grande, la Superficie de Respuesta puede ser muy compleja para ser mximo bien definido de dos variables. En cada superficie se proba-
aproximada por un polinomio de segundo orden. En esos casos debe ron nueve diferentes posiciones iniciales. En la primera serie de
considerarse la posibilidad de aproximar polinomios de orden superior experimentos artificiales a cada mtodo se le asign un total de 16
o posiblemente una exploracin adicional en un segundo experimento. combinaciones de factores tratamientos para encontrar el ptimo y
La otra alternativa que se propone sera desarrollar una investigacin en la segunda serie se asignaron 30 combinaciones. Las series desa-
exploratoria para iuego trabajar con el experimento en bsqueda 'del rrolladas fueron bajo dos modalidades: con un moderado error experi-
polinomio de segundo 'orden, pero ya con una regin de exploracin mental y sin error experimental. Se trabajaron varios procedimientos
previamente estudiada. diferentes para obtener el ptimo.

Seleccin al azar de puntos de prueba


Los mtodos comparados fueron:
Existe la posibilidad de utilizar combinaciones al azar de los Factor nico
niveles de los distintos factores, como una forma de explorar la ruta Pendiente en ascenso
experimental, esto fue sugerido por Anderson (1953) y mencionado Factorial
por Cochran y Cox (1980). Seleccin al azar de puntos de prueba.
El mtodo consiste en seleccionar al azar los niveles de los Xi El factorial representa el mtodo del experimento nico. Se uso un
entre el rango de exploracin de cada uno de ellos. Se hace una factorial 4x4 para 16 tratamientos y 5x6 para los 30 tratamientos. El
seleccin independiente para cada factor y para cada combinacin resultado de los mtodos fue medido en trminos de las respuestas
sucesiva de factores que se ensayan. En forma alternativa se podran verdaderas 9(Xl, X2) a los valores ptimos de Xi y X2 conseguidos por
seleccionar un nmero de puntos igualmente espaciados y se realiza el mtodo. En la tabla 5.11 que se representa a continuacin, se
una eleccin de uno de estos niveles para cada prueba. Al final de las muestran los resultados del mtodo.
"n" pruebas, la combinacin de factores que de la respuesta observada
ms elevada se considera una estimacin de la combinacin ptima.
Chacn I Anlisis de Regresin y Superficies de Respuesta 255
254 Chacn I Anlisis de Regresin y Superficies de Respuesta

Cochran y Cox (1980), refieren que aunque este mtodo no tiene


Mtodo del experimento nico
una estrategia planificada, cuando el nmero de los factores es
grande y los errores pequeos, puede tener utilidad. Explican que
Cochran y Cox (1980) refieren que para la aplicacin de los existen dos metas cuyo logro puede esperar el investigador: 1) Llegar
mtodos anteriores se hace necesario. que los resultados de cada a una regin de exploracin de relativa alta respuesta, 2) Conocer
ensayo se conozcan en corto tiempo, debido fundamentalmente a que algo con respecto a las variables X's que ejercen la mayor influencia
cada experimento requiere la culminacin y posterior anlisis del sobre la respuesta "Y", de manera tal que los experimentos futuros
anterior. En reas de investigacin donde los experimentos pueden puedan reducirse a un nmero mas pequeo de factores.
extenderse un tiempo relativamente largo para lograr conocer los
resultados de los ensayos, como generalmente ocurre en la
Comparacin de los mtodos
investigacin agrcola, es una estratgica lgica tratar de obtener la
combinacin de variables ptimas con un experimento nico. Muchos
de los diseos que se estudiaran en los captulos posteriores tratan Expresan Cochran y Cox (1980) que la comparacin prctica es
sobre esta situacin. difcil por lo costoso que sera y refieren que Brooks (1955) desarroll
una comparacin matemtica que simula una comparacin prctica.
Cuando la regin de exploracin donde se realizar el ensayo es El autor construy cuatro superficies, cada una de stas con punto
grande, la Superficie de Respuesta puede ser muy compleja para ser mximo bien definido de dos variables. En cada superficie se proba-
aproximada por un polinomio de segundo orden. En esos casos debe ron nueve diferentes posiciones iniciales. En la primera serie de
considerarse la posibilidad de aproximar polinomios de orden superior experimentos artificiales a cada mtodo se le asign un total de 16
o posiblemente una exploracin adicional en un segundo experimento. combinaciones de factores tratamientos para encontrar el ptimo y
La otra alternativa que se propone sera desarrollar una investigacin en la segunda serie se asignaron 30 combinaciones. Las series desa-
exploratoria para iuego trabajar con el experimento en bsqueda 'del rrolladas fueron bajo dos modalidades: con un moderado error experi-
polinomio de segundo 'orden, pero ya con una regin de exploracin mental y sin error experimental. Se trabajaron varios procedimientos
previamente estudiada. diferentes para obtener el ptimo.

Seleccin al azar de puntos de prueba


Los mtodos comparados fueron:
Existe la posibilidad de utilizar combinaciones al azar de los Factor nico
niveles de los distintos factores, como una forma de explorar la ruta Pendiente en ascenso
experimental, esto fue sugerido por Anderson (1953) y mencionado Factorial
por Cochran y Cox (1980). Seleccin al azar de puntos de prueba.
El mtodo consiste en seleccionar al azar los niveles de los Xi El factorial representa el mtodo del experimento nico. Se uso un
entre el rango de exploracin de cada uno de ellos. Se hace una factorial 4x4 para 16 tratamientos y 5x6 para los 30 tratamientos. El
seleccin independiente para cada factor y para cada combinacin resultado de los mtodos fue medido en trminos de las respuestas
sucesiva de factores que se ensayan. En forma alternativa se podran verdaderas 9(Xl, X2) a los valores ptimos de Xi y X2 conseguidos por
seleccionar un nmero de puntos igualmente espaciados y se realiza el mtodo. En la tabla 5.11 que se representa a continuacin, se
una eleccin de uno de estos niveles para cada prueba. Al final de las muestran los resultados del mtodo.
"n" pruebas, la combinacin de factores que de la respuesta observada
ms elevada se considera una estimacin de la combinacin ptima.
256 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 257

Tabla 5.11 Comparacin de mtodos para encontrar un mximo en en todas las etapas, para el mtodo de la superficie en ascenso o de la
cuatro superficies de respuesta. mxima pendiente.
Mtodo 1 2 3 4
Mtodo secuencial sugerido por el autor para experimentos
Factor nico 0,990 0,984 0,926 0,984
agrcolas y otros campos de la ciencia.
Mxima pendiente 0,993 0,989 0,979 0,985
Factorial 0,955 0,977 0,927 0,976 En la mayora de los experimentos agrcolas, con la excepcin de
los ensayos en laboratorio o en la Agroindustria, reunir las
Al azar 0,902 0,911 0,913 0,936 condiciones para desarrollar el mtodo de la mxima pendiente de la
Fuente: Cochran y Cox (1980) pendiente en ascenso como son fundamentalmente: 1) Errores
pequeos y 2) Experimentos secuenciales en cortos periodos; son
El mximo verdadero para cada superficie fue 1, por sumamente dificiles. El investigador agrcola generalmente lo que
consiguiente todos los mtodos resultaron apropiados y el mtodo de hace son experimentos nicos, tratando a travs de dichos
la pendiente en ascenso fue el mejor en las superficies. (figura 5.8). El experimentos conseguir una buena aproximacin de la superficie de
mtodo del factor nico fue casi tan bueno en todas las superficies respuesta verdadera, sin embargo, en la mayora de los casos se
excepto en la tercera. Este es el caso, refiere Cochran y Cox (1980) en consigue que la superficie estimada no ajusta apropiadamente los
el cual una de las races caractersticas (A.) en la forma cannica de la datos, obtenindose resultados insatisfactorios.
aproximacin cuadratica es pequea. Esta es la situacin de lomas
Por consiguiente parece necesaria una investigacin previa que
ascendentes en el cual el mtodo del factor nico hace leves progresos
permita ajustar mas adecuadamente los niveles de los factores
despus de la primera etapa. El mtodo del experimento nico con el
obviando las dificultades del mtodo de la pendiente en ascenso.
factorial fue consistentemente inferior a los dos mtodos anteriores
Debido a lo expresado anteriormente sugiere la aplicacin del mtodo
(secuenciales), excepto en la superficie 3, que llega a ser casi igual al
descrito a continuacin.
mtodo del factor nico. Una dificultad evidente con este mtodo es
que la superficie polinomial (cuadrtica o cbica) no ajust los datos 1.- Iniciar el proceso con un experimento 1 que denominaremos
J

satisfactoriamente a causa del espaciamiento amplio en los niveles exploratorio


del factorial. La utilizacin del mtodo de seleccin al azar de puntos
de prueba fue claramente inferior a los otros mtodos. Estos ensayos tendr como niveles iniciales, los mnimos de los
otros factores y variando uno a la vez.
Supongamos que se necesita investigar ''k'' factores para
explorar la respuesta "V". El experimento 1 estar compuesto por "k"
ensayos con la siguiente estructura.
Ensayo 1
Figura 5.8. Contornos tpicos de superficies de respuesta Tratamiento Xl :M X3 ............
1 -2 -2 -2 .............. -2
Cochran y Cox (1980) manifiestan que las conclusiones van a ser
alteradas si se estudian diferentes superficies de respuesta, nmero 2 -1 -2 -2 .............. -2
de factores o distintas cantidades de error experimental. Para las 3 -2 -2
superficies estudiadas los resultados sugieren una gran confiabilidad 4
1 -2 -2
o

o
..

...

5 2 -2 -2 ............ -2
256 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacin I Anlisis de Regresin y Superficies de Respuesta 257

Tabla 5.11 Comparacin de mtodos para encontrar un mximo en en todas las etapas, para el mtodo de la superficie en ascenso o de la
cuatro superficies de respuesta. mxima pendiente.
Mtodo 1 2 3 4
Mtodo secuencial sugerido por el autor para experimentos
Factor nico 0,990 0,984 0,926 0,984
agrcolas y otros campos de la ciencia.
Mxima pendiente 0,993 0,989 0,979 0,985
Factorial 0,955 0,977 0,927 0,976 En la mayora de los experimentos agrcolas, con la excepcin de
los ensayos en laboratorio o en la Agroindustria, reunir las
Al azar 0,902 0,911 0,913 0,936 condiciones para desarrollar el mtodo de la mxima pendiente de la
Fuente: Cochran y Cox (1980) pendiente en ascenso como son fundamentalmente: 1) Errores
pequeos y 2) Experimentos secuenciales en cortos periodos; son
El mximo verdadero para cada superficie fue 1, por sumamente dificiles. El investigador agrcola generalmente lo que
consiguiente todos los mtodos resultaron apropiados y el mtodo de hace son experimentos nicos, tratando a travs de dichos
la pendiente en ascenso fue el mejor en las superficies. (figura 5.8). El experimentos conseguir una buena aproximacin de la superficie de
mtodo del factor nico fue casi tan bueno en todas las superficies respuesta verdadera, sin embargo, en la mayora de los casos se
excepto en la tercera. Este es el caso, refiere Cochran y Cox (1980) en consigue que la superficie estimada no ajusta apropiadamente los
el cual una de las races caractersticas (A.) en la forma cannica de la datos, obtenindose resultados insatisfactorios.
aproximacin cuadratica es pequea. Esta es la situacin de lomas
Por consiguiente parece necesaria una investigacin previa que
ascendentes en el cual el mtodo del factor nico hace leves progresos
permita ajustar mas adecuadamente los niveles de los factores
despus de la primera etapa. El mtodo del experimento nico con el
obviando las dificultades del mtodo de la pendiente en ascenso.
factorial fue consistentemente inferior a los dos mtodos anteriores
Debido a lo expresado anteriormente sugiere la aplicacin del mtodo
(secuenciales), excepto en la superficie 3, que llega a ser casi igual al
descrito a continuacin.
mtodo del factor nico. Una dificultad evidente con este mtodo es
que la superficie polinomial (cuadrtica o cbica) no ajust los datos 1.- Iniciar el proceso con un experimento 1 que denominaremos
J

satisfactoriamente a causa del espaciamiento amplio en los niveles exploratorio


del factorial. La utilizacin del mtodo de seleccin al azar de puntos
de prueba fue claramente inferior a los otros mtodos. Estos ensayos tendr como niveles iniciales, los mnimos de los
otros factores y variando uno a la vez.
Supongamos que se necesita investigar ''k'' factores para
explorar la respuesta "V". El experimento 1 estar compuesto por "k"
ensayos con la siguiente estructura.
Ensayo 1
Figura 5.8. Contornos tpicos de superficies de respuesta Tratamiento Xl :M X3 ............
1 -2 -2 -2 .............. -2
Cochran y Cox (1980) manifiestan que las conclusiones van a ser
alteradas si se estudian diferentes superficies de respuesta, nmero 2 -1 -2 -2 .............. -2
de factores o distintas cantidades de error experimental. Para las 3 -2 -2
superficies estudiadas los resultados sugieren una gran confiabilidad 4
1 -2 -2
o

o
..

...

5 2 -2 -2 ............ -2
258 Chacn I Anlisisde Regresiny Superficiesde Respuesta
Chacn I Anlisisde Regresiny Superficiesde Respuesta 259

2.- Experimento 2 (Experimento comprobatorio)


Ensayo 2
Tratamiento Xl X2 M Xk
Este experimento es igual al experimento 1 con la variante de
1 -2 -2 -2 -2 que no se utiliza para los ensayos los niveles mnimos sino los niveles
-2 -1 -2 -2 ptimos obtenidos en el experimento 1, que denotaremos como Xio.
2
3 -2 O -2 -2 El experimento 2, tendr los siguientes ensayos.
4 -2 1 -2 -2 Ensayo 1
5 -2 2 -2 -2 Tratamiento Xl M M ....... Xk
1 -2 X2.0 Xa.o ....... Xk.O
Ensayo k 2 -1 X2.0 X3.0 o o. Xk.O
Tratamiento Xl X2 X3 M 3 O X2.0 Xa.o ....... M.O
1 -2 -2 -2 .. -2 4 1 X2.0 X3.0 . ...... M.O
2 -2 -2 -2 .. -1 5 2 M.O X3.0 o Xk.O
3 -2 -2 -2 O
4 -2 -2 -2 1
-2 2 Ensayo 2
5 -2 -2
Tratamiento Xl X2 Xa ........ M
Como se observa cada uno de los ensayos servir para explorar 1 XI.O -2 M.O ....... M.O
independientemente los niveles adecuados de cada factor en presencia
de los niveles del tratamiento testigo de los otros factores. Por 2 XI.O -1 Xa.o o Xk.O
ejemplo, en el caso de experimentos con fertilizantes, el testigo es 3 Xl.O -O X3.0 o Xk.O
ausencia de nutrimentos agregados al suelo. En otros casos como 4 Xl.O ....... " Xk.O
1 Xa.o
densidad de siembra, puede tratarse de los valores que utiliza
normalmente el agricultor. 5 Xl.O 2 Xa.o . ...... M.O

Este ensayo exploratorio puede desarrollarse bajo un solo Ensayo k


experimento, en cualquier diseo experimental: completamente al Tratamiento Xl X2 Xa ....... Xk
azar, bloques al azar o cuadrado latino dependiendo del control local
que se quiera realizar. El anlisis estadstico consiste en los 1 Xl.O M.O Xa.o ....... -2
siguientes pasos. 2 Xl.O X2.0 M.O o -1
1) Anlisis de varianza para cada uno de los "k" ensayos. 3 Xl.O X2.0 M.O ....... -O
2) Anlisis de regresin para cada uno de los "k" ensayos. 4 Xl.O M.O Xa.o o 1
3) Obtencin de los puntos ptimos o estacionarios para cada uno de 5 Xl.O X2.0 M.O . o. 2
los "k" ensayos.
4) Interpretacin conjunta del experimento 1.
258 Chacn I Anlisisde Regresiny Superficiesde Respuesta
Chacn I Anlisisde Regresiny Superficiesde Respuesta 259

2.- Experimento 2 (Experimento comprobatorio)


Ensayo 2
Tratamiento Xl X2 M Xk
Este experimento es igual al experimento 1 con la variante de
1 -2 -2 -2 -2 que no se utiliza para los ensayos los niveles mnimos sino los niveles
-2 -1 -2 -2 ptimos obtenidos en el experimento 1, que denotaremos como Xio.
2
3 -2 O -2 -2 El experimento 2, tendr los siguientes ensayos.
4 -2 1 -2 -2 Ensayo 1
5 -2 2 -2 -2 Tratamiento Xl M M ....... Xk
1 -2 X2.0 Xa.o ....... Xk.O
Ensayo k 2 -1 X2.0 X3.0 o o. Xk.O
Tratamiento Xl X2 X3 M 3 O X2.0 Xa.o ....... M.O
1 -2 -2 -2 .. -2 4 1 X2.0 X3.0 . ...... M.O
2 -2 -2 -2 .. -1 5 2 M.O X3.0 o Xk.O
3 -2 -2 -2 O
4 -2 -2 -2 1
-2 2 Ensayo 2
5 -2 -2
Tratamiento Xl X2 Xa ........ M
Como se observa cada uno de los ensayos servir para explorar 1 XI.O -2 M.O ....... M.O
independientemente los niveles adecuados de cada factor en presencia
de los niveles del tratamiento testigo de los otros factores. Por 2 XI.O -1 Xa.o o Xk.O
ejemplo, en el caso de experimentos con fertilizantes, el testigo es 3 Xl.O -O X3.0 o Xk.O
ausencia de nutrimentos agregados al suelo. En otros casos como 4 Xl.O ....... " Xk.O
1 Xa.o
densidad de siembra, puede tratarse de los valores que utiliza
normalmente el agricultor. 5 Xl.O 2 Xa.o . ...... M.O

Este ensayo exploratorio puede desarrollarse bajo un solo Ensayo k


experimento, en cualquier diseo experimental: completamente al Tratamiento Xl X2 Xa ....... Xk
azar, bloques al azar o cuadrado latino dependiendo del control local
que se quiera realizar. El anlisis estadstico consiste en los 1 Xl.O M.O Xa.o ....... -2
siguientes pasos. 2 Xl.O X2.0 M.O o -1
1) Anlisis de varianza para cada uno de los "k" ensayos. 3 Xl.O X2.0 M.O ....... -O
2) Anlisis de regresin para cada uno de los "k" ensayos. 4 Xl.O M.O Xa.o o 1
3) Obtencin de los puntos ptimos o estacionarios para cada uno de 5 Xl.O X2.0 M.O . o. 2
los "k" ensayos.
4) Interpretacin conjunta del experimento 1.
260 Chacn I Anlisis de Regresin y Superficies de Respuesta 261
Chacn I Anlisis de Regresin y Superficies de Respuesta

Los pasos del anlisis estadsticos sern los mismos del Tabla 5.12. Resultados del experimento 1 utilizando el mtodo de
experimento 1 y un quinto paso que seria: comparacin de los experimentacin secuencial sugerido por el autor.
resultados del experimento 1 y 2.
Ensayo1
En este caso puede ocurrir que:
Tratamiento Niveles Codificados Observaciones deY
a) La respuesta en cada uno de los experimentos sean similares. En
este caso se utilizan estos niveles como el tratamiento central del Xl X2 1 2 3 4 5
experimento 3. 1 -2 -2 1,4 1,3 1,6 1,3 1,6
b) La respuesta en cada uno de los experimentos sean diferentes. En 2 -1 -2 1,9 1,7 1,9 1,6 1,9
este caso se utilizan ambos niveles en el experimento 3, como 3 2,3 2,1 2,3 2,1 2,3
niveles intermedios, por ejemplo, si el experimento 3 tiene los
niveles (-a, -1, 0, 1, a) para cada factor, los niveles obtenidos con el 4
1 -2
-2 2,8 2,4 2,6 2,7 2,9
experimento 1 y 2 se utilizarn como niveles (-1 y 1) en el 5 2 -2 1,9 1,6 2,1 2,0 2,1
experimento 3, salvo que los niveles encontrados en estos
experimentos sean extremos o se encuentren fuera de la regin de
exploracin. En este caso el investigador debe utilizar criterios Ensayoz
aproximados para la seleccin de los niveles en el experimento 3. Tratamiento Niveles Codificados Observaciones deY
3.- Experimento 3. Xl M 1 2 3 4 5
Experimento realizado preferiblemente con un diseo de 1 -2 -2 2,5 2,2 2,4 2,3 2,6
superficie de respuesta,' Compuesto Central, San Cristbal, doble 2 -2 -1 2,9 2,6 2,7 2,8 2,7
Estrella, etc. Cualquiera de los que estudiaremos posteriormente con
3 3,1 3,2 3,4 3,1 3,0
el objeto de ajustar la superficie de respuesta y de esta forma obtener
los puntos ptimos, fsicos, econmicos y la naturaleza de la 4
-2
-2
1 2,4 2,1 2,4 2,8 2,5
superficie. 2,1 2,2
5 -2 2 2,1 1,9 2,0
En algunas reas de la agricultura por las caractersticas
propias, podra obviarse la realizacin del experimento comprobatorio
y pasar directamente al experimento 3 para ajustar la superficie de ANALISIS ESTADISTICO
respuesta, utilizando como tratamiento central los niveles ptimos
obtenidos en el experimento 1. 1.- Anlisis de varianza para cada uno de los "k" ensayos
1.1.- Anlisis de la varianza (Ensayo 1).
Ejemplo ilustrativo del mtodo
F. deV. G. deL. SC CM Fc
A. Experimento 1. Un experimento realizado en laboratorio de
cultivo de tejidos con el objetivo de encontrar una superficie de Trat. 4 4,333 1,083 40,43
respuesta entre el peso de las races (Y) y dos variables predctoras; EE 20 0,540 0,027
Xl = ppm de Hormona A y M = ppm de hormona B.
Total 24 4,873
El experimento 1, esta constituido por dos ensayos que fueron
planificados completamente al azar, con 5 niveles en cada variable
regresara y en cada uno de los ensayos. A continuacin describiremos
los resultados (Tabla 5.12).
260 Chacn I Anlisis de Regresin y Superficies de Respuesta 261
Chacn I Anlisis de Regresin y Superficies de Respuesta

Los pasos del anlisis estadsticos sern los mismos del Tabla 5.12. Resultados del experimento 1 utilizando el mtodo de
experimento 1 y un quinto paso que seria: comparacin de los experimentacin secuencial sugerido por el autor.
resultados del experimento 1 y 2.
Ensayo1
En este caso puede ocurrir que:
Tratamiento Niveles Codificados Observaciones deY
a) La respuesta en cada uno de los experimentos sean similares. En
este caso se utilizan estos niveles como el tratamiento central del Xl X2 1 2 3 4 5
experimento 3. 1 -2 -2 1,4 1,3 1,6 1,3 1,6
b) La respuesta en cada uno de los experimentos sean diferentes. En 2 -1 -2 1,9 1,7 1,9 1,6 1,9
este caso se utilizan ambos niveles en el experimento 3, como 3 2,3 2,1 2,3 2,1 2,3
niveles intermedios, por ejemplo, si el experimento 3 tiene los
niveles (-a, -1, 0, 1, a) para cada factor, los niveles obtenidos con el 4
1 -2
-2 2,8 2,4 2,6 2,7 2,9
experimento 1 y 2 se utilizarn como niveles (-1 y 1) en el 5 2 -2 1,9 1,6 2,1 2,0 2,1
experimento 3, salvo que los niveles encontrados en estos
experimentos sean extremos o se encuentren fuera de la regin de
exploracin. En este caso el investigador debe utilizar criterios Ensayoz
aproximados para la seleccin de los niveles en el experimento 3. Tratamiento Niveles Codificados Observaciones deY
3.- Experimento 3. Xl M 1 2 3 4 5
Experimento realizado preferiblemente con un diseo de 1 -2 -2 2,5 2,2 2,4 2,3 2,6
superficie de respuesta,' Compuesto Central, San Cristbal, doble 2 -2 -1 2,9 2,6 2,7 2,8 2,7
Estrella, etc. Cualquiera de los que estudiaremos posteriormente con
3 3,1 3,2 3,4 3,1 3,0
el objeto de ajustar la superficie de respuesta y de esta forma obtener
los puntos ptimos, fsicos, econmicos y la naturaleza de la 4
-2
-2
1 2,4 2,1 2,4 2,8 2,5
superficie. 2,1 2,2
5 -2 2 2,1 1,9 2,0
En algunas reas de la agricultura por las caractersticas
propias, podra obviarse la realizacin del experimento comprobatorio
y pasar directamente al experimento 3 para ajustar la superficie de ANALISIS ESTADISTICO
respuesta, utilizando como tratamiento central los niveles ptimos
obtenidos en el experimento 1. 1.- Anlisis de varianza para cada uno de los "k" ensayos
1.1.- Anlisis de la varianza (Ensayo 1).
Ejemplo ilustrativo del mtodo
F. deV. G. deL. SC CM Fc
A. Experimento 1. Un experimento realizado en laboratorio de
cultivo de tejidos con el objetivo de encontrar una superficie de Trat. 4 4,333 1,083 40,43
respuesta entre el peso de las races (Y) y dos variables predctoras; EE 20 0,540 0,027
Xl = ppm de Hormona A y M = ppm de hormona B.
Total 24 4,873
El experimento 1, esta constituido por dos ensayos que fueron
planificados completamente al azar, con 5 niveles en cada variable
regresara y en cada uno de los ensayos. A continuacin describiremos
los resultados (Tabla 5.12).
262 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 263

1.2.- Anlisis de la varianza (Ensayo 2) 3.2.- Ensayo 2


A

F.deV. G. de L. SC CM Fc Y = 2,997 - 0,118M - 0,198X~


Trat.
EE
4
20
3,932
1,468
0,983
0,073
40,43
1)
A

y / 1) X2 =- 0,118 0,397X2 =
5,440
X2 = - 0,118/0,397 = - 0,297
Total 24
4.- Interpretacin conjunta
2.- Anlisis de Regresin para cada uno de los "k" ensayos De acuerdo con los resultados del experimento 1, que incluye
efectos independientes de las dos variables bajo estudio, el punto
2.1.- Anlisis de Regrestn (Ensayo 1)
ptimo de la variable respuesta se obtiene con valores codificados de
Variable Coeficiente Error t p =
Xi 0,609 Y Xz =-
0,297.
Regresora de Regresin estandar
Constante (bo) 2,3246 0,079743 29,15 0,0000 B.- Experimento 2. (Experimento comprobatorio) Los resultados del
0,0000 experimento 2 aparecen a continuacin (Tabla 5.13).
Xl 0,1880 0,036183 5,28
-0,1542 0,030588 -5,05 0,0000
X21 Tabla 5.13. Resultados del experimento 2 utilizando el mtodo de
experimentacin secuencial sugerida por el autor
RZ = 70,45% RZ.
a, = 6776%
, Cp= 3 CMresid = 0,06546
Ensayo1
2.2.- Anlisis de Regresin (Ensayo 2)
Tratamiento Niveles codificados Observaciones de Y
Variable Coeficiente Error t p
Regresora de Regresin estandar Xl Xz 1 2 3 4 5

32,35 0,0000 1 -2 -0,297 3,0 2,7 3,1 2,6 3,0


Constante (bo) 2,997 0,092
-2,81 0,0000 2 -1 -0,297 3,6 3,4 3,5 3,0 3,7
Xl -0,118 0,042
3 -0,297 4,1 4,3 4,5 4,1 3,9
X2
1
-0,198 0,025 -5,59 0,0000
4
1 -0,297 3,2 2,9 3,1 3,4 3,1
RZ = 64,01% R:i = 60,73% Cp = 3 CMresid = 0,088 5 2 -0,297 2,9 2,7 2,7 2,8 2,4
3.- Obtencin de los puntos ptimos o estacionarios para cada
uno de los "k" ensayos
Ensayoz
3.1.- Ensayo 1 Tratamiento Niveles codificados Observaciones de Y
A 2
Y = 2,324 + 0,188XI - 0, 1542X 1 1 0,609 -2 2,5 2,2 2,4 2,3 2,6

1)
A

y /1) Xl = 0,188 - 0,308XI = 2 0,609


0,609
-1 2,9
3,1
2,6
3,2
2,7 2,8 2,7
3 3,4 3,1 3,0
Xi = 0,188/0,308 = 0,609
4 0,609
1 2,4 2,1 2,4 2,8 2,5
5 0,609 2 2,1 1,9 2,0 2,1 2,2
262 Chacn I Anlisis de Regresin y Superficies de Respuesta Chacn I Anlisis de Regresin y Superficies de Respuesta 263

1.2.- Anlisis de la varianza (Ensayo 2) 3.2.- Ensayo 2


A

F.deV. G. de L. SC CM Fc Y = 2,997 - 0,118M - 0,198X~


Trat.
EE
4
20
3,932
1,468
0,983
0,073
40,43
1)
A

y / 1) X2 =- 0,118 0,397X2 =
5,440
X2 = - 0,118/0,397 = - 0,297
Total 24
4.- Interpretacin conjunta
2.- Anlisis de Regresin para cada uno de los "k" ensayos De acuerdo con los resultados del experimento 1, que incluye
efectos independientes de las dos variables bajo estudio, el punto
2.1.- Anlisis de Regrestn (Ensayo 1)
ptimo de la variable respuesta se obtiene con valores codificados de
Variable Coeficiente Error t p =
Xi 0,609 Y Xz =-
0,297.
Regresora de Regresin estandar
Constante (bo) 2,3246 0,079743 29,15 0,0000 B.- Experimento 2. (Experimento comprobatorio) Los resultados del
0,0000 experimento 2 aparecen a continuacin (Tabla 5.13).
Xl 0,1880 0,036183 5,28
-0,1542 0,030588 -5,05 0,0000
X21 Tabla 5.13. Resultados del experimento 2 utilizando el mtodo de
experimentacin secuencial sugerida por el autor
RZ = 70,45% RZ.
a, = 6776%
, Cp= 3 CMresid = 0,06546
Ensayo1
2.2.- Anlisis de Regresin (Ensayo 2)
Tratamiento Niveles codificados Observaciones de Y
Variable Coeficiente Error t p
Regresora de Regresin estandar Xl Xz 1 2 3 4 5

32,35 0,0000 1 -2 -0,297 3,0 2,7 3,1 2,6 3,0


Constante (bo) 2,997 0,092
-2,81 0,0000 2 -1 -0,297 3,6 3,4 3,5 3,0 3,7
Xl -0,118 0,042
3 -0,297 4,1 4,3 4,5 4,1 3,9
X2
1
-0,198 0,025 -5,59 0,0000
4
1 -0,297 3,2 2,9 3,1 3,4 3,1
RZ = 64,01% R:i = 60,73% Cp = 3 CMresid = 0,088 5 2 -0,297 2,9 2,7 2,7 2,8 2,4
3.- Obtencin de los puntos ptimos o estacionarios para cada
uno de los "k" ensayos
Ensayoz
3.1.- Ensayo 1 Tratamiento Niveles codificados Observaciones de Y
A 2
Y = 2,324 + 0,188XI - 0, 1542X 1 1 0,609 -2 2,5 2,2 2,4 2,3 2,6

1)
A

y /1) Xl = 0,188 - 0,308XI = 2 0,609


0,609
-1 2,9
3,1
2,6
3,2
2,7 2,8 2,7
3 3,4 3,1 3,0
Xi = 0,188/0,308 = 0,609
4 0,609
1 2,4 2,1 2,4 2,8 2,5
5 0,609 2 2,1 1,9 2,0 2,1 2,2
264 Chacn I Anlisisde Regresiny Superficiesde Respuesta ChacinI Anlisisde Regresiny Superficiesde Respuesta 265

ANALISIS ESTADISTICO 3.- Obtencin de los puntos ptimos o estacionarios para cada
uno de los "k".ensayos
1 Anlisis de varianza para cada uno de los "k" ensayos
Ensayo 1
1.1.- Anlisis de la varianza (Ensayo 1).
A 2
F.deV. G.deL. SC CM Fc Y = 3,809 - 0,07XI - 0,272 Xl
Trat 4 6,869 1,719 35,48**
A

O Y / O X. =- 0,07 - 0,545XI =
EE 20 0,968 0,048 Xl = - 0,07/0,545 = - 0,128
Total 24 7,837 Ensayo 2
2
Y = 3,118 - 0,044X2 - 0,314X2
A

1.2.- Anlisis de la varianza (Ensayo 2) O y / OX2 =- 0,044 - 0,628X2 =


F.deV. G. de L. SC CM Fc X2 =- 0,044/0,628 =- 0,070
Trat 4 11,666 2,916 99,88**
4.- Interpretacin conjunta
EE 20 0,584 0,029
De acuerdo a los resultados del experimento 2, que incluye
Total 24 12,250
efectos independientes de las dos variables bajo estudio, el punto
ptimo de la variable respuesta se obtiene con valores codificados de
2.- Anlisis de regresin para cada uno de los "k" ensayos Xi =- 0,128 Y X2 = - 0,07.
2.2. Anlisis de regresin (Ensayo 1)
5.- Comparacin de los resultados de los experimentos 1y 2
Variable regresara Coeficiente Error t P
de regresin estandar Los resultados de los dos experimentos aparecen a continuacin:
Constante(bo) 3,809 0,102 37,15 0,000 Puntos timos en el E erimento 1 Puntos timos en el E erimento 2
Xl -0,070 0,046 -1,50 0,146 x. X2 x. x,
0609 -0,297 -0,128 -0,070
X2I -0,272 0,039 -6,94 0,000

R2 = 69,62% R!j = 66,86% Cp = 3 CMResid. = 0,010 De acuerdo a estos resultados el nivel ptimo de una variable
depende de la cantidad a la cual se encuentra la otra variable. En el
2.2.- Anlisis de Regresin (Ensayo 2 )
primer experimento la cantidad de la variable Xi que optimiza la
Variable regresara Coeficiente Error t P respuesta es de 0,609 (Valor Codificado), cuando X2 est a su nivel
de regresin estandar mnimo (ausencia) y el valor de X2 que optimiza las respuesta es de
Constante (be) 3,118 0,153 20,27 0,000 - 0,297 (Valor Codificado) cuando no est presente Xl (nivel mnimo).
Xl -0,044 0,069 -0,63 0,535 En el experimento 2, cuando se utiliza los niveles ptimos de las
X2 -0,314 0,059 -5,25 0,000 dos variables, el punto ptimo disminuye para Xi y aumenta para X2.
1

= 2 Basado en estos resultados y en vista de la cercana del punto


R2 56,21% Raj = 52,23% Cp = 3 CMResid = 0,243
ptimo para el fenmeno en estudio se realiza el experimento 3.
264 Chacn I Anlisisde Regresiny Superficiesde Respuesta ChacinI Anlisisde Regresiny Superficiesde Respuesta 265

ANALISIS ESTADISTICO 3.- Obtencin de los puntos ptimos o estacionarios para cada
uno de los "k".ensayos
1 Anlisis de varianza para cada uno de los "k" ensayos
Ensayo 1
1.1.- Anlisis de la varianza (Ensayo 1).
A 2
F.deV. G.deL. SC CM Fc Y = 3,809 - 0,07XI - 0,272 Xl
Trat 4 6,869 1,719 35,48**
A

O Y / O X. =- 0,07 - 0,545XI =
EE 20 0,968 0,048 Xl = - 0,07/0,545 = - 0,128
Total 24 7,837 Ensayo 2
2
Y = 3,118 - 0,044X2 - 0,314X2
A

1.2.- Anlisis de la varianza (Ensayo 2) O y / OX2 =- 0,044 - 0,628X2 =


F.deV. G. de L. SC CM Fc X2 =- 0,044/0,628 =- 0,070
Trat 4 11,666 2,916 99,88**
4.- Interpretacin conjunta
EE 20 0,584 0,029
De acuerdo a los resultados del experimento 2, que incluye
Total 24 12,250
efectos independientes de las dos variables bajo estudio, el punto
ptimo de la variable respuesta se obtiene con valores codificados de
2.- Anlisis de regresin para cada uno de los "k" ensayos Xi =- 0,128 Y X2 = - 0,07.
2.2. Anlisis de regresin (Ensayo 1)
5.- Comparacin de los resultados de los experimentos 1y 2
Variable regresara Coeficiente Error t P
de regresin estandar Los resultados de los dos experimentos aparecen a continuacin:
Constante(bo) 3,809 0,102 37,15 0,000 Puntos timos en el E erimento 1 Puntos timos en el E erimento 2
Xl -0,070 0,046 -1,50 0,146 x. X2 x. x,
0609 -0,297 -0,128 -0,070
X2I -0,272 0,039 -6,94 0,000

R2 = 69,62% R!j = 66,86% Cp = 3 CMResid. = 0,010 De acuerdo a estos resultados el nivel ptimo de una variable
depende de la cantidad a la cual se encuentra la otra variable. En el
2.2.- Anlisis de Regresin (Ensayo 2 )
primer experimento la cantidad de la variable Xi que optimiza la
Variable regresara Coeficiente Error t P respuesta es de 0,609 (Valor Codificado), cuando X2 est a su nivel
de regresin estandar mnimo (ausencia) y el valor de X2 que optimiza las respuesta es de
Constante (be) 3,118 0,153 20,27 0,000 - 0,297 (Valor Codificado) cuando no est presente Xl (nivel mnimo).
Xl -0,044 0,069 -0,63 0,535 En el experimento 2, cuando se utiliza los niveles ptimos de las
X2 -0,314 0,059 -5,25 0,000 dos variables, el punto ptimo disminuye para Xi y aumenta para X2.
1

= 2 Basado en estos resultados y en vista de la cercana del punto


R2 56,21% Raj = 52,23% Cp = 3 CMResid = 0,243
ptimo para el fenmeno en estudio se realiza el experimento 3.
266 Chacn / Anlisis de Regresin y Superticies de Respuesta Chacn I Anlisis de Regresin y Superticies de Respuesta 267

C.- Experimento 3. Se ha realizado con un diseo Compuesto El anlisis indica que hay efecto evidente de la regresin, pero
Central Rotable Uniformemente preciso (k = 2, no = 5), en un existe falta de ajuste, lo cual implica que existe algn efecto
diseo completamente al azar. De acuerdo a la metodologa, los significativo no considerado en el modelo polinomial fijado. Estos
niveles reales del punto central (0, O) son los niveles ptimos efectos deben ser estudiados en futuros ensayos.
encontrados en el experimento 2 los resultados aparecen a
continuacin (Tabla 5.14).
2.- Anlisis de Regresin
Tabla 5.14. Datos obtenidos con el diseo Compuesto Central Rotable
Variable Coeficiente Error t P
k = 2, no = 5 (Experimento 3)
regresora de regresion estandar
Tratamiento Codificadas Respuesta
Constante (ha) 5,21987 0,29158 17,902 0,0000
Xl x, Y
Xl 0,15519 0,23535 0,673 0,5224
1 -1 -1 3,0
2 -1 X2 0,28021 0,23053 1,216 0,2036
1 4,5
3 1 -1 4,0 X21 -0,96630 0,24755 -3,908 0,0058
4 1 1 4,6 X22 -0,76624 0,24755 -3,099 0,0173
5 -1,414 2,7
6 1,414 XIX2 -0,22500 0,32600 -0,690 0,5123
7 2,8
= =
8 -1,414 3,1 R2 70,785% SC(residual) 2,97558 Press = 20,784

9 1,414 3,2
En este anlisis los efectos cuadrticos son significativos y los
10 5,1
lineales no son estadsticamente significativos. Esto .'debido proba-

11 5,3 blemente al estudio secuencial de la superficie de respuesta.

12 5,4

13 5,2 3.- Estudio de la superficie fijada

5,1
Se determin el punto estacionario Xo = [
0,060048l
0.174035
J.y se estudi

1.- Anlisis estadstico su naturaleza en base a los signos de las races caractersticas.
Anlisis de la varianza para el modelo de primer orden Races caractersticas Vectores propios
F.deV. G.deL. SC CM Fc Xl X2
Tratamiento 8 13,3243 1,6655 97,97** -1,431038 -0,409588 0,912271
Regresin 5 10,4165 2,0833 122,54** -2,033016 0,912271 0,409588
Falta de ajuste 3 2,9078 0,9693 57,02**
Error puro
Al = -1,431038 A2 = -2,033016
4 0,0680 0,0170
TOTAL 12 13,3923
266 Chacn / Anlisis de Regresin y Superticies de Respuesta Chacn I Anlisis de Regresin y Superticies de Respuesta 267

C.- Experimento 3. Se ha realizado con un diseo Compuesto El anlisis indica que hay efecto evidente de la regresin, pero
Central Rotable Uniformemente preciso (k = 2, no = 5), en un existe falta de ajuste, lo cual implica que existe algn efecto
diseo completamente al azar. De acuerdo a la metodologa, los significativo no considerado en el modelo polinomial fijado. Estos
niveles reales del punto central (0, O) son los niveles ptimos efectos deben ser estudiados en futuros ensayos.
encontrados en el experimento 2 los resultados aparecen a
continuacin (Tabla 5.14).
2.- Anlisis de Regresin
Tabla 5.14. Datos obtenidos con el diseo Compuesto Central Rotable
Variable Coeficiente Error t P
k = 2, no = 5 (Experimento 3)
regresora de regresion estandar
Tratamiento Codificadas Respuesta
Constante (ha) 5,21987 0,29158 17,902 0,0000
Xl x, Y
Xl 0,15519 0,23535 0,673 0,5224
1 -1 -1 3,0
2 -1 X2 0,28021 0,23053 1,216 0,2036
1 4,5
3 1 -1 4,0 X21 -0,96630 0,24755 -3,908 0,0058
4 1 1 4,6 X22 -0,76624 0,24755 -3,099 0,0173
5 -1,414 2,7
6 1,414 XIX2 -0,22500 0,32600 -0,690 0,5123
7 2,8
= =
8 -1,414 3,1 R2 70,785% SC(residual) 2,97558 Press = 20,784

9 1,414 3,2
En este anlisis los efectos cuadrticos son significativos y los
10 5,1
lineales no son estadsticamente significativos. Esto .'debido proba-

11 5,3 blemente al estudio secuencial de la superficie de respuesta.

12 5,4

13 5,2 3.- Estudio de la superficie fijada

5,1
Se determin el punto estacionario Xo = [
0,060048l
0.174035
J.y se estudi

1.- Anlisis estadstico su naturaleza en base a los signos de las races caractersticas.
Anlisis de la varianza para el modelo de primer orden Races caractersticas Vectores propios
F.deV. G.deL. SC CM Fc Xl X2
Tratamiento 8 13,3243 1,6655 97,97** -1,431038 -0,409588 0,912271
Regresin 5 10,4165 2,0833 122,54** -2,033016 0,912271 0,409588
Falta de ajuste 3 2,9078 0,9693 57,02**
Error puro
Al = -1,431038 A2 = -2,033016
4 0,0680 0,0170
TOTAL 12 13,3923
268 Chacn I Anlisisde Regresin y Superficiesde Respuesta

Los valores negativos de ambas races caractersticas indican


claramente que el punto estacionario es un p~to ptimo (mximo) en
Referencias Bibliogrficas
el cual, el valor de la respuesta estimada es y = 5,2489

Tabla 5.15. Ilustracin del anlisis de aristas para la estimacin de la Anscombe, F. J.; J. W. Tukey. 1963. The Examinations and Analysis
mxima respuesta ofResiduals. Teehnometrics 5: 141-160.
Radios Respuesta Error Valores no Codificados Atkinson, A. C.; W. G. Hunter. 1968. The Design o Experiments for
Codificados estimada estndar Xl X2 Parameter Estimations. Technometrics 10: 271~289.
0,0 5,219870 0,291585 0,000000 0,000000 Ben-Israel, A.; T. N. Greville. 1974. Generalizad Inverse Theoryand
0,051464 0,131702 Aplications. New York, John Wiley and Son. 480 p.
0,1 5,247387 0,290581
0,068458 0,274389 Bliss, C. 1. 1970 . .8tatistics in Biology. New York, Me Graw-:fIill.
0,2 5,240938 0,287858
Volumen Il. 120 p.
0,3 5,202584 0,285067 0,058576 0,420136
Box G., E. P. 1954. The Exploration and Explotation of Response
0,4 5,133678 0,284740 0,031845 0,564703 Surface: Some General considerations and Examples. Biometrics
-0,004853 0,706983 10: 16-60.
0,5 5,033486 0,290443
-0,047596 0,847064 Box G.; E. P.; N. R. Draper, 1959. A Basie for the aeleetion of a
0,6 4,906933 0,306175
Response Surface Design ..J. Amer. Statist. Assoc. 54: 622"-654.
0,7 4,749765 0,335350 -0,094184 0,985309
Box G., E. P.; J. S. Hunter. 1957. Multifactor experimental Design for
0,8 4,562631 0,379895 -0,143340 1,122082 exploring response surfaces. J. R. Statis. Soc., Serie B. 13(1):
1,257682 195-241.
0,9 4,348626 0,440140 -0,194288
-0,246530 1,292343 Box G., E. P.; H. L. Lucas. 1959. Design of Experiments in Nonlinear
1,0 4,104814 0,015415
Situations. Biometrika 46: 77-90.
Los resultados presentados en l.a Tabla 5.15 indican que la
Box G., E. P.; K. B. Wilson. 1951. On the Experimental Attainment of
respuesta mxima se obtiene con Xi = 0,060048, Xz = 0,1740035. Con
Optimum Conditions. J. R. Statis. SocoSerie B 13: 1-45
estos resultados se cumple el objetivo fundamental de estos
experimentos secuenciales, y es la. obtencin de puntos ptimos (en Box G., E. P.; P. V. Youle. 1955. The Explorations and Explotation o
este caso puntos mximos). Response Surface: An Example o the link Between the Fitted
Surface and the Basic Mechanism o the System. Bometrics
11:287322.
Box, M. J. 1971. Bias in Nonlinear Estimation (with discussion). J. R.
Statist. SocoSerie B. 33: 171-201.
Boyd, D. A. 1972. Some Recent Ideas on Fertilizer Response Curves.
Proc. Ninth. Int. Conj. Potash. Instit: 461-473.
Cady, F. B.; D. M. Allen. 1972. Combining experimentos to predict
future Yield data. Agronomy J. 64: 21-24.
268 Chacn I Anlisisde Regresin y Superficiesde Respuesta

Los valores negativos de ambas races caractersticas indican


claramente que el punto estacionario es un p~to ptimo (mximo) en
Referencias Bibliogrficas
el cual, el valor de la respuesta estimada es y = 5,2489

Tabla 5.15. Ilustracin del anlisis de aristas para la estimacin de la Anscombe, F. J.; J. W. Tukey. 1963. The Examinations and Analysis
mxima respuesta ofResiduals. Teehnometrics 5: 141-160.
Radios Respuesta Error Valores no Codificados Atkinson, A. C.; W. G. Hunter. 1968. The Design o Experiments for
Codificados estimada estndar Xl X2 Parameter Estimations. Technometrics 10: 271~289.
0,0 5,219870 0,291585 0,000000 0,000000 Ben-Israel, A.; T. N. Greville. 1974. Generalizad Inverse Theoryand
0,051464 0,131702 Aplications. New York, John Wiley and Son. 480 p.
0,1 5,247387 0,290581
0,068458 0,274389 Bliss, C. 1. 1970 . .8tatistics in Biology. New York, Me Graw-:fIill.
0,2 5,240938 0,287858
Volumen Il. 120 p.
0,3 5,202584 0,285067 0,058576 0,420136
Box G., E. P. 1954. The Exploration and Explotation of Response
0,4 5,133678 0,284740 0,031845 0,564703 Surface: Some General considerations and Examples. Biometrics
-0,004853 0,706983 10: 16-60.
0,5 5,033486 0,290443
-0,047596 0,847064 Box G.; E. P.; N. R. Draper, 1959. A Basie for the aeleetion of a
0,6 4,906933 0,306175
Response Surface Design ..J. Amer. Statist. Assoc. 54: 622"-654.
0,7 4,749765 0,335350 -0,094184 0,985309
Box G., E. P.; J. S. Hunter. 1957. Multifactor experimental Design for
0,8 4,562631 0,379895 -0,143340 1,122082 exploring response surfaces. J. R. Statis. Soc., Serie B. 13(1):
1,257682 195-241.
0,9 4,348626 0,440140 -0,194288
-0,246530 1,292343 Box G., E. P.; H. L. Lucas. 1959. Design of Experiments in Nonlinear
1,0 4,104814 0,015415
Situations. Biometrika 46: 77-90.
Los resultados presentados en l.a Tabla 5.15 indican que la
Box G., E. P.; K. B. Wilson. 1951. On the Experimental Attainment of
respuesta mxima se obtiene con Xi = 0,060048, Xz = 0,1740035. Con
Optimum Conditions. J. R. Statis. SocoSerie B 13: 1-45
estos resultados se cumple el objetivo fundamental de estos
experimentos secuenciales, y es la. obtencin de puntos ptimos (en Box G., E. P.; P. V. Youle. 1955. The Explorations and Explotation o
este caso puntos mximos). Response Surface: An Example o the link Between the Fitted
Surface and the Basic Mechanism o the System. Bometrics
11:287322.
Box, M. J. 1971. Bias in Nonlinear Estimation (with discussion). J. R.
Statist. SocoSerie B. 33: 171-201.
Boyd, D. A. 1972. Some Recent Ideas on Fertilizer Response Curves.
Proc. Ninth. Int. Conj. Potash. Instit: 461-473.
Cady, F. B.; D. M. Allen. 1972. Combining experimentos to predict
future Yield data. Agronomy J. 64: 21-24.

Das könnte Ihnen auch gefallen