Sie sind auf Seite 1von 299

STATPOINT, Inc.

STATGRAPHICS® Centurion XV

Manual del Usuario


STATGRAPHICS ® CENTURION XV
MANUAL DEL USUARIO

© 2006 by StatPoint, Inc.


www.statgraphics.com

Todos los derechos reservados. No está permitido la reproducción total o parcial de esta obra, ni
su tratamiento o transmisión por cualquier medio o método, sin la autorización escrita o
consentimiento de StatPoint, Inc.

Título en Inglés: STATGRAPHICS® Centurion XV User Manual

STATGRAPHICS es una marca registrada. STATGRAPHICS Centurion XV, StatPoint, StatFolio,


StatGallery, StatReporter, StatPublish, StatWizard, StatLink y SnapStats son marcas regsitradas.
Todos los productos o servicios mencionados en este libro son marcas registradas de sus respectivos
dueños.

Impreso en los Estados Unidos de Norteamérica.


Contenido
Contenido ...........................................................................................................................iii
Prefacio.............................................................................................................................. vii
Comenzando a Usar el Statgraphics ................................................................................... 1
1.1 Instalación.......................................................................................................................................... 1
1.2 Ejecutando el Programa .................................................................................................................. 6
1.3 Captura de Datos............................................................................................................................11
1.4 Leer un Archivo de Datos Guardaro........................................................................................... 17
1.5 Analizando los Datos.....................................................................................................................19
1.6 Usando la Barra de Herramientas de Análisis ............................................................................23
1.7 Diseminando los Resultados.........................................................................................................29
1.8 Guardando su Trabajo...................................................................................................................30
Manejo de Datos ................................................................................................................31
2.1 El Libro de Datos...........................................................................................................................32
2.2 Acceso a los datos ..........................................................................................................................35
2.2.1 Leyendo Datos de un Archivo STATGRAPHICS Centurion..........................................35
2.2.2 Leyendo Datos de un Archivo Excel, ASCII, XML o Externo .......................................37
2.2.3 Transferir Datos usando Copiar y Pegar..............................................................................39
2.2.4 Consultando una Base de Datos ODBC..............................................................................40
2.3 Manipulando los Datos..................................................................................................................40
2.3.1 Copiando y Pegando Datos ................................................................................................... 41
2.3.2 Creando Nuevas Variables desde Columnas Existentes....................................................41
2.3.3 Transformando Datos ............................................................................................................45
2.3.4 Ordenando Datos....................................................................................................................49
2.3.5 Recodificando Datos...............................................................................................................50
2.3.6 Combinando Varias Columnas..............................................................................................51
2.4 Generación de Datos .....................................................................................................................56
2.4.1 Generando Patrones de Datos ..............................................................................................56
2.4.2 Generando Números Aleatorios ...........................................................................................59
2.5 Propiedades del Libro de Datos...................................................................................................60
Elaborando Análisis Estadísticos ..................................................................................... 62
3.1 Cuadros de Diálogo para Captura de Datos...............................................................................64
3.2 Ventana de Análisis ........................................................................................................................66
3.2.1 Ícono Captura de Datos .........................................................................................................67

iii / Contenido
3.2.2 Ícono de Tablas ....................................................................................................................... 68
3.2.3 Ícono de Gráficas .................................................................................................................... 69
3.2.4 Ícono para Guardar Resultados............................................................................................. 70
3.2.5 Ícono de Opciones de Análisis.............................................................................................. 72
3.2.6 Ícono de Opciones de Ventana............................................................................................. 73
3.2.7 Íconos de Opciones Gráficas ................................................................................................ 75
3.2.8 Ícono de Excluir ...................................................................................................................... 76
3.3 Imprimiendo Resultados ............................................................................................................... 77
3.4 Publicando Resultados................................................................................................................... 80
Gráficas...............................................................................................................................81
4.1 Modificando Gráficas .................................................................................................................... 82
4.1.1 Opciones de Diseño................................................................................................................ 83
4.1.2 Opciones de Mallas ................................................................................................................. 85
4.1.3 Opciones de Líneas ................................................................................................................. 87
4.1.4 Opciones de Puntos................................................................................................................ 89
4.1.5 Opciones del Título Principal................................................................................................ 91
4.1.6 Opciones de Escalas de los Ejes ........................................................................................... 93
4.1.7 Opciones de Relleno ............................................................................................................... 95
4.1.8 Opciones de Texto, Etiquetas y Leyendas........................................................................... 96
4.1.9 Añadir Texto Nuevo ............................................................................................................... 96
4.2 Separando Puntos en un Gráfico de Dispersión ....................................................................... 98
4.3 Resaltando Puntos en un Gráfico de Dispersión ...................................................................... 99
4.4 Suavizando un Gráfico de Dispersión ......................................................................................102
4.5 Identificando Puntos.................................................................................................................... 103
4.6 Copiando Gráficas a otras Aplicaciones ................................................................................... 107
4.7 Guardando Gráficas como Archivos de Imágen.....................................................................108
StatFolios.......................................................................................................................... 110
5.1 Guardando su Sesión de Trabajo............................................................................................... 110
5.2 Rutinas del StatFolio .................................................................................................................... 112
5.3 Actualizando Datos Vinculados................................................................................................. 115
5.4 Publicando Datos en Formato HTML .....................................................................................116
Usando el StatGallery....................................................................................................... 119
6.1 Configurando una página del StatGallery .................................................................................119
6.2 Copiando Gráficas al StatGallery............................................................................................... 121
6.3 Sobreponiendo Gráficas.............................................................................................................. 122
6.4 Modificando una Gráfica dentro del StatGallery.....................................................................123
6.4.1 Añadiendo Detalles Gráficos............................................................................................... 123
6.4.2 Modificando Detalles Gráficos ...........................................................................................124
6.4.3 Eliminando Detalles Gráficos .............................................................................................124

iv / Contenido
6.5 Imprimiendo el StatGallery.........................................................................................................125
Usando el StatReporter ....................................................................................................126
7.1 La Ventana StatReporter ............................................................................................................126
7.2 Copiando la Salida al StatReporter.............................................................................................127
7.3 Modificando la Salida del StatReporter .....................................................................................128
7.4 Guardando el StatReporter .........................................................................................................128
Usando el StatWizard .......................................................................................................129
8.1 Accesando Datos o Creando un Nuevo Estudio ....................................................................130
8.2 Seleccionando un Análisis para sus Datos ................................................................................134
8.3 Buscando por Pruebas y Estadísticas Deseadas.......................................................................139
Preferencias del Sistema...................................................................................................142
9.1 Funcionalidad General del Sistema............................................................................................142
9.2 Imprimiendo..................................................................................................................................145
9.3 Gráficas ..........................................................................................................................................146
Tutorial #1: Analizando una Muestra ..............................................................................148
10.1 Ejecutando el Procedimiento Análisis de Una Variable .......................................................149
10.2 Resumen Estadístico..................................................................................................................151
10.3 Gráfico de Caja y Bigotes..........................................................................................................155
10.4 Evaluando Datos Aberrantes ...................................................................................................157
10.5 Histograma ..................................................................................................................................161
10.6 Gráfico de Cuantiles y Percentiles ...........................................................................................165
10.7 Intervalos de Confianza.............................................................................................................166
10.9 Límites de Tolerancia.................................................................................................................170
Tutorial #2: Comparando Dos Muestras.........................................................................173
11.1 Ejecutando el Procedimiento de Comparación de dos Muestras........................................173
11.2 Resumen Estadístico..................................................................................................................175
11.3 Histograma Dual ........................................................................................................................176
11.4 Gráfico Dual de Caja y Bigotes ................................................................................................177
11.5 Comparando Desviaciones Estándar ......................................................................................179
11.6 Comparando Medias..................................................................................................................180
11.7 Comparando Medianas..............................................................................................................181
11.8 Gráfico de Cuantiles ..................................................................................................................182
11.9 Prueba de Kolmogorov-Smirnov.............................................................................................183
11.10 Gráfico Cuantil-Cuantil ...........................................................................................................184
Tutorial #3: Comparando más de Dos Muestras ............................................................185
12.1 Ejecutando Comparación de Varias Muestras .......................................................................186
12.2 Análisis de Varianza ...................................................................................................................190
12.3 Comparando Medias..................................................................................................................192
12.4 Comparando Medianas..............................................................................................................194

v / Contenido
12.5 Comparando Desviaciones Estándar ......................................................................................196
12.6 Gráficos de Residuos................................................................................................................. 196
12.7 Gráfico Análisis de Medias (ANOM)......................................................................................198
Tutorial #4: Análisis de Regresión .................................................................................. 199
13.1 Análisis de Correlación.............................................................................................................. 200
13.2 Regresión Simple........................................................................................................................ 204
13.3 Ajustando un Modelo No Lineal .............................................................................................207
13.4 Examinando los Residuos......................................................................................................... 209
13.5 Regresión Múltiple ..................................................................................................................... 211
Tutorial #5: Analizando Datos Categóricos ....................................................................220
14.1 Resumir Datos Categóricos ...................................................................................................... 221
14.2 Análisis de Pareto ....................................................................................................................... 222
14.3 Tabulación Cruzada ................................................................................................................... 225
14.4 Comparando Dos o Más Muestras..........................................................................................231
14.5 Tablas de Contingencia ............................................................................................................. 235
Tutorial #6: Análisis Capabilidad de Procesos ...............................................................237
15.1 Graficando los Datos................................................................................................................. 238
15.2 Procedimiento Análisis de Capabilidad...................................................................................240
15.3 Trabajando con Datos No-Normales .....................................................................................243
15.4 Índices de Capabilidad............................................................................................................... 251
15.5 Calculadora Seis Sigma .............................................................................................................. 254
Tutorial #7: Diseño de Experimentos .............................................................................257
16.1 Seleccionando Diseños de Cribado .........................................................................................258
16.2 Creando el Diseño...................................................................................................................... 262
16.3 Analizando los Resultados ........................................................................................................ 269
16.4 Graficando el Modelo Ajustado............................................................................................... 277
16.5 Optimizando la Respuesta ........................................................................................................ 281
16.6 Experimentación Adicional ...................................................................................................... 282
Lecturas Recomendadas..................................................................................................285
Archivos de Datos ............................................................................................................286
Indice................................................................................................................................287

vi / Contenido
Prefacio
Este manual está diseñado para enseñar a los usuarios del STATGRAPHICS Centurion XV la
operación básica del programa y su uso en el análisis de datos. Ofrece una visión general del sistema,
incluyendo la instalación, el manejo de datos, la creación de análisis estadísticos y la impresión y
publicación de resultados. Debido a que la intención del libro es agilizar el aprendizaje del programa,
este se enfoca en explicar las características más importantes del programa, más que en abarcar hasta el
más mínimo detalle del mismo. El menú de Ayuda incluído en el STATGRAPHICS Centurion XV
dá acceso a una extensa cantidad de información adicional, incluyendo archivos PDF independientes
para cada uno de los aproximadamente 150 procedimientos estadísticos existentes.

Los primeros nueve capítulos comprenden el uso básico del programa. Aunque posiblemente ud.
pudiera ingeniárselas para entender la mayoría de este material al estar usando el programa por su
cuenta, el leer estos capítulos le ayudarán a lograrlo más rápidamente además de asegurarse no pasar
por alto ciertas características de vital importancia.

Los últimos siete capítulos incluyen tutoriales cuyo propósito es:

1. Introducir al usuario con algunos de los análisis estadísticos más comunes.

2. Ilustrar como las características exclusivas del STATGRAPHICS Centurion facilitan el


proceso del análisis de datos.

Se recomienda revisar los tutoriales, debido a que le pueden proporcionar una buena idea de optimizer
el uso del STATGRAPHICS Centurion para analizar sus datos.

NOTA: una copia de este manual en formato PDF se incluye en el CD del programa y puede ser
accesado desde el menú de Ayuda. En el documento PDF, todas las gráficas están a color. Los
archivos de datos y los StatFolios referenciados en el manual también se incluyen en el programa.

StatPoint, Inc.
July, 2006

vii / Prefacio
viii / Prefacio
1
Capítulo

Comenzando a Usar el
Statgraphics
Instalación del STATGRAPHICS Centurion XV,iniciando el programa
y creando un archivo de datos básico.

1.1 Instalación
STATGRAPHICS Centurion se distribuye de dos maneras: desde Internet, bajando un solo
archivo que debe descargarse en su computadora, o como un conjunto de archivos en un CD-
ROM. Para ejecutar el programa, este debe ser instalado en el disco duro. Como en la mayoría
de los programas de Windows, la instalación es muy sencilla:

Paso 1: Si recibió el programa en un CD, inserte el CD en el manejador del CD-ROM. Después


de unos segundos, se iniciará automáticamente el programa de instalación. En caso contrario,
abra el Explorador de Windows y ejecute el archivo setup.exe en el directorio raíz
correspondiente al CD-ROM.

Si descargó el programa desde Internet, encuentre el archivo descargado y haga doble-clic sobre
el mismo para iniciar el proceso de instalación.

Paso 2: Sucesivas ventanas de diálogo aparecerán en la pantalla. La primera le dá la bienvenida


al STATGRAPHICS Centurion. Solo pulse el botón Siguiente.

1/ Comenzando
Paso 3: La segunda ventana muestra el contrato de licencia del sofware:

Figura 1-1. Aceptación del Contrato de Licencia


Lea este contrato con cuidado. Si acepta los terminos del mismo, haga clic en la opción indicada
y presione Siguiente para continuar. Si no esta de acuerdo, presione Cancelar. Si no aceptó las
condiciones del contrato, entonces no podrá hacer uso del programa.

2/ Comenzando
Paso 4: La siguiente ventana le solicitará la información sus datos personales y el número de
serie que le fué asignado al comprar el programa:

Figura 1-2. Ventana de Información del Usuario

Capture la información solicitada. Si aún no ha comprado el programa, deje los espacios del
número de serie en blanco. El programa automáticamente se ejecutará en modo de evaluación
por 30 días desde que lo instala por primera vez en su computadora. Después de los 30 días,
debe comprar la licencia del producto para poder seguir usando el programa. Una vez que la
licencia de evaluación vence, solo el administrador de la licencia aparecerá.

3/ Comenzando
Paso 5: La siguiente ventana indica el directorio en donde el programa será instalado:

Figura 1-3. Carpeta de Instalación


En forma predeterminada, el STATGRAPHICS Centurion se instala en el subdirectorio
STATGRAPHICS Centurion XV de Archivos de Programas. Si está instalando el programa en un
servidor de red, instálelo en cualquier lugar en donde los usuarios potenciales tengan privilegios de
lectura. No es necesario que los usuarios tengan privilegios de escritura. Consulte la página de Support
en www.statgraphics.com para obtener las instrucciones completas para instalar el programa en redes.

4/ Comenzando
Paso 6: La siguiente ventana de diálogo le permite especificar el tipo de instalación a efectuar:

Figura 1-4. Tipo de Instalación


Seleccione una de las siguientes opciones:

Típica – instala el programa, los archivos de ayuda, la documentación y archivos


muestra de datos. Esto requiere un poco más de 50MB de espacio en su disco duro.

Mínima – solo instala el programa y los archivos de ayuda. Esto requiere


aproximadamente de 25MB de espacio en su disco duro.

Personalizada – instala solo los componentes que ud. decida.

Puede ahorrarse espacio en el disco duro seleccionando una instalación mínima, pero no tendrá
acceso a la documentación en-línea y a los archivos muestra de datos incluídos.

5/ Comenzando
Paso 7: Siga las instrucciones que faltan para terminar la instalación. Cuando esta sea terminada
aparecerá una última ventana:

Figura 1-5. Final de la Instalación


Haga Clic en Terminar para concluir la instalación.

1.2 Ejecutando el Programa


Como parte del proceso de instalación se agregará un ícono de Acceso Directo del STATGRAPHICS
Centurion en el menu de Inicio de Windows así como al Escritorio. Para ejecutar el programa:

Paso 1: Haga Clic sobre el ícono de acceso directo que se encuentra en el Escritorio, o presione
el botón de Inicio ubicado en la esquina inferior izquierda de su monitor y haga clic sobre el
ícono de Statgraphics. También puede seleccionar en el Explorador de Windows la carpeta de
Archivos de Programas - Statgraphics - STATGRAPHICS Centurion XV y hacer clic en el ícono de la
aplicación sgwin para ejecutar el programa.
6/ Comenzando
Paso 2: Cuando el STATGRAPHICS Centurion se cargue, se abrirá una nueva ventana. La
primera vez que ejecute el programa la ventana con la información de su licencia aparecerá:

Figura 1-6. Administrador de la Licencia

Dentro de los primeros 30 días después de haber recibido su número de serie, debe contactar a
StatPoint, Inc. Para registrar su licencia y obtener un código de activación. De otra forma, el
programa dejará de funcionar temporalmente.

Para obtener un código de activación, pulse el botón de Obtener Código:

7/ Comenzando
Figura 1-7. Registro de la Licencia
Capture la información requerida y después contáctese con StatPoint por cualquiera de las
siguientes formas:

1. Pulse el botón de Enviar por e-mail para enviar la información por Internet.

2. Pulse el botón Enviar por Fax para enviar por fax la información impresa.

3. Llamar al teléfono mencionado. Tenga a mano tanto el número de Número de Serie como
la Llave del Producto que se muestran en la ventana de Registro.

8/ Comenzando
Cualquier método que utilize, StatPoint verificará la información provista y mandará de regreso
un código de activación. La próxima vez que ejecute el programa, capture el código en el
campo de Código de Activación en la ventana del Administrador de la Licencia y pulse el botón de
Actualizar. A partir de este momento, la ventana del Administrador de la Licencia dejará de
aparecer .

Paso 3: La primera vez que ejecute el programa, también deberá elegir el tipo de menú de
sistema que desea usar:

Figura 1-8. Selección del Menú


Puede elegir entre el menú clásico del STATGRAPHICS, el cuál organiza los procedimientos
estadísticos con encabezados tales como Gráficos, Describir, Comparar, Relacionar, Pronosticar, CEP y
DE, o el menú Seis Sigma, el cuál organiza los procedimientos con encabezados Definir, Medir,
Analizar, Mejorar, Controlar y Pronosticar. Ambos menús contienen los mismos procedimientos,
solo que la organización es diferente. Ud. Puede cambiar su decisión inicial en cualquier
momento seleccionando la opción de Preferencias dentro del menú Editar en el programa, después
del cual debe salirse del programa para que el cambio tenga efecto.

Paso 4: Se creará la ventana principal del STATGRAPHICS. La primera vez que ejecute el
progama, una ventana de diálogo adicional aparecerá con la información del StatWizard:

9/ Comenzando
Figura 1-9. Ventana Inicial del StatWizard
El StatWizard está diseñado para auxiliar a nuevos usuarios a crear rápidamente un archivo de datos y
comenzar a analizar su contenido. Puede seguir las instrucciones del StatWizard o hacer clic en
Cancelar para suspender el StatWizard. Si no quiere que aparezca la ventana del StatWizard cada vez
que inicie el STATGRAPHICS Centurion, inhabilite la opción de “Mostrar el StatWizard al Inicio”
antes de que abandone esta ventana de diálogo.

Las sesiones que siguen usan el StatWizard para crear un archivo de datos conteniendo los datos del
censo de los Estados Unidos del año 2000.

10/ Comenzando
1.3 Captura de Datos
Para poder analizar datos en el STATGRAPHICS Centurion, estos deben ser colocados en el
Libro de Datos del STATGRAPHICS. El Libro de Datos consiste de 10 hojas de datos,
referenciadas por las letras A hasta la J, cada una conteniendo un arreglo rectangular de filas y
columnas:

Figura 1-10. El Libro de Datos del STATGRAPHICS


En una hoja de datos típica, cada fila contiene información de una muestra individual, caso u
observación, mientras que cada columna representa una variable.

Por ejemplo, supongamos que desea usar el STATGRAPHICS Centurion para analizar datos del
censo de los EUA del año 2000. Una pequeña porción de los resultados de ese censo se
muestran abajo:

11/ Comenzando
State Population Median Age Percent Female Per Capita Income
(Estado) (Población) (Edad Promedio) (% Mujeres) (Ingreso per Capita)
Alabama 4,447,100 35.8 51.7 $18,819
Alaska 626,932 32.4 48.3 $22,660
Arizona 5,130,632 34.2 50.1 $20,275
Arkansas 2,673,400 36.0 51.2 $16,904
California 33,871,648 33.3 50.2 $22,711
Colorado 4,301,261 34.3 49.6 $24,049
Figura 1-11. Datos del Censo de EUA del año 2000
Cuando se capturan estos datos en una hoja de datos del STATGRAPHICS Centurion, la
información de cada estado se colocará en una fila diferente. Se crearán cinco columnas para
almacenar los nombres de los estados y los datos censales.

Para capturar datos como los mostrados arriba en el STATGRAPHICS Centurion, tiene dos
opciones:

1. Escribir los datos directamente en el Libro de Datos del STATGRAPHICS Centurion.

2. Capturar los datos en otro programa como puede ser Excel y después leerlos o copiarlos
en el STATGRAPHICS Centurion.

En esta sesión, utilizaremos la primera opción, además de usar el StatWizard para configurar la
hoja de datos.

Cuando la ventana del StatWizard aparezca, acepte la selección predeterminada (“Capturar


Nuevos Datos o Importarlos desde una Fuente Externa”) y pulse Aceptar. (Nota: Si se salió del
StatWizard, puede iniciarlo nuevamente pulsando el ícono del sombrero de hechicero en la
barra principal). En la segunda ventana, indique que desea capturar sus datos usando el teclado:

12/ Comenzando
Figura 1-12. Especificación de localización de los datos en el StatWizard
Se presentarán entonces una serie de ventanas para identificar la información a ser capturada en
cada columna de la hoja de trabajo:

13/ Comenzando
Figura 1-13. Definición de Columnas
Cada columna en una hoja de trabajo del STATGRAPHICS Centurion tiene un nombre, un
comentario y una clase asociada a ella:

• Nombre– Asigne a cada columna un nombre único que contenga de 1 a 32 caracteres.


Estos nombres son utilizados por el programa para identificar las variables que serán
analizadas al seleccionar un procedimiento estadístico. También sirven como etiquetas
predeterminadas en la mayoría de las gráficas. Los nombres pueden contener cualquier
caracter excepto aquellos utilizados epara indicar operaciones aritméticas, como + o - . Sin
embargo, los nombres no pueden iniciar con un dígito numérico, no son sensibles a las
mayúsculas y minúsculas y los espacios son permitidos. Cuando escriba un nombre
inválido el programa desplegará un mensaje de error.

• Comentario – Capture un comentario que identifique los datos en la columna. Los


comentarios pueden tener hasta 64 caracteres y son opcionales.

• Tipo – Especifique el tipo de datos que serán capturados en la columna. En el ejemplo del
censo, la primera columna que contiene los nombres de los estados debe definirse como

14/ Comenzando
Caracteres. Las otras columnas pueden definirse como Numérica o como Enteros o Decimales
Fijos si desea restringir el tipo de datos a capturar. Para mayor información acerca de la
lista completa de los tipos de columnas, ver el Capítulo 2.

Después de haber definido cada columna, pulse Aceptar. Cuando las cinco columnas hayan sido
definidas, pulse Cancelar. Se desplegará una Hoja de Datos vacía mostrando las columnas que
acaba de crear:

Figura 1-14. Hoja de Datos STATGRAPHICS Centurion con los Nombres de las Columnas
Ahora capture los datos como lo haría en cualquier hoja de cálculo, utilizando las flechas del
teclado para moverse de celda a celda. NO usar comas al capturar números grandes. Cuando
haya terminado, la Hoja de Datos debe tener la siguiente apariencia:

15/ Comenzando
Figura 1-15. Hoja de Datos STATGRAPHICS Centurion después de la Captura de 6 registros de Datos
Finalmente, debe guardar el archivo de datos. Seleccione Archivo – Guardar – Guardar Datos del
menú principal. Escoja el nombre del archivo para guardar los datos:

16/ Comenzando
Figura 1-16. Ventana de Diálogo para Guardar Archivo de Datos

Es recomendable que asigne un nombre significativo a cada archivo de datos. Los Archivos de
Datos en el STATGRAPHICS Centurion son guardados en su disco duro automáticamente con
la extensión “.sf6” y se pueden leer exclusivamente por el STATGRAPHICS. Cuando guarde el
archivo, usted puede cambiar las propiedades en el campo Guardar Tipo Como a un formato
diferente para que otros programas puedan leerlo. Tome nota que los archivos guardados en
otros formatos pueden tardarse más en ser leídos por el STATGRAPHICS que los datos
guardados como archivos SF6.

1.4 Leer un Archivo de Datos Guardaro


Una vez que los datos han sido capturados en una hoja de datos, estos están listos para su
análisis. Para hacer el ejemplo más interesante, sin embargo, vamos a retomar el caso del censo
para todos los 50 estados y el Distrito de Columbia, que viene incluído en el paquete
STATGRAPHICS Centurion en un archivo llamado census2000.sf6. Para abrir este archivo de

17/ Comenzando
datos, seleccione Archivo – Abrir – Abrir Datos desde el menú principal. Se le pedirá entonces
que especifique el origen de los datos a los quiere tener acceso:

Figura 1-17. Ventana de Diálogo para Especificar Origen de los Datos


La selección predeterminada en este caso es la correcta. Ahora, seleccione el nombre del archivo
que contiene los datos:

Figura 1-18. Ventana de Diálogo para Abrir el Archivo de Datos

18/ Comenzando
El archivo muestra se localiza en el directorio para Archivos de Datos predeterminado
(generalmente c:\Archivos de Programas\Statgraphics\STATGRAPHICS Centurion XV\Data).

Al abrir el archivo se cargan las 51 filas completas de datos en su hoja de trabajo:

Figura 1-19. Hoja de Datos mostrando el contenido del Archivo Census2000.sf6

1.5 Analizando los Datos


Una vez que los datos han sido cargados en el Libro de Datos del STATGRAPHICS Centurion,
estos pueden ser analizados por cualquiera de los más de 150 procedimientos estadísticos de las
siguientes maneras:

1. Seleccionando el procedimiento deseado del menú principal.

2. Pulsando cualquiera de los botones de acceso directo en la Barra de Herramientas.

3. Evocando el StatWizard al pulsar el ícono con el sombrero de hechicero en la Barra de


Herramientas.

Empezemos resumiendo la variabilidad del ingreso per capita entre los diferentes estados. El
mejor procedimiento para resumir una sola columna de datos numéricos es el Análisis de Una

19/ Comenzando
Variable. Este procedimiento calcula un resúmen de estadísticas tales como la media de la
muestra y la desviación estándar. También crea varios gráficos, incluyendo un histograma y el
gráfico de caja y bigotes.

La ubicación del procedimiento Análisis de Una Variable va a depender del menú que este
utilizando:

1. Menú Clásico: Seleccionar Describir – Datos Numéricos – Análisis de Una Variable.

2. Menú Seis Sigma: Seleccionar Analizar – Datos Contínuos – Análisis de Una Variable.

Como todos los procedimientos estadísticos, el Análisis de Una Variable inicia desplegando una
ventana de diálogo para captura de datos:

Figura 1-20. Ventana de Diálogo en Análisis de Una Variable para Captura de Datos
El cuadro del lado izquierdo enlista los nombres de todas las columnas en las hojas de datos abiertas
que contengan datos. Para analizar los datos en la columna de Ingreso Per Capita, haga clic en su
nombre y luego haga clic en el botón con la flecha negra al lado del campo de Datos. Esto coloca el
nombre de la columna en el espacio del campo de Datos. Deje el campo de Seleccionar en blanco (se
usa solamente cuando desea analizar un subconjunto de filas de la hoja de datos en lugar de todas las
filas).

Cuando pulse Aceptar, una nueva ventana de análisis será creada:

20/ Comenzando
Figura 1-21. Ventana de Análisis del Análisis de Una Variable
La ventana contiene varios “paneles”, divididos por barras divisoras movibles. Los paneles en la
izquierda despliegan salidas tabulares, mientras que los de la derecha despliegan salidas gráficas.
Si da doble clic en el panel superior izquierdo, la tabla con el resúmen estadístico será
maximizado:

21/ Comenzando
Figura 1-22. Panel Maximizado con el Resúmen Estadístico
Diferentes estadísticos interesantes se mencionan en la tabla. De los n = 51 estados además del
D.C., el ingreso per capita oscila entre $15,853 y $28,766. El promedio del ingreso per capita es
de $20,934.50.

Por debajo de la tabla se encuentra el texto generado por el StatAdvisor, el cuál nos ofrece una
interpretación básica de los resultados. En este caso, el StatAdvisor se concentra en los dos
estadísticos mostrados en rojo, que miden la simetría y la kurtosis en los datos. Como lo explica
el StatAdvisor, datos que provengan de una distribución normal o Gaussiana deberían arrojar
valores con un sesgo y una kurtosis estandarizada entre –2 y +2. En este caso, ambos
estadísticos están dentro del rango, lo que nos indica que una curva normal en forma de
campana es un modelo razonable para estas observaciones, aunque el sesgo está muy cerca de
ser estadísticamente significativo.

Dando doble clic nuevamente en el panel del resúmen de estadísticas se restaura la vista original
de los diferentes paneles.
Dando doble clic en el panel superior derecho se maximize el Gráfico de Caja y Bigotes:

22/ Comenzando
Figura 1-23. Panel Maximizado del Gráfico de Caja y Bigotes
El gráfico de Caja y Bigotes, inventado por John Tukey, ofrece un resúmen de 5-números de una
muestra de datos. La caja central abarca la mitad de los datos, extendiéndose desde el cuartil
inferior hasta el cuartel superior. Las líneas que se extienden en los extremos inferior y superior
de la caja (los bigotes) muestran la ubicación del valor más grande y más pequeño de la muestra.
La línea vertical del interior de la caja corresponde al valor de la mediana, mientras que el signo
de (+) muestra la ubicación de la media muestral. El hecho de que el bigote superior sea
levemente más largo que el inferior, y que la media sea relativamente más grande que la mediana,
significa un sesgo positivo en los datos.

1.6 Usando la Barra de Herramientas de Análisis


Cuando la ventana de análisis tal como Análisis de Una Vairable se despliega por primera vez,
solo se incluyen algunas de las tables y gráficas disponibles. Para desplegar resultados
adicionales, debe pulsar el ícono adecuado en la Barra de Herramientas de Análisis, la cuál se
muestra inmediatamente por arriba del título del análisis:

Figura 1-24. La Barra de Herramientas de Análisis

23/ Comenzando
Los íconos en la Barra de Herramientas de Análisis son muy importantes. Las acciones de cada
uno de los primeros siete íconos empezando por la izquierda se mencionan a continuación:

Nombre Función
Captura Presenta el cuadro para la captura de datos, de
manera que la(s) columna(s) seleccionada(s)
pueda(n) cambiarse.
Tablas Muestra lista completa de tablas de salida
disponibles para ese procedimiento estadístico.
Gráficos Muestra lista completa de Gráficos de Salida
disponibles para ese procedimiento estadístico.
Guardar resultados Permite guardar las estadísticas calculadas en
columnas de la hoja de datos.
Opciones de Análisis Selecciona diferentes opciones a aplicarse en todas
las tablas y gráficas del procedimiento actual.
Opciones de Ventana Selecciona diferentes opciones a aplicarse solo en
la tabla o gráfica maximizada.
Opciones Gráficas Permite cambiar títulos, escalas y otras
características de la gráfica maximizada.
Figura 1-25. Íconos de Mayor Importancia en la Barra de Herramientas de Análisis
Íconos adicionales a la derecha de la Barra le permiten efectuar otras acciones cuando una
gráfica es maximizada, como se explica en el Capítulo 5.

Por ejemplo, si el ícono de Gráficos se presiona, un cuadro de diálogo aparece enlistando la


lista completa de los gráficos disponibles para el procedimiento de Análisis de Una Variable:

24/ Comenzando
Figura 1-26. Listado de Gráficos Disponibles
Seleccionando la opción de Histograma y pulsando Aceptar se agrega un tercer panel al lado
derecho de la ventana de análisis:

Figura 1-27. Panel de Histograma agregado a la Veantana de Análisis del Análisis de Una Variable

25/ Comenzando
Note que las barras en el histograma se extienden un poco más por arriba del pico que por
abajo, esto es una característica de datos sesgados postiviamente.

Si da doble-clic en el histograma para maximizarlo y después pulsa el ícono de Opciones de


Ventana, se muestra un cuadro de diálogo con opciones específicas para el histograma:

Figura 1-28. Opciones de Ventana para el Histograma


Usando el cuadro de opciones, puede modificar el número de barras en el histograma, así como
el rango que abarcan. Si el Número de Clases se establece en 15 y luego se presiona el botón de
Aceptar, el histograma reflejará los cambios seleccionados:

26/ Comenzando
Figura 1-29. Histograma de Frecuencias después de Cambiar el Número de Clases

Puede también cambiar el tipo de relleno y/o el color de las barras en el histograma pulsando el
ícono de Opciones Gráficas. En este se presenta un cuadro de diálogo con diferentes pestañas
que le permiten modificar la mayoría de las características de la gráfica. Si hace clic en la pestaña
de Relleno, se desplegará lo siguiente:

27/ Comenzando
Figura 1-30. Cuadro de Opciones Gráficas
Haciendo clic en el botón circular #1 y después seleccionando un Nuevo Tipo de Relleno o Color
cambiará el aspecto de las barras en el histograma.

NOTA: Las operaciones de la mayoría de los íconos de la barra de herramientas de análisis


también se puede tener acceso a ellas pulsando el botón secundario del ratón en el panel que
contenga la tabla o la gráfica. Esto presenta un menú de las operaciones disponibles.

28/ Comenzando
1.7 Diseminando los Resultados
Una vez que el análisis ha sido efectuado, los resultados pueden ser diseminados de diferentes
formas. Estos incluyen:

Acción Método
Imprimir los resultados. Pulse el botón de imprimir en la
barra de herramientas principal para
imprimir todas las tables y gráficas, o
haga clic en un panel específico con
el botón secundario del ratón y
seleccione Imprimir del menú
desplegado para imprimir una tabla o
una gráfica única.
Publicar los resultados para ser Seleccionar StatPublish desde el menu
vistos en la red de internet. Archivo. Se mostrará un cuadro de
diálogo en donde especificará la
ubicación a donde quiere guardar la
salida con formato HTML.
Copiar el resultado a otra aplicación. Pulse Clic en la tabla o la gráfica que
desea copiar y seleccione Copiar del
menú de Editar. Luego active la otra
aplicación y seleccione Editar – Pegar.
Guardar el análisis en un reporte. Pulse el botón secundario del ratón y
seleccione Copiar Análisis al
StatReporter. El StatReporter, descrito
en el Capítulo 7, puede ser guardado
como archivo con formato RTF para
exportarlo en procesadores de
palabras tales como Microsoft Word.
Guardar una gráfica en un archivo Maximizar la gráfica que será
de imagen. guardada.. Ahora seleccione Guardar
Gráficos del menú Archivo.
Figura 1-31. Métodos de Diseminación de los Resultados del Análisis
Cada una de las operaciones mencionadas se describen a detalle en capítulos posteriores.

29/ Comenzando
1.8 Guardando su Trabajo
Puede guardar la sesión de trabajo actual en cualquier momento seleccionando Guardar StatFolio
desde el menú de Archivo y capturando un nombre de archivo:

Figura 1-32. Guardando un StatFolio


Un StatFolio consiste en el conjunto de instrucciones que uno efectúa para crear los diferentes
análisis en una sesión de trabajo, incluyendo los apuntadores a los archivos o bases de datos que
contienen los datos que queremos analizar. Si uno abre un StatFolio en una fecha posterior,
automáticamente leerá las variables de datos y recalculará el análisis. Cualquiera de las opciones
utilizadas para ese análisis serán conservadas.

NOTA #1: Si el archivo de datos se actualiza entre el momento que se genera un Statfolio y
cuando se vuelve a abrir, los análisis cambiarán reflejando los nuevos valores. Esto ofrece un
método muy sencillo para efectuar corridas repetitivas de análisis que necesiten ser calculados de
manera periódica sin tener que crearlos cada vez.

NOTA #2: Los datos y el StatFolio son guardados en archivos diferentes. Sin necesita mover
un StatFolio de una computadora a otra, asegúrese de mover los archivos de datos también.

30/ Comenzando
2
Capítulo

Manejo de Datos
Accesando datos desde archivos y bases de datos, transformando valores de los
datos y generando series de datos.
Para analizar datos en el STATGRAPHICS Centurion, estos deben colocarse primero en el
Libro de Datos STATGRAPHICS Centurion. El Libro de Datos es una ventana etiquetada, que
consiste de 10 hojas de datos. Una hoja de datos es un arreglo rectangular de filas y columnas.
Cada columna en la hoja de datos representa una variable. Cada fila representa un caso o una
observación. Por ejemplo, la hoja de datos inferior contiene información sobre distintas marcas
y modelos de automóviles.

Figura 2-1. Una Hoja de Datos

31/ Manejo de Datos


Este Capítulo describe toda la información que necesita saber acerca de los datos en el
STATGRAPHICS Centurion, incluyendo cómo accesarlos, manipularlos, y cómo usarlos en un
análisis estadístico.

2.1 El Libro de Datos


Cada columna en la hoja de datos STATGRAPHICS Centurion representa una variable
diferente. Las variables normalmente son atributos ó medidas asociadas con los conceptos que
definen las filas de la hoja de datos. Por ejemplo, en la hoja de datos 93cars, existe una columna
identificando la marca de cada automóvil, una columna identificando su tipo, columnas
conteniendo las millas recorridas por galón manejando en ciudad ó carretera, columnas
conteniendo el largo, ancho y alto del automóvil e información similar. Cada columna tiene un
nombre y un tipo asociado a la misma. El nombre se usa para identificar los datos a utilizar en un
análisis estadístico. El tipo afecta la manera en que serán analizados. También asociado a cada
columna existe un comentario opcional, el cual se usa para proveer información adicional sobre el
contenido de una columna. Nota: los datos fueron obtenidos del Journal of Statistical Education
Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) y su uso ha sido
autorizado.

Para mostrar o cambiar las propiedades de cualquier columna en una hoja de datos, dar doble
clic en el nombre de la columna para mostrar el cuadro de diálogo Modificar Columna:

32/ Manejo de Datos


Figura 2-2. Cuadro de Diálogo Utilizado para modificar las Propiedades de una Columna
Usted deberá especificar:

1. Nombre: de 1 a 32 caracteres. Cuando realice análisis estadísticos, las columnas son


identificadas usando estos nombres. Cada columna en la hoja de datos debe tener un
nombre único, aunque otras columnas en distintas hojas de datos pueden tener uno
similar. Los nombres pueden incluir cualquier caracter exceptuando los siguientes 19:

‘“.><~!&,;+-*/^=|( )

Los caracteres restringidos son aquellos que se necesitan cuando se usan expresiones
algebraicas tales como:

100*(MPG en Ciudad/MPG en Carretera)

Adicionalmente, los nombres no deben empezar con números. Se permiten espacios en


los nombres de variables. Los nombres no son sensibles a las mayúsculas.

33/ Manejo de Datos


2. Comentario: de 0 a 64 caracteres, proveyendo información adicional del contenido de la
columna.

3. Tipo: clase de dato permitido en la columna. Los siguientes tipos deben especificarse:

Tipo Contenido Ejemplo


Numérico Cualquier número válido. 3.14
Caracter Un condición alfanumérica Chevrolet
Entero Un número entero 105
Fecha Mes, día y año 4/30/05
Mes Mes y año 4/05
Trimestre Trimestre y año T2/05
Horario (HH:MM) Hora y minuto 3:15
Horario (HH:MM:SS) Hora, minuto y segundo 3:15:53
Fecha-Horario Mes, día, año, hora y minuto 4/30/05 3:15
(HH:MM)
Date-Horario Mes, día, año, hora, minuto y 4/30/05 3:15:53
(HH:MM:SS) segundo
Decimales Fijos Número con hasta 9 decimales 34.10
Fórmula Calculada de otras columnas MPG_C / MPG_H
Figura 2-3. Tipos de Columna
Cuando capture sus datos en una hoja de datos, estos deben coincidir con el tipo de columna en
donde son capturados. Por ejemplo, si intenta escribir un nombre en una columna numérica este
será rechazado. Cuando capture datos, el formato de los mismos también deben coincidir con
su configuración actual de Windows. Particularmente, STATGRAPHICS Centurion distingue
las configuraciones actuales de Windows para:

1. Separador de decimales para valores numéricos


2. Formato de tiempo y separador de tiempo para horarios
3. Formato de fecha corto y separador para fechas

Para ver las configuraciones de su computadora entre al Panel de Control de Windows.

Cuando capture una fecha, deberá usar el formato especificado en el cuadro de diálogo de
Editar- Preferencias, ya sea años de 4 dígitos (4/30/2005) ó uno de 2 dígitos (4/30/05). Si se usa
un año de 2 dígitos se asume que puede ir desde 1950 hasta 2049.

34/ Manejo de Datos


Más información sobre las columnas de fórmula será tratada posteriormente en la sección
Manipulando los Datos de éste mismo Capítulo.

2.2 Acceso a los datos


El Capítulo 1 muestra cómo los datos pueden ser capturados a una hoja de datos manualmente.
Más comúnmente, los usuarios accesarán datos que ya existen en otros archivos o aplicaciones.
Hay 3 formas básicas de poner datos existentes en una hoja de datos del STATGRAPHICS
Centurion:

1. Leer un archivo de datos existente: Si los datos han sido previamente capturados en
un archivo, usted puede copiarlos en la hoja de datos seleccionando Archivo – Abrir –
Abrir Datos y luego Archivo de Datos Externo. Esto le permite leer datos guardados en
archivos de diferentes formatos, incluyendo Excel XLS, archivos de texto ASCII
delimitados, archivos XML y archivos STATGRAPHICS.

2. Copiar y pegar usando el portapapeles de Windows: Si usted tiene los datos


cargados en un programa como Excel, usted puede copiarlos fácilmente al portapapeles
de Windows y luego pegarlos en el STATGRAPHICS Centurion seleccionando Editar–
Pegar.

3. Efectuando una consulta SQL para obtener los datos desde una base de datos: Si
los datos residen en una base de datos ODBC, como Oracle o Microsoft Access, estos
pueden ser recuperados seleccionando Archivo – Abrir Datos y luego Búsqueda ODBC. .

2.2.1 Leyendo Datos de un Archivo STATGRAPHICS Centurion


Para leer datos que ya han sido guardados en un archivo STATGRAPHICS Centurion,
seleccione cualquiera de las 10 hojas de datos en el Libro de Datos dando clic en su etiqueta.
Luego seleccione Archivo – Abrir – Abrir Datos y especifique Archivo de Datos STATGRAPHICS
en el cuadro de diálogo que se muestra a continuación:

35/ Manejo de Datos


Figura 2-4. Origen de los Datos
Después de pulsar Aceptar, seleccione el archivo STATGRAPHICS deseado:

Figura 2-5. Seleccionando un Archivo de Datos STATGRAPHICS.


Usted puede leer archivos del STATGRAPHICS Centurion ó de cualquier versión previa del
STATGRAPHICS, incluyendo el STATGRAPHICS Plus. Los datos en el archivo reemplazarán
a los que actualmente contiene la hoja de datos seleccionada.

36/ Manejo de Datos


2.2.2 Leyendo Datos de un Archivo Excel, ASCII, XML o Externo
Para leer datos que han sido guardados en un archivo creado por otra aplicación, seleccione
cualquiera de las 10 hojas de datos en el Libro de Datos dando clic en su etiqueta. Seleccione
Archivo – Abrir – Abrir Datos y especifique Archivo de Datos Externo en el cuadro de diálogo
mostrado a continuación:

Figura 2-6. Origen de los Datos


Después de pulsar Aceptar, seleccione el archivo deseado:

Figura 2-7. Seleccionando un Archivo de Datos Excel

37/ Manejo de Datos


Utilice la lista del Tipo de archivo para especificar el formato del archivo a leer. Las opciones más
comunes son:

1. Archivos Excel (*.xls) – lee una hoja seleccionada de un libro de Microsoft Excel.

2. Archivos de Texto (*.txt;*.csv;*.dat) – lee un archivo de texto ASCII que contenga


datos delimitados o datos arreglados en columnas uniformes.
3. XML (*.xml) – lee datos de un archivo en formato XML

Despúes de seleccionar el nombre del archivo, se mostrará un cuadro de diálogo para obtener
información adicional de los datos en el archivo. Si el archivo seleccionado es un libro de trabajo
Excel, el cuadro de diálogo será como el que se nuestra a continuación:

Figura 2-8. Opciones para un Archivo de Datos Excel


Especifique:

1. Encabezado de la Columna – información contenida en las 2 primeras filas del rango


especificado. Las dos filas inmediatamente arriba de los datos a leer deben contener
nombres de columna y/o comentarios. Si no se contienen nombres en la hoja de cálculo
de Excel, entonces se generarán nombres predeterminados.

2. Número de Hoja – número de la hoja de cálculo en el libro de trabajo de Excel que será leída.
Las hojas sólo podrán ser leídas de una en una.

38/ Manejo de Datos


3. Fila Inicial y Final – el rango de filas de la hoja de cálculo que serán leídas. Este rango debe
incluir los nombres de las variables y sus comentarios, en caso de que estén presentes.

4. Valor Faltante – cualquier símbolo especial usado en la hoja de cálculo de Excel para
indicar datos faltantes, como NA. Las celdas que contengan el valor especificado serán
convertidas en celdas vacías cuando se coloquen en la hoja de datos STATGRAPHICS
Centurion.

Cuando pulse Aceptar, la información del archivo Excel se leerá en el STATGRAPHICS


Centurion. Cada columna será escaneada y se le asignará el tipo de columna apropiado. En caso
de encontrar un nombre de columna inválido, los símbolos reservados serán subrayados. Ahora
sí, los datos están listos para ser analizados.

2.2.3 Transferir Datos usando Copiar y Pegar


El modo más fácil de transferir datos de otra aplicación a STATGRAPHICS Centurion
usualmente es vía el portapapeles de Windows. Por ejemplo, si los datos residen en un archivo
de Excel, se deberá correr Excel, seleccionar los datos a copiar, ir al menú Editar y dar clic en
Copiar; la información será copiada al portapapeles. Al regresar al STATGRAPHICS, los datos
serán pegados directamente en una hoja de datos del STATGRAPHICS seleccionando Pegar del
menú Editar del STATGRAPHICS. Cuando los datos son pegados en una columna de una hoja
de datos, STATGRAPHICS Centurion automáticamente escanea los datos y selecciona el tipo
adecuado para la columna.

Cuando se copien y peguen datos, los nombres de columna y comentarios también pueden ser
transferidos. Incluya los nombres de columna y los comentarios en Excel cuando copie datos al
portapapeles. En el lado de STATGRAPHICS Centurion, haga clic en el renglón de encabezado
de la hoja de datos del STATGRAPHICS Centurion antes de seleccionar Pegar. La información
hasta arriba del portapapeles será entonces pegada en el(los) renglón(es) del encabezado.

Nota: si el archivo de Excel contiene nombres de columna pero no comentarios,


seleccione Editar – Propiedades del Libro de Datos del menú de STATGRAPHICS Centurion
y deshabilite la opción Mostrar comentarios de las variables antes de pegar los datos.

39/ Manejo de Datos


2.2.4 Consultando una Base de Datos ODBC
STATGRAPHICS Centurion también le permite leer datos de una base de datos Oracle, Access,
ú otra usando ODBC. Para acceder datos de una base de datos, primero seleccione Archivo –
Abrir – Origen de los Datos. Luego seleccione Consultar Base de Datos del cuadro de diálogo inicial:

Figura 2-9. Cuadro de Diálogo Origen de los Datos

Una secuencia de cuadros de diálogo adicionales será mostrada en las cuales usted:

1. Seleccionará el nombre de la base de datos a leer.

2. Seleccionará los campos a transferir.

3. Especificará un filtro para limitar los registros recuperados.

4. Especificará un modo de ordenar los resultados.

Una consulta SQL es entonces construida y los resultados son colocados en la hoja de datos
activa en STATGRAPHICS. Información detalláda sobre como elaborar consultas ODBC
puede ser encontrada en el archivo PDF titulado Archivos de Datos y StatLink.

2.3 Manipulando los Datos


Una vez que los datos han sido colocados en una hoja de datos del STATGRAPHICS
Centurion, estos pueden ser manipulados de importantes y diversas formas:

1. Los datos pueden ser copiados y pegados en otras locaciones.

2. Columnas adicionales pueden ser creadas desde columnas existentes.


40/ Manejo de Datos
3. Datos pueden ser transformados usando una expresión algebraica o una función
matemática.

4. La hoja de datos puede ser ordenada de acuerdo a una o más columnas.

5. Los valores de los datos pueden ser recodificados para formar grupos o por otras
razones.

6. Los datos extendidos sobre varias columnas pueden ser reorganizados en una sola
columna si un procedimiento estadístico lo requiere.

Estas operaciones básicas se describen a continuación.

2.3.1 Copiando y Pegando Datos


La hoja de datos STATGRAPHICS Centurion soporta muchas operaciones normales de una
hoja de cálculo, incluyendo cortar, copiar, pegar, insertar y eliminar. El factor importante a recordar
cuando se usen estas operaciones es que cada columna tiene un tipo específico. Si usted pega
inadvertidamente caracteres de datos en una columna numérica, STATGRAPHICS Centurion
cambiará el tipo de esa columna para acomodar los nuevos datos. Siempre que usted tenga una
duda sobre el tipo de columna, haga clic en el encabezado de la columna para mostrar el cuadro
de diálogo Modificar Columna. Usted puede cambiar el tipo de columna utilizando ese cuadro de
diálogo.

2.3.2 Creando Nuevas Variables desde Columnas Existentes


STATGRAPHICS Centurion tiene una amplia gama de operadores para asistir en la ejecución de
cálculos matemáticos. Uno de los usos más importantes de estos operadores en el análisis de
datos es para crear nuevas variables basadas en columnas existentes. En el STATGRAPHICS
Centurion, nuevas variables pueden ser creadas:

1. “Al vuelo” directamente dentro de los campos de captura de datos en los cuadros de
diálogo, sin guardar la variable en la hoja de datos.

2. Creando una nueva columna en cualquiera de las 10 hojas de datos en el Libro de Datos.

Por ejemplo, suponga que se desea información sobre la razón calculada de las millas por galón
manejando en ciudad vs las millas por galón manejando en carretera de cada automóvil en el

41/ Manejo de Datos


archivo 93cars. Dicho archivo contiene 2 columnas separadas, una nombrada MPG City y otra
nombrada MPG Highway. Para resumir la distribución de las razones, usted puede seleccionar el
procedimiento Análisis de una Variable y especificar la razón directamente en el campo de datos
en el Cuadro de Diálogo:

Figura 2-10. Creando una Transformación “Al Vuelo”


Cuando se pulse ACEPTAR, se generará un análisis de la razón matemática multiplicada por
100, sin cambiar los datos en la hoja de datos:

42/ Manejo de Datos


Figura 2-11. Análisis de una Variable de Datos Transformados
La razón promedio es aproximadamente 76.3%, con rango de un mínimo de 64% a un máximo
de 93.9%. La posibilidad de realizar análisis sin modificar la hoja de datos es muy importante
para facilitar la exploración de los datos.

Si se desea, una nueva columna puede ser creada en la hoja de datos conteniendo los valores
transformados. Por ejemplo, usted puede regresar a la ventana que contiene los datos de 93cars
dando doble clic en la columna con el encabezado etiquetado Col_27. El cuadro de diálogo
Modificar Columna puede ser entonces utilizado para definir una nueva variable de tipo fórmula
con la transformación deseada:

43/ Manejo de Datos


Figura 2-12. Creando una Columna de Fórmula
Esto creará una nueva variable cuyos valores son calculados de las dos columnas originales que
contienen los datos de las millas por galón. Las columnas de Fórmula se muestran en la hoja de
datos usando una escala gris, desde que son automáticamente calculadas de otras columnas:

44/ Manejo de Datos


Figura 2-13. Apariencia de una Columna de Fórmula en la Hoja de Datos
Si los valores en la columna MPG City o MPG Highway cambian, MPG Ratio será
automáticamente recalculada para reflejar esos cambios.

NOTA: el recalculo de una columna fórmula normalmente no ocurre hasta que los
datos en esas columnas son necesarios para un cálculo, o se guarda o imprime. Usted
puede forzar un recalculo inmediatamente seleccionando Actualizar Fórmulas del menú
Editar.

2.3.3 Transformando Datos


STATGRAPHICS Centurion también contiene un gran número de funciones matemáticas que
pueden ser usadas para transformar datos existentes. Así como al crear nuevas variables, las
transformaciones se pueden hacer ya sea dentro de los campos de datos en los cuadros de
diálogo ó creando nuevas columnas en la hoja de datos.

Por ejemplo, suponga que se desea graficar las millas por galón que obtuvo un vehículo vs el
logaritmo natural de su peso. Seleccionamos el procedimiento Gráfico X-Y del menú principal
se mostrará el siguiente cuadro de diálogo para capturar datos:

45/ Manejo de Datos


Figura 2-14. Transformando Datos en un Cuadro de Diálogo de Captura de Datos
En lugar de teclear el nombre de una columna en el campo de datos, usted deberá teclear una
expresión del STATGRAPHICS Centurion. Las expresiones del STATGRAPHICS Centurion
son fórmulas que operan en los datos usando símbolos algebraicos y operadores especiales. Una
amplia variedad de operadores están disponibles, como se describe en el documento PDF
Operadores STATGRAPHICS. La tabla siguiente muestra los operadores comúnmente usados:

Operador Uso Ejemplo


+ Suma X+100
- Resta X-100
/ División X/100
* Multiplicación X*100
^ Exponencial X^2
ABS Valor Absoluto ABS(X)
AVG Promedio AVG(X)
DIFF Diferencias Sucesivas DIFF(X)
EXP Función Exponencial EXP(10)
LAG Retraso por k periodos LAG(X,k)
LN Logaritmo Natural LN(X)
LOG Logaritmo base 10 LOG(X)
MAX Máximo MAX(X)
MIN Mínimo MIN(X)

46/ Manejo de Datos


SD Desviación Estándar SD(X)
SQRT Raíz Cuadrada SQRT(X)
STANDARDIZE Conversión a valores Z STANDARDIZE(X)
Figura 2-15. Operadores STATGRAPHICS Normalmente Usados
Cuando se elabora una expresión STATGRAPHICS Centurion , se pueden combinar diferentes
operadores usando reglas algebraicas básicas de precedencia. Por ejemplo, las siguientes
expresiones convierten cada valor en la columna Weight en una fracción igual a la distancia entre
los valores máximos y mínimos, entre todos los automóviles:

( Weight – MIN(Weight) ) / ( MAX(Weight) - MIN(Weight) )

Los paréntesis son necesarios para asegurar que las restas sean efectuadas antes que los
cocientes. Las expresiones no son sensibles a las mayúsculas y tampoco es relevante la inclusión
de espacios en blanco.

Cada cuadro de diálogo de captura de datos incluye un botón etiquetado como Transformar,
como en la Figura 2-14. Este botón puede ser usado para ayudar a crear una expresión
STATGRAPHICS Centurion, en caso de que no recuerde que operadores usar. Si usted coloca
el cursor en un campo de datos y luego presiona Transformar, un cuadro de diálogo similar al que
se muestra abajo aparecerá:

Figura 2-16. Cuadro de Diálogo mostrado al usar el botón Transformar

47/ Manejo de Datos


En la parte derecha hay una lista de todos los operadores STATGRAPHICS Centurion, con una
indicación del número de argumentos que deben ser proporcionados. Dando clic en el nombre
del operador lo coloca en el campo Expresión. Después de remplazar los signos de interrogación
por nombres de columnas ó números, usted puede pulsar el botón Mostrar para ver los primeros
valores generados por la expresión u pulsar el botón de ACEPTAR para tener la expresión
capturada en el cuadro de diálogo de captura de datos.

NOTA: No necesita utilizar el botón Transformar si usted prefiere teclear la expresión


directamente en el cuadro de diálogo de captura de datos.

Una vez que una transformación se ha especificado en el cuadro de diálogo de captura de datos,
como en la Figura 2-14, dicha transformación será usada cuando el procedimiento se corra:

Figura 2-17. Procedimiento Gráfico X-Y usando valores Transformados de Weight


Los operadores STATGRAPHICS Centurion también pueden ser utilizados al crear nuevas
columnas fórmula, similares a la ilustración en la sesión anterior.

48/ Manejo de Datos


2.3.4 Ordenando Datos
El Contenido de una hoja de datos puede ser ordenado resaltando la columna o columnas a usar
para definir el orden y luego seleccionando Ordenar Archivo del menú Editar. Por ejemplo, para
ordenar los datos en el archivo 93cars de acuerdo a las millas por galón, resalte las columnas
nombradas MPG City y MPG Highway y luego seleccione Ordenar Archivo. El siguiente cuadro de
diálogo se mostrará:

Figura 2-18. Cuadro de Diálogo de Opciones de Ordenamiento


Usted puede establecer tanto una o dos columnas en las cuales basar el ordenamiento, así como
también el tipo de ordenamiento. Ordenando primero por MPG City y luego por MPG Highway
los datos se ordenan primero tomando los valores de la columna de mpg en la ciudad y después
las mpg en carretera para automóviles con el mismo valor de MPG City:

49/ Manejo de Datos


Figura 2-19. Archivo 93cars.sf6 después del ordenamiento

NOTA: Los procedimientos estadísticos no requieren que se ordenen los datos antes de
usarlos, estos lo hacen automáticamente en caso necesario. A su vez, el archivo en el
disco no cambia al realizar un ordenamiento salvo que vuelva a guardar los datos. El
ordenamiento sólo cambia la manera en que se muestran los renglones en la hoja de
datos.

2.3.5 Recodificando Datos


En algunas ocasiones es conveniente recodificar los datos, ya sea agrupándolos en grupos
similares o asignándoles nuevas etiquetas. Para recodificar una columna de datos, haga clic en el
encabezado de la columna a recodificar, luego seleccione Recodificar Datos del menú Editar.
Aparecerá el siguiente cuadro de diálogo:

50/ Manejo de Datos


Figura 2-20. Cuadro de Diálogo para Recodificar Datos
Por ejemplo en la columna llamada Domestic en el archivo 93cars contiene un 1 para cada coche
fabricado en los E.U.A. y un 0 para los otros autos. Para cambiar todos los 0 en la columna por
“Foreign” y todos los 1 por “U.S.”, el cuadro de diálogo superior puede usarse. Hasta 7 rangos
de valor pueden especificarse al mismo tiempo para recodificación.

El Documento PDF titulado Menú de Edición contiene una discusión detalláda de 2 ejemplos de
recodificación.

2.3.6 Combinando Varias Columnas


Muchos procedimientos estadísticos en STATGRAPHICS Centurion esperan que los datos a
analizar estén en una sola columna. A veces los datos no se encuentran en tal formato. Como
simple ejemplo, suponga que tiene una muestra de 12 observaciones, arregladas en 4 columnas
como sigue:

51/ Manejo de Datos


Figura 2-21. Muestra de Datos en Diferentes Columnas
Para colocar estos datos en una sola columna se podrían realizar operaciones contínuas de copiar
y pegar. Pero una solución más simple es usar el procedimiento Estadísticas por Filas , que se
encuentra bajo Describir-Datos Numéricos si esta usando el menú clásico y debajo de Analizar-Datos
Contínuos-Comparación de Varias Muestras si esta utilizando el menú Seis Sigma. Este procedimiento
presenta primero un cuadro de diálogo de captura de datos solicitando los nombres de las
columnas que contienen los datos:

52/ Manejo de Datos


Figura 2-22. Cuadro de diálogo para captura de datos para Estadísticas por Filas
Luego muestra estadísticas para cada fila de datos:

53/ Manejo de Datos


Figura 2-23. Ventana de Análisis de las Estadísticas por Filas
La línea de Total en el recuadro del Resúmen Estadístico muestra estadísticas para los datos
combinados. Si usted ahora presiona el botón Guardar Resultados en la barra de herramientas de
análisis, puede guardar la muestra combinada en una hoja de datos de una sola columna:

54/ Manejo de Datos


Figura 2-24. Cuadro de Diálogo para Guardar Resultados en Estadísticas por Filas
Cada resultado que usted indique será guardado en una columna diferente, asignándole el
nombre correspondiente a las Variables Destino.

Guardar tanto la Columna de Datos como la Columna de Códigos crea la siguiente estructura de
datos:

55/ Manejo de Datos


Figura 2-25. Nuevas Columnas Creadas al usar Estadísticas por Filas
Los 12 datos ahora se encuentran en una sola columna y listos para usarse en otros
procedimientos estadísticos.

2.4 Generación de Datos


STATGRAPHICS Centurion tiene la capacidad de generar datos y colocarlos en columnas de la
hoja de datos. Esta sección describe dos ejemplos importantes:

1. Generación de datos con secuencias simples.

2. Generación de números aleatorios.

2.4.1 Generando Patrones de Datos


Varios procedimientos en el STATGRAPHICS Centurion, particularmente aquellos que realizan
un análisis de varianza, esperan que los datos a analizar se encuentren en una sola columna de
una hoja de datos, junto con una o más columnas de códigos identificando los factores
explicativos. Por ejemplo, considere los datos en la siguiente tabla de dos vías:

56/ Manejo de Datos


Mezcla Tratamiento 1 Tratamiento 2 Tratamiento 3
1 75 82 91
2 78 85 93
3 77 84 92
4 75 85 96

Para analizar estos datos usando el procedimiento ANOVA Multifactorial , es necesario que sean
colocados en una hoja de datos con el siguiente formato:

Figura 2-26. Estructura de Datos Deseada


Las dos primeras columnas indican los niveles de los factores correspondientes a cada valor de
los datos. La tercera columna contiene todas las observaciones.

Para crear tal archivo, la solución más fácil es capturar manualmente las dos primeras columnas.
Sin embargo, debido a que las columnas siguen secuencias simples, usted puede generarlas
usando operadores especiales del STATGRAPHICS Centurion. Por ejemplo, los números de la
mezcla pueden ser generados dando clic en el encabezado de la columnas #1 y luego

57/ Manejo de Datos


seleccionando Generar Datos del menú Editar. Esto muestra el siguiente cuadro de diálogo, en el
cual se ha capturado una expresión:

Figura 2-27. Generando Números de la variable Blend


La opción Generar Datos evalúa la expresión del STATGRAPHICS Centurion y coloca el
resultado en la columna seleccionada. En la expresión mostrada anterriormente, se utilizan dos
operadores importantes:

COUNT(desde, hasta, por) – genera valores comenzando en desde y terminando en hasta, en


intervalos iguales a por. Por lo tanto COUNT(1,4,1) genera los enteros 1, 2, 3, y 4.

REP(X, repeticiones) – repite en grupos cada valor contenido en X tantas veces como el
número en repeticiones. En este caso, cada entero entre 1 y 4 es repetido 3 veces.

Los valores de los Tratamientos pueden ser generados de manera similar dando clic en el
encabezado de la columna #2, seleccionando Generar Datos del menú Editar, y capturando lo
siguiente:

58/ Manejo de Datos


Figura 2-28. Generando los Códigos de los Tratamientos
Esta expresión utiliza un operador adicional:

RESHAPE(X, tamaño) – repite los valores en X en forma circular hasta haber generado
el número de datos en tamaño. En este caso la secuencia 1, 2, 3 es repetida 4 veces.

Este generador de secuencias puede ser muy útil cuando el archivo de datos a crear es grande.

2.4.2 Generando Números Aleatorios


Los números aleatorios pueden generarse de dos formas en el STATGRAPHICS Centurion:

1. Si los números provienen de una distribución exponencial, gamma, lognormal, normal,


uniforme o Weibull, estos pueden ser generados dentro de una hoja de datos dando clic
en un encabezado de columna, seleccionando Generar Datos del menú Editar, y capturar la
expresión correspondiente del STATGRAPHICS.

2. Para otras distribuciones, los números aleatorios deben ser generados desde el
procedimiento Distribuciones de Probabilidad.

59/ Manejo de Datos


Como ejemplo, suponga que 100 números aleatorios son deseados de una distribución normal
con una media de 20 y una desviación estándar igual a 2. Haga clic en el encabezado de una
columna vacía en cualquier hoja de datos para seleccionar esa columna. Luego seleccione Generar
Datos del menú Editar y complete el cuadro de diálogo como se muestra a continuación:

Figura 2-29. Generando Números Aleatorios de una Distribución Normal


La sintaxis del operador RNORMAL es:

RNORMAL(n, mu, sigma) – genera n números pseudo-aleatorios de una distribución


normal con una media mu y una desviación estándar sigma.

Pulse ACEPTAR para generar los números aleatorios y colocándolos en la columna


seleccionada.

La sintaxis de los otros generadores de números aleatorios esta contenida en el documento PDF
titulado Operadores STATGRAPHICS Centurion.

2.5 Propiedades del Libro de Datos


Este Capítulo ha descrito numerosos aspectos importantes del manejo de datos en el
STATGRAPHICS Centurion. Particularmente, nos ha enseñado cómo leer datos de archivos y

60/ Manejo de Datos


bases de datos y cómo manipular esos datos una vez que se encuentran en una hoja de datos del
STATGRAPHICS Centurion. En cualquier momento, el estado de las hojas de datos puede ser
mostrado activando la ventana del Libro de Datos y seleccionado Propiedades del Libro de Datos del
menú Editar o seleccionando StatLink del menú Archivo:

Figura 2-30. Cuadro de Diálogo de Propiedades del Libro de Datos


Este cuadro de diálogo muestra el origen de los datos en cada hoja de datos. Si se desea, las
hojas de datos pueden ser restringidas a sólo de lectura por lo que los datos en ellas no pueden
ser cambiados inadvertidamente. Es también posible definir una lectura de los datos a
intervalos regulares y tener los procedimientos estadísticos actualizados automáticamente. Estas
importantes características son descritas en el Capítulo 5.

61/ Manejo de Datos


3
Capítulo

Elaborando Análisis Estadísticos


Generando un análisis, seleccionando tablas y gráficas adicionales,
seleccionando opciones, cambiando datos de captura y guardando resultados.

Existen más de 150 selecciones estadísticas en el menú principal del STATGRAPHICS Centurion.
Cada selección accede a un procedimiento estadístico diferente. Sin embargo todos los
procedimientos trabajan de la misma forma básica:

1. Cuando un análisis es seleccionado del menú, se muestra un cuadro de diálogo de captura de datos.
Los campos en este cuadro de diálogo se utilizan para especificar las variables a analizar.

2. Los datos especificados entonces son leídos y analizados, una nueva ventana de análisis es
creada con un conjunto de análisis tabulares y gráficos predeterminados.

3. Cuando se corre por primera vez, los valores predeterminados se consideran para todas las
opciones en el análisis. Estas opciones pueden ser modificadas usando el botón Opciones de
Análisis en la barra de herramientas de análisis, obteniendo como respuesta que todas las
tablas y gráficas en la ventana de análisis sean actualizadas.

4. Si se desean, tablas o gráficas adicionales pueden solicitarse pulsando los botones de Tablas ó
Gráficas en la barra de herramientas de análisis.

5. Para modificar tablas o gráficas de forma individual, se maximiza el panel correspondiente y


se selecciona Opciones de Ventana en la barra de herramientas de análisis.

6. Para las gráficas, el título predeterminado, la escala, tipos de puntos, fuentes, etc. pueden
modificarse dando doble clic en la gráfica para maximizarla y luego seleccionando Opciones
Gráficas en la barra de herramientas de análisis.
62/ Elaborando Análisis Estadísticos
7. Las tablas y gráficas pueden ser impresas, publicadas como archivos HTML, copiadas a otras
aplicaciones cómo Microsoft PowerPoint, o guardadas en el StatReporter.

8. Los resultados numéricos pueden ser guardados en columnas de cualquier hoja de datos
usando el botón Guardar Resultados de la barra de herramientas de análisis.

9. El análisis completo puede ser guardado en disco cómo un StatFolio, para su uso posterior.

En este capítulo, se describe a detalle un análisis típico. La finalidad del análisis es construir un modelo
estadístico que relacione las millas por galón conseguidas manejando en ciudad con su peso para los
n = 93 automóviles en el archivo 93cars.sf6. Un gráfico de dispersión de los datos se muestra a
continuación:

Gráfico de MPG City vs Weight

55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 3-1. Gráfico X-Y de Millas por Galón Manejando en Ciudad vs Peso en Libras
Como era de esperarse, las millas por galón están negativamente correlacionadas con el peso del
vehículo. Es evidente una no-linealidad en la relación, y por lo menos un punto parece ser un
potencial dato aberrante.

El procedimiento básico para ajustar un modelo estadístico relacionando dos variables en el


STATGRAPHICS Centurion es el procedimiento de Regresión Simple. Dicho procedimiento se
ajusta a modelos lineales y no lineales. El modelo más simple para relacionar una variable
dependiente Y con una variable independiente X es la forma lineal

63/ Elaborando Análisis Estadísticos


Y=a+bX

Donde b equivale a la pendiente de la línea y a equivale a la intersección en Y. Modelos


Curvilíneos tales como el modelo exponencial

Y = exp(a + b X)

pueden usarse si la relación es no lineal.

3.1 Cuadros de Diálogo para Captura de Datos


El procedimiento Regresión Simple se localiza en el menú principal:

1. Si se utiliza el menú clásico, bajo Relacionar – Un Factor.

2. Si se utiliza el menú Seis Sigma, bajo Mejorar – Análisis de Regresión – Un Factor.

Comienza mostrando un típico cuadro de diálogo de captura de datos:

Figura 3-2. Cuadro de Diálogo de Captura de Datos de Regresión Simple


Los dos primeros campos son requeridos:

64/ Elaborando Análisis Estadísticos


Y: La variable dependiente o de respuesta.
X: La variable independiente o predecible.

En los campos de captura de datos, usted puede capturar ya sea el nombre de la columna (como MPG
City) o una expresión STATGRAPHICS Centurion (cómo LOG(MPG City).) Si más de una hoja de
datos contiene una columna con el nombre indicado, usted debe indicar antes del nombre, la hoja de
datos deseada. Por ejemplo, si ambas hojas de datos A y B contienen una columna llamada Weight y
desea usar la columna en la hoja de datos A, usted deberá capturar el nombre como A.Weight

El campo Seleccionar puede ser usado para seleccionar un subconjunto de las filas en la hoja de datos.
Por ejemplo, si usted captura un comando cómo FIRST(50) en ese campo, solo los primeros 50 filas
de esa hoja de datos serán utilizados. Los comandos típicos utilizados en el campo Seleccionar son:

Entrada Uso Ejemplo


FIRST(k) Selecciona los primeros k filas. FIRST(50)
LAST(k) Selecciona los últimos k filas. LAST(50)
ROW (inicio,fin) Selecciona filas entre inicio y fin, ROW (21,70)
incluyendo.
RANDOM(k) Selecciona un conjunto aleatorio RANDOM(50)
de k filas.
Columna < valor Selecciona solo filas cuya columna Pasajeros < 5
es menor al valor.
Columna <= valor Selecciona solo filas cuya columna Pasajeros <= 5
es menor o igual al valor.
Columna > valor Selecciona solo filas cuya columna Pasajeros > 5
es mayor al valor.
Columna >= valor Selecciona solo filas cuya columna Pasajeros >= 5
es mayor o igual al valor.
columna= valor Selecciona solo filas cuya columna Cilindros = 6
es igual al valor.
columna <> valor Selecciona solo filas cuya columna Cilindros <> 4
es desigual al valor.
condición1 & condición2 Selecciona solo filas que cumplan Cilindros = 6 &
con ambas condiciones. Fabric. = “Ford”
condición1 | condición2 Selecciona solo filas que cumplan Cilindros = 6 |
al menos con una condición. Fabric. = “Ford”
columna binaria Selecciona filas cuyo valor en la Domestic
columna binaria no sea igual a 0.
Figura 3-3. Comandos aceptados para el campo Seleccionar

65/ Elaborando Análisis Estadísticos


Cuando se especifique una condición que involucre variables no-númericas, el valor debe colocarse
con doble paréntesis además de ser sensible a las mayúsculas. Condiciones múltiples pueden ser
combinadas usando los símbolos condicionales “Y” (&) u “O” (|).

Cada uno de los comandos aceptados en el campo Seleccionar genera una secuencia booleana de 0’s y
1´s, donde el 0 representa FALSO y el 1 representa VERDADERO. Cuando se usa en el campo
Seleccionar del cuadro de diálogo de captura de datos, el resultado es la selección de todas las filas cuya
condición es VERDADERA y la exclusión de todos las filas cuya condición sea FALSA.

3.2 Ventana de Análisis


Una vez que los datos han sido especificados, se crea una nueva ventana de análisis:

Figura 3-4. Ventana de Análisis de una Regresión Simple


Esta ventana consiste de varios paneles divididos por barras de desplazamiento. Las Tablas se
encuentran en el lado izquierdo de la ventana y los gráficos en el lado derecho.

Usted puede maximizar la tabla o la gráfica de cualquier panel dando doble clic sobre el mismo, en
cuyo caso abarcará la ventana completa:
66/ Elaborando Análisis Estadísticos
Figura 3-5. Ventana de Análisis de Regresión Simple con un Panel Maximizado
Dando doble clic en el panel maximizado restaura la ventana en varios paneles.

Cuando se muestra una ventana de análisis, una segunda barra de herramientas se activa directamente
debajo de la barra de herramientas principal del STATGRAPHICS Centurion. La barra de herramientas
de análisis aparece como se muestra a continuación:

Cada ícono de esta barra de herramientas realiza una operación importante.

3.2.1 Ícono Captura de Datos


Cuando es presionado, este botón muestra el cuadro de diálogo de captura de datos
originalmente usado para especificar las variables de los datos , como se muestra en la Figura 3-2. Si
usted cambia las variables de los datos y presiona ACEPTAR, el análisis cambiará para reflejar las
nuevas selecciones. Esto le permite probar diferentes combinaciones de datos sin tener que empezar
un nuevo análisis.

67/ Elaborando Análisis Estadísticos


3.2.2 Ícono de Tablas
Este botón muestra una lista de análisis tabulares adicionales que pueden agregarse a la ventana
de análisis. Para Regresión Simple, las tablas disponibles son:

Figura 3-6. Cuadro de Diálogo de las Tablas para Regresión Simple


Por ejemplo, si usted elige agregar tablas mostrando un comparativo de modelos alternos y
residuos atípicos, nuevos paneles de texto se agregarán a la ventana de análisis:

68/ Elaborando Análisis Estadísticos


Figura 3-7. Ventana de Análisis de Regresión Simple con las Tablas Agregadas

3.2.3 Ícono de Gráficas


Dando clic en este ícono se muestra una lista de gráficos adicionales que pueden ser creadas:

Figura 3-8. Cuadro de Diálogo de Gráficos de Regresión Simple

69/ Elaborando Análisis Estadísticos


Agregar un gráfico de residuos sitúa una gráfica adicional en la ventana de análisis:

Figura 3-9. Ventana de Análisis de Regresión Simple con un Gráfico Agregada

3.2.4 Ícono para Guardar Resultados


Este ícono le permite guardar los resultados numéricos calculados por el análisis estadístico en las
columnas de la hoja de datos. Para el análisis de Regresión Simple, se muestran las siguientes opciones:

70/ Elaborando Análisis Estadísticos


Figura 3-10. Cuadro de Diálogo para Guardar Resultados de una Regresión Simple
Para guardar la información, indique los objetos de interés en el campo Guardar. Para cada
objeto a guardar, asigne un nombre de columna debajo de las Variables Destino e indique la hoja
de datos deseada. Si desea guardar un comentario junto con los datos, indíquelo en la opción de
Guardar comentarios.

La opción de Autoguardar es usado para guardar automáticamente el objeto seleccionado si y


cuando el análisis es vuelto a correr. Esto resulta útil si usted intenta guardar el análisis en un
StatFolio, ya que los análisis son vueltos a correr siempre que se carga un StatFolio. Revisando
el recuadro Autoguardar, usted puede configurar un StatFolio para que calcule y guarde
automáticamente las estadísticas deseadas. Cuando se combina con la capacidad de realizar
rutinas, descrita en el Capítulo 5, esto le permite automatizar muchas de las tareas.

71/ Elaborando Análisis Estadísticos


3.2.5 Ícono de Opciones de Análisis
Casi todos los análisis tienen opciones múltiples. Cuando se corre por primera vez, los valores
predeterminados son seleccionados para estas opciones, y regularmente son suficientes. Sin embargo,
al pulsar el ícono de Opciones de Análisis en cualquier procedimiento permitirá que estas
configuraciones básicas puedan cambiarse. Para la Regresión Simple, el cuadro de diálogo de Opciones de
Análisis especifica el tipo de modelo a ajustar y el método para estimar los coeficientes desconocidos
del modelo:

Figura 3-11. Cuadro de Diálogo de Opciones de Análisis de Regresión Simple


Si usted examina la salida en la Figura 3-7, puede notar que en la tabla de modelos alternativos
hay muchos modelos curvilíneos que dan un valor R-cuadrado más alto que el modelo lineal. Al
final de la lista se encuentra el modelo Curva-S. Si se selecciona este modelo en el cuadro de
diálogo de Opciones de Análisis y se presiona ACEPTAR, el análisis completo cambiará para
reflejar el nuevo modelo. Como puede verse examinando en la gráfica del modelo ajustado, una
Curva-S captura la curvatura en los datos bastante bien:

72/ Elaborando Análisis Estadísticos


Figura 3-12. Modelo Curva-Se Ajustado

3.2.6 Ícono de Opciones de Ventana


Adicionalmente a las opciones aplicables a la ventana de análisis completa, muchas tablas y
gráficas individuales cuentan con opciones que solo aplican para ellas. Estas opciones pueden
accesarse maximizando primero la tabla o gráfica seleccionada y luego pulsando Opciones de Ventana.
Para un Gráfico de Modelo Ajustado, las Opciones de Ventana son:

73/ Elaborando Análisis Estadísticos


Figura 3-13. Cuadro d Diálogo de Opciones de Ventana para un Gráfico de Modelo Ajustado
Por ejemplo, eliminar las marcas a lo largo de los Límites de Confianza y presionado ACEPTAR se
regraficará sin los límites interiores:

74/ Elaborando Análisis Estadísticos


Figura 3-14. Gráfico de Modelo Ajustado sin Límites de Confidencia

3.2.7 Íconos de Opciones Gráficas


Siempre que una gráfica es maximizada en la ventana de análisiss, varios botones adicionales son
activados. Estos botones incluyen:

Opciones Gráficas – muestra un cuadro de diálogo usado para cambiar colores, etiquetas, escala de
ejes, y otras características similares.

Agregar texto – usado para añadir texto adicional a la gráfica.

Separar puntos – usado para compensar puntos aleatoriamente en la dirección horizontal ó vertical
para prevenir que se sobrepongan unos a otros.

Resaltar – colorea los puntos en un plano de dispersión de acuerdo al valor de la variable


seleccionada.

75/ Elaborando Análisis Estadísticos


Suavizar/Rotar – suaviza un plano de 2 dimensiones, o rota un plano de 3 dimensiones.

Identificar – muestra una etiqueta identificando un punto cuando se da clic sobre él con el ratón.

Localizar por nombre – resalta en color rojo cualesquiera puntos con valores iguales a aquel
capturado en el campo Localizar (usado en conjunto con el botón Identificar).

Localizar por fila – resalta en color rojo cualquier punto correspondiente al número de fila
capturado en el campo Fila.

Cada uno de estos íconos se describe a detalle en el Capítulo 4.

3.2.8 Ícono de Excluir


Algunos procedimientos estadísticos permiten eliminar iteractivamente datos aberrantes
sospechosos de un análisis maximizando una gráfica, dando clic en el punto sospechosos, y
pulsando este ícono. Por ejemplo, el gráfico en la Figura 3-14 muestra un punto que se
encuentra bastante lejos de los limites de predicción. Dando clic en ese punto y pulsando el
ícono Excluir provoca que el modelo sea reajustado sin el punto. El gráfico del modelo ajustado
muestra el nuevo modelo, indicando con una X cual o cuales puntos han sido eliminados:

76/ Elaborando Análisis Estadísticos


Figura 3-15. Modelo Curva-S Ajustado después de excluir un dato aberrante sospechoso
Todas las tablas y gráficas restantes en la ventana de análisis también cambiarán reflejando el
nuevo modelo.

Diferentes puntos pueden excluirse de un modelo dando clic sobre ellos y pulsando el ícono
Excluir de uno en uno. Dando clic en un punto que ha sido eliminado lo integrará al modelo.

3.3 Imprimiendo Resultados


Para imprimir los resultados de un análisis estadístico, hay dos opciones disponibles:

1. Para imprimir todas las tablas y gráficas en una ventana de análisis, pulse el botón de
Imprimir en la barra de herramientas de análisis o seleccione Imprimir en el menú Archivo.

2. Para imprimir una sola tabla o gráfica, haga clic en su panel con el botón derecho del
mouse y seleccione imprimir del menú que se muestra.

Cuando imprime el análisis completo, se mostrará el siguiente cuadro de diálogo:

77/ Elaborando Análisis Estadísticos


Figura 3-16. Cuadro de Diálogo para Imprimir un Análisis
Debajo de Rango de Impresión, especifique los paneles a imprimir. Usted podrá imprimir
simultáneamente la salida en otras ventanas de análisis seleccionando Todos los Análisis.

Opciones adicionales utilizadas para imprimir están contenidas en el cuadro de diálogo al que se
puede acceder seleccionando Configurar Página del menú Archivo:

78/ Elaborando Análisis Estadísticos


Figura 3-17. Cuadro de Diálogo Configurar Página
En este cuadro de diálogo, usted puede:

1. Especificar márgenes para las hojas a imprimir.

2. Indicar posibles encabezados a imprimir en la parte superior de cada página.

3. Indicar si cada panel (tabla o gráfico) debe ser mostrado en páginas separadas, o si desea
colocar diferentes paneles en una sola página ajustada.

4. Especificar el tamaño relativo de las gráficas como un porcentaje de las dimensiones de la


página completa.

5. Elegir la impresión en blanco y negro, aún cuando su impresora tenga capacidades de


hacerlo a color.

6. Imprimir el color del fondo de sus gráficas (si es que existe).

79/ Elaborando Análisis Estadísticos


7. Trazar líneas anchas usando 2 pixeles en lugar de 1. Esta opción puede hacer que las
gráficas aparezcan mucho más gruesas en una impresora de alta resolución.

Otras opciones, como imprimir la salida en modo de retrato o paisaje, pueden elegirse seleccionando
Configurar Impresión en el menú Archivo, que accesa al cuadro de diálogo proporcionado por el driver de
su impresora.

3.4 Publicando Resultados


La salida de un análisis estadístico puede ser publicado en formato HTML para su vista dentro
de un sitio en la web, seleccionando StatPublish del menú Archivo. Esto le permite hacer que la
salida este disponible para todos dentro de su organización, tengan o no tengan el
STATGRAPHICS Centurion en sus computadoras. StatPublish se describe en el Capítulo 5.

Usted puede también copiar el análisis al StatReporter, el cual le permite hacer anotaciones a la
salida y posteriormente guardarla en un Archivo RTF (formato de texto enriquecido), para
luego ser leído directamente en programas como Microsoft Word. El uso del StatReporter se
describe en el Capítulo 6.

80/ Elaborando Análisis Estadísticos


4
Capítulo

Gráficas
Modificando gráficas, guardando preferencias de las gráficas, interactuando
con las gráficas, guardando gráficas en archivos de imágen y copiando gráficas
a otras aplicaciones.

Globalmente, los 150 procedimientos estadísticos en el STATGRAPHICS Centurion crean cientos de


diferentes tipos de gráficas. Para facilitar el proceso del análisis de los datos, los nombres, escalas y
otros atributos son seleccionados de forma predeterminada cuando una nueva gráfica es creada.
Para propósitos del análisis, los predeterminados son suficientes. Pero cuando se requiere publicar los
resultados finales, diseñar una gráfica de calidad es importante.

Este Capítulo describe todo lo que necesita saber para trabajar con gráficas en el STATGRAPHICS
Centurion. Le muestra como prepararlas para su publicación. Le muestra como copiarlas a
aplicaciones como Microsoft Word y PowerPoint. También le muestra cómo interactuar con las
gráficas. Por ejemplo, tal vez usted vea un punto interesante y desea saber más sobre el mismo. O tal
vez quiera rotar un plano de 3D para percibir cualquier relación que pueda existir entre las variables
representadas en los ejes X, Y y Z.

Como ejemplo, consideraremos de nuevo los datos en el archivo 93cars.sf6. Para empezar, el gráfico
del modelo ajustado relacionando las millas por galón manejando en la ciudad y el peso del vehículo
servirá para ilustrar algunas de las operaciones gráficas importantes.

81/ Gráficas
4.1 Modificando Gráficas
El procedimiento de Regresión Simple es comúnmente usado para ajustar curvas relacionando una
variable de respuesta Y con una variable conocida X. Como se ilustra en el último capítulo, un
modelo de Curva-S ofrece un buen ajuste a la relación entre los datos de MPG City y los datos de
Weight en el archivo 93cars.sf6.

Cuando se crea por primera vez, una gráfica del modelo ajustado de Curva-S se ilustra como sigue:

Gráfico del Modelo Ajustado


MPG City = exp(2.1328 + 2799.07/Weight)
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-1. Gráfico del Modelo Ajustado con la Escala y Títulos Predeterinados
Los títulos, las escalas, los puntos y tipos de líneas, los colores y otros atributos gráficos son
automáticamente generados.

82/ Gráficas
4.1.1 Opciones de Diseño
Para modificar una gráfica una vez que ha sido creada, primero haga doble clic sobre ella para
que así ocupe totalmente la ventana de análisis. Luego haga clic en el ícono Opciones Gráficas
localizado en la barra de herramientas de análisis. Se mostrará un cuadro de diálogo con
diferentes separadores, que corresponden a los distintos elementos gráficos.

El separador Diseño en el cuadro de diálogo Opciones Gráficas es usado para cambiar algunas de las
características básicas de la gráfica:

Figura 4-2. Separador de Diseño en el Cuadro de Diálogo Opciones Gráficas

83/ Gráficas
Esto incluye la orientación de las marcas de los ejes, el grueso de los ejes, y el color del fondo de
la gráfica y sus bordes. Por ejemplo, cambiando el color del Fondos a amarillo y añadiendo Efectos
3D modifica la gráfica como se muestra a continuación:

Gráfico del Modelo Ajustado


MPG City = exp(2.1328 + 2799.07/Weight)
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-3. Gráfica después de Modificar el Fondo y seleccionar Efectos 3D

84/ Gráficas
4.1.2 Opciones de Mallas
El separador Mallas se utiliza para añadir una malla al plano:

Figura 4-4. Separador Malla en el Cuadro de Diálogo Opciones Gráficas


Añadir una malla gris de líneas punteadas en Ambas direcciones produce la siguiente gráfica:

85/ Gráficas
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-5. Gráfica después de Añadir una Malla Punteada

86/ Gráficas
4.1.3 Opciones de Líneas
El separador Líneas es usado para especificar el tipo, color y grueso de las líneas en la gráfica:

Figura 4-6. Separador Líneas en el Cuadro de Diálogo Opciones Gráficas


Una Gráfica tal como la del modelo ajustado tiene tres líneas diferentes: la línea de mejor ajuste, los
límites de confianza internos y los límites de predicción externos. Para cambiar cualquiera de estas
líneas, haga clic en su botón correspondiente (número del 1 al 20) y luego seleccione los atributos
deseados. Incrementando el grosor de la línea central y cambiando otros tipos de línea resultará en:

87/ Gráficas
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-7. Gráfica después de Modificar las Líneas

Nota: solo se puede cambiar el grueso de las líneas sólidas.

88/ Gráficas
4.1.4 Opciones de Puntos
El separador Puntos se usa para especificar el tipo, color y tamaño de los puntos en la gráfica:

Figura 4-8. Cuadro de Diálogo del Separador Puntos en Opciones Gráficas


El botón #1 controla los atributos del primer conjunto de puntos en una gráfica. En el ejemplo
actual, existe solo un conjunto. Cambiando los puntos a diamantes sólidos creará la siguiente Gráfica:

89/ Gráficas
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-9. Gráfica después de Modificar el Tipo de Puntos

90/ Gráficas
4.1.5 Opciones del Título Principal
El separador Título Principal se utiliza para especificar el tipo de texto y fuente para la
información mostrada por encima de la la gráfica:

Figura 4-10. Separador Título Principal en el Cuadro de Diálogo Opciones Gráficas


Las gráficas tienen hasta 2 líneas por título. Una entrada como “{3}” en un campo de título
indica que el texto es automáticamente generado por el procedimiento del análisis, conteniendo
usualmente nombres de variables o estadísticos calculados. Usted puede cambiar cualquier título,
incluyendo aquellos que son automáticamente creados. También puede arrastrar el título a un
nuevo lugar con el ratón:

91/ Gráficas
Fitted S-Curve from 93cars File
MPG City = exp(2.1328 + 2799.07/Weight)
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 4-11. Gráfica después de Modificar el Título Principal

92/ Gráficas
4.1.6 Opciones de Escalas de los Ejes
El cuadro de diálogo Opciones Gráficas también contiene separadores que le permiten modificar los
títulos de los ejes y su escala:

Figura 4-12. Separador Eje-X en el Cuadro de Diálogo Opciones Gráficas


Existen varios campos importantes en este cuadro de diálogo:

1. Título: título desplegado a lo largo del eje.

2. Desde, Hasta, Por y Omitir: configura la escala de las marcas. El valor en Omitir se utiliza para
evitar mostrar ciertas marcas si estas se juntan entre sí. Por ejemplo, un valor de 1 en el
campo Omitir desplegará las marcas saltándose una a la vez.
93/ Gráficas
3. Rotar Etiquetas del Eje- X: despliega verticalmente las etiquetas de las marcas del eje X.

4. Sin Potencias: suprime mostrar números pequeños o grandes usando etiquetas como (X 1000).

5. Log: traza el eje usando una escala logarítmica de base 10.

6. Mantener: congela la escala del eje y evita que pueda ser modificada. Normalmente, los ejes
reajustan su escala al momento en que los datos cambian.

7. Fuentes: pulse este botón para cambiar el color, tamaño, ó estilo del título y de las marcas.

La salida generada por los cambios en el cuadro de diálogo superior se muestra a continuación:

Fitted S-Curve from 93cars File


MPG City = exp(2.1328 + 2799.07/Weight)
55
MPG in city driving

45

35

25

15
1500 2000 2500 3000 3500 4000 4500
Weight in lbs.

Figura 4-13. Gráfica después de Modificar la Escala y los Títulos de los Ejes

94/ Gráficas
4.1.7 Opciones de Relleno
Algunos Gráficas, como los histogramas, contienen áreas sólidas. El separador Rellenos en el cuadro de
diálogo Opciones Gráficas controla el color y el tipo de relleno de las barras, polígonos y áreas en un
Diagrama de Sectores:

Figura 4-14. Separador Rellenos en el Cuadro de Diálogo Opciones Gráficas


El botón #1 controla el primer tipo de relleno en una gráfica. En un histograma, todas las barras
utilizan el primer tipo de relleno. En algunas gráficas, como en los diagramas de sectores, se utiliza
más de un tipo de relleno. En esos casos, los botones del #2 al #20 controlan los otros tipos de
relleno.

95/ Gráficas
Para gráficas como los histogramas, fijar un tipo de relleno no-sólido resulta una buena idea cuando se
imprimen los resultados en blanco y negro:

Histograma

24

20

16
frecuencia

12

0
1500 2000 2500 3000 3500 4000 4500
Weight

Figura 4-15. Histograma con Tipo de Relleno Modificado

4.1.8 Opciones de Texto, Etiquetas y Leyendas


Para las gráficas que contienen leyendas o etiquetas adicionales, se incluyen separadores en el cuadro
de diálogo Opciones Gráficas que le permiten cambiar los textos y las fuentes.

4.1.9 Añadir Texto Nuevo


Puede agregar texto adicional a cualquier gráfica pulsando el ícono Añadir texto en la barra
de herramientas de análisis. Se generará un nuevo cuadro de diálogo donde puede capturar el
texto:

96/ Gráficas
Figura 4-16. Cuadro de Diálogo para Añadir un Nuevo Texto

La línea de texto será inicialmente posicionada bajo el título principal, pero puede ser arrastrada a
cualquier parte mediante el ratón:

Fitted S-Curve from 93cars File


MPG City = exp(2.1328 + 2799.07/Weight)
55
MPG in city driving

45
< outlier

35

25

15
1500 2000 2500 3000 3500 4000 4500
Weight in lbs.

Figura 4-17. Gráfica después de Añadir una Nueva Línea de Texto


Si necesita hacer cambios después de agregar el texto, haga clic sobre el mismo y luego pulse el botón
Opciones Gráficas.

97/ Gráficas
4.2 Separando Puntos en un Gráfico de Dispersión
Cuando en un gráfico de dispersión, una o ambas variables son discretas, la posibilidad de que
haya puntos exactamente en la misma posición y obstruyéndose entre sí puede ser muy factible.
La barra de herramientas de análisis tiene un ícono Separar que soluciona este problema al
separar puntos de forma aleatoria en dirección horizontal y/o vertical. Por ejemplo, considere
la siguiente gráfica del archivo de datos 93cars.sf6 :

Gráfico de MPG City vs Cylinders

55

45
MPG City

35

25

15
2 3 4 5 6 7 8 9
Cylinders

Figura 4-18. Gráfico de Dispersión de Millas por Galón vs Cilindros


A pesar de que existen 93 casos en la hoja de datos, existen muchos menos de 93 puntos en la gráfica.

Si presiona el botón Separar, aparecerá un cuadro de diálogo que le permitirá agregar una pequeña
separación (aleatoria) a los puntos:

Figura 4-19. Cuadro de Diálogo de Separación de Puntos

98/ Gráficas
En este caso, añadir una pequeña separación de puntos horizontalmente le otorga una mejor
visión de la ubicación de los puntos:

Gráfico de MPG City vs Cylinders

55

45
MPG City

35

25

15
2 3 4 5 6 7 8 9
Cylinders

Figura 4-20. Gráfico de Dispersión después de la Separación Horizontal de Puntos


Cada punto ha sido separado un poco y de forma aleatoria a lo largo del eje horizontal. Separar
los puntos de una gráfica solo afecta la manera en que se muestra, mas no tiene efecto alguno
sobre los datos de la hoja de datos o en los cálculos realizados con ellos.

4.3 Resaltando Puntos en un Gráfico de Dispersión


Un interesante método de visualizar las relaciones entre variables es coloreando los puntos de un
gráfico de dispersión de acuerdo al valor de otra variable. Por ejemplo, considere el siguiente
Gráfico de Matriz para variables seleccionadas del archivo 93cars.sf6:

99/ Gráficas
MPG City

MPG Highway

Length

Weight

Width

Figura 4-21. Gráfico de Matriz para algunos Datos del Archivo 93cars
El gráfico de dispersión en cada celda de la matriz muestra los valores de las variables
correspondientes a sus identificadores de fila y columna.

Suponga que usted deseaba visualizar cómo el caballaje de los automóviles se relaciona con las 5
variables graficadas. Si presiona el ícono Resaltar en la barra de herramientas de análisis, se
mostrará el siguiente cuadro de diálogo:

Figura 4-22. Cuadro de Diálogo para Seleccionar la Variable a Resaltar

100/ Gráficas
Seleccione una variable numérica a usar para codificar los puntos. Después de seleccionar la
variable a resaltar, un cuadro de diálogo emergente aparecerá:

Figura 4-23. Cuadro de Diálogo Emergente para Seleccionar el Intervalo del Resaltado
Las dos barras de desplazamiento se utilizan para especificar los límites superiores e inferiores
para la variable. Todos los puntos en el gráfico de dispersión son coloreados con azul claro si
caen dentro del intervalo especificado. Por ejemplo, en el gráfica inferior, todos los automóviles
con caballaje entre 55.0 y 121.15 son coloreados de azul claro:

MPG City

MPG Highway

Length

Weight

Width

Figura 4-24. Gráfico de Matriz después de Resaltar los Puntos


Es evidente en la gráfica superior que el Caballaje está fuertemente correlacionado con las otras
variables.

101/ Gráficas
4.4 Suavizando un Gráfico de Dispersión
Para ayudar a visualizar la relación entre las variables en un gráfico de dispersión, puede aplicarse
un suavizamiento. Para suavizar un gráfico de dispersión, pulse el ícono Suavizar/Rotar en
la barra de herramientas de análisis. Esto mostrará el siguiente cuadro de diálogo:

Figura 4-25. Cuadro de Diálogo Suavizando un Gráfico de Dispersión


Para suavizar un gráfico de dispersión se selecciona un conjunto de locaciones a lo largo del eje-
X para que en una se grafica el promedio ponderado de la fracción específica de los puntos más
cercanos a esa locación. Uno de los mejores métodos para suavizar se denomina LOWESS
(Suavización de Dispersión Localmente Ponderada), generalmente usando una fracción
suavizadora entre 40% y 60%. El resultado de suavizar el Gráfico de Matriz con los datos de los
automóviles se muestra a continuación:

102/ Gráficas
MPG City

MPG Highway

Length

Weight

Width

Figura 4-26. Gráfico de Matriz Suavizado usando Lowess con una Fracción Suavizadora del 50%
Suavizar ayuda a ilustrar el tipo de relaciones entre las variables.

4.5 Identificando Puntos


Para mostrar el número de fila y las coordenadas correspondientes de cualquier punto en la
gráfica, usted debe pulsar el botón izquierdo del ratón sobre el punto. Aparecerá un pequeño
cuadro en la esquina superior derecha de la gráfica, mostrando el número de fila y las
coordenadas del punto:

103/ Gráficas
Figura 4-27. Mostrando Información sobre el Punto Seleccionado
Al mismo tiempo, el número de fila del punto será colocado en el campo Fila en la barra de
herramientas de análisis:

Figura 4-28. Barra de herramientas de análisis mostrando el Número de Fila del Punto Seleccionado

Información adicional sobre el punto puede ser obtenida pulsando el ícono Identificar y
seleccionando una columna del Libro de Datos:

104/ Gráficas
Figura 4-29. Cuadro de Diálogo Identificación de un Punto
Después de seleccionar una variable, haciendo clic en cualquier punto aparecerá el contenido de
esa variable en el campo Etiqueta de la barra de herramientas de análisis:

Figura 4-30. Barra de herramientas de análisis mostrando el Fabricante del Punto Seleccionado

El ícono de binoculares los a la derecha de los campos Etiqueta y Fila pueden usarse para
localizar puntos en una gráfica. Si usted captura un valor en cualesquiera de los campos de
edición y luego presiona el botón Localizar correspondiente, todos los puntos en la gráfica que
coincidan con el valor capturado serán resaltados. Por ejemplo, la gráfica inferior colorea de
azul claro los puntos de todos los Hondas:

105/ Gráficas
Figura 4-31. Gráfica Resaltando todos los Hondas
Esta técnica es también bastante efectiva en un Gráfico de Matriz. En la siguiente gráfica, todos
los puntos correspondientes a la fila #42 han sido resaltados:

106/ Gráficas
MPG City

MPG Highway

Length

Weight

Width

Figura 4-32. Gráfico de Matriz Resaltando lal Fila #42


Localizar un punto en el Gráfico de Matriz puede ayudar a identificar si es un dato aberrante con
respecto a más de una variable.

Nota: el color usado para resaltar los puntos se determina en el separador Gráficas del
cuadro de diálogo Preferencias, accesible desde el menú Editar

4.6 Copiando Gráficas a otras Aplicaciones


Una vez que una gráfica ha sido creada en el STATGRAPHICS Centurion, puede ser fácilmente
copiada a otros programas como Microsoft Word o PowerPoint haciendo lo siguiente:

1. Maximizando el panel que contiene la gráfica.

2. Seleccionando Copiar del menú Editar del STATGRAPHICS Centurion.

3. Seleccionando Pegar estando en la otra aplicación.

De manera predeterminada, las gráficas son pegadas en formato de “Imágen”, que corresponde
a un meta-archivo de Windows. En los casos em que usted deseé pegar la gráfica en algún otro
formato, puede seleccionar Pegado Especial en lugar del común Pegar.

107/ Gráficas
Para copiar un análisis completo en otra aplicación, incluyendo todas las tablas y gráficas,
primero copie el análisis al StatReporter usando el menú emergente al pulsar el botón derecho
del ratón y luego copie el StatReporter a la otra aplicación. Esta técnica es explicada en el
Capítulo 7.

Para copiar tanto la gráfica como la ventana que la contiene, como en la Figura 4-31 arriba, una
herramienta de captura de ventana externa se recomienda. En la producción de éste manual, se
ha utilizado un programa llamado SnagIt, el cual está disponible para su compra en
www.techsmith.com. Si usa el SnagIt, le recomendamos que fije la opción Input a “Window” y la
opción Output a “Clipboard”. Entonces así podrá pegar imágenes directamente a cualquier
documento.

4.7 Guardando Gráficas como Archivos de Imágen


Gráficas Individuales también pueden ser guardadas en archivos imágen maximizando una
gráfica y luego seleccionando Guardar Gráficos del menú Archivo. Un cuadro de diálogo se
presentará en el cual debe especificar el nombre de un archivo y el formato de imágen:

Figura 4-33. Cuadro de Diálogo para Seleccionar Archivo a guardar en un Archivo Imágen

108/ Gráficas
Para guardar las gráficas que serán leídas en Word o PowerPoint, debe guardar la gráfica como
un meta-archivo de Windows lo que otorga una mayor flexibilidad. Si la gráfica es para ser
mostrada en una página web, se recomienda guardarla como un archivo JPEG.

109/ Gráficas
5
Capítulo

StatFolios
Guardando su sesión de trabajo, publicando resultados en formato HTML, y
automatizando análisis usando rutinas ejecutables.

Cada vez que usted selecciona un análisis estadístico del menú del STATGRAPHICS Centurion,
se crea una nueva ventana de análisis. Usted puede guardar todas las ventanas de análisis en
cualquier momento creando un StatFolio. El StatFolio es un archivo que contiene la definición de
todos los análisis estadísticos que han sido creados, con apuntadores a los datos utilizados en los
mismos. Al guardar un StatFolio y reabrirlo después, usted guarda y recupera eficientemente su
sesión de trabajo actual del STATGRAPHICS Centurion.

Cuando se guarda una sesión en un StatFolio, la estructura del análisis es lo que se guarda y no
los resultados. Cuando se reabre un StatFolio, los datos asociados son releídos y todo el análisis
es recalculado. Los StatFolios proveen un método simple para repetir posteriormente los
análisis usando diferentes datos.

A su vez también puede crear una rutina que se ejecute siempre que un StatFolio sea cargado.
Detalles de ésta y otras características de los StatFolios se describen en éste Capítulo.

5.1 Guardando su Sesión de Trabajo


Para guardar el estado actual de su sesión de trabajo en el STATGRAPHICS Centurion,
seleccione Archivo – Guardar – Guardar StatFolio en el menú principal. Capture un nombre para
el StatFolio en el cuadro de diálogo que se muestra a continuación:

110/ StatFolios
Figura 5-1. Cuadro de Diálogo de Selección de Archivo para Guardar un StatFolio
Los StatFolios son guardados en archivos con la extensión .sgp. Estos contienen:

1. Una definición de todos los análisis creados, incluyendo las variables usadas, las tablas y
las gráficas, configuraciones de todas las opciones elegidas, cambios hechos a las gráficas,
etc. Cuando un StatFolio es reabierto, los análisis son recalculados y se actualizan todas
las tablas y gráficas.

2. Los vínculos a las fuentes de datos contenidos en el Libro de Datos. Si los datos
cambian entre el tiempo en que un StatFolio es guardado y cuando es reabierto, la
ventana de análisis reflejará los cambios.

3. Vínculos a los archivos de StatGallery y StatReporter, en caso de que se haya colocado


material en ellos antes de que el StatFolio sea guardado. El programa le pedirá que
provea los nombres para el StatGallery y el StatReporter cuando se guarde el StatFolio.

111/ StatFolios
5.2 Rutinas del StatFolio
Cuando se carga por primera vez un StatFolio, todas las ventanas de análisis son restauradas a su
condición previa. Entonces STATGRAPHICS Centurion busca encontrar si una Rutina de
Inicio ha sido guardada con el StatFolio y la ejecuta si la encuentra. Una rutina puede ser creada
seleccionando Rutina de Inicio del Statfolio del menú Editar. Se mostrará un cuadro de diálogo con
campos para definir una secuencia de acciones a realizar:

Figura 5-2. Una Rutina de Inicio Básica de un StatFolio


Las operaciones deseadas son especificadas en el orden en el que deben ejecutarse. Las
operaciones disponibles son:

112/ StatFolios
Operación Argumento Objetivo Descripción
Ejecutar Título del Análisis Actualiza el análisis indicado.
Asignar Expresión STATGRAPHICS Nombre de Evalúa la expresión y la asigna a
Centurión Columna la columna indicada.
Imprimir Ventana(s) a imprimir Imprime el contenido de las
ventanas indicadas.
Publicar Corre StatPublish para publicar
los contenidos del StatFolio en
formato HTML.
Cápsula Comando Windows a ejecutar Argumento Genera que Windows ejecute
del Comando un comando.
Retrasar Número de Segundos Hace una pausa por el tiempo
especificado
Cargar Nombre del StatFolio Especifica el StatFolio a cargar
al momento en que la rutina se
corra. Esto permite que los
StatFolios se ejecuten en
cadena.
Salir Salir del STATGRAPHICS
Centurion
Figura 5-3. Operadores de la Rutina de Inicio
En el ejemplo mostrado en la Figura 5-2, una Regresión Simple es elaborada. Dentro de ese
análisis, se asume que Guardar Resultados ha sido programado para guardar los residuos del
modelo ajustado en una columna llamada RESIDUALS. Los residuos son entonces divididos
por los valores originales de los datos y luego multiplicados por 100 para crear los porcentajes de
error, que son asignados a una nueva variable llamada PERROR. Los valores en PERROR son
entonces resumidos usando el procedimiento Análisis de Una Variable, después del cual los
resultados de ambos análisis son impresos.

Note que los StatFolios pueden encadenarse utilizando en una línea el operador CARGAR para
cargar y empezar la ejecución en otro StatFolio. También puede salirse automáticamente del
STATGRAPHICS Centurion usando el operador SALIR.

NOTA: Usted puede suprimir la ejecución de rutinas seleccionando Inhabilitar Rutinas de Inicio en
el separador General del cuadro de diálogo Preferencias, accesible desde el menú Editar:

113/ StatFolios
Figura 5-4. Inhabilitando Rutinas de Inicio

114/ StatFolios
5.3 Actualizando Datos Vinculados
Una vez que un StatFolio ha sido creado conteniendo diferentes, los datos pueden ser releídos
en intervalos de tiempo fijos originando la actualización del análisis. Esto se obtiene usando el
cuadro de diálogo Propiedades del Libro de Datos en el menú Editar, o seleccionando StatLink en el
menú Archivo:

Figura 5-5. Cuadro de Diálogo Propiedades del Libro de Datos para Actualizar con Datos Vinculados
Para consultar las fuentes de los datos repetidamente:

1. Coloque una paloma en la opción de Actualizar para cada fuente de datos a releer.

2. Habilite a Encendido en el cuadro de opción Actualizando.

3. Especifique la frecuencia para releer los datos.

4. Seleccione Ejecutar Rutina si desea correr la rutina de inicio del StatFolio cada vez que los
datos sean leídos.

115/ Statfolios
Al incluir el operador Publicar en algún paso de la rutina de inicio, usted puede hacer que
STATGRAPHICS Centurion guarde automáticamente los resultados en un servidor de red.

5.4 Publicando Datos en Formato HTML


La salida de un StatFolio puede ser publicada en un formato que sea visible usando un
navegador de red básico, seleccionando StatPublish del menú Archivo. Se muestra un cuadro de
diálogo para indicar que resultados se publican y donde deben colocarse:

Figura 5-6. Cuadro de Diálogo StatPublish para crear una salida HTML
Los campos en este cuadro de diálogo se usan para especificar:

• Archivo HTML en un directorio local: Este es el nombre del archivo HTML que
mantendrá el contenido del StatFolio. Enlistará el contenido del StatFolio y proveerá
vínculos a otros archivos HTML correspondientes a cada ventana en el StatFolio. De
manera predeterminada, es colocado en el mismo directorio que el propio StatFolio, con el
116/ Statfolios
mismo nombre que el StatFolio pero con la extensión .htm en lugar de .sgp. Para visualizar un
StatFolio publicado, normalmente un navegador será direccionado a abrir este archivo.

• FTP sitio URL: Toda los resultados publicados son primeramente colocados en el
directorio local arriba indicado. Esto incluye archivos HTML , archivos de imágen
conteniendo las gráficas y otros archivos de soporte. Si se captura un sitio en el campo FTP
Sitio URL, todos los archivos también serán subidos a la dirección referida por el URL.
Normalmente este es un directorio de un servidor. Note que usted deberá tener acceso
FTP para escribir en el URL indicado, lo cual tal vez deba ser programado por el
administrador de la red.

• FTP Nombre de Usuario: nombre de usuario para el acceso FTP al URL indicado.

• FTP Clave de acceso: clave de acceso para el acceso FTP al URL indicado.

• Incluir: Revisa todos las ventanas del StatFolio que deben publicarse.

• Ancho y Altura de la Gráfica en Pixeles: el tamaño de las gráficas cuando se introduzcan


en los archivos HTML.

• Formato de Imágen: Las gráficas pueden ser agregadas en archivos HTML en una de las
siguientes tres formas:

1. JPEG – imágenes estáticas guardadas en formato JPEG. Los archivos son creados con
nombres similarea a ejemplo_análisis_gráfica.jpg.

2. PNG – imágenes estáticas guardadas en formato PNG. Los archivos son creados con
nombres como ejemplo_análisis_gráfica.png.

3. Java Applets – salidas dinámicas que pueden ser actualizadas mientras son vistas por el
navegador. Mientras en el navegador, la gráfica será actualizada en la frecuencia indicada
leyendo un archivo auxiliar con un nombre similar a ejemplo_análisis_gráfica.sgz. Esta
opción está diseñada para utilizarse en conjunto con la actualización de datos en tiempo
real usando el STATLink, como se describe en el archivo PDF titulado Procesamiento y
Análisis Dinámico de Datos. Nota: no todas las gráficas serán publicadas apropiadamente
usando ésta opción. Si una ó más gráficas no se muestran correctamente en la salida
publicada, seleccione una opción diferente.

117/ Statfolios
• Agregue interactividad a los applets: Para las gráficas publicadas como applets, el
seleccionar esta característica le permite al usuario ver información acerca de los valores de
los datos dando clic en un punto mientras se encuentre en el navegador de la red.

Después de completar los campos de captura, pulse ACEPTAR para publicar el StatFolio.

Para ver un StatFolio publicado, inicie cualquier navegador de red y use su ícono de Archivo para
abrir el archivo especificado en el campo superior de la Figura 5-6. Usted puede también
visualizar la salida seleccionando Ver Resultados Publicados del menú Archivo en STATGRAPHICS
Centurion.

NOTA: Las tablas y gráficas son guardadas en los archivos de salida HTML con
nombres automáticamente generados por StatPublish. Mientras esté en el navegador
de red, podrá ver el código de la fuente HTML y determinar fácilmente los nombres de
los archivo. Estos archivos entonces pueden ser agregados a su propia página web si así
lo desea.

118/ Statfolios
6
Capítulo

Usando el StatGallery
Mostrando gráficas en varios planos y sobreponiendo gráficas.

StatGallery es una ventana especial dentro del STATGRAPHICS Centurion donde las gráficas
creadas en otros procedimientos pueden pegarse en forma adjunta ó encima una de otra.
Visualizando una gráfica al lado de otra, consiste en una herramienta muy poderosa para comparar
dos conjuntos de datos, dos modelos estadísticos ó dos niveles de un gráfico de contorno.
Sobreponiendo las gráficas crea presentaciones únicas que no se pueden producir en ningún otro
lugar del programa.

Las gráficas del StatGallery se guardan en archivos con extensión .sgg. Si usted coloca la salida en
StatGallery, un puntero al archivo StatGallery será guardado en el StatFolio presente. Cuando el
StatFolio es reabierto posteriormente, automáticamente se cargará el StatGallery asociada.

6.1 Configurando una página del StatGallery


El StatGallery está contenido en una ventana diferente que es creada cuando el
STATGRAPHICS Centurion es cargado por primera vez. Consiste de una ó más páginas, cada
una capaz de mostrar hasta 9 gráficas. De manera predeterminada, cada página de la galería esta
configurada para mostrar 4 gráficas, como se muestra a continuación:

119/Usando el Statgallery
Figura 6-1. La ventana del StatGallery
Los botones en la parte superior de la ventana le permiten navegar a otras páginas en la galería..
Si usted requiere cambiar el número de gráficas mostradas en una página, pulse el botón derecho
del ratón y seleccione Organizar Ventanas. Para una sola página pueden seleccionarse arreglos
conteniendo hasta 9 gráficas:

Figura 6-2. Configuraciones Alternativas para una Página del StatGallery

120/Usando el Statgallery
Cada uno de los siete arreglos a la izquierda corresponden a un conjunto rectangular de filas y
columnas. La opción Por Columnas le permite crear un arreglo con diferentes números de filas
en cada una de las 3 columnas.

Usted puede también utilizar las barras de desplazamiento en la ventana del StatGallery para
acomodar los paneles como lo desee.

6.2 Copiando Gráficas al StatGallery


Para colocar una gráfica en el StatGallery, primero debe copiarla desde la ventana de análisis
donde fue creada al portapapeles de Windows. Por ejemplo, suponga que desea mostrar gráficos
de contorno creados en el procedimiento DDE-Analizar Diseño a dos niveles diferentes de un
factor experimental seleccionado. Los pasos a seguir son:

1. Configurar una página seleccionada del StatGallery para mostrar gráficos en un formato
Izquierda y Derecha.

2. Generar un gráfico de contorno dentro de Analizar Diseño para un nivel del factor
experimental y copiarlo al portapapeles de Windows.

3. Activar la ventana del StatGallery. Hacer clic con el botón derecho del ratón en el panel
extremo izquierdo y seleccionar Pegar para colocar el gráfico de contorno en el
StatGallery.

4. Regresar a la ventana Analizar Diseño y genere un segundo gráfico de contorno en un


nivel diferente del factor experimental. Copiarlo al portapapeles de Windows.

5. Regresar a la ventana del StatGallery. Hacer clic con el botón derecho del ratón en el
panel extremo derecho y seleccionar Pegar . Esto colocará el segundo gráfico de contorno
a un lado del primero en el StatGallery.

La desplegado resultante es similar al que se muestra a continuación:

121/Usando el Statgallery
Figura 6-3. Gráficas Adjuntas en el StatGallery
En el plano superior, la progresión de los colores de una gráfica a la otra muestran un
decremento en la fuerza mientras un incremento en el polietileno.

Cuando pegue una gráfica en el StatGallery, en lugar de usar Pegar debe seleccionar Pegar Vínculo
en el menú emergente al pulsar el botón derecho del ratón. Con pegar vínculo, la gráfica en la
galería es vinculada inmediatamente a la ventana de análisis en donde originalmente fue creada y
se cambiará en el StatGallery siempre que cambie en la ventana de análisis original.

6.3 Sobreponiendo Gráficas


Cuando una gráfica es pegada en el StatGallery dentro de un panel que ya contiene otra gráfica,
se tienen la opción de reemplazar la gráfica que se encuentra ahí o sobreponer la nueva gráfica
por encima de la existente. Sobreponer una gráfica en otra puede ser útil, como cuando se
ajustan dos modelos estadísticos diferentes:

122/Usando el Statgallery
Figura 6-4. Sobreponiendo Gráficas en el StatGallery
Cuando una gráfica es sobrepuesta en otra que ya se encontraba en el StatGallery, solo el
contenido dentro de los ejes de la segunda gráfica se despliegan. El texto de la segunda gráfica
NO se incluye.

Note: Si la escala de la segunda gráfica es diferente al de la primera, la segunda gráfica


será ajustada para que concuerde con la primera.

6.4 Modificando una Gráfica dentro del StatGallery


Ciertos aspectos de una gráfica pueden ser modificados después de ser pegada en el StatGallery.

6.4.1 Añadiendo Detalles Gráficos


Para añadir un detalle gráfico:

123/Usando el Statgallery
1. Haga doble clic en la gráfica deseada para maximizarla.

2. Pulse el botón derecho del ratón y seleccione Agregar Objeto del menú. El cuadro de
diálogo emergente aparecerá:

Figura 6-5. Cuadro de Diálogo para Agregar Objeto


3. Seleccione el tipo de objeto que desea añadir al gráfico.

Los 5 primeros botones en el cuadro de diálogo de la Figura 6-5 funcionan manteniendo


pulsando el botón del ratón y desplazando la línea o la figura hasta que se rellene el área deseada.
El último botón activa el modo de texto de manera que la próxima vez que haga clic en la
gráfica, un cuadro de diálogo de captura de texto se mostrará. El texto agregado puede entonces
ser desplazado al sitio deseado.

6.4.2 Modificando Detalles Gráficos


Para modificar un detalle gráfico en el StatGallery:

1. Haga doble clic en la gráfica deseada para maximizarla.

2. Hacer clic sobre el objeto a cambiar para indicarlo. Pequeños bloques rectangulares
aparecerán alrededor del objeto que ha sido marcado.

3. Pulse el botón derecho del ratón y elija Modificar Objeto del menú que se muestra.

Se mostrará un cuadro de diálogo correspondiente al tipo de objeto señalado, en el cual se


realizan los cambios deseados.

6.4.3 Eliminando Detalles Gráficos


Para eliminar un detalle gráfico en el StatGallery:

1. Haga doble clic en la gráfica deseada para maximizarla.

2. Haga clic con el ratón sobre el objeto a borrar para indicarlo.

124/Usando el Statgallery
3. Pulse el botón derecho del ratón y elija Borrar Objeto del menú que se muestra.

6.5 Imprimiendo el StatGallery


Para imprimir los objetos en el StatGallery:

1. Active la ventana del StatGallery dando clic sobre la misma con el ratón.

2. Pulse el ícono Imprimir en la barra de herramientas principal, u pulse el botón derecho del
ratón y elija Imprimir del menú que se muestra.

Usted puede imprimir todas las páginas o un conjunto seleccionado de las mismas.

125/Usando el Statgallery
7
Capítulo

Usando el StatReporter
Copiando análisis al StatReporter, haciendo notaciones a los reportes y
guardando los resultados en un Archivo RTF para importarlos a Microsoft
Word.

El StatReporter es una ventana donde los reportes de salida de los diferentes procedimientos
estadísticos pueden ser integrados en un reporte más formal. Es una versión básica del
WordPad, que corre desde el STATGRAPHICS Centurion. El StatReporter le permite:

1. Crear un reporte completo en el STATGRAPHICS, sin la necesidad de usar otra


aplicación. Esto puede ser muy útil donde los recursos son limitados, como en un área
de producción.

2. Guardar el contenido del StatReporter en un archivo con formato RTF (Rich Text
Format), que puede ser leído directamente en programas como Microsoft Word.

7.1 La Ventana StatReporter


El StatReporter consiste de una ventana separada dentro del STATGRAPHICS Centurion,
creada automáticamente cuando se carga el programa. Consiste de un exclusivo control de
edición enriquecido, junto con una barra de herramientas:

126/ Usando el StatReporter


Figura 7-1. La ventana del StatReporter
Usted puede teclear texto dentro de la ventana o pegar el reporte de salida creado en cualquier
otra parte dentro del STATGRAPHICS.

7.2 Copiando la Salida al StatReporter


STATGRAPHICS Centurion ofrece tres métodos para copiar la salida al StatReporter:

1. Copiar una sola tabla o gráfica al StatReporter, primero cópiela al portapapeles de


Windows maximizando el panel correspondiente y luego seleccione Copiar del menú
Editar. Posteriormente entre a la ventana del StatReporter y coloque el cursor en el sitio
deseado, entonces seleccione Editar – Pegar.

2. Alternativamente, maximize el panel que contiene la tabla o la gráfica a mover dando


doble clic sobre el mismo. Luego pulse el botón derecho del ratón y seleccione Copiar
Ventana al StatReporter del menú que se muestra. Esto automáticamente pega la tabla o
gráfica donde quiera que se encuentre el cursor en el StatReporter.

127/ Usando el StatReporter


3. Para copiar todos los reportes de salida de una ventana de análisis, pulse el botón
derecho del ratón y elija Copiar Análisis al StatReporter del menú que se muestra. Todas las
tablas y gráficas en la ventana de análisis serán pegadas en el StatReporter.

Cada una de éstas operaciones realiza un pegado estático (los reportes de salida en el
StatReporter nunca cambiarán). Usted puede vincular una tabla o gráfica a su fuente de origen
usando el método #1 arriba mencionado pero seleccionando Pegar Vínculo en lugar de Pegar. La
tabla o gráfica pegada en el StatReporter será entonces “iteractiva”, en el sentido de que
cambiará automáticamente cuando el reporte de salida cambie en la ventana de análisis de la cual
la tabla o gráfica fueron copiadas.

7.3 Modificando la Salida del StatReporter


La barra de herramientas del StatReporter le permite modificar los reportes de salida una vez que
han sido colocados en la ventana. Para cambiar el texto, seleccione el texto a cambiar y pulse
cualquier botón de la barra de herramientas del StatReporter. Usted puede también insertar la
fecha y hora actual pulsando el botón Fecha/Hora.

7.4 Guardando el StatReporter


Para guardar el reporte de salida del StatReporter, seleccione Archivo – Guardar – Guardar
StatReporter del menú principal y capture un nombre para identificar el archivo a guardar. El
contenido del StatReporter es guardado en archivos de tipo .rtf, que pueden ser leídos
directamente en programas como Microsoft Word.

Siempre que se abre un StatFolio, éste automáticamente carga el StatReporter que estaba
presente cuando el StatFolio fue guardado. Usted puede también abrir un StatReporter
independientemente usando el menú Archivo – Abrir.

128/ Usando el StatReporter


8
Capítulo

Usando el StatWizard
Seleccionando el análisis estadístico adecuado, buscando las estadísticas y
pruebas deseados y generando múltiples ventanas en base a diferentes factores.

El StatWizard es una herramienta exclusiva del STATGRAPHICS Centurion diseñada para


ayudarle a usted de muchas maneras:

1. Puede ayudarlo a crear una nueva hoja de datos o leer una fuente de datos existente.

2. Puede sugerir análisis basados en el tipo de datos a analizar.

3. Puede buscar estadísticos o pruebas deseadas y dirigirlo a los procedimientos de análisis


que los calcularon.

4. Puede ayudar en la definición de las transformaciones de los datos o en la selección de


un subconjunto de datos.

5. Puede repetir análisis deseados para cada valor específico de una columna de datos.

El StatWizard aparece siempre que usted carga el STATGRAPHICS Centurion, a menos de que
usted elija suprimir esta opción. El asesor puede también invocarse en cualquier momento
pulsando el ícono del StatWizard en la barra de herramientas principal.

129/ Usando el StatWizard


8.1 Accesando Datos o Creando un Nuevo Estudio
Si el Libro de Datos se encuentra vacío cuando se activa el StatWizard, éste muestra un cuadro
de diálogo cuestionándole sobre sus requerimientos de datos:

Figura 8-1. Cuadro de Diálogo del StatWizard para Requerimiento en la Captura de Datos
Existen 3 opciones:

1. Usted desea cargar nuevos datos en el Libro de Datos del STATGRAPHICS Centurion.
El asesor entonces lo guiará a traves de una secuencia de cuadros de diálogo adicionales
con la finalidad de definir las columnas de una hoja de datos o seleccionar una fuente de
datos, como se describió en capítulos anteriores de éste manual.

130/ Usando StatWizard


2. Usted desea crear un nuevo estudio antes de recolectar datos. En este caso, el asesor le
pedirá que especifique el tipo de estudio a crear y lo guía a traves de una secuencia de
cuadros de diálogo en los cuales se definirá el estudio a crearse.

3. Usted desea ejecutar un análisis que no requiera datos. En este caso, el asesor enlistará
todos esos análisis, le pedirá que seleccione uno y luego lo llevará inmediatamente a
dicho análisis.

Por ejemplo, suponga que desea establecer un nuevo estudio para un instrumento de medición
con la finalidad de estimar su repetibilidad y reproducibilidad. Seleccionando el segundo botón
en la Figura 8-1 y pulsando Aceptar se muestran las siguientes opciones:

Figura 8-2. Cuadro de Diálogo del StatWizard para Establecer un Estudio

131/ Usando StatWizard


Seleccione Establecer un Estudio R&R de Calibrador...y pulse Aceptar para mostrar un tercer cuadro
de diálogo solicitando información sobre el estudio:

Figura 8-3. Cuadro de Diálogo StatWizard para configurar el Estudio de Calibrador


En el cuadro de diálogo, capture el número de operadores que serán involucrados en el estudio,
el número de partes que serán medidas y el número de ocasiones en que cada operador medirá
cada una de las partes. Usted deberá determinar un encabezado para el estudio.

Un último cuadro de diálogo solicitará los nombres de los operadores, evaluadores o


laboratorios que estarán realizando las mediciones:

132/ Usando StatWizard


Figura 8-4. Cuadro de Diálogo para Determinar los Nombres de los Operadores
El StatWizard crea el estudio deseado y lo sitúa en la hoja de datos en el Libro de Datos:

Figura 8-5. Estudio Calibración Creado por el StatWizard

133/ Usando StatWizard


El estudio será entonces elaborado y las mediciones capturadas en la hoja de datos. El
StatWizard puede entonces ser invocado nuevamente para seleccionar el procedimiento de
análisis (o puede ir directamente a los análisis relacionados en el menú principal).

8.2 Seleccionando un Análisis para sus Datos


Si los datos ya han sido leídos al Libro de Datos, haciendo clic en el ícono del StatWizard se
muestra un cuadro de diálogo de donde se pueden seleccionar uno ó más análisis a efectuar:

Figura 8-6. Cuadro de Diálogo StatWizard para Seleccionar Análisis


Existen cinco opciones:

1. Seleccionar Análisis Basado en el Tipo de Datos: Muestra cuadros de diálogo


adicionales solicitando información sobre los datos a analizar, para después presentar
una lista de procedimientos relacionados.
134/ Usando StatWizard
2. Seleccionar Análisis por Nombre: Muestra todos los análisis disponibles en orden
alfabético. Seleccionando un análisis por nombre y pulsando ACEPTAR lo lleva
directamente al cuadro de diálogo de captura de datos para ese análisis, evitando pasar
por menús intermedios.

3. Seleccionar un SnapStat: Le permite seleccionar un SnapStat. Los SnapStats son


análisis concisos que producen una sola página de salida pre-formateada. Tienen menos
opciones que otros análisis pero son muy fáciles de crear.

4. Buscar: Muestra una lista de estadísticas, pruebas, gráficas y otras salidas que pueden ser
creadas en el STATGRAPHICS Centurion. Seleccionado un objeto de la lista cambiará
lo mostrado en el campo Seleccionar Análisis por Nombre , enlistando solo aquellos análisis
que calculan el objeto deseado.

5. Seleccionando de las Siguientes Elecciones Rápidas: Enlista algunos de los análisis


más comúnmente utilizado. Al seleccionar un análisis y pulsando ACEPTAR lo llevará
directamente al cuadro de diálogo de captura de datos para ese análisis.

Si elije la opción #1, el StatWizard enseguida mostrará un cuadro de diálogo en el cual se deben
indicar los datos a analizar. Por ejemplo, si el archivo 93cars.sf6 es leído al Libro de Datos, el
cuadro de diálogo tomará la siguiente forma:

135/ Usando StatWizard


Figura 8-7. Cuadro de Diálogo StatWizard de Selección de Datos
Los campos en este cuadro de diálogo son:

• Datos o Variables de Respuesta (Y): una o más variables de respuesta que contenga los
valores a analizar. Si solo una columna contiene datos a analizar, esta debe ser capturada
en este campo.

• Tipo: el tipo de datos contenidos en la(s) variable(s) de respuesta. Los análisis mostrados
en los cuadros de diálogo subsecuentes dependen de esta elección.

• Factores Explicativos Cuantitativos (X): cualquier factor cuantificable usado para predecir las
variables de respuesta. En una regresión, las variables independientes van aquí.

• Factores Categóricos Explicativos (X): cualquier facor no cuantificable usado para predecir las
variables de respuesta. En un ANOVA, los factores explicativos van aquí.
136/ Usando StatWizard
• Etiquetas del Caso: una columna que contenga las etiquetas de identificación para cada una
de las observaciones (filas).

Los procedimientos presentados en los cuadros de diálogo subsecuentes dependen de la captura


de datos hecha en la Figura 8-7.

El siguiente cuadro de diálogo le solicita cuales filas del archivo desea analizar:

Figura 8-8. Cuadro de Diálogo StatWizard para Selección de Filas


Las primeras seis opciones asumen que usted desea crear un solo análisis. La última opción
creará varias ventanas de análisis, una para cada valor específico contenido en la columna

137/ Usando StatWizard


indicada. Este es un modo sencillo de determinar una variable “CONDICIONADA” para un
conjunto de análisis.

Enseguida se le preguntará si desea transformar cualquiera de las variables indicadas. Si usted


contesta afirmativamente, se mostrará el siguiente cuadro de diálogo:

Figura 8-9. Cuadro de Diálogo StatWizard para Transformación de Variables


Usted puede seleccionar una transformación para una o más variables. Al solicitar una
transformación entonces se creará la expresión adecuada. Por ejemplo, al solicitar una raíz
cuadrada para MPG City se creará la expresión SQRT(MPG City) y será usada en los
procedimientos de análisis.

138/ Usando StatWizard


Al final se mostrará un cuadro de diálogo enlistando todos los análisis adecuados para el tipo de
datos que se han determinado:

Figura 8-10. Cuadro de Diálogo StatWizard de Selección de Análisis


Seleccione uno ó más análisis de la lista. Cuando pulse ACEPTAR una ventana de análisis será
creada para cada análisis seleccionado.

8.3 Buscando por Pruebas y Estadísticas Deseadas


Si usted desea calcular una estadística o prueba en particular sin estar seguro de que análisis es el
que lo calcula, entonces después de capturar sus datos en una hoja de datos, pulse el ícono del
StatWizard en la barra de herramientas principal. En el cuadro de diálogo inicial del

139/ Usando StatWizard


StatWizard, elija Buscar y recorra la lista hacia abajo. La lista de todas las estadísticas, pruebas y
otros cálculos ejecutados por el STATGRAPHICS Centurion serán mostrados:

Figura 8-11. Usando las Opciones de Búsqueda del StatWizard


Al elejir un objeto de la lista, todos los análisis que calculan o generan ese objeto serán
mostrados en el campo Seleccionar Análisis por Nombre:

140/ Usando StatWizard


Figura 8-12.Lista de Todos los Análisis que Coinciden con la Opción de Búsqueda
Ahora para correr el análisis deseado de esta lista:

1. Haga clic en la opción de Seleccionar Análisis por Nombre.

2. Resaltar el nombre del análisis.

3. Pulsar ACEPTAR.

Se pasará directamente al cuadro de diálogo de captura de datos para el análisis seleccionado,


evitando pasar por la manera común del uso de los menús.

141/ Usando StatWizard


9
Capítulo

Preferencias del Sistema


Configurando las preferencias del funcionamiento del sistema.

El STATGRAPHICS Centurion contiene cientos de opciones, cada una tiene un valor


predeterminado que ha sido seleccionado para satisfacer las necesidades de la mayoría de los
usuarios. Si lo desea, se pueden configurar nuevos valores predeterminados para la mayoría de
estas opciones. En el programa existen 3 aspectos principales para realizar esto:

1. Funcionalidad General del Sistema: se configura en el cuadro de diálogo Preferencias


accesible desde el menú Editar.

2. Opciones de Impresión: se configura en el cuadro de diálogo Configurar Página desde el


menú Archivo.

3. Las Gráficas: se configuran seleccionando Opciones Gráficas al maximizar cualquier


gráfica. El separador Perfil en el cuadro de diálogo Opciones Gráficas le permite guardar
varios conjuntos de atributos para las gráficas.

9.1 Funcionalidad General del Sistema


Los valores predeterminados para el funcionamiento general del sistema y de los procedimientos
estadísticos seleccionados pueden ser modificados seleccionando PreferenciasError! Bookmark
not defined. del menú Editar. Esto muestra un cuadro de diálogo con varios separadores,
incluyendo el separador General que define el comportamiento global del sistema y otros
separadores que contienen los valores predeterminados para los análisis estadísticos:

142/ Preferencias del Sistema


Figura 9-1. Cuadro de Diálogo de Preferencias
Algunas de las opciones mas importantes que pueden ser configuradas son:

• Nivel de Confianza: porcentaje predeterminado para usarse en los límites de confianza,


límites de predicción, pruebas de hipótesis e interpretaciones del Valor-P por el StatAdvisor.

• Dígitos Significativos: número de dígitos significativos usados para mostrar resultados


numéricos. El campo adicional indica el número de dígitos con los que se guardan los
resultados numéricos de regreso en la hoja de datos.

• Opciones del Sistema: opciones que aplican a todo el sistema.

143/ Preferencias del Sistema


o Usar Menú Seis Sigma: muestra el menú principal bajo los encabezados
correspondientes al modelo Seis Sigma DMAMC (Definir, Medir, Analizar, Mejorar,
Controlar). Las mismas selecciones están disponibles con el menú clásico, con la
excepción de que están arregladas bajo diferentes encabezados del menú principal.

o Ordenar Nombres de Variables: enlistar los nombres de las columnas en orden


alfabético dentro de los cuadros de diálogo de captura de datos. De otra forma, los
nombres de las columnas serán enlistados en el mismo orden que en la hoja de trabajo.

o Año de 4 dígitos: mostrar fechas con años de 4 dígitos en lugar de 2 dígitos. De forma
predeterminada se asume que los años de 2 dígitos como 2/1/05 representan fechas
entre 1950-2049. Los cambios en esta opción tendrán efecto hasta que el programa se
reinicie.

o Habilitar Autoguardar: guardar el StatFolio y los archivos de datos de manera


automática y definir el tiempo entre cada acción de guardar. Si se habilita esta opción y la
computadora o el programa tienen algún imperfecto, se tiene la opción de reestablecer el
estado del StatFolio y de la hoja de datos cuando se reinicie el programa.

o Actualizar Vínculos para Cada Valor: recalcular todas las estadísticas siempre que el
valor de un dato cambie. Normalmente, las estadísticas no son recalculadas hasta que
un análisis recibe la indicación, es impreso, publicado o el StatFolio es guardado.

• Gráficas: opciones que aplican a todas las gráficas.

o Mantener la Razón de Apariencia 1:1: mostrar los ejes verticales y horizontales con la
misma longitud. Normalmente el eje horizontal es más largo que el vertical.

o Siempre Blanco y Negro: mostrar gráficas en blanco y negro, anulando cualquier otra
configuración de colores.

o Suprimir el espacio entre las marcas de los ejes: suprimir el espacio normal entre la
intersección del eje vertical y horizontal y la primera marca de los ejes. Si se suprime el
espacio, algunos puntos simbólicos pueden caer directamente en los ejes.

o Suprimir Potencias en los Ejes: suprimir la notación especial al mostrar valores


pequeños o grandes en las marcas de los ejes, usualmente se usan notaciones como
(X1000).

144/ Preferencias del Sistema


o Número de Decimales para Etiquetas: número predeterminado de decimales a usar
en las leyendas mostradas a lo largo del márgen derecho de las gráficas. También se
puede configurar la fuente del texto.

• StatAdvisor: configura el comportamiento predeterminado del StatAdvisor.

o Añadir a Paneles de Texto: añadir automáticamente el informe del StatAdvisor al final


de las ventanas de texto. El informe del StatAdvisor siempre disponible pulsando el
ícono del birrete en el menú principal.

o Resaltar Referencias en Rojo: resaltar con rojo en las ventanas de texto, los valores
referidos por el StatAdvisor.

• Encabezados de los Análisis: usar una fuente azul para mostrar el título del análisis en la
parte superior del panel del Resumen del Análisis.

• StatFolios: seleccione Inhabilitar Rutinas de Inicio para evitar que las rutinas de inicio se
ejecuten al momento de cargar un StatFolio.

• Directorio de Archivos Temporal: Si se especifica, los StatFolios, los archivos de datos y


otros archivos serán colocados primero en este directorio, antes de ser copiados a su destino
final. Al determinar un manejador local, esto ayuda a incrementar enormemente la velocidad
en algunas redes, ya que reduce el número de instrucciones a la misma para guardar archivos.

La descripción de las otras opciones las puede encontrar en el documento PDF Preferencias.

9.2 Imprimiendo
Existen dos alternativas en el menú Archivo que controlan los reportes impresos:

1. Configurar Impresión: da acceso al cuadro de diálogo de opciones de una impresión


estándar que incluye el manejador de su impresora. Este cuadro de diálogo típicamente
configura el tamaño y orientación de la hoja impresa.

2. Configurar Página: cuadro de diálogo en el STATGRAPHICS Centurion que configura los


márgenes, los encabezados y otras opciones. Este cuadro fué descrito en la sección 3.3.

145/ Preferencias del Sistema


9.3 Gráficas
Al maximizar un panel que contenga una gráfica dentro de una ventana de análisis, se activa
Opciones Gráficas en la barra de herramientas de análisis. Esta opción muestra un cuadro de
diálogo con separadores que le permitirán cambiar la apariencia de la gráfica, como se describe
en el Capítulo 4. Dentro del cuadro de diálogo hay un separador llamado Perfil, en donde le
permite guardar atributos gráficos para diferentes usuarios y cambiar el perfil predeterminado
usado al crear una nueva gráfica:

Figura 9-2. Separador Perfil en el Cuadro de Diálogo Opciones Gráficas


Para cambiar los valores predeterminados del sistema:

146/ Preferencias del Sistema


1. Modifique las características de una gráfica en cualquier ventana de análisis. Defina
colores, fuentes y otras opciones que desea ver reflejadas en futuras gráficas.

2. Seleccione Opciones Gráficas de la barra de herramientas de análisis y vaya al separador


Perfil.

3. Habilite la opción de Establecer Predeterminado.

4. Elija cualquiera de los 12 perfiles de usuario y pulse el botón Guardar como (los archivos
de perfil son solo de lectura).

5. Capturar un nombre para identificar el perfil al guardarlo:

Figura 9-3. Cuadro de Diálogo Guardar Perfil


6. Pulse ACEPTAR para guardar la configuración de los atributos de las gráficas (colores,
fuentes, estilos de punto y líneas, etc.) en un nuevo perfil.

La siguiente gráfica creada usará los atributos del Perfil recién guardado.

También puede aplicar otros perfiles guardados a una nueva gráfica, creándola con la
configuración predeterminada y posteriormente:

1. Seleccionar Opciones Gráficas en la barra de herramientas de análisis y posicionándose en el


separador Perfil.

2. Elejir cualquiera de los 15 perfiles y pulsar el botón Cargar.

La gráfica será automáticamente actualizada reflejando la configuración del perfil seleccionado.

147/ Preferencias del Sistema


Capítulo

10
Tutorial #1: Analizando una
Muestra
Resumen estadístico, histograma, gráfico de caja y bigotes, intervalos de
confianza y pruebas de hipótesis.

Un problema muy común en estadística es el de analizar una muestra de n observaciones


tomadas de una población única. Por ejemplo, considere las siguientes temperaturas corporales
tomadas de n = 130 individuos:

98.4 98.4 98.2 97.8 98 97.9 99 98.5 98.8 98


97.4 98.8 99.5 98 100.8 97.1 98 98.7 98.9 99
98.6 97.7 96.7 98.8 98.2 97.5 97.2 97.4 97.1 96.7
99.2 97.9 98.8 97.6 98.6 98.8 98.5 98.7 97.5 97.9
97.1 98.4 97.4 98.6 97.8 98.2 98 98 98.3 98.6
98.8 98.7 98.8 98.1 96.4 98.8 98.7 97.9 98.6 99.2
98.6 98 99.1 97.8 97.2 98.2 98.7 98.4 98.2 97.7
98.3 98.7 96.8 98 97.2 97.9 96.9 98.3 97.8 97
98.6 98.4 98.2 98 98 98.2 97.8 99 98.1 97.7
97.4 98.8 99.3 98.9 96.3 97.8 99.9 98.4 99.4 98.7
98.4 98.2 99.3 98.5 98.3 99 99.2 97.6 99.1 97.6
98.4 97.6 98.4 98 98.8 97.3 98.7 98.6 99.4 100
98.6 98.3 98.6 97.4 98.1 97.8 98.2 99 99.1 98.2

Los datos fueron obtenidos del Journal of Statistical Education Data Archive
(www.amstat.org/publications/jse/jse_data_archive.html) y son usados bajo permiso. Estos han

148/ Análisis de una Muestra


sido colocados en un archivo llamado bodytemp.sf3, en una columna llamada Temperature que
contiene 130 filas, una fila por cada persona en el estudio.

El procedimiento principal en el STATGRAPHICS Centurion para consolidar una muestra


tomada de una población es el Análisis de una Variable. El procedimiento de Análisis de una
Variable resume los datos tanto de forma numérica como gráfica y realiza la prueba de hipótesis
sobre la media, la mediana y la desviación estándar de la población.

10.1 Ejecutando el Procedimiento Análisis de Una Variable


Para analizar los datos de la temperatura corporal, primero cargue el archivo bodytemp.sf3 en una
hoja de datos. Para obtener esto:

1. Seleccione Archivo – Abrir – Abrir Datos del menú principal.


2. En el cuadro de diálogo Abrir Datos, indique que desea abrir un archivo de datos
STATGRAPHICS.
3. Seleccione bodytemp.sf3 de la lista de archivos del cuadro de diálogo Abrir Archivo de Datos.

Los datos deben aparecer como se muestra a continuación:

Figura 10-1. Hoja de Datos con Datos de la Temperatura Corporal

149/ Análisis de una Muestra


Las temperaturas corporales medidas en grados Farenheit están en la columna extrema izquierda.

El procedimiento Análisis Univariado puede invocarse del menú principal como sigue:

1. Si utiliza el menú Clásico, elija Describir – Datos Numéricos – Análisis Univariado.

2. Si utiliza el menú Seis Sigma, elija Analizar – Datos Contínuos – Análisis Univariado.

En el cuadro de diálogo de captura de datos, indique la columna a ser analizada:

Figura 10-2. Cuadro del Diálogo de Captura de Datos en el Análisis de una Variable
Deje el campo Seleccionar en blanco para analizar las 130 filas. Pulse ACEPTAR.

Una ventana de análisis con cuatro paneles aparecerá:

150/ Análisis de una Muestra


Figura 10-3. Ventana Análisis de una Variable
El panel superior izquierdo indica que la muestra contiene n = 130 valores que van desde los
96.3 hasta los 100.8 grados. El panel superior derecho muestra un gráfico de dispersión, con los
puntos dispersados aleatoriamente en dirección vertical. Note que los puntos son más densos
entre los 98 y 99 grados, adelgazándose en ambos extremos. Este comportamiento es típico de
datos poblacionales cuya distribución cuenta con un pico central bien definido.

Los paneles inferiores muestran un resumen estadístico y un gráfico de caja y bigotes, que se
describen a continuación.

10.2 Resumen Estadístico


La tabla en el panel inferior izquierdo muestra varios estadísticos de la muestra. Se pueden añadir
estadísticos adicionales maximizando este panel (haga doble clic con el botón izquierdo del
ratón) y seleccione Opciones de Ventana en el menú emergente:

151/ Análisis de una Muestra


Figura 10-4. Cuadro de Diálogo de las Opciones del Resumen Estadístico
Añadiendo la mediana, los cuartiles y el rango intercuartil de la muestra resulta en:
Resumen Estadístico para Temperature
Recuento 130
Promedio 98.2492
Mediana 98.3
Desviación Estándar 0.733183
Coeficiente de variación 0.746248%
Mínimo 96.3
Máximo 100.8
Rango 4.5
Cuartil Inferior 97.8
Cuartil Superior 98.7
Rango intercuartílico 0.9
Sesgo Estándar -0.0205699
Curtosis Estándar 1.81642

Figura 10-5. Tabla de Resumen Estadístico


Una suposición común para medir los datos es que estos vienen de una distribución Normal o
de Gauss, i.e. de una curva tipo campana. Los datos de una distribución normal son
completamente descritos por dos estadísticos:
n

∑x i
1. La media o promedio de la muestra x = i =1
= 98.25 , la cual estima el centro de la
n
distribución.

152/ Análisis de una Muestra


n

∑ (x − x)
2
i
2. La desviación estándar de la muestra s = i =1
= 0.733 , que se relaciona con la
n −1
dispersión de la distribución.

Para una distribución normal, aproximadamente el 68% de todos los valores caerán dentro de
una desviación estándar de la media poblacional, aproximadamente el 95% dentro de dos
desviaciones estándar y aproximadamente el 99.73% dentro de tres desviaciones estándar.

La media y la desviación estándar de una muestra la describen completamente solo si viene de


una distribución normal. Dos estadísticos que pueden ser usados para revisar esta suposición
son el sesgo estandarizado y la curtosis estandarizada. Estas medidas estadísticas dan forma a:

1. Sesgo mide el grado de simetría o la falta de esta. Una distribución simétrica como la
normal tiene una nula asimetría. Las distribuciones cuyos valores tienden a caer más por
encima del pico que por abajo de éste, tienen un sesgo positivo. Las distribuciones cuyos
valores tienden a caer más por debajo del pico tienen un sesgo negativo.

2. Curtosis mide la forma de una distribución simétrica. Una curva normal o de campana
tiene cero curtosis. Una distribución con un pico mayor alrededor de la media que la
normal tiene curtosis positiva. Una distribución más aplanada tiene curtosis negativa.

Si los datos provienen de una distribución normal, tanto la asimetría estandarizada como la
curtosis estandarizada deben encontrarse dentro del rango de -2 a +2. En el caso que nos
compete, parece que la distribución normal es un modelo razonable para los datos.

Otros estadísticos muy útiles son estos cinco valores de John Tukey:

Mínimo (valor mínimo de los datos) = 96.3


Cuartil Inferior (25° percentil) = 97.8
Mediana (50° percentil) = 98.3
Cuartil Superior (75° percentil) = 98.7
Máximo (valor máximo de los datos) = 100.8

Estos cinco números dividen la muestra en cuartiles y forman la base de su gráfico de caja y
bigotes, descrita en la siguiente sección.

153/ Análisis de una Muestra


Nota: El seleccionar estadísticos adicionales usando Opciones de Ventana es solo aplicable
para el análisis actual. Para cambiar los estadísticos predeterminados para futuros
análisis, vaya al menú Editar y elija Preferencias. El separador Estadísticos en ese cuadro de
diálogo le permitirá cambiar los estadísticoss calculados de forma predeterminada
cuando el Análisis Univariado es ejecutado (así como muchos otros procedimientos que
contienen un resumen estadístico):

Figura 10-6. Cuadro de Diálogo de Preferencias Utilizado para Seleccionar Estadísticos Predeterminados

154/ Análisis de una Muestra


10.3 Gráfico de Caja y Bigotes
Un gráfico bastante útil para analizar y resumir un conjunto de datos creado por John Tukey, es
el gráfico de caja y bigotes mostrado en la esquina inferior derecha en la Figura 10-3 y agrandado
a continuación:

Gráfico de Caja y Bigotes

96 97 98 99 100 101
Temperature

Figura 10-7. Gráfico de Caja y Bigotes para Temperaturas Corporales


El gráfico de caja y bigotes se elabora:

1. Dibujando una caja que se extiende desde el cuartil inferior hasta el cuartil superior. El
50% del total de los datos son aquellos comprendidos dentro de la caja.

2. Trazando una línea vertical en la posición de la mediana, que divide los datos a la mitad.
Si los datos vienen de una distribución normal, esta línea debe encontrarse cerca del
centro de la caja.

3. Trazando un signo de más en el sitio de la media de la muestra. Cualquier diferencia


substancial entre la mediana y la media indica ya sea la presencia de un dato aberrante
(un valor que no proviene de la misma población que el resto) o una distribución
asimétrica. En el caso de una distribución asimétrica, la media será empujada en la
dirección de la cola más larga.

4. Trazando los bigotes desde cada cuartil hasta las observaciones más pequeñas y más
grandes en la muestra, a menos de que algunos valores se encuentren lo bastante lejos de

155/ Análisis de una Muestra


la caja para ser clasificados como “puntos externos”, en cuyo caso los bigotes se
extenderán hasta los puntos extremos no clasificados como “externos”.
STATGRAPHICS Centurion coincide con Tukey para identificar dos clases de puntos
atípicos:

a. Puntos “muy lejanos” – puntos 3 veces mayores al rango intercuartil por arriba
ó abajo de los límites de la caja. (Nota: el rango intercuartil es la distancia entre
los cuartiles, equivalente al ancho de la caja). Los puntos muy lejanos son
denotados mediante un símbolo (usualmente un cuadro pequeño) con un signo
de más sobreimpuesto. Si los datos provienen de una distribución normal y el
tamaño de la muestra es como en el ejemplo, la probabilidad de que cualquier
punto se encuentre lo suficientemente lejos de la caja para ser clasificado como
punto muy lejano es de solo 1 en 300. A menos de que haya miles de
observaciones en la muestra, los puntos muy lejanos son usualmente indicadores
de datos aberrantes reales (o de una distribución no normal).

b. Puntos “externos” – puntos 1.5 veces mayores al rango intercaurtil por arriba ó
abajo de los límites de la caja. Los puntos externos son denotados mediante un
símbolo pero sin el signo de más sobreimpuesto. Incluso cuando los datos
provienen de una distribución normal, la posibilidad de observar 1 ó 2 puntos
externos en una muestra de n = 100 observaciones es del 50% y no
necesariamente indica la presencia de un dato aberrante real. Estos puntos
deben solo ser considerados para un análisis más detallado.

El gráfico de caja y bigotes en la Figura 10-7 es razonablemente simétrico. Los bigotes tienen la
misma longitud y la media y mediana son similares y cercanas al centro de la caja. Tres puntos
externos son señalados, pero no los puntos muy lejanos. Dando clic en el dato atípico en el
extremo derecho nos indica que corresponde a la fila #15 del Archivo.

Si selecciona Opciones de Ventana de la barra de herramientas de análisis, puede añadir una


muesca a la altura de la mediana del gráfico:

156/ Análisis de una Muestra


Gráfico de Caja y Bigotes
Intervalos de confianza del 95% para la mediana: [98.1567, 98.4433]

96 97 98 99 100 101
Temperature

Figura 10-8. Gráfico de Caja y Bigotes con una Muesca en la Mediana al 95%
Esto añade una muesca a la muestra abarcando un intervalo de confianza aproximado para la
mediana poblacional, usando el nivel de confidencia predeterminado del sistema (usualmente
95%). Muestra el margen de error al estimar la mediana de la temperatura de la población desde
donde se tomó la muestra. En este caso, el error muestral es apróximadamente de 0.15 grados en
ambas direcciones. Una muestra más amplia dará como resultado un márgen de error menor.

10.4 Evaluando Datos Aberrantes


Antes de estimar cualquier estadístico adicional, es importante tomar un momento para analizar
si la fila #15 debe ser considerado un dato aberrante real y potencialmente eliminarlo del
conjunto de datos. El STATGRAPHICS Centurion incluye un procedimiento que realiza una
prueba formal para determinar si una observación puede razonablemente provenir de una
distribución normal. La prueba esta disponible en el menú principal seleccionando:

1. Si usa el menú clásico, elija Describir – Datos Numéricos – Identificación de Valores Atípicos.
2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Identificación de Valores Atípicos.

Especificando Temperature en el campo de Datos se genera una amplia tabla estadística, mostrada
en el panel izquierdo. De interés particular es la tabla que muestra los 5 valores más pequeños y
los 5 valores más grandes de la muestra:

157/ Análisis de una Muestra


Valores Ordenados
Valores Estudentizados Valores Estudentizados Modificados
Fila Valor Sin Supresión Con Supresión Valor-Z MAD
95 96.3 -2.65859 -2.74567 -2.698
55 96.4 -2.52219 -2.59723 -2.5631
23 96.7 -2.11302 -2.15912 -2.1584
30 96.7 -2.11302 -2.15912 -2.1584
73 96.8 -1.97663 -2.01521 -2.0235
...
99 99.4 1.56955 1.59096 1.4839
13 99.5 1.70594 1.7323 1.6188
97 99.9 2.25151 2.30628 2.1584
120 100.0 2.3879 2.45231 2.2933
15 100.8 3.47903 3.67021 3.3725

Prueba de Grubbs' (asume normalidad)


Estadístico de prueba = 3.47903
Valor-P = 0.0484379
Figura 10-9. Tabla Seleccionada del Procedimiento de Identificación de Datos Atípicos
El valor más inusual es el de la fila #15, que es resaltado en rojo. Este tiene un Valor
Estudentizado sin Eliminación de 3.479. Los valores estudentizados se calculan de:

xi − x
zi =
s

Un valor de 3.479 indica que una observación está 3.479 desviaciones estándar por encima de la
media de la muestra, cuando la observación se incluye en el cálculo de x y s. Los Valores
Estudentizados con Eliminación indican cuantas desviaciones estándar cada observación se
encuentra de la media de la muestra, cuando esa observación no se incluye en el cálculo. Si no se
incluye en el cálculo, la fila #15 se encuentra alejada en 3.67 desviaciones estándar.

Las observaciones a más de 3 desviaciones estándar de la muestra son inusuales, a menos que el
tamaño n de la muestra sea muy grande ó que la distribución no sea normal. Una prueba formal
puede hacerse de las siguientes hipótesis:

Hipótesis nula: El valor extremo más lejano proviene de la misma distribución normal
que las otras observaciones.

Hipótesis alternativa: El valor extremo más lejano no proviene de la misma


distribución normal que las otras observaciones.

158/ Análisis de una Muestra


Una prueba usada para estas hipótesis es la prueba de Grubbs, también conocida como la prueba
de Desviación Estudentizada Extrema. El STATGRAPHICS Centurion realiza esta prueba y genera
un Valor-P. En general, el valor-P cuantifica la probabilidad de obtener un estadístico tan ó más
inusual que el observado en la muestra, si la hipótesis nula es cierta. Si el valor-P es
suficientemente pequeño, la hipótesis nula puede ser rechazada, ya que la muestra habrá sido un
evento extremadamente raro. “Suficientemente pequeño” se define como menor a 0.05 y es
conocido como el “nivel de significancia” de la prueba. Si existe una probabilidad menor al 5%
de que la muestra tenga un resultado que indique que la hipótesis nula fué verdadera, entonces la
hipótesis nula es rechazada.

En el ejemplo, el estadístico de prueba es similar al Valor Estudentizado sin Eliminación, 3.479. El


valor-P es igual a 0.0484. Debido a que el valor-P es menor a 0.05, se rechaza la hipótesis nula,
concluyendo que la fila #15 es un dato aberrante comparado con el resto de la muestra.

Puede ahora eliminar la fila #15 pulsando el ícono de Captura de Datos en la barra de
herramientas de análisis e introducir una expresión en el campo Seleccionar como se muestra abajo:

Figura 10-10. Cuadro de Diálogo de Identificación de Datos Aberrantes con Eliminación de estos Datos
Debido a que la fila #15 es la única observación que excede los 100 grados, entonces con la
expresión usada en el campo Seleccionar , solo se seleccionarán las otras n= 129 filas. La salida
modificada de la Identificación de Datos Aberrantes es:

159/ Análisis de una Muestra


Valores Ordenados
Valores Estudentizados Valores Estudentizados Modificados
Fila Valor Sin Supresión Con Supresión Valor-Z MAD
95 96.3 -2.75487 -2.85205 -2.698
55 96.4 -2.61209 -2.6956 -2.5631
23 96.7 -2.18375 -2.23455 -2.1584
30 96.7 -2.18375 -2.23455 -2.1584
73 96.8 -2.04097 -2.08332 -2.0235
...
119 99.4 1.6713 1.69652 1.4839
99 99.4 1.6713 1.69652 1.4839
13 99.5 1.81408 1.84516 1.6188
97 99.9 2.3852 2.44992 2.1584
120 100.0 2.52798 2.60411 2.2933
Prueba de Grubbs' (asume normalidad)
Estadístico de prueba = 2.75487
Valor-P = 0.676064
Figura 10-11. Salida de Identificación de Datos Aberrantes después de eliminar la fila #15
El valor extremo más alejado entre las observaciones restantes es ahora la fila #95. Debido a que
el valor-P para la prueba de Grubb está muy por encima de 0.05, se puede deducir que todas las
observaciones restantes provienen de la misma población.

Lo ideal, es que uno regrese al estudio original y tratara de encontrar una causa asignable al valor
anormal para el caso #15. Como ahora ya no es posible hacerlo, aceptaremos los resultados de la
prueba de Grubb y eliminaremos a la fila #15 de todos los cálculos subsecuentes.
Modificaremos el cuadro de diálogo de captura de datos para el Análisis Univariado de la misma
forma que en la Figura 10-10, y entonces el resumen estadístico se mostrará así:
Resumen Estadístico para Temperature
Recuento 129
Promedio 98.2295
Mediana 98.3
Desviación estándar 0.70038
Coef. de variación 0.713004%
Mínimo 96.3
Máximo 100.0
Rango 3.7
Cuartil inferior 97.8
Cuartil superior 98.7
Rango inercuartílico 0.9
Sesgo estandarizado -1.40217
Curtosis estandarizada 0.257075

Figura 10-12. Resumen Estadístico después de Eliminar la fila #15

160/ Análisis de una Muestra


10.5 Histograma
Otra gráfica muy común que ilustra una muestra de mediciones es el histograma. Volviendo al
procedimiento de Análisis Univariado, un histograma puede crearse pulsando el ícono de Gráficas
en la barra de herramientas de análisis y seleccionando Histograma. El histograma
predeterminado es el siguiente:

Histograma

40

30
frecuencia

20

10

0
96 97 98 99 100 101
Temperature

Figura 10-13. Histograma con Clases Predeterminadas


La altura de cada barra en el histograma representa el número de observaciones que caen dentro
del intervalo de temperature abarcado por la barra. El número de barras y su grosor se
predeterminan basándose en el tamaño de la muestra n, . sin importar que regla fue seleccionada
en el separador AED (Análisis Exploratorio de Datos) del cuadro de diálogo Editar - Preferencias :

161/ Análisis de una Muestra


Figura 10-14. Separador AED en el Cuadro de Diálogo Preferencias
Usando la regla de Sturges, el número de barras se basa en el mínimo entero que no sea menor a
(1+3.322log10(n)). Otras reglas, como la regla 10log10(n), tienden a producir más barras de forma
predeterminada y son preferibles en caso de trabajar con conjuntos de datos grandes.

Para cambiar temporalmente la configuración del histograma creado dar doble clic en el
histograma para maximizarlo y seleccionar Opciones de Ventana:

162/ Análisis de una Muestra


Figura 10-15. Opciones de Ventana para el Histograma
Al establecer las clases, se debe tomar en consideración el número de dígitos significativos en los
datos. Por ejemplo, las mediciones de las temperaturas corporales fueron redondeadas al 0.1 de
grado más cercano. El ancho de los intervalos abarcados por las barras deben ser entonces un
entero múltiplo de 0.1. De esta forma, cada barra abarcará el mismo número de medidas
posibles. El gráfico siguiente muestra 25 intervalos entre 96 y 101 grados, cada uno abarcando
un intervalo de 0.2 grados:

Histograma

18

15

12
frecuencia

0
96 97 98 99 100 101
Temperature

Figura 10-16. Histograma con Clases Reestablecidas

163/ Análisis de una Muestra


Entre más número de clases existan, se evidencian más los detalles. La forma general de la
distribución es similar a la de una curva normal de campana.

Los datos mostrados en el histograma pueden exhibirse en forma tabular pulsando el ícono
Tablas en la barra de herramientas de análisis y seleccionando Tabulación de Frecuencias:

Tabla de Frecuencias para Temperature


Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 96.0 0 0.0000 0 0.0000
1 96.0 96.2 96.1 0 0.0000 0 0.0000
2 96.2 96.4 96.3 2 0.0155 2 0.0155
3 96.4 96.6 96.5 0 0.0000 2 0.0155
4 96.6 96.8 96.7 3 0.0233 5 0.0388
5 96.8 97.0 96.9 2 0.0155 7 0.0543
6 97.0 97.2 97.1 6 0.0465 13 0.1008
7 97.2 97.4 97.3 6 0.0465 19 0.1473
8 97.4 97.6 97.5 6 0.0465 25 0.1938
9 97.6 97.8 97.7 10 0.0775 35 0.2713
10 97.8 98.0 97.9 16 0.1240 51 0.3953
11 98.0 98.2 98.1 13 0.1008 64 0.4961
12 98.2 98.4 98.3 14 0.1085 78 0.6047
13 98.4 98.6 98.5 13 0.1008 91 0.7054
14 98.6 98.8 98.7 18 0.1395 109 0.8450
15 98.8 99.0 98.9 7 0.0543 116 0.8992
16 99.0 99.2 99.1 6 0.0465 122 0.9457
17 99.2 99.4 99.3 4 0.0310 126 0.9767
18 99.4 99.6 99.5 1 0.0078 127 0.9845
19 99.6 99.8 99.7 0 0.0000 127 0.9845
20 99.8 100.0 99.9 2 0.0155 129 1.0000
21 100.0 100.2 100.1 0 0.0000 129 1.0000
22 100.2 100.4 100.3 0 0.0000 129 1.0000
23 100.4 100.6 100.5 0 0.0000 129 1.0000
24 100.6 100.8 100.7 0 0.0000 129 1.0000
25 100.8 101.0 100.9 0 0.0000 129 1.0000
mayor de 101.0 0 0.0000 129 1.0000
Media = 98.2295 Desviación Estándar = 0.70038
Figura 10-17. Tabulación de Frecuencia

Note que las observaciones son contadas cuando caen dentro de un intervalo si son mayores al
límite inferior del intervalo y menores o iguales al límite superior.

164/ Análisis de una Muestra


La columna de la extrema derecha es también de considerable interés, ya que muestra la
probabilidad acumulada de que un individuo caiga dentro de una clase seleccionada o clases
anteriores. Por ejemplo, el 89.92% de todos los valores son iguales o menores a 99.0 grados.

10.6 Gráfico de Cuantiles y Percentiles


Otro modo de mostrar probabilidades acumuladas es seleccionando Gráfico de Cuantiles de la lista
de Gráficas en el procedimiento Análisis Univariado:

Gráfico Cuantil

0.8
proporción

0.6

0.4

0.2

0
96 97 98 99 100
Temperature

Figura 10-18. Gráfico de Cuantilest


En este gráfico, los datos son primero ordenados de menor a mayor. El valor j o mayor es
entonces graficado en Y = (j+0.5)/n. Esto estima la proporción de la población en ó debajo de
la temperatura observada. Como la columna extrema derecha en la tabla de frecuencias, la curva
representa la probabilidad acumulada de que un individuo tenga menor o igual temperatura a
aquella mostrada en el eje horizontal. Ya que los datos de la temperatura fueron medidos
solamente a los 0.1 grados más cercanos, existen saltos verticales en la gráfica anterior.

La Figura 10-18 también muestra un cursor de coordenadas. Estos son creados pulsando el
botón derecho del ratón mientras se observa la gráfica y seleccionando Localizar del menú
emergente. Ahora entonces puede usar el ratón para desplazar el cursor a cualquier sitio. Los
números pequeños cercanos al cursos indican su posición. En el gráfico anterior, el cursor ha
sido utilizado para localizar la mediana o el 50o percentil, que es el valor de temperature en el cual la
proporción mostrada en el eje vertical es igual a 0.5.

165/ Análisis de una Muestra


Una tabla de percentiles puede crearse seleccionando Percentiles de la lista de Tablas:
Percentiles para Temperature
Percentiles Límite Inferior Límite Superior
1.0% 96.4 96.34 96.811
5.0% 97.0 96.8727 97.2473
10.0% 97.2 97.1538 97.4829
25.0% 97.8 97.6152 97.8846
50.0% 98.3 98.1082 98.3508
75.0% 98.7 98.5743 98.8437
90.0% 99.1 98.9761 99.3051
95.0% 99.3 99.2116 99.5862
99.0% 99.9 99.6479 100.119

El informe incluye 95.0% de límites de confianza Normal.


Figura 10-19. Tabla de Percentiles
El po percentil estima el valor de temperatura debajo del cual el p% de la población se encuentra.
Las Opciones de Ventana se utilizan para añadir límites de confianza del 95% a esos percentiles,
basándonos en la suposición de que la muestra proviene de una distribución normal.

Por ejemplo, el 90o percentil es el valor de temperatura excedido solo por el 10% de los
individuos en la población. La mejor estimación de ese percentil basada en la muestra de datos es
de 99.1 grados. No obstante, dado el tamaño limitado de la muestra, el 90o percentil puede caer
en cualquier lugar entre 98.98 y 99.31 grados, con 95% de confianza.

10.7 Intervalos de Confianza


Habiendo eliminado el dato aberrante de la muestra, podemos proceder a establecer las
estimaciones finales para los parámetros de la distribución de la que provienen los datos.
Seleccionando Intervalos de Confianza del cuadro de diálogo Tablas aparecerá:

Intervalos de Confianza para Temperature


Intervalos de confianza del 95.0% para la media: 98.2295 +/- 0.122015 [98.1074, 98.3515]
Intervalos de confianza del 95.0% para la desviación estándar: [0.624081, 0.798114]
Figura 10-20. Intervalos de Confianza del 95% para la Media y la Desviación Estándar
Los intervalos de confianza ofrecen un límite en el error potencial al estimar la media y la
desviación estándar de la población. Dadas las restantes n = 129 observaciones, podemos
asegurar con 95% de confianza que la media de la temperatura de la población se localiza en

166/ Análisis de una Muestra


algún punto entre los 98.11 y 98.35 grados. Igualmente, la desviación estándar de la población se
localiza en algún punto entre los 0.624 y 0.798 grados.

Seleccionando Opciones de Ventana, pueden solicitarse intervalos de confianza adicionales usando


el método bootstrap:

Figura 10-21. Cuadro de Diálogo de Opciones de Intervalos de Confianza


Los intervalos bootstrap, contrario a los intervalos de la Figura 10-20, no se apoyan en la
suposición de que la población sigue una distribución normal. En su lugar, muestras aleatorias
de las n = 129 observaciones son tomadas de los datos, muestreando con réplica (las mismas
observaciones pueden ser seleccionadas más de una vez). Esto se repite 500 veces, las
estadísticas de la muestra son calculadas y el 95% de los resultados más cercanos al centro son
usados para calcular los intervalos de confianza. La tabla inferior muestra intervalos bootstrap
para la media, la desviación estándar y la mediana de la población:

Intervalos de Confianza para Temperature


Intervalos de confianza del 95.0% para la media: 98.2295 +/- 0.122015 [98.1074, 98.3515]
Intervalos de confianza del 95.0% para la desviación estándar: [0.624081, 0.798114]

Intervalos Bootstrap
Media: [98.1085, 98.3504]
Desviación Estándar: [0.610521, 0.780949]
Mediana: [98.1, 98.4]
Figura 10-22. Intervalos Bootstrap de Confianza de 95%
Los intervalos anteriores que fueron calculados usando la distribución t de Student y la
distribución chi-cuadrada, son emparejados lo más cerca posible por los intervalos bootstrap.
Esto no es inesperado, ya que los datos no tienen una asimetría o curtosis representativa.

167/ Análisis de una Muestra


10.8 Pruebas de Hipótesis
También pueden realizarse pruebas de hipótesis. Por ejemplo, a menudo es acertado pensar que
la temperatura humana normal es de 98.6 grados Fahrenheit. Para probar si los datos actuales
provienen ó no de una distribución normal con dicha media, se efectúa una prueba de hipótesis
para probar entre:

Hipótesis nula: μ = 98.6 grados

Hipótesis Alternativa: μ ≠ 98.6 grados

Para ejecutar la prueba dentro del procedimiento Análisis Univariado, elija Pruebas de Hipótesis de la
lista de Tablas. Antes de examinar los resultados, elija Opciones de Ventana y especifique los
atributos de la prueba deseada:

Figura 10-23. Opciones de Ventana para Pruebas de Hipotésis


El valor capturado para la Media representa la hipótesis nula. Bajo la Hipótesis Alt., puede
seleccionar cualquiera de las tres hipótesis alternativas:

168/ Análisis de una Muestra


1. No igual: μ ≠ 98.6
2. Menor que: μ < 98.6
3. Mayor que: μ > 98.6

Aunque la muestra sugiere una temperatura media inferior, una alternativa bilateral se ha
seleccionado. Crear una prueba unilateral con una hipótesis alternativa de μ < 98.6 grados sería
considerado en este momento como una “intromisión de datos”, ya que estaríamos formulando
la hipótesis después de haber visto los datos.

Los resultados de la prueba se muestran a continuación:


Prueba de Hipótesis para Temperature
Media Muestral = 98.2295
Mediana Muestral = 98.3
Desviación Estnd. de la muestra = 0.70038

Prueba t
Hipótesis Nula: media = 98.6
Alternativa: no igual

Estadístico t = -6.00896
Valor-P = 1.81264E-8
Se rechaza la hipótesis nula para alpha = 0.05.

Prueba de rangos con signo


Hipótesis Nula: mediana = 98.6
Alternativa: no igual

Rango medio de valores menores a la mediana hipotética: 67.7099


Rango medio de valores mayors a la mediana hipotética: 43.5658

Estadístico para Grandes Muestras = 5.07771 (aplicada la corrección por continuidad)


Valor-P = 3.82663E-7
Se rechaza la hipótesis nula para alpha = 0.05.
Figura 10-24. Resultados de la Prueba de Hipotésis
Los resultados de dos pruebas se muestran:

1. Una prueba t estándar, que supone que los datos provienen de una distribución normal
(no obstante ésta no es excesivamente sensible al incumplimiento de esta suposición).

2. Una prueba no paramétrica de Wilcoxon para muestras apareadas, basada en los rangos
de distancia de cada observación de la mediana hipotetizada. Esta prueba no asume
normalidad y es menos sensible a los datos Aberrantes que la prueba t.

169/ Análisis de una Muestra


En ambos casos, el valor-P está muy por debajo de 0.05, rechazando a fondo la hipótesis de que
la muestra proviene de una población con una media de 98.6 grados.

NOTA: la notación E-8 después de un número significa que el número debe ser
multiplicado por 10-8. El valor-P mostrado como 1.81264E-8 equivale a
0.0000000181264.

Debe notarse que el intervalo de confianza para la media, dado en la Sección 10.8, no incluye el
valor 98.6. Cualquier valor fuera del intervalo de confianza sería rechazado por la prueba t
considerada aquí. Puede pensarse entonces que el intervalo de confianza contiene todos los
valores posibles para la población sustentada con la muestra de datos.

10.9 Límites de Tolerancia


Un análisis adicional resulta útil para los datos de la temperatura corporal. Este crea límites de
tolerancia normal, que son límites dentro de los cuales un porcentaje seleccionado de la
población es estimado para caer con un nivel de confianza dado. Los límites de tolerancia están
disponibles en el menú principal seleccionando:

1. Si usa el menú clásico, elija Describir –Datos Numéricos – Límites de Tolerancia Estadística
2. Si usa el menú Seis Sigma menu, elija Analizar – Datos Continuos – Límites de Tolerancia
Estadística

El procedimiento inicia mostrando un cuadro de diálogo dentro del cual se captura el tamaño n,
la media y la desviación estándar de la muestra. Usando los resultados en la Figura 10-12, la
captura apropiada es:

170/ Análisis de una Muestra


Figura 10-25. Cuadro de Diálogo para Límites de Tolerancia Estadística
La salida resultante se muestra a continuación:

Límites de Tolerancia Estadístico


Tamaño de muestra = 129
Media de la muestra = 98.2295
Desviación estándar de la muestra = 0.70038

Intervalos de tolerancia del 95.0% (intervalo) de tolerancia para 99.0% de la población


Xbarra +/- 2.88436 sigma
Superior: 100.25
Inferior: 96.2093

El StatAdvisor
Asumiendo que los datos provienen de una distribución normal, los límites de tolerancia establecen que se puede
estar 95.0% confiados en que el 99.0% de la distribución se encuentra entre 96.2093 y 100.25. Este intervalo se
calcula tomando la media de los datos +/-2.88436 veces por la desviación estándar.
Figura 10-26. Resumen del Análisis para Límites de Tolerancia Estadística
La interpretación del StatAdvisor resume los resultados de forma concisa. El nivel de confianza
y el porcentaje de la población que está limitada puede cambiarse usando Opciones de Ventana.

También creado por el procedimiento Límites de Tolerancia Estadística esta el Gráfico de Tolerancia,
que muestra los límites de tolerancia:

171/ Análisis de una Muestra


Límites de Tolerancia Normal
n=129,media=98.2295,sigma=0.70038
0.6
LIT: 96.21 LST: 100.25 Nvl. Conf.: 95.0%
0.5
Prop. pob.: 99.0%
0.4
f(x)

0.3

0.2

0.1

0
95 97 99 101 103
x

Figura 10-27. Gráfico de Tolerancia


No más de un individuo de cada 100, es probable que caiga fuera de los límites calculados.

172/ Análisis de una Muestra


Capítulo

11
Tutorial #2: Comparando Dos
Muestras
Comparaciones Gráficas y pruebas de hipótesis.

Por lo regular, los datos que se van a analizar consisten de dos muestras que posiblemente sean
de poblaciones diferentes. Para estos casos, resulta muy útil:

1. Presentar los datos de tal forma que permita comparaciones visuales.

2. Probar hipótesis que determinen si existen ó no diferencias estadísticamente


significativas entre las muestras.

En el capítulo anterior Tutorial #1, se analizaron las temperaturas corporales tomadas a 130
personas. De estas personas, 65 eran mujeres y 65 hombres. En éste tutorial, compararemos
los datos correspondientes a las mujeres con aquellos de los hombres.

Para analizar los datos con las temperaturas corporales, Abrir el archivo de datos bodytemp.sf3
usando Abrir Datos en el menú Archivo – Abrir.

11.1 Ejecutando el Procedimiento de Comparación de dos


Muestras
El procedimiento principal para comparar datos de dos muestras es el procedimiento
Comparación de Dos Muestras, invocado desde el menú principal como sigue:

173/ Comparando Dos Muestras


1. Si usa el menú Clásico, elija Comparar – Dos Muestrass – Muestras Independientes.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Comparación de Dos Muestras –
Muestras Independientes.

El cuadro de díalogo de captura de datos para este procedimiento es el siguiente:

Figura 11-1. Cuadro de Diálogo de Comparación de Dos Muestras


El campo Captura indica cómo los datos de las dos muestras fueron capturados:

1. Dos Columnas de Datos – los datos para cada muestra están en diferentes columnas.

2. Columnas Código y de Datos – los datos para ambas muestras están en la misma columna y
una segunda columna contiene los códigos que diferencían a ambas muestras.

El archivo bodytemp.sf3 contiene el segundo tipo de estructura, con todas las n = 130
observaciones en una misma columna llamada Temperature, mientras una segunda columna Gender
contiene la descipción de “Mujer” y “Hombre”. En el campo Seleccionar, se incluye una

174/ Comparando Dos Muestras


expresión para tomar en cuenta solo las filas cuya Temperature sea menor o igual a 100. Esto
excluye la fila #15, la cual se determinó en el Capítulo 10 como un dato aberrante.

La ventana inicial del análisis contiene 4 paneles, que incluyen un resumen de los datos, un
histograma dual, un resumen estadístico por grupo y un gráfico de caja y bigotes dual.

Figura 11-2. Ventana de Análisis Comparación de Dos Muestras


Al eliminar el dato aberrante, existen n1 = 64 observaciones para mujeres en un rango de 96.4
hasta 100.0 grados y n2 = 65 observaciones para hombres en un rango de 96.3 hasta 99.5 grados.

11.2 Resumen Estadístico


La tabla Resumen Estadístico presenta estadísticas calculadas para cada muestra:

175/ Comparando Dos Muestras


Resumen Estadístico para Temperature
Gender=Female Gender=Male
Recuento 64 65
Promedio 98.3562 98.1046
Mediana 98.4 98.1
Desviación Estándar 0.684262 0.698756
Coeficiente de variación 0.695697% 0.712256%
Mínimo 96.4 96.3
Máximo 100.0 99.5
Rango 3.6 3.2
Cuartil Inferior 98.0 97.6
Cuartil Superior 98.8 98.6
Rango intercuartílico 0.8 1.0
Sesgo Estándar -1.35246 -0.702297
Curtosis Estándar 1.49635 -0.610877

Figura 11-3. Resumen Estadístico por Muestra


Existen varios factores que son de interés especial:

1. La temperatura media de las mujeres es 0.25 grados superior al de los hombres. Además
la diferencia entre las medianas es de 0.30 grados.

2. La desviación estándar de las mujeres es levemente menor que la de los hombres,


implicando que la temperatura corporal de las mujeres puede ser menos variable que la
de los hombres.

3. Ambas muestras tienen valores de asimetría y curtosis estandarizada dentro del rango de
-2 a 2. Como se explicó en el Capítulo 10, los valores dentro de ese rango son
consistentes con la hipótesis de que los datos vienen de una distribución normal.

Si la aparente diferencia entre las mujeres y los hombres es ó no estadísticamente significante,


está todavía por determinarse.

11.3 Histograma Dual


El histograma dual ofrece una comparación espalda con espalda de las dos muestras. Al usar
Opciones de Ventana para reescalar los intervalos de clasificación de manera que existan 25
intervalos entre los 96 y 101 grados se genera la siguiente gráfica:

176/ Comparando Dos Muestras


Female

17

12

7
frecuencia

13
96 97 98 99 100 101
Male

Figura 11-4. Histograma Dual


La gráfica muestra el histograma correspondiente a las mujeres sobre la línea horizontal,
mientras que el histograma de los hombres está invertido y está por debajo de la línea. Las
formas de distribución son similares, con un posible repunte a la derecha en la distribución de las
mujeres.

11.4 Gráfico Dual de Caja y Bigotes


La ventana de análisis también presneta gráficos de caja y bigotes para las dos muestras. Como
se explica en el Capítulo 10, las cajas centrales abarcan la mitad de los datos de cada muestra. Los
bigotes se extienden al valor más pequeño y más grande de cada muestra, excepto por aquellos
puntos que estén extermadamente lejos de las cajas. La mediana se indica con el trazo de una
línea vertical, asi como signos de + indican el sitio de las medias de cada muestra.

En éste caso, es particularmente útil agregar muescas a la mediana accesando Opciones de Ventana.
La gráfica resultante se muestra a continuación:

177/ Comparando Dos Muestras


Gráfico Caja y Bigotes

Female

Male

96 97 98 99 100
Temperature

Figura 11-5. Gráfico Dual de Caja y Bigotes con Muescas en la Mediana


Es evidente en la gráfica:

1. Una aparente separación del centro de la distribución de las mujeres hacia la derecha de
la distribución de los hombres. Tanto la media y la mediana de las muestras observan
una diferencia similar.

2. El rango cubierto por las mujeres es más amplio que el rango cubierto por los hombres,
pero solo si se incluye el punto extremo más bajo.

3. La muesca de la mediana para las mujeres se sobrepone levemente a la de los hombres.


Las muescas son trazadas de tal modo que si las dos muescas no se sobreponen, uno
puede suponer que las dos medianas son significativamente diferentes, tomando en
cuenta el nivel de significancia predeterminado por el sistema (que actualmente es de
5%). Una comparación más detallada se describe en una sección más adelante.

Basado en este gráfico, parece haber una diferencia en el centro de las dos muestras, no obstante
la significancia estadística de esta diferencia permanece en duda.

178/ Comparando Dos Muestras


11.5 Comparando Desviaciones Estándar
La primera comparación a detalle entre las dos muestras es probar la hipótesis de que las
desviaciones estándar (σ) de las poblaciones, de las cuales provienen los datos, son iguales contra
la hipótesis de que son diferentes:

Hipótesis Nula: σ1 = σ2
Hipótesis Alternativa: σ1 ≠ σ2

Esto nos permitirá determinar si la aparente diferencia entre la variabilidad de los hombres y las
mujeres es estadísticamente significantiva, o si está dentro del rango de variabilidad normal
aleatoria para muestras de su tamaño actual.

Para realizar la prueba, pulse el ícono de Tablas en la barra de herramientas de análisis y


seleccione Comparación de Desviaciones Estándar. El resultado se muestra a continuación:

Comparación de Desviaciones Estándar para Temperature


Gender=Female Gender=Male
Desviación Estándar 0.684262 0.698756
Varianza 0.468214 0.48826
Gl 63 64
Razón de Varianzas= 0.958945

Intervalos de confianza del 95.0% Intervalos de Confianza


Desviación Estándar de Gender=Female: [0.582853, 0.828723]
Desviación Estándar de Gender=Male: [0.595887, 0.844885]
Razones de Varianzas: [0.584028, 1.57609]

Prueba-F para comparar Desviaciones Estándar


Hipótesis Nula: sigma1 = sigma2
Hipótesis Alt.: sigma1 <> sigma2
F = 0.958945 valor-P = 0.8684
No se rechaza la hipótesis nula para alpha = 0.05.
Figura 11-6. Comparación de Desviaciones Estándar de Dos Muestras
La información más importante en esta tabla está resaltada en rojo:

1. Razón de Varianzas: Muestra un intervalo de confianza del 95% para la razón de varianza
de la población femenina, σ12, dividido entre la varianza de la población masculina, σ22.
Varianza. Medida de variabilidad calculada al elevar al cuadrado la desviación estándar.
(Nota: las comparaciones de variabilidad entre varias muestras están generalmente
basadas más en varianzas que en desviaciones estándar, debido a que las primeras tienen
propiedades matemáticas más atractivas.)
179/ Comparando Dos Muestras
2. El intervalo para σ12 / σ22 va desde 0.58 hasta 1.58. Esto indica que la varianza de las
mujeres puede estar en cualquier punto entre aproximadamente el 58% de la varianza de
los hombres hasta el 158% de su varianza. Esta falta de precisión es muy típica cuando
se intenta comparar la variabilidad de muestras poblacionales relativamente pequeñas.

3. El valor-P asociado con la prueba F de la hipótesis estipulada arriba. Un valor-P menor a


0.05 indicará una diferencia estadísticamente significativa entre la varianza de las mujeres
y la varianza de los hombres al 5% del nivel de significancia. Ya que P está muy por
arriba de 0.05, no existe evidencia por la cual rechazar la hipótesis de varianzas iguales (y
a su vez de desviaciones estándar iguales).

Por lo tanto no existe una clara evidencia por la cual concluir que la variabilidad de las
temperaturas corporales de las mujeres es diferente a la variabilidad de la de los hombres.

Debe notar que esta prueba es sumamente sensible a la suposición de que las muestras vienen de
poblaciones de una distribución normal, una suposición que había sido considerada como
razonable basada en los valores de asimetría y curtosis estandarizados.

11.6 Comparando Medias


La segunda comparación entre las dos muestras prueba la hipótesis de que las medias (μ) de las
dos poblaciones son iguales:

Hipótesis Nula: μ1 = μ2
Hipótesis Alternativa: μ1 ≠ μ2
Para realizar esta prueba, pulse nuevamente el ícono Tablas y seleccione Comparación de Medias.
Los resultados son:
Comparación de Medias para Temperature
Intervalos de confianza del 95.0% intervalo de confianza para la media de Gender=Female:
98.3562 +/- 0.170924 [98.1853, 98.5272]
Intervalos de confianza del 95.0% intervalo de confianza para la media de Gender=Male: 98.1046
+/- 0.173144 [97.9315, 98.2778]
Intervalos de confianza del 95.0% intervalo de confianza para la diferencia de medias
suponiendo varianzas iguales: 0.251635 +/- 0.240998 [0.0106371, 0.492632]

Prueba t para comparar medias


Hipótesis nula: media1 = media2
Hipótesis Alt.: media1 <> media2
suponiendo varianzas iguales: t = 2.06616 valor-P = 0.040846
Se rechaza la hipótesis nula para alpha = 0.05.
Figura 11-7. Comparación de Medias de Dos Muestras

180/ Comparando Dos Muestras


La información más importante en esta tabla nuevamente está resaltada en rojo:

1. Diferencia entre las Medias (suponiendo varianzas iguales): presenta un intervalo de confianza
del 95% para la media poblacional femenina, menos la media poblacional masculina. El
intervalo para μ1 - μ2 va desde 0.01 hasta 0.49, indicando que la media de la temperatura
de las mujeres se encuentra entre los 0.01 y 0.49 grados por arriba que la media de la
temperatura de los hombres.

2. El valor-P asociado con la prueba t de la hipótesis arriba estipulada. Debido a que P es


menor a 0.05, existe evidencia suficiente por la cual rechazar la hipótesis de medias
iguales y así declarar que las dos medias poblaciones son significativamente diferentes al
nivel de significancia del 5%.

Note que ésta prueba fue hecha suponiendo que las varianzas de las dos poblaciones son iguales,
lo cual fue validado por la prueba F en la sección previa. Habiendo sido mostrado que las
varianzas son significativamente diferentes, una prueba t de aproximción puede solicitarse al
accesar Opciones de Ventana y deshabilitar la opción descrita como Suponer Sigmas Iguales.

Así es que parece que las mujeres provienen de una población con una temperatura media más
elevada que la de los hombres.

11.7 Comparando Medianas


Si se sospecha que los datos pueden contener observaciones aberrantes, una prueba no
paramétrica puede realizarse para comparar las medianas en lugar de las medias. Una prueba no
paramétrica no supone que los datos provienen de una distribución normal y tiende a ser
afectada de menor manera en caso de que se presenten datos aberrantes.

Al seleccionar Comparación de Muestras del cuadro de diálogo Tablas se genera la prueba W de


Mann-Whitney (Wilcoxon). En esta prueba, las dos muestras son primero combinadas. Los
datos combinados se ordenan desde el 1 hasta n1+n2 y los valores originales de los datos son
reemplazados por sus respectivos rangos. Entonces se prepara la prueba estadística W
comparando los rangos promedio de las observaciones en las dos muestras:

181/ Comparando Dos Muestras


Comparación de Medianas para Temperature
Mediana de muestra 1: 98.4
Mediana de muestra 2: 98.1

Prueba W de Mann-Whitney (Wilcoxon)para comparar


medianas
Hipótesis Nula: mediana1 = mediana2
Hipótesis Alt.: mediana1 <> mediana2

Rango Promedio de muestra 1: 71.9219


Rango Promedio de muestra 2: 58.1846

W = -443.0 valor-P = 0.0368312


Se rechaza la hipótesis nula para alpha = 0.05.
Figura 11-8. Comparación de Medianas de Dos Muestras
La interpretación de la prueba Mann-Whitney (Wilcoxon) se asemeja a la prueba t descrita en la
última sección, donde con un valor-P pequeño se llega a la conclusión de que las medianas de
las dos poblaciones son significativamente diferentes.

11.8 Gráfico de Cuantiles


Para ilustrar la diferencia entre las dos distribuciones, los gráficos de cuantiles bilaterales, de cada
muestra, se pueden mostrar seleccionando Gráfico de Cuantiles del cuadro de diálogo Gráficas:

Gráfico Cuantil

1 Gender
Female
0.8 Male
proporción

0.6

0.4

0.2

0
96 97 98 99 100
Temperature

Figura 11-9. Gráfico de Cuantiles Bilateral

182/ Comparando Dos Muestras


El gráfico de cuantiles ilustra la proporción de los datos de cada muestra que está por debajo de
un valor dado de X, como una función de X. Si las muestras provienen de la misma población,
los gráficos de cuantiles deben ser muy cercanos. Cualquier separación de un gráfico a la
derecha o izquierda del otro indica una diferencia entre sus medias. Una diferencia en la
pendiente de las curvas indica una diferencia entre las desviaciones estándar.

En el gráfico superior, es bastante evidente que la distribución de las mujeres está movida a la
derecha de los hombres. Sin embargo las pendientes de ambas, son similares.

11.9 Prueba de Kolmogorov-Smirnov


Una prueba no paramétrica adicional que puede realizarse si la suposición de distribuciones
normales no es acertada es la prueba de dos muestras de Kolmogorov-Smirnov. Esta prueba está
basada en calcular la máxima distancia vertical entre las funciones de distribución acumuladas de
las dos muestras, que a su vez es aproximadamente la distancia máxima entre los dos gráficos de
cuantiles en la Figura 11-9. Si la distancia máxima es suficientemente amplia, entonces las dos
muestras se pueden declarar provenientes de poblaciones significativamente diferentes.

Al seleccionar Prueba Kolmogorov-Smirnov del cuadro de diálogo Tablas se muestra lo siguiente:

Prueba de Kolmogorov-Smirnov para


Temperature
Estadístico DN estimado = 0.242548
Estadístico K-S bilateral para muestras grandes
= 1.37737
Valor P aproximado = 0.0449985
Figura 11-10. Prueba de Kolmogorov-Smirnov
La distancia máxima vertical, denotada por DN, es igual aproximadamente a 0.24 para los datos
de la temperatura corporal.

El valor-P es usado para determinar si las distribuciones son o no son significativamente


diferentes una de otra. Un valor-P pequeño lleva a la conclusión de que hay una diferencia
significativa. Ya que el valor-P para los datos de las muestras es menor a 0.05, hay una diferencia
significativa entre las distribuciones femenina y masculina en un 5% de nivel de significancia.

Advertencia: Si los datos son redondeados excesivamente, esta prueba puede no ser
confiable ya que la CDF puede brincarlos en pasos grandes. Cuando sea posible, es

183/ Comparando Dos Muestras


mejor confiar en una comparación de parámetros como la media, la desviación estándar
y la mediana.

11.10 Gráfico Cuantil-Cuantil


Un último gráfico, disponible al seleccionar Gráfico Cuantil-Cuantil del cuadro de diálogo Gráficas,
grafica los cuantiles estimados de una muestra contra los cuantiles de la otra:

Gráfico Cuantil-Cuantil
para Temperature
100

99
Gender=Male

98

97

96
96 97 98 99 100
Gender=Female

Figura 11-11. Gráfico C-C de Datos de Temperatura Corporal


Existe un punto en esta gráfica que corresponde a cada observación menor de las dos muestras.
Trazado en el otro eje está el cuantil estimado de la muestra mayor. Si las muestras provienen de
poblaciones idénticas, los puntos deben caer cerca de la línea diagonal. Un cambio constante a la
derecha o izquierda indica que hay una diferencia significativa entre los centros de las dos
distribuciones. Los puntos divergentes de la línea en una pendiente diferente a la de la línea
diagonal indican una diferencia significativa en la varianza. En este caso, la diferencia entre las
poblaciones puede ser un poco más complicada que un simple cambio en la media, ya que los
puntos están más cerca de la línea en temperaturas altas y bajas que lo que están de las
temperaturas centrales. Parece que la distribución de las temperaturas para las mujeres está más
concentrada en el centro que la distribución de los hombres.

184/ Comparando Dos Muestras


Capítulo

12
Tutorial #3: Comparando más de
Dos Muestras
Comparando medias y desviaciones estándar, ANOVA simple, ANOM y
métodos gráficos.

Cuando los datos se encuentran en más de dos grupos, es necesario emplear técnicas diferentes a
las utilizadas en el capítulo anterior. Por ejemplo, suponga que desea comparar la fuerza de un
artículo fabricado con 4 materiales distintos. En un experimento básico, podría hacer 12
artículos usando diferentes cantidades de cada uno de los cuatro materiales con la finalidad de
compararlos. Los siguientes datos representan los resultados de tal experimento:

Material A Material B Material C Material D


64.7 60.4 58.3 60.8
64.8 61.8 62.1 60.2
66.8 63.3 62.4 59.8
67.0 61.6 60.3 58.3
64.9 61.0 60.6 56.4
63.7 63.8 60.0 61.6
61.8 60.9 60.3 59.5
64.3 65.1 62.4 62.0
64.3 61.5 61.9 61.4
65.9 60.0 63.1 58.6
63.6 62.9 60.2 59.5
64.6 60.6 58.6 60.0

185/ Comparando Más de Dos Muestras


Es de considerable interés, determinar cuál de los materiales produce los artículos más fuertes,
así como también que materiales son significativamente diferentes de los otros.

Existen dos formas para capturar datos de varias muestras en una hoja de datos:

1. Usando una columna para cada muestra.

2. Usando una sola columna para todos los datos y una segunda columna con los
códigos que identifican la muestra de la que proviene cada observación.

Para este ejemplo, se ha elegido usar la primera opción. Los datos para los doce artículos han
sido colocados en cuatro columnas de un archivo llamado widgets.sf6, el cual se puede abrir
seleccionando Abrir - Abrir Datos del menú Archivo.

12.1 Ejecutando Comparación de Varias Muestras


El procedimiento Comparación de Varias Muestras está disponible en el menú principal bajo.

1. Si usa el menú Clásico seleccione: Comparar – Comparación de Varias Muestras – Comparación


de Varias Muestras .

2. Si usa el menú Seis Sigma, seleccione Analizar – Datos Continuos – Comparaciónes de Varias
Muestras – Comparación de Varias Muestras.

El cuadro de diálogo inicial se usa para indicar la estructura de los datos:

Figura 12-1.Cuadro de Diálogo Inicial de Comparación de Varias Muestras


En este caso, los datos han sido colocados en diferentes columnas de la hoja de datos.

El segundo cuadro de diálogo solicita los nombres de las columnas que contienen los datos:

186/ Comparando Más de Dos Muestras


Figura 12-2. Cuadro de Diálogo de Captura de Datos para Comparar Varias Muestras
En el archivo de datos, las observaciones han sido colocadas en cuatro columnas llamadas A, B,
C y D.

Cuando se presenta la ventana de análisis, ésta tendrá cuatro paneles:

187/ Comparando Más de Dos Muestras


Figura 12-3. Ventana de Análisis de Comparación de Varias Muestras
El panel superior izquierdo resume el tamaño y el rango de cada muestra. El panel superior
derecho muestra un gráfico de dispersión de los datos, que a continuación ampliaremos:

188/ Comparando Más de Dos Muestras


Dispersión según Muestra

68

66

64
respuesta

62

60

58

56
A B C D

Figura 12-4. Gráfico de Dispersión de Fuerza vs Material


Note que muchas de las observaciones están encimadas. Para solucionar este problema, haga
doble clic en el panel de la gráfica para maximizarla y luego pulse el botón Separar Puntos en
la barra de herramientas de análisis y agregue una pequeña separación horizontal moviendo el
dial superior levemente hacia la derecha:

Figura 12-5. Cuadro de Diálogo de Separación de Puntos


Esto separa levemente de forma aleatoria cada punto de manera horizontal, haciendo que los
puntos sean más fáciles de ver:

189/ Comparando Más de Dos Muestras


Dispersión según Muestra

68

66

64
respuesta

62

60

58

56
A B C D

Figura 12-6. Gráfico de Dispersión después de Separar Puntos


La separación de puntos solo afecta el gráfico actual, no los datos ni los cálculos hechos de ellos.

12.2 Análisis de Varianza


El primer paso cuando se comparan varias muestras, por lo regular es realizar un análisis de
varianza (ANOVA). El ANOVA es usado para probar la hipótesis de medias poblacionales
iguales, seleccionando entre las dos hipótesis siguientes:

Hipótesis Nula: μA = μB = μC = μD

Hipótesis Alternativa: las medias no son todas iguales

Donde μj representa la media poblacional de donde la muestra j fue tomada. El rechazo de la


hipótesis nula indica que las muestras vienen de poblaciones cuyas medias no son todas
idénticas.

La información resultante del ANOVA está contenida en la tabla ANOVA, que es mostrada
inicialmente en el panel inferior izquierdo de la ventana de análisis:

190/ Comparando Más de Dos Muestras


Tabla ANOVA
Fuente Suma de Cuadrados Gl Media Cuadrada Razón-F Valor-P
Entre grupos 157.882 3 52.6272 22.76 0.0000
Intra grupos 101.728 44 2.31201
Total (Corr.) 259.61 47

Figura 12-7. Tabla de Análisis de Varianza


El análisis de varianza descompone la variabilidad de los datos observados en dos componentes:
un componente entre-grupos, que cuantifica las diferencias entre los artículos hechos con los
diferentes materiales y un componente inter-grupal, que cuantifica las diferencias entre los
artículos hechos del mismo material. Si la variabilidad estimada entre-grupos es
significativamente más grande que la variabilidad estimada inter-grupal, es evidente que las
medias de los grupos no son iguales.

La cantidad clave en la Figura 12-7 es el Valor-P. Valores-P pequeños (menores a 0.05 si se opera
en un nivel de significancia de 5%) nos llevan al rechazo de la hipótesis de medias iguales. En el
ejemplo actual, existe una pequeña duda de que las medias sean significativamente diferentes.

En la última edición del Statistics for Experimenters por Box, Hunter and Hunter (John Wiley
and Sons, 2005), se presenta una nuevo diagrama diseñado para mostrar los resultados de un
ANOVA en formato gráfico. El ANOVA Gráfico es mostrado en el panel inferior derecho:

ANOVA Gráfico para A

D C B A
Grupos P = 0.0000

Residuos
-8 -4 0 4 8 12

Figura 12-8. ANOVA Gráfico

191/ Comparando Más de Dos Muestras


A lo largo de la parte inferior del gráfico hay un diagrama de puntos de los residuos del modelo.
En el ANOVA simple, los residuos son iguales a la diferencia entre cada observación y la media
de todas las observaciones en su grupo. En el ejemplo actual, la variabilidad observada en los
residuos es indicativa de la variabilidad natural entre los artículos hechos del mismo material.
Graficadas sobre la línea central están las desviaciones a escala entre las medias del grupo y la
media total de todas las n = 48 observaciones. Estas desviaciones se gradúan de manera que su
variabilidad puede compararse con la de los residuos. Cualquiera de los grupos cuyos puntos
estén muy apartados que fácilmente vengan de una distribución con una dispersión similar a la
de los residuos, claramente corresponden a poblaciones diferentes.

En la Figura 12-8, el grupo A parece estar muy separado de los otros grupos. La separación de
las otras tres medias es menos clara. Una comparación más a detalle de las cuatro medias
muestrales se describe en la siguiente sección.

12.3 Comparando Medias


Si el Valor-P en la tabla ANOVA es pequeño, entonces las medias muestrales deberían ser
examinadas para determinar cuáles medias son significativamente diferentes de las otras. Un
gráfico útil para este propósito es el Gráfico de Medias, disponible en el cuadro de diálogo Gráficas:

Medias y 95.0 Porcentaje Intervalos Tukey HSD

67

65
Media

63

61

59
A B C D

Figura 12-9. Gráfico de Medias

192/ Comparando Más de Dos Muestras


El gráfico de medias muestra la media de cada muestra, junto con un intervalo de incertidumbre
a su alrededor. La interpretación de los intervalos depende del tipo de intervalo elegido, que
puede ser cambiado usando Opciones de Ventana. Los intervalos más comúnmente usados son:

1. Intervalos LSD (Menor Diferencia Significativa) de Fisher: Estos intervalos se construyen de tal
manera que uno puede escoger un solo par de muestras y declarar que sus medias son
significativamente diferentes si los intervalos no se traslapan en dirección vertical. La
posibilidad de declarar incorrectamente que dos muestras son diferentes con éste
método está ajustada a un 5%, haciendo que las comparaciones entre muchos pares de
medias resulten erróneas en al menos un par con una probabilidad muy alta.

2. Intervalos HSD (Honesta Diferencia Significativa) de Tukey. Los intervalos se construyen con el
fin de controlar la tasa de error del tratamiento en un 5%. Usando el método de Tukey,
no se declara erroneamente algún par de medias como significativamente diferente, ya
que ésto a lo más se presenta en un 5% de los análisis que usted realice.

Los intervalos en la Figura 12-9 usan el método de Tukey. Debido a que el intervalo para la
muestra A no traslapa ningún otro intervalo, la media de la muestra A es significativamente
diferente de las otras 3 muestras. La muestra B también es significativamente diferente de la
muestra D, por la misma razón. Sin embargo, C no es significativamente diferente de B ni D.

El análisis puede mostrarse en una tabla eligiendo Pruebas de Rangos Múltiples en el cuadro de
diálogo Tablas:

Contraste Múltiple de Rango

Método: 95.0 porcentaje Tukey HSD


Casos Media Grupos Homogéneos
D 12 59.8417 X
C 12 60.85 XX
B 12 61.9083 X
A 12 64.7 X

Contraste Sig. Diferencia +/- Límites


A-B * 2.79167 1.65755
A-C * 3.85 1.65755
A-D * 4.85833 1.65755
B-C 1.05833 1.65755
B-D * 2.06667 1.65755
C-D 1.00833 1.65755
* indica una diferencia significativa.
Figura 12-10. Pruebas de Rangos Múltiples

193/ Comparando Más de Dos Muestras


En la parte inferior de la tabla se muestra cada par de medias. La columna Diferencia presenta la
diferencia de medias de la primera y segunda muestras. La columna +/- Límites muestra un
intervalo de incertidumbre para la diferencia. Cualquier par cuyo valor absoluto de la diferencia
exceda el límite es estadísticamente significativo en el nivel seleccionado de significancia y se
indica con un * en la columna Sig. En el ejemplo actual, cuatro de los seis pares de medias
muestran diferencias significativas.

En la parte superior de la tabla se acomodan las muestras en grupos homogéneos, mostrados


como columnas de X. Un grupo homogéneo es un grupo en el que no hay diferencias
significativas. En este caso, la muestra A está en un grupo por sí sola, ya que es
significativamente diferente a las demás. La muestra C cae dentro de dos grupos, uno con B y
otro con D. Se requerirán más datos para distinguir realmente a que grupo pertenece C.

12.4 Comparando Medianas


Si se sospecha que existen datos aberrantes, puede usar de forma alterna al análisis de varianza
estándar, un procedimiento no paramétrico, como la Prueba Kruskal-Wallis y la Prueba de Friedman
encontradas en Tablas. Estas pruebas comparan las medianas en lugar de las medias:

Hipótesis nula: todas las medianas son iguales

Hipótesis alternativa: no todas las medianas son iguales

El tipo de prueba puede seleccionarse usando Opciones de Ventana. Existen dos tipos de pruebas:

1. Prueba Kruskal-Wallis– es apropiada cuando cada columna contiene una muestra aleatoria
de la población. En cuyo caso, las filas no tienen un significado intrínseco.

2. Prueba de Friedman – apropiada cuando cada fila representa un bloque, i.e., el nivel de
alguna otra variable. Variables típicas de bloqueo son: día de la semana, turno o lugar de
fabricación.

En el ejemplo, la fila no tienen significado por lo tanto la prueba Kruskal-Wallis es la adecuada:

194/ Comparando Más de Dos Muestras


Kruskal-Wallis Test
Tamaño de Muestra Rango Promedio
A 12 40.7917
B 12 25.7917
C 12 19.25
D 12 12.1667
Estadístico = 27.3735 Valor-P = 0.00000491592
Figura 12-11. Prueba de Varias RangosMultiple Range Pruebas
La entrada importante en la tabla es valor-P. Ya que el Valor-P es pequeño (menor a 0.05), la
hipótesis de medianas iguales es rechazada.

Pares de medianas pueden ser además comparadas eligiendo Gráfico de Caja y Bigotes del cuadro de
diálogo Gráficas y usando Opciones de Ventana para añadir muescas en las medianas:

Gráfico Caja y Bigotes

56 58 60 62 64 66 68
respuesta

Figura 12-12. Gráfico de Caja y Bigotes con Muescas en las Medianas


El rango de cada muesca muestra la incertidumbre asociada con el estimado de la mediana de ese grupo.
Las muescas son construídas de tal modo que cualesquiera dos muestras cuyas muescas no se traslapen,
pueden declararse que tienen medianas significativamente diferentes en el nivel de significancia
predeterminado en el sistema (usualmente 5%). En la gráfica, las muescas de las muestras B, C y D se
traslapan, pero la mediana para la muestra A es significativamente más alta que la de las otras 3 muestras.

195/ Comparando Más de Dos Muestras


Nota: el comportamiento de doblado hacia atrás observado en la Figura 12-12 ocurre
cuando una muesca se extiende más allá del límite de la caja.

12.5 Comparando Desviaciones Estándar


También es posible probar la hipótesis de desviaciones estándar iguales:

Hipótesis nula: σA = σB = σC = σD

Hipótesis alternativa: no todas las desviaciones estándar son iguales

Esto se hace seleccionando Verificación de la Varianza en el cuadro de diálogo Tablas:

Contraste de Varianza
Prueba Valor-P
Levene's 0.143286 0.933432

Figura 12-13. Comparación de Varianzas de las Muestras


Una de las cuatro pruebas se mostrará, dependiendo de la configuración en las Opciones de
Ventana. Tres de las pruebas disponibles, incluyendo la prueba de Levene, muestra valores-P.
Un valor-P menor a 0.05 nos lleva al rechazo de la hipótesis de sigmas iguales al 5% del niivel de
significancia. En este caso, las desviaciones estándar no son significativamente diferentes entre
ellas, ya que el valor-P está muy por encima de 0.05.

En resumen, parece que la fuerza promedio es diferente para los distintos materiales. No
obstante, la variabilidad entre los artículos hechos del mismo material es casi igual para los
cuatro materiales.

12.6 Gráficos de Residuos


Siempre que un modelo estadístico es ajustado a los datos, es importante examinar los residuos
del modelo ajustado. En este análisis, hay un residuo correspondiente a cada uno de los n = 48
artículos, definido como la diferencia entre la fuerza de un artículo y la fuerza promedio de todos
los artículos hechos del mismo material.

El cuadro de diálogo Gráficas contiene un campo para generar gráficos de residuos


automáticamente. Dependiendo de la selección en Opciones de Ventana, puede graficar los

196/ Comparando Más de Dos Muestras


residuos por grupo vs valores predichos, o en el orden como se encuentra la fila en la hoja de
datos. El gráfico inferior muestra los residuos graficados vs la fuerza predicha:

Gráfico de Residuos

4.5

2.5
residuos

0.5

-1.5

-3.5
59 60 61 62 63 64 65
valor predicho

Figura 12-14. Gráfico de Residuos vs Fuerza Predicha


En este tipo de gráficos, se deben buscar:

1. Puntos Aberrantes – residuos aislados muy alejados de todos los demás. Dichos puntos
necesitarán investigarse más detalladamente para determinar si existe una causa asignable
que explique su comportamiento inusual.

2. Heterosedasticidad – un cambio sistemático en la varianza de acuerdo al incremento o


decremento de los valores predichos. Esta condición típicamente resulta en una
apariencia de embudo en el gráfico y puede necesitar una transformación de las
observaciones originales considerando los logaritmos de los datos antes de realizar el
análisis. Procedimientos como Pruebas de Rangos Múltiples no trabajarán adecuadamente
cuando la variabilidad dentro del grupo difiera significativamente entre los grupos.

Si se desea, los residuos pueden guardarse en una columna de cualquier hoja de datos pulsando
el ícono Guardar Resultados en la barra de herramientas de análisis.

197/ Comparando Más de Dos Muestras


12.7 Gráfico Análisis de Medias (ANOM)
Otro modo diferente para comparar varias medias es usando un Gráfico de Análisis de Medias,
también disponible en el cuadro de diálogo Gráficas:

Gráfico de Análisis de Media


Con 95% Límites de Decisión
65
UDL=62.80
64
CTR=61.83
63 LDL=60.85
Media

62

61

60

59
A B C D

Figura 12-15. Análisis de Gráfico de Medias


Diseñado para tener similitud con un gráfico de control, este gráfico muestra la media de cada
muestra junto con una línea vertical dibujada en la gran media de todas las observaciones. Los
límites de decisión son incluídos por arriba y abajo de la gran media. Cualquiera de las medias
que caiga fuera de los límites puede ser declarada como significativamente diferente de la gran
media.

En este caso, la interpretación es que los artículos de la muestra A son significativamente más
fuertes que el promedio, mientras que los artículos de las muestras C y D son significativamente
más debiles que el promedio. Este tipo de interpretación puede ser muy útil algunas veces.

198/ Comparando Más de Dos Muestras


Capítulo

13
Tutorial #4: Análisis de Regresión
Ajustando modelos lineales y no lineales, seleccionando el mejor modelo,
graficando residuos y presentando resultados.

Una de las secciones más usadas en el STATGRAPHICS Centurion es el conjunto de


procedimientos que se ajustan a un modelo de regresión estadístico. En un modelo de regresión,
la variable de respuesta Y es expresada como una función de una ó más variables prestablecidas
de X, más el ruido. En muchos (pero no todos) los casos, la función es lineal en los coeficientes
desconocidos, así que el modelo puede expresarse como:

Yi = β0 + β1X1,i + β2x2,i + β3X3,i + … + βkXk,i + εi

Donde el subíndice i representa la observación i-ésima en la muestra de datos, las β son los
coeficientes desconocidos del modelo y la ε es una desviación aleatoria que normalmente se
asume proviene de una distribución normal con media 0 y desviación estándar σ.

Dado un conjunto de datos con una variable de respuesta Y y una o más variables conocidas, el
objetivo del análisis de regresión es construir un modelo que:

1. Describa las relaciones existentes entre las variables, de tal forma que permita que Y sea
bien predicha, dados los valores conocidos de las X.

2. No contenga más variables X que las necesarias para generar una buena predicción.

La consideración anterior es a veces referida como parsimonia. Típicamente, los modelos que
involucran un conjunto bien seleccionado de predictores se desempeñan mejor en la práctica.

199/ Análisis de Regresión


Este capítulo considera muchos tipos de modelos de regresión. Como ejemplo, el rendimiento
de millas por galón en la ciudad, en el archivo 93cars.sf6, será usada como la variable de respuesta
Y. El objetivo es construir un modelo con las otras columnas del archivo que pueda predecir
satisfactoriamente las millas por galón de un automóvil.

13.1 Análisis de Correlación


Un procedimiento muy útil para iniciar a construir un modelo de regresión es el de Análisis de
Múltiples Variables. Este análisis puede encontrarse en el menú principal bajo:

1. Si usa el menú Clásico, seleccione Describir – Datos Numéricos – Análisis de Múltiples


Variables.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Métodos Multivariados – Análisis
de Múltiples Variables.

El análisis comienza mostrando el siguiente cuadro de diálogo para la captura de datos:

Figura 13-1. Cuadro de Diálogo de Captura de Datos para Análisis de Múltiples Variables

200/ Análisis de Regresión


Adicionalmente a MPG City se han seleccionado seis variables como predictores. Estos posibles
predictores son:

X1: Engine Size (Tamaño del Motor) (litros)


X2: Horsepower (Caballos de Fuerza) (máximo)
X3: Length (Longitud) (pulgadas)
X4: Weight (Peso) (libras)
X5: Wheelbase (Ejes) (pulgadas)
X6: Width (Ancho) (pulgadas)

Pulsando ACEPTAR se presenta la ventana de análisis:

Figura 13-2. Ventana de Análisis de Múltiples Variables


El panel superior izquierdo enlista las variables de captura, mientras que el panel central
izquierdo muestra el resumen estadístico. Hay un total de 93 filas en el archivo de datos que
tienen información completa de todas las diferentes variables a analizar.

El gráfico mátriz a la derecha muestra gráficos X-Y para cada par de variables:

201/ Análisis de Regresión


MPG City

Engine Size

Horsepower

Length

Weight

Wheelbase

Width

Figura 13-3. Gráfico de Matriz Suavizado


Para interpretar el gráfico, localice la descripción de una variable, como por ejemplo MPG City.
La variable indicada se muestra en el eje vertical de cada gráfica en ese renglón y en el eje
horizontal de cada gráfico en esa columna. Cada par de variable es entonces presentado dos
veces, una sobre la diagonal y otra por debajo.

Se han añadido a la gráfica, suavizadores estimados (LOWESS), al maximizar el panel y eligiendo


el ícono Suavizar/Rotar en la barra de herramientas de análisis. De mayor interés es la fila
superior del gráfico, que muestra el comportamiento de MPG City vs cada una de las otras 6
variables. Todas las variables están claramente correlacionadas con las millas por galón, algunas
de una forma no lineal. También existe una amplia multicolinealidad presente (correlación entre
las variables conocidas), lo cual sugiere que muchas combinaciones diferentes de variables
pueden ser igualmente adecuadas para predecir Y.

En el fondo a la izquierda de la tabla se muestra una matriz de los coeficientes de correlación


estimados para cada par de variables en el análisis:

202/ Análisis de Regresión


Correlaciones
MPG City Engine Size Horsepower Length Weight Wheelbase Width
MPG City -0.7100 -0.6726 -0.6662 -0.8431 -0.6671 -0.720
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Engine Size -0.7100 0.7321 0.7803 0.8451 0.7325 0.8671
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Horsepower -0.6726 0.7321 0.5509 0.7388 0.4869 0.6444
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Length -0.6662 0.7803 0.5509 0.8063 0.8237 0.8221
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Weight -0.8431 0.8451 0.7388 0.8063 0.8719 0.8750
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Wheelbase -0.6671 0.7325 0.4869 0.8237 0.8719 0.8072
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Width -0.7205 0.8671 0.6444 0.8221 0.8750 0.8072
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Correlación
(Tamaño de Muestra)
Valor-P
Figura 13-4. Matriz de Correlación
La tabla presenta el coeficiente de correlación para cada par de variables, el número de
observaciones usado para obtener el estimado y un valor-P. Un coeficiente de correlación r es
un número entre -1 y +1, que mide la fuerza de la relación lineal entre dos variables. Entre más
cercana sea la correlación a -1 ó +1, más fuerte será la relación. El signo de la correlación indica
la dirección de la relación. Un valor positivo significa que Y va hacia arriba cuando X va hacia
arriba. Un valor negativo significa que Y va hacia abajo cuando X va hacia abajo.

Para determinar si dos variables están ó no están relacionadas entre sí, se calcula un Valor-P para
cada coeficiente de correlación. Cualquier par de variables cuyo Valor-P sea menor a 0.05 exhibe
una correlación lineal estadísticamente significativa en un nivel de significancia del 5%.

El renglón superior muetsra la correlación entre MPG City y los 6 predictores. La correlación
más fuerte es con Weight, en -0.8431. El signo negativo implica que cuando se incrementa Weight,
MPG City decrece, lo cual no es ninguna sorpresa.

203/ Análisis de Regresión


13.2 Regresión Simple
El primer modelo estadístico que será ajustado es una línea recta de la forma:

MPG City = β0 + β1Weight + ε

En la ecuación superior, β1 es la pendiente de la línea en unidades de millas por galón por libra,
mientras que βo es la Y-intercepta. Para ajustar este modelo:

1. Si usa el menú Clásico, elija Relacionar – Un Factor – Regresión Simple.

2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Regresión – Un Factor– Regresión Simple.

El cuadro de diálogo de captura de datos debe llenarse como se muestra a continuación:

Figura 13-5. Cuadro de Diálogo de Captura de datos de Regresión Simple


La ventana de análisis inicial contiene 4 paneles que presentan información sobre el modelo
ajustado y los residuos:

204/ Análisis de Regresión


Figura 13-6. Ventana de Análisis de Regresión Simple
El Resumen del Análisis en el panel superior izquierdo resume el ajuste:

205/ Análisis de Regresión


Regresión Simple - MPG City vs. Weight
Variable dependiente: MPG City (miles per gallon in city driving)
Variable independiente: Weight (pounds)
Lineal: Y = a + b*X

Coeficientes
Mínimos Cuadrados Estándar T
Parámetro Estimado Error Estadístico Valor-P
Intercepto 47.0484 1.67991 28.0064 0.0000
Pendiente -0.00803239 0.000536985 -14.9583 0.0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 2065.52 1 2065.52 223.75 0.0000
Residuo 840.051 91 9.23133
Total (Corr.) 2905.57 92

Coeficiente de Correlación = -0.843139


R-cuadrada = 71.0883 porciento
R-cuadrado (ajustado para g.l.) = 70.7705 porciento
Error Estándar Est. = 3.03831
Error Absoluto medio = 1.99274
Estadístico Durbin-Watson = 1.64586 (P=0.0405)
Autocorrelación de residuos en Retraso 1 = 0.176433
Figura 13-7. Resumen del Análisis de Regresión Simple
De las muchas estadísticas en la tabla superior, las siguientes son las más importantes:

1. Coeficientes: los coeficientes del modelo estimado. El modelo ajustado que será
utilizado para hacer predicciones es:

MPG City = 47.0484 - 0.00803239Weight

2. R-cuadrado: es el porcentaje de la variabilidad en Y que ha sido expuesto por el


modelo. En este caso, una regresión lineal contra Weight explica el 71.1% de la
variabilidad en MPG City.

3. Valor-P del modelo: prueba la hipótesis nula de que el modelo ajustado no es mejor
que un modelo que no incluya Weight. Un Valor-P abajo de 0.05, como en el ejemplo
actual, indica que Weight es un predictor muy útil de MPG City.

El gráfico en el panel superior derecho muestra el modelo ajustado:

206/ Análisis de Regresión


Gráfico del Modelo Ajustado
MPG City = 47.0484 - 0.00803239*Weight
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 13-8. Gráfico del Modelo Lineal Ajustado


El gráfico muestra la línea de regresión de mínimos cuadrados y dos grupos de límites. Los
límites internos proveen intervalos de confianza del 95% para el valor de la media de Y en
cualquier X seleccionada. Esto indica que tan bien ha sido estimada la posición de la línea, dado
que la relación es lineal. Entre más grande sea la muestra, más estrechos serán los límites. Las
líneas externas son los límites de predicción del 95% para las nuevas observaciones. Se estima
que el 95% de las observaciones adicionales, similares a las de la muestra, caerán dentro de esos
límites.

Es adecuado tomar nota que 3 observaciones en valores bajos de Weight caen mucho más allá de
los límites predictivos del 95%. Esto puede ser indicativo de datos aberrantes o de una falla del
modelo en tomar en cuenta la no linealidad de la relación actual entre MPG City y Weight.

13.3 Ajustando un Modelo No Lineal


El procedimiento de Regresión Simple incluye la posibilidad de ajustar una amplia variedad de
modelos no lineales. Para determinar la mejora relativa que varios modelos pueden hacer, elija
Comparación de Modelos Alternativos del cuadro de diálogo Tablas. Esto ajustará todos los modelos
posibles y los enlistará en un orden decreciente de R-cuadrada:

207/ Análisis de Regresión


Comparación de Modelos Alternos
Modelo Correlación R-Cuadrada
Curva S 0.9016 81.29%
Inversa-Y Raíz Cuadrada-X 0.8995 80.92%
Inversa-Y Logaritmo-X 0.8995 80.90%
Raíz Cuadrada-Y Inversa de X 0.8988 80.78%
Multiplicativa -0.8981 80.65%
Inversa de Y 0.8969 80.44%
Logarítmico-Y Raíz Cuadrada-X -0.8919 79.54%
Doble Recíproco -0.8896 79.14%
Inversa de X 0.8888 79.00%
Raíz Cuadrada-Y Logaritmo-X -0.8879 78.83%
Inversa-Y Cuadrado-X 0.8852 78.35%
Exponencial -0.8833 78.03%
Raíz Cuadrada Doble -0.8784 77.16%
Logaritmo de X -0.8705 75.78%
Raíz Cuadrada de Y -0.8668 75.14%
Logaritmo-Y Cuadrado-X -0.8611 74.15%
Raíz Cuadrada deX -0.8577 73.56%
Cuadrado-Y Inversa de X 0.8472 71.77%
Lineal -0.8431 71.09%
Raíz Cuadrada-X Cuadrado-X -0.8393 70.44%
Cuadrado-Y Logaritmo-X -0.8146 66.35%
Cuadrado de X -0.8106 65.71%
Cuadrado-Y Raíz Cuadrada-X -0.7957 63.31%
Cuadrado de Y -0.7758 60.18%
Cuadrado Doble -0.7346 53.96%
Logístico <sin ajuste>
Log probit <sin ajuste>
Figura 13-9. Modelos Alternos No Lineales
Los modelos en la parte superior de la lista explican el porcentaje más grande de la variación en
la variable de respuesta. La R-cuadrada es solo un criterio que puede usarse para ayudar a
escoger un modelo. Los modelos con cualesquiera valores de R-cuadrada menores al primer
modelo de la lista son preferibles si tienen más sentido en el contexto de los datos.

En el ejemplo actual, un atractivo modelo cercano al principio de la lista es el modelo Y-Recíproco.


Este modelo toma la forma:

1
= β0 + β1Weight + ε
MPGCity

208/ Análisis de Regresión


En él, el recíproco de millas por galón (galones por milla) se expresa como una función lineal de
weight. Es algo común que las transformaciones de X,Y o ambas, puedan llevarnos a mejores
modelos.

Para ajustar un modelo Y-Recíproco, pulse el ícono de Opciones de Análisis y elija Y-Reciproco en el
cuadro de diálogo. El resultado del ajuste se muestra abajo:

Gráfico del Modelo Ajustado


MPG City = 1/(0.00193667 + 0.0000146623*Weight)
55

45
MPG City

35

25

15
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 13-10. Modelo Y-Recíproco Ajustado


Siendo lineal en el recíproco de MPG City, el modelo es no lineal en la medición original. Note
también que los límites de predicción para Weight se volvieron más grandes conforme los valores
predichos se hicieron más grandes. Esto tiene sentido en el contexto de los datos, ya que implica
que hay más variabilidad entre los autos más ligeros que entre los autos mas pesados.

13.4 Examinando los Residuos


Una vez que un modelo razonable se haya ajustado, los residuos del ajuste deben ser
examinados. En general, un residuo puede pensarse como la diferencia entre el valor Y
observado y el valor predicho por el modelo:

Residuo = Y observada – Y predicha

El análisis Regresión Simple gráfica automáticamente los residuos vs la variable X:

209/ Análisis de Regresión


Gráfico de Residuos
MPG City = 1/(0.00193667 + 0.0000146623*Weight)
4.3
Rediduo Estudentizado

2.3

0.3

-1.7

-3.7
1600 2100 2600 3100 3600 4100 4600
Weight

Figura 13-11.Gráfico de Residuos Estudentizados


Usando Opciones de Ventana, se puede elegir entre graficar residuos simples ó residuos
Estudentizados. Los residuos estudentizados reexpresan los residuos ordinarios definidos arriba
dividiéndolos entre sus errores estándar estimados. Un residuo Estudentizado así, indica
cuantos errores estándar del valor del dato, son del modelo ajustado.

STATGRAPHICS Centurion actualmente calcula residuos eliminados estudentizados. Los


residuos eliminados son calculados reteniendo una observación a la vez, reajustando el modelo y
determinando el número de errores estándar que la observación retenida arroja desde el nuevo
modelo ajustado. Esto evita que los datos aberrantes tengan un gran impacto en el modelo
cuando su residuo es calculado.

La selección Residuos Inusuales en el cuadro de diálogo Tablas enlista todos los residuos
estudentizados mayores a 2 en valor absoluto:

210/ Análisis de Regresión


Residuos Atípicos
Predicciones Residuos
Fila X Y Y Residuos Studentizados
5 3640.0 22.0 18.0808 3.91924 -2.38
36 3735.0 15.0 17.6366 -2.63658 2.41
42 2350.0 42.0 27.4778 14.5222 -3.11
57 2895.0 17.0 22.5306 -5.53064 3.60
91 2810.0 18.0 23.1816 -5.18157 3.04

Figura 13-12. Tabla de Residuos Inusuales


Los residuos estudentizados mayores a 3, como la fila #57, son aberrantes potenciales que no
parecen pertenecer al resto de los datos. La Fila #57 corresponde al Mazda RX-7 que sé registró
con un rendimiento de solo 17 millas por galón, a pesar de que el modelo predijo 22.5 mpg.
Debido a que en la siguiente sección se añaden variables adicionales al modelo, que pudieran
ayudar a mejorar su capacidad predictiva para tales autos deportivos, la fila #57 no será excluida
del ajuste, no obstante se le debe prestar cuidadosa atención.

13.5 Regresión Múltiple


Para mejorar el modelo, es necesario añadir otros predictores. Esto se logra más fácilmente
usando el análisis de Regresión Múltiple, que puede encontrarse en el menú principal bajo:

1. Si usa el menú Clásico, elija Relacionar – Varios Factores – Regresión Múltiple.

2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Regresión – Varios Factores – Regresión
Múltiples.

El cuadro de diálogo de captura de datos toma la siguiente forma:

211/ Análisis de Regresión


Figura 13-13. Cuadro de Diálogo de Captura de Datos de Regresión Múltiple
De inicio, los 6 predictores considerados en el Análisis de Varias Variables discutido
anteriormente se considerarán como variables independientes. La variable dependiente es la
recíproca de MPG City, equivalente a galones por milla. El resumen del análisis se muestra abajo:

212/ Análisis de Regresión


Regresión Múltiple - 1/MPG City
Variable dependiente: 1/MPG City
Variables independientes:
Engine Size (liters)
Horsepower (maximum)
Length (inches)
Weight (pounds)
Wheelbase (inches)
Width (inches)

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 0.0155897 0.0177088 0.880334 0.3811
Engine Size 0.00072849 0.000980504 0.742974 0.4595
Horsepower 0.0000132632 0.000014911 0.889485 0.3762
Length -0.000101355 0.0000608857 -1.66468 0.0996
Weight 0.0000149727 0.00000242804 6.1666 0.0000
Wheelbase -0.000148122 0.000163073 -0.908321 0.3662
Width 0.000223526 0.00028967 0.771658 0.4424

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrada Media Razón-F Valor-P
Modelo 0.00705967 6 0.00117661 67.64 0.0000
Residuo 0.001496 86 0.0000173954
Total (Corr.) 0.00855567 92

R-cuadrada = 82.5145 porciento


R-cuadrado (ajustado para g.l.) = 81.2946 porciento
Error Estándar Est. = 0.00417077
Error Absoluto medio = 0.00304978
Estadístico Durbin-Watson = 1.6264 (P=0.0306)
Autocorrelación de residuos en Retraso 1 = 0.186005

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre
1/MPG City y 6 variables independientes. La ecuación del modelo ajustado es

1/MPG City = 0.0155897 + 0.00072849*Engine Size + 0.0000132632*Horsepower - 0.000101355*Length +


0.0000149727*Weight - 0.000148122*Wheelbase + 0.000223526*Width

Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relación estadísticamente significativa
entre las variables con un nivel de confianza del 95.0%.
Figura 13-14. Resumen del Análisis de Regresión Múltiple con 6 Variables Conocidas
Note que el estadístico R-cuadrada ha crecido hasta un 82.5%. Como sea, el modelo es
innecesariamente complicado. Cerca de la parte superior hay una columna de Valores-P. Estos
Valores-P prueban la hipótesis de que el coeficiente de una variable al azar es igual a 0, dado que

213/ Análisis de Regresión


todas las otras variables permanecen en el modelo. Valores-P mayores a 0.05 indican que una
variable no contribuye significativamente al ajuste, en la presencia de todas las otras variables.

Exceptuando por Weight, todos los predictores tienen valores-P > 0.05. Esto implica que al
menos uno de esos predictores puede ser eliminado sin afectar al modelo significativamente.

Nota: Sería un error en este punto asumir que las 5 valores conocidas con Valores-P >
0.05 pueden ser eliminadas. Debido a la alta multicolinearidad en los datos, todos los
valores-P pueden cambiar drásticamente incluso si una variable es eliminada del modelo.

Un método útil para simplificar el modelo es realizar una regresión por pasos . En esta, las
variables son añadidas o eliminadas del modelo de regresión una a la vez, con el objeto de
obtener un modelo que contenga solo predictores significativos pero sin excluir variables útiles.
La regresión por pasos esta disponible en el cuadro de diálogo Opciones de Análisis:

Figura 13-15. Cuadro de Diálogo de Opciones de Análisis de Regresión Múltiple


Existgen dos opciones para una Regresión por Pasos:

214/ Análisis de Regresión


1. Selección Hacia Adelante – inicia el modelo conteniendo solo una constante y va incluyendo
variables cuando estas mejoran el ajuste significativamente.

2. Selección Hacia Atrás – inicia el modelo incluyendo todas las variables y las va eliminando
una a la vez, hasta que las variables restantes sean estadísticamente significativas.

En ambos métodos, las variables eliminadas pueden ser reintegradas más tarde si estas parecen
ser predictores útiles, o que las variables previamente integradas pueden ser eliminadas más tarde
si dejan de ser significativas.

Al ejecutar una selección hacia atrás nos dá como resultado el siguiente modelo:

Regresión Múltiple - 1/MPG City


Variable dependiente: 1/MPG City
Variables independientes:
Engine Size (liters)
Horsepower (maximum)
Length (inches)
Weight (pounds)
Wheelbase (inches)
Width (inches)
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 0.0034427 0.00243602 1.41325 0.1610
Horsepower 0.0000260839 0.0000124356 2.09752 0.0388
Weight 0.0000129513 0.0000011041 11.7302 0.0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrada Media Razón-F Valor-P
Modelo 0.00696044 2 0.00348022 196.35 0.0000
Residuo 0.00159524 90 0.0000177249
Total (Corr.) 0.00855567 92

R-cuadrada = 81.3546 porciento


R-cuadrado (ajustado para g.l.) = 80.9403 porciento
Error Estándar Est. = 0.00421009
Error Absoluto medio = 0.00313061
Estadístico Durbin-Watson = 1.62892 (P=0.0338)
Autocorrelación de residuos en Retraso 1 = 0.184113

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG
City y 6 variables independientes. La ecuación del modelo ajustado es

1/MPG City = 0.0034427 + 0.0000260839*Horsepower + 0.0000129513*Weight


Figura 13-16. Resumen Estadístico de Regresión Múltiple después de la Selección Hacia Atrás.

215/ Análisis de Regresión


Solo dos variables permanecen en el modelo: Horsepower y Weight. Ambas variables tienen
valores-P menores a 0.05.

Una vez que se ha encontrado una ecuación matemática, se puede interpretar mejor graficando
esa ecuación. Cuando el modelo contiene 2 predictores, la ecuación representa una superficie en
3 dimensiones, normlamente conocida superficie de respuesta. En este caso, la ecuación ajustada
corresponde a un plano, debido a que Horsepower y Weight se integran al modelo de forma lineal.

Para graficar el modelo, puede también:

1. Usar el procedimiento Modelos Lineales Generales, que automáticamente graficará un


modelo de regresión con respecto a dos variables conocidas. (Nota: el procedimiento
MLG solo está disponible en la Edición Profesional del STATGRAPHICS Centurion).

2. Usar el procedimiento Gráficos de Superficie y de Contorno. Este procedimiento está


disponible en todas las ediciones, aunque requiere que se copie la función a graficarse y
que se definan sus propios títulos y escalas.

Tomando la segunda alternativa:

1. Si usa el menú Clásico, elija Gráficar – Gráficos de Superficie y de Contorno.

2. Si usa el menú Seis Sigma, elija Herramientas – Gráficos de Superficie y de Contorno.

En el cuadro de diálogo de captura de datos, capture el modelo, expresando las dos variables
conocidas como X y Y. El modo más fácil para hacer esto es pegando la ecuación generada por
el procedimiento de Regresión Múltiple, y cambiando Horsepower por la X y Weight por la Y:

216/ Análisis de Regresión


Figura 13-17 Cuadro de Diálogo de Captura de datos para Gráfico de Superficie Respuesta y de Contorno
La escala de X y Y también debe ser cambiada para que sea representativa de los datos usados al
ajustar el modelo.

Cuando pulse ACEPTAR, se generará un gráfico de superficie. El gráfico inicial toma la forma
de una superficie de malla de alambre:

217/ Análisis de Regresión


0.0034427+0.0000260839*X+0.0000129513*Y

(X 0.001)
72
62
Función

52
42
32 4500
4000
3500
22 3000
2500
0 50 100 150 2000
200 250 300 1500 Y
X

Figura 13-18. Gráfico de Superficie con Etiquetas y Escalamiento Predeterminado


Ud. puede mejorar su gráfico considerablemente.:

Seleccionando Opciones Gráficas de la barra de herramientas del análisis y cambiando las


etiquetas y la escala en los separadores: Título Principal, Eje-X, Eje-Y y Eje-Z. En
particular:

• Cambie el título del eje-X a Horsepower.

• Cambie el título del eje-Y a Weight..

• Cambie la escala del eje-Y que vaya de 1500 a 4500 cada 1000.

• Cambie el título del eje-Z a 1/MPG City.

Seleccionando Opciones de Ventana y cambiando el tipo de gráfico presetnado:

218/ Análisis de Regresión


Figura 13-19. Opciones de Ventana del Gráfico de Superficie
En el cuadro de diálogo, Tipo ha sido ajustado a Contorno y el campo de Contorno a Continuo. El
gráfico actualizado se muestra abajo:

0.0034427+0.0000260839*X+0.0000129513*Y

Función
0.02
(X 0.001) 0.03
72 0.04
62 0.05
0.06
Función

52 0.07
42
32 4500
4000
3500
22 3000
2500
0 50 100 150 2000
200 250 300 1500 Y
X

Figura 13-20. Gráfico del Modelo Ajustado


Los autos que consumen más gasolina están en la esquina posterior derecha del gráfico.
219/ Análisis de Regresión
Capítulo

14
Tutorial #5: Analizando Datos
Categóricos
Tabulación, tablas de contingencia y Análisis de Pareto.

Cada uno de los cuatro primeros tutoriales trata con datos continuos, en donde las
observaciones son representadas numéricamente a lo largo de una escala contínua. Este tutorial
examina un conjunto de datos categóricos, en los cuales cada observación representa un atributo
clasificado, en lugar de una medición.

Como ejemplo, considere los datos contenidos en el archivo defects.sf6. Una porción de este
archivo se muestra abajo:

Defect Facility
(Defecto) (Fábrica)
Desalineado Virginia
Contaminado Texas
Contaminado Virginia
Contaminado Texas
Partes Faltantes Texas
Desalineado Virginia
Contaminado Texas
Derrame Texas
Dañado Virginia
Contaminado Texas

220/ Analizando Datos Categóricos


Los datos consisten de n = 120 filas, cada uno corresponde a un defecto observado en un
producto fabricado. El archivo también indica el tipo de defecto y la fábrica en la que se
produjo el artículo.

14.1 Resumir Datos Categóricos


Ignorando por un momento la fábrica en la que se produjo cada artículo, los datos del tipo de
defecto pueden resumirse en:

1. Si usa el menú Clásico, elija Describir – Datos Categóricos – Tabulación.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Un Factor - Tabulación.

Los datos categóricos a capturar en el cuadro de diálogo deben estar contenidos en una sola
columna:

Figura 14-1. Cuadro de Diálogo de Captura de datos para una Tabulación


El procedimiento escanea la columna, identificando cada valor único. Luego presenta una
ventana de análisis similar a la que se muestra abajo:

221/ Analizando Datos Categóricos


Figura 14-2. Ventana de Análisis de una Tabulación
El panel superior izquierdo muestra los 9 valores únicos encontrados en las n = 120 filas. El
diagrama de barras y de sectores a la derecha ilustran la frecuencia observada para cada tipo de
defecto, también tabulados en la ventana inferior izquierda. El tipo de defecto más común es
“Contaminated”, que representa alrededor del 44% de todos los defectos.

14.2 Análisis de Pareto


El procedimiento Tabulación ordena los tipos de defectos de forma alfabética. Para ordenarlos
de mayor a menor frecuencía, debe usar el procedimiento Análisis de Pareto. El análisis de Pareto
es accesado mediante:

1. Si usa el menú Clásico, elija CEP – Evaluación de Calidad – Análisis de Pareto.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Un Factor – Análisis de Pareto.

El cuadro de diálogo para la captura de datos debe llenarse como se muestra a continuación:

222/ Analizando Datos Categóricos


Figura 14-3. Cuadro de Diálogo para Captura de Datos del Análisis de Pareto
El Análisis de Pareto acepta la captura de datos en dos formatos diferentes:

1. Datos no tabulados que necesitan ser contabilizados, como en el ejemplo actual.

2. Cantidades para datos que ya han sido agrupados por tipo de defecto. Esto es aplicable
si se tienen dos columnas, una que identifique los tipos de defecto y una segunda que
contenga el número de ocurrencias para cada tipo de defecto.

La ventana de análisis presenta una tabla resumen y un gráfico de Pareto:

223/ Analizando Datos Categóricos


Figura 14-4. Ventana de Análisis de Pareto
Resulta de interés especial el gráfico de Pareto a la derecha, que grafica cada tipo de defecto de
mayor a menor frecuencia. Inicialmente, las etiquetas en el eje se traslapan debido al número de
defectos y a la longitud de su descripción. Esto se puede solucionar haciendo lo siguiente:

1. Haga doble clic dentro de la ventana de análisis para maximizar el panel.

2. Pulse el botón de Opciones Gráficas en la barra de herramientas del análisis, dando clic en
el separador eje-X y habilitar la opción Rotar Etiquetas del Eje-X.

3. Después de salir del cuadro de diálogo Opciones Gráficas, las etiquetas puede que no se
ajusten completamente en la pantalla. En este caso, mantenga presionado el botón
secundario del ratón en el cuerpo de la gráfica y desplácela hacia arriba ó, posicione el
puntero en la esquina del eje-X para reducir el tamaño de los ejes.

Cuando haya terminado, el gráfico de Pareto debe lucir como el que se muestra a continuación.

224/ Analizando Datos Categóricos


Gráfica de Pareto para Defect

120 96.67 99.17 100.00


91.67 94.17
87.50
100 80.83
67.50
80
frecuencia

60 44.17

40

20

Missing parts
Contaminated

Misaligned

Damaged

Rusted

Leaking

Wrong size
Misshapen
Poor color

Figura 14-5. Gráfico de Pareto Editado


Las longitud de las barras en el gráfico de Pareto son proporcionales a la cantidad de ocurrencias
que cada tipo de defecto tiene. La línea trazada sobre las barras describe un conteo acumulado
de izquierda a derecha. En este ejemplo se muestra el porcentaje acumulado de los defectos,
iniciando con el de mayor ocurrencia a la izquierda.

El principio básico de Pareto establece que la gran mayoría de los defectos suceden en un
pequeño número de causas posibles. En este caso, los 3 tipos de defectos más frecuentes
contemplan el 80% de todos los posibles defectos.

14.3 Tabulación Cruzada


El archivo defects.sf6 también la identificación de la fábrica de donde se produjo cada artículo
defectuoso. Para consolidar los datos tanto por tipo de defecto como por fábrica:

1. Si usa el menú Clásico, elija Describir – Datos Categóricos – Tabulación Cruzada.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Varios Factores – Tabulación
Cruzada.

En el cuadro de diálogo para la captura de datos se emplean dos columnas, una que define las
filas de la tabla de frecuencias de dos vías ó tabla de contingencia y otra que define las columnas:

225/ Analizando Datos Categóricos


Figura 14-6. Cuadro de Diálogo para Captura de Datos de Tabulación Cruzada
Al capturar los datos como se muestra arriba aparecerá la siguiente ventana de análisis:

Figura 14-7. Ventana de Análisis de una Tabulación Cruzada

226/ Analizando Datos Categóricos


La tabla en el panel inferior izquierdo agrupa los datos por tipo de defecto y fábrica:

Tabla de Frecuencias para Defect por Facility


Texas Virginia Total por Fila
Contaminated 36 17 53
30.00% 14.17% 44.17%
Damaged 10 6 16
8.33% 5.00% 13.33%
Leaking 2 1 3
1.67% 0.83% 2.50%
Misaligned 8 20 28
6.67% 16.67% 23.33%
Misshapen 0 3 3
0.00% 2.50% 2.50%
Missing parts 2 1 3
1.67% 0.83% 2.50%
Poor color 6 2 8
5.00% 1.67% 6.67%
Rusted 2 3 5
1.67% 2.50% 4.17%
Wrong size 1 0 1
0.83% 0.00% 0.83%
Total por Columna 67 53 120
55.83% 44.17% 100.00%
Contenido de las celdas:
Frecuencia Observada
Porcentaje de la tabla
Figura 14-8 Tabla de dos vías con Porcentajes respecto a la Tabla Completa
Como se presentó desde un inicio, cada celda de la tabla muestra el número de filas
correspondientes a una combinación particular de fila por columnas. También se muestra el
porcentaje de cada celda con respecto a la tabla completa. Por ejemplo, había 36 artículos
contaminados en la fábrica de Texas, representando el 30 por ciento de todos los artículos
defectuosos en la muestra.

Con Opciones de Ventana puede seleccionar otros conceptos a mostrarse en cada celda:

227/ Analizando Datos Categóricos


Figura 14-9 Cuadro de Diálogo de Opciones de Ventana para Tabulación Cruzada
Una opción interesante en el ejemplo es mostrar Porcentajes por Fila en vez de Porcentajes por Tabla:

Tabla de Frecuencias para Defect por Facility


Texas Virginia Total por Fila
Contaminated 36 17 53
67.92% 32.08% 44.17%
Damaged 10 6 16
62.50% 37.50% 13.33%
Leaking 2 1 3
66.67% 33.33% 2.50%
Misaligned 8 20 28
28.57% 71.43% 23.33%
Misshapen 0 3 3
0.00% 100.00% 2.50%
Missing parts 2 1 3
66.67% 33.33% 2.50%
Poor color 6 2 8
75.00% 25.00% 6.67%
Rusted 2 3 5
40.00% 60.00% 4.17%
Wrong size 1 0 1
100.00% 0.00% 0.83%
Total por Columna 67 53 120
55.83% 44.17% 100.00%
Contenido de las celdas:
Frecuencia Observada
Porcentaje de la fila
Figura 14-10 Tabla de dos vías con Porcentajes respecto a cada Fila

228/ Analizando Datos Categóricos


El porcentaje ahora indica el porcentaje de cada celda con respecto al total de su fila. Por
ejemplo, 67.92% de todos los artículos contaminados fueron producidos en Texas, mientras que
el 71.43% de todos los artículos desalineados fueron producidos en Virginia. Esto sugiere que
algunos tipos de defecto ocurran frecuentemente en unas fábricas más que en otras, una
hipótesis que será probada formalmente en la siguiente sección.

Otras gráficas también pueden ser muy útiles. Por ejemplo, el diagrama de barras muestra los
datos tanto por defecto como por fábrica:

Diagrama de Barras para Defect según Facility

Facility
Contaminated Texas
Damaged Virginia
Leaking
Misaligned
Defect

Misshapen
Missing parts
Poor color
Rusted
Wrong size

0 10 20 30 40
frecuencia

Figura 14-11. Diagrama de Barras Agrupado


La diferencia entre las dos fábricas es bastante explícito. Un gráfico adicional, llamado Gráfico de
Mosaico, es también bastante ilustrativo:

229/ Analizando Datos Categóricos


Gráfico de Mosaico para Defect segúnFacility

Facility
Texas
Contaminated Virginia

Damaged
Leaking
Misaligned
Misshapen
Missing parts
Poor color
Rusted
Wrong size

Figura 14-12. Gráfico de Mosaico


En esta gráfica, la altura de cada barra es proporcional al número total de defectos de cada tipo.
El ancho de las barras es proporcional al porcentaje relativo de cada tipo de defecto en cada
locación. Consecuentemente, el área total de cada rectángulo es proporcional a la frecuencia
correspondiente de cada celda en la tabla de dos vías.

Si así lo desea, las frecuencias de cada celda pueden mostrarse en tres dimensiones seleccionando
el Gráfico de Rascacielos desde el cuadro de diálogo Gráficas:

230/ Analizando Datos Categóricos


Gráfico Rascacielos para Defect según Facility

40

30
frecuencia

20

10
Virginia
0
Texas
Contaminated
Damaged
Leaking

Facility
Misaligned
Misshapen
Missing parts
Poor color
Rusted
Wrong size
Defect

Figura 14-13. Gráfico de Rascacielos Tridimensional


En un Gráfico de Rascacielos, la altura de cada barra representa la frecuencia de una celda en la
tabla de contingencia.

14.4 Comparando Dos o Más Muestras


Para determinar si las aparentes diferencias entre las fábricas de Texas y Virginia son
estadísticamente significativas, elija Pruebas de Independencia del cuadro de diálogo Tablas. Para
una tabla de este tamaño, el procedimiento presenta los resultados de una prueba chi-cuadrada:

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 18.438 8 0.0182
Advertencia: algunas celdas contienen menos de 5 casos.
Figura 14-14. Prueba de Independecia Chi-Cuadrada
La prueba chi-cuadrada se utiliza para decidir entre dos hipótesis:

Hipótesis Nula: las clasificaciones de las filas y de las columnas son independientes.

Hipótesis alternativa: las clasificaciones no son independientes.

La independencia implicará que el tipo de defecto encontrado en un artículo no tiene nada que
ver con la fábrica en la que fue manufacturado.

231/ Analizando Datos Categóricos


Para la prueba chi-cuadrada, un valor-P pequeño indica que las clasificaciones de las filas y las
columnas no son independientes. En este caso, el valor-P es menor a 0.05, indicando al nivel de
significancia del 5% que la distribución de los tipos de defectos es diferente en la fábrica de
Texas que en la de Virginia.

Sin embargo, también se muestra una advertencia, debido a que las sumas de algunas celdas en la
tabla de dos vías son menores a 5. (Técnicamente, la advertencia ocurre siempre que la suma
esperada de cualquier celda sea menor a 5, asumiendo que la hipótesis nula es verdadera). Con
celdas de sumas pequeñas, el valor-P puede ser desconfiable. Una solución a este problema es
agrupar todos los tipos de defecto poco frecuentes en una sola clase y reiniciar el análisis. Esto
puede hacerse fácilmente en STATGRAPHICS Centurion del modo siguiente:

1. Regresar a la hoja de datos y dar clic en el encabezado de la columna de Defect para


seleccionarla.

2. Pulse el botón derecho del ratón y elija Recodificar Datos del menú que se presenta.

3. Llenar el cuadro de diálogo Recodificar Datos como se muestra en la siguiente página para
combinar los tipos de defecto menos comunes en una sola columna descrita como
“Other”:

232/ Analizando Datos Categóricos


Figura 14-15. Recodificando los Tipos de Defectos Menos Frecuentes
Las anotaciones en el cuadro de diálogo Recodificar Datos instruyen al programa para que busque
valores en la columna Defect que coincidan con cada intervalo definido. Cualquier etiqueta de una
fila dada que coincida alfabéticamente entre los límites mostrados, es recodificada al valor
descrito en la columna Nuevo Valor.

Después de realizar la recodificación, regrese a la ventana de análisis de Tabulación Cruzada.


Como respuesta al cambio en la hoja de datos, el análisis será automáticamente actualizado. La
nueva clase Other tiene ahora una frecuencia razonable, como se muestra en el Gráfico de Mosaico:

233/ Analizando Datos Categóricos


Gráfico de Mosaico para Defect segúnFacility

Facility
Texas
Contaminated Virginia

Damaged

Misaligned

Other

Figura 14-16. Gráfico de Mosaico para Datos Recodificados


Después de recodificar. La prueba chi-cuadrada todavía muestra una diferencia estadísticamente
significativa entre las fábricas de Texas y Virginia:

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 11.874 3 0.0078

El StatAdvisor
Esta tabla muestra los resultados de la prueba de hipótesis ejecutada para determinar si se rechaza, o no, la idea de que las
clasificaciones de fila y columna son independientes. Puesto que el valor-P es menor que 0.05, se puede rechazar la
hipótesis de que filas y columnas son independientes con un nivel de confianza del 95.0%. Por lo tanto, el valor observado
de Defect para un caso en particular, está relacionado con su valor en Facility.
Figura 14-17. Prueba Chi-cuadrada Después de Recodificar Datos
Por lo que parece que el tipo de defecto está ciertamente relacionado con la fábrica en donde el
artículo fue producido.

Debe tomarse en cuenta que la prueba compara la distribución de tipos de defecto entre las dos
fábricas. No compara los números o porcentajes de los artículos defectuosos en cada locación.
Tal comparación requiere una prueba diferente, como se explica en la siguiente sección.

234/ Analizando Datos Categóricos


14.5 Tablas de Contingencia
Para determinar si una fábrica produce más artículos defectuosos que la otra, necesitamos
conocer la producción total de cada fábrica. Haremos la suposición que la siguiente información
describe la producción de un mes:

Fábrica Número de Número de Artículos


Defectos Producidos
Texas 67 6,237
Virginia 53 7,343

Hagamos que θ1 sea la proporción de artículos defectuosos producidos en Texas y que θ2 sea la
proporción de artículos defectuosos producidos en Virginia. Las proporciones estimadas están
dadas por:

67 53
θˆ1 = = 0.0107 θˆ2 = = 0.0072
6237 7343

Basándonos en estos datos, parece que el porcentaje de artículos defectuosos producidos en


Texas puede ser myor que el porcentaje de artículos defectuosos producidos en Virginia. Para
determinar si la aparente diferencia es estadísticamente significativa, vamos a crear una hoja de
datos como la que se muestra a continuación:

Figura 14-18. Hoja de Datos para Comparar Dos Proporciones


Las filas contienen la suma de los artículos defectuosos y no defectuosos. Luego seleccione
Tablas de Contingencia del mismo menú donde se encuentra Tabulación Cruzada. Capture:

235/ Analizando Datos Categóricos


Figura 14-19. Cuadro de Diálogo de Captura de Datos de Tablas de Contingencia
Este análisis mostrará una prueba chi-cuadrada de la tabla de 2 por 2:

Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 4.783 1 0.0287

Figura 14-20. Prueba chi-cuadrado de la tabla de 2 por 2


Hay que recordar que la prueba chi-cuadrada determina si las clasificaciones de las columnas y
filas son independientes. En este caso, la independencia implicará el que un artículo sin importar
si es defectuoso, no tenga algo que ver con la fábrica en donde se produjo.

Debido a que el valor-P en la tabla es inferior a 0.05, la hipótesis de independencia es rechazada


en el nivel de significancia del 5%. Por lo que podemos concluir, que las proporciones de
defectos en las dos fábricas son significativamente diferentes.

236/ Analizando Datos Categóricos


Capítulo

15
Tutorial #6: Análisis Capabilidad
de Procesos
Determinando los DPM o el porcentaje más allá de los límites de especificación

El STATGRAPHICS Centurion es ampliamente utilizado por personal involucrado en áreas


cuya tarea es la de asegurar que los productos y servicios que ofrecen sean de óptima calidad.
Una actividad común es la de recolectar datos de un proceso y compararlos con límites de
especificación establecidos. Los resultados en este tipo de análisis de capabilidad es un estimado de
la capacidad y habilidad del proceso en lograr esas especificaciones. El método Seis Sigma,
ampliamente usado a nivel mundial, tiene como objetivo conseguir una tasa de defectuosos de
3.4 defectos por cada millón de oportunidades.

Como ejemplo, considere un producto cuya fuerza debe estar entre 190 y 230 psi. Ahora
suponga que son tomadas n = 100 mediciones de fuerza, cuyos valores son:

213.5 203.3 191.3 197.1 205.7 215.6 193.7 201.7 201.5 207.1
207.0 200.4 197.2 202.4 205.2 211.0 214.5 201.5 200.9 206.8
205.8 200.3 196.1 205.9 195.1 203.9 192.9 199.0 195.5 203.1
197.4 194.8 201.0 202.5 199.0 200.7 197.6 198.5 205.3 197.1
202.8 201.6 197.4 200.9 203.3 209.4 201.4 199.5 207.8 204.9
205.5 203.0 208.1 200.2 218.2 202.0 209.3 201.2 200.4 201.0
195.7 229.5 199.9 208.1 210.3 202.0 202.6 213.6 198.0 197.8
196.7 216.0 211.6 208.7 199.4 200.8 201.1 195.3 206.8 211.3
201.5 200.0 211.8 195.6 201.9 199.0 200.3 197.8 200.8 194.8
199.5 195.5 201.0 206.0 215.3 202.6 199.9 200.6 197.6 207.4

237/ Análisis de Capacidad del Proceso


Este capítulo describe cómo realizar un análisis de capabilidad típico para datos contínuos.

15.1 Graficando los Datos


El primer paso para examinar cualquier conjunto nuevo de datos es graficarlo. Para un conjunto
de datos como el mostrado arriba, el Análisis de Una Variable descrito en el Capítulo 10 ofrece
diferentes herramientas muy útiles. Para analizar estos datos debemos de:

1. Abrir el Archivo llamado items.sf6.

2. Ejecutar el procedimiento Análisis de Una Variable usando la columna llamada Strength.

La ventana de análisis de inicio se muestra abajo:

Figura 15-1. Ventana de Análisis de Una Variable


Diferentes factores de interés especial se hacen evidentes inmediatamente:

1. Todos los datos apenas caen dentro de los límites de especificación, en un rango de
191.3 hasta 229.5

238/ Análisis de Capacidad del Proceso


2. El gráfico de caja y bigotes muestra un punto muy lejano (un pequeño cuadro con un
signo rojo de + dentro). Tales puntos son usualmente considerados como aberrantes, si
el resto de los datos aparentemente proceden de una distribución normal. En este caso,
sin embargo, aún eliminando el aparente aberrante, la forma de la caja no es muy
simétrica. El bigote superior es más largo que el bigote inferior y la caja se extiende
mucho más por arriba de la mediana (la línea vertical dentro de la caja) que por abajo.

3. Si maximiza el panel Resumen Estadístico, verá que el sesgo estandarizado es igual a 4.94.
Si los datos procedieran de una distribución normal, el valor debería estar entre -2 y +2.
Aún eliminando el valor más grande de los datos, el sesgo estandarizado solo se reduce a
2.81.

También podemos mostrar un histograma, pulsando el ícono de Gráficas en la barra de


herramientas de análisis y seleccionando Histograma en el cuadro de diálogo Gráficas:

Histograma

24

20

16
frecuencia

12

0
180 190 200 210 220 230 240
Strength

Figura 15-2. Histograma


Los datos claramente parecen tener un sesgo positivo, extendiéndose más a la derecha del pico
que a la izquierda.

Datos no-normales como los del ejemplo son muy comúnes de encontrar. Una acción típica
para tratar estos datos, es simplemente ignorar la no-normalidad y calcular índices como Cpk
usando fórmulas diseñadas para datos de distribución normal. Como se verá en este tutorial, el
ignorar la no-normalidad puede originar resultados incorrectos, siendo amenudo una mala
estimación del porcentaje de productos que están más allá de los límites de especificación.

239/ Análisis de Capacidad del Proceso


15.2 Procedimiento Análisis de Capabilidad
STATGRAPHICS contiene procedimientos para realizar el análisis de capabilidad de datos, ya
sea uno a la vez (individuales) o en subgrupos (como 5 observaciones cada hora). Asumiendo
que los datos son individuales, el Análisis de Capabilidad puede efectuarse:

1. Si usa el menú Clásico, elija CEP – Análisis de Capabilidad – Variables – Valores Individuales.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos– Análisis de Capabilidad de
Proceso- Valores Individuales.

El cuadro de captura de datos solicita el nombre de la columna que contenga los datos. Los
datos del ejemplo se encuentran en una columna llamada Strength en el archivo items.sf6:

Figura 15-3. Cuadro de Captura del Análisis de Capabilidad de Proceso


Los límites de especificación superior e inferior también se han capturado, así como el valor
nominal o valor objetivo.

240/ Análisis de Capacidad del Proceso


La ventana de análisis de inicio presenta un resumen de los datos, una tabla de los índices de
capabilidad y un gráfico de capabilidad:

Figura 15-4. Ventana de Análisis de Capabilidad de Proceso


Cuando se corre por primera vez el análisis de capabilidad, los datos se ajustan a una distribución
normal. El Gráfico de Capabilidad muestra un histograma, junto con la distribución normal que
mejor se ajuste:

241/ Análisis de Capacidad del Proceso


Capacidad de Proceso para Strength
LIE = 190.0, Nominal = 210.0, LSE = 230.0
24 Normal
Media=202.809
20 Desv. Est.=6.23781

16 Cp = 1.16
frecuencia

Pp = 1.07
12 Cpk = 0.74
Ppk = 0.68
8
K = -0.36
4

0
180 190 200 210 220 230 240
Strength

Figura 15-5.Gráfico de Capabilidad con Distribución Normal


Las líneas verticales largas muestran los límites de especificación y el valor nominal. Las líneas
verticales cortas están situadas a más y menos 3 desviaciones estándar de la media de la muestra.
Es de interés particular en la gráfica superior el que:

1. La distribución normal ajustada no concuerda muy bien con los datos. Aunque la curva
normal tiene la misma media y desviación estándar que los datos, el sesgo en los datos
hace que la curva no logre emparejarse adecuadamente con las barras del histograma.

2. La media de la muestra es 202.8, que es considerablemente menor que el valor nominal


de 210.

3. A pesar de que ninguna de las observaciones es menor al límite de especificación


inferior, una amplia porción de la cola inferior de la distribución normal está por debajo
de ese límite.

4. Las líneas ubicadas en más y menos 3 sigma están pegadas suficientemente para ajustarse
dentro de las especificaciones. Sin embargo, están movidas a la izquierda.

El Resumen del Análisis en el panel superior izquierdo cuantifica el ajuste:

242/ Análisis de Capacidad del Proceso


Análisis de Capabilidad de Proceso(Individuales) - Strength
Datos/Variable: Strength (specs are 190-230)

Transformación: ninguna

Distribución: Normal
tamaño de muestra = 100
media = 202.809
desv. est. = 6.23781

6.0 Límites Sigma


+3.0 sigma = 221.522
media = 202.809
-3.0 sigma = 184.096

Observados Estimados Defectos


Especificaciones Fuera Especs. Valor-Z Fuera Especs. Por Millón
LSE = 230.0 0.000000% 4.36 0.000654% 6.54
Nominal = 210.0 1.15
LIE = 190.0 0.000000% -2.05 2.001465% 20014.65
Total 0.000000% 2.002119% 20021.19

Figura 15-6. Resumen del Análisis de Capabilidad


La tabla inferior, presenta el porcentaje de producto que puede estar fuera de especificaciones.
Basándonos en la distribución normal ajustada, el porcentaje estimado de producto fuera de los
límites de especificación es alrededor del 2%, equivalente a 20,021 defectos por millón (DPM).

15.3 Trabajando con Datos No-Normales


Los DPM estimados que fueron calculados arriba, se basan considerablemente en la suposición
de que los datos provienen de una distribución normal. Una revisión formal de esa hipótesis
puede efectuarse seleccionando Pruebas de Normalidad del cuadro de diálogo Tablas:
Pruebas de Normalidad para Strength
Prueba Estadístico Valor-P
Estadístico W de Shapiro-Wilk 0.931784 0.0000321356

Figura 15-7. Pruebas de Normalidad


Dependiendo de sus preferencias en el sistema, una o más pruebas de normalidad serán
presentadas. Cada una de las pruebas disponibles está basada en las siguientes hipótesis:

Hipótesis Nula: los datos provienen de una distribución normal.

243/ Análisis de Capacidad del Proceso


Hipótesis Alternativa: los datos no provienen de una distribución normal.

Un Valor-P debajo de 0.05 conduce al rechazo de la hipótesis de normalidad en el nivel de


significancia del 5%.

En la tabla superior, la prueba Shapiro-Wilks claramente rechaza la hipótesis de que los datos
provienen de una distribución normal. Entonces, cualquier valor estimado de DPM o índices
de capabilidad basados en la suposición de normalidad son inválidos.

Cuando los datos son no-normales, cualquiera de estas dos propuestas debe ser considerada:

1. Seleccione una distribución distinta a la normal, en la cual basar el análisis.

2. Transforme los datos para que sigan una distribución normal en la métrica transformada.

Para auxiliar en la selección de una distribución diferente, el STATGRAPHICS Centurion ofrece


una opción llamada Comparación de Modelos Alternativos en el cuadro de diálogo Tablas. Esta
opción ajusta varias distribuciones y las enlista en orden de su calidad de ajuste. Usando la
selección predeterminada de distribuciones nos presenta los siguientes resultados:

Comparación de Distribuciones Alternas


Distribución Parámetros Est. Log Verosimilitud KS D
Valor Extremo Superior 2 -314.65 0.0675422
Laplace 2 -320.055 0.0920985
Loglogística 2 -320.271 0.0913779
Logística 2 -321.236 0.0941708
Lognormal 2 -322.763 0.13213
Gamma 2 -323.306 0.134136
Normal 2 -324.457 0.138628
Weibull 2 -348.002 0.177886
Valor Extremo Inferior 2 -351.782 0.189989
Exponencial 1 -631.226 0.61064
Pareto 1 -798.174 0.628084

Figura 15-8. Distribuciones Ajustadas en Orden de su Calidad de Ajuste


Las distribuciones han sido enlistadas conforme al valor del estadístico Kolmogorov-Smirnov de
bondad de ajuste, el cual mide la distancia máxima entre la distribución acumulada de los datos y
la de la distribución ajustada. En este caso, la distribución que mejor se ajusta es la del mayor
valor extremo.

Puede cambiarse a la distribución del mayor valor extremo, accesando Opciones del Análisis:

244/ Análisis de Capacidad del Proceso


Figura 15-9. Opciones de Análisis de Capabilidad de Proceso
El ajuste resultante se muestra abajo:

245/ Análisis de Capacidad del Proceso


Capacidad de Proceso para Strength
LIE = 190.0, Nominal = 210.0, LSE = 230.0
24 Valor Extremo Superior
Modo=200.036
20 Escala=4.80179

16 Cp = 1.08
frecuencia

Pp = 1.05
12 Cpk = 0.99
Ppk = 0.96
8
K = -0.26
4

0
180 190 200 210 220 230 240
Strength

Figura 15-10. Distribución Ajustada del Mayor Valor Extremo


Note que la distribución esta sesgada a la derecha, coincidiendo mucho mejor con los datos
observados que la distribución normal. Las líneas verticales pequeñas están ubicadas en los
límites “equivalentes” de 3 sigma, i.e., límites donde se encuentra el mismo 99.73%, como en el
caso de la media ± 3 sigma para una distribución normal. Note que los límites no están
simétricamente espaciados con respecto al pico de la distribución, debido a su sesgo positivo.

En el Resumen del Análisis se detecta una diferencia considerable en el porcentaje estimado del
producto con tendencia a quedar fuera de especificaciones, comparado con el anterior, usando
una distribución normal ajustada:

246/ Análisis de Capacidad del Proceso


Análisis de Capabilidad de Proceso(Individuales) - Strength
Datos/Variable: Strength (specs are 190-230)

Transformación: ninguna

Distribución: Valor Extremo Superior


tamaño de muestra = 100
modo = 200.036
escala = 4.80179
(media = 202.808)
(sigma = 6.15853)

Equivalente 6.0 Límites Sigma


99.865 percentil = 231.761
mediana = 201.796
0.134996 percentile = 190.969

Observados Estimados Defectos


Especificaciones Fuera Especs. Valor-Z Fuera Especs. Por Millón
LSE = 230.0 0.000000% 2.89 0.194758% 1947.58
Nominal = 210.0 1.19
LIE = 190.0 0.000000% -3.42 0.030805% 308.05
Total 0.000000% 0.225563% 2255.63

Figura 15-11. Resumen del Análisis después de Ajustar con la Distribución del Mayor Valor Extremo
El porcentaje estimado fuera de especificaciones ahora es solamente del 0.23 por ciento ó 2,256
DPM, una décima parte de lo estimado por la distribución normal. En este ejemplo, el asumir
incorrectamente una distribución normal hizo que el proceso se viera mucho peor de lo que
realmente es.

Nota: Dependiendo de los límites de especificación y de la distribución verdadera, el


asumir incorrectamente la normalidad, puede hacer que el proceso parezca
significativamente mejor o peor que cuando se usa la distribución apropiada.

Una alternativa para seleccionar una distribución diferente es transformar los datos. El cuadro de
Opciones de Análisis ofrece numerosas opciones para seleccionar una Transformación de Datos:

247/ Análisis de Capacidad del Proceso


Figura 15-12. Cuadro Opciones de Análisis para Seleccionar una Transformación
Se incluyen opciones como el logaritmo natural, elevar cada valor a una potencia específica, o
seleccionar una transformación de acuerdo a los métodos de Box y Cox. Esta última
aproximación considera una variedad de transformaciones de la forma Yp usando los métodos
de Box y Cox para seleccionar un valor óptimo de p.

Si se selecciona una transformación, una distribución normal es ajustada a los datos


transformados. El gráfico abajo presenta los resultados del planteamiento de Box-Cox:

248/ Análisis de Capacidad del Proceso


Capacidad de Proceso para Strength
LIE = 190.0, Nominal = 210.0, LSE = 230.0
24 Normal (después de transformar)
Media=2.75169E-14
20 Desv. Est.=4.52152E-15

16 Cp = 1.02
frecuencia

Pp = 0.99
12 Cpk = 0.93
Ppk = 0.90
8
K = 0.31
4

0
180 190 200 210 220 230 240
Strength

Figura 15-13. Gráfico de Capabilidad después de la Transformación Box-Cox


En este gráfico se aplicó una transformación inversa para mostrar el ajuste en la métrica original.
La transformación ha tenido un efecto similar en el aspecto de la distribución, sin embargo no
tan pronunciado como al asumir una distribución del mayor valor extremo. Los DPM estimados
son 4,353, lo cual es casi el doble que al usar la distribución del mayor valor extremo, pero aún
mucho menor que cuando se asumió una distribución normal.

Nota: la media y la desviación estándar mostradas en el gráfico corresponden a los datos


transformados y en lo general no son de mucha utilidad. STATGRAPHICS
automáticamente regresa todo a su estado original..

Para comparar los dos planteamientos, el Gráfico de Probabilidad puede ser seleccionado dentro del
cuadro de Gráficas para cada planteamiento y pegarse uno al lado del otro en el StatGallery:

249/ Análisis de Capacidad del Proceso


Figura 15-14. Gráfico de Probabilidad en el StatGallery
Si la distribución asumida es la correcta, los puntos deben caer a lo largo de la línea diagonal
como se muestra en este gráfico. Ambos métodos parecen haber manejado la no-normalidad
correctamente, dificultando la elección por uno de ellos. Sin importar que método sea usado, es
básico establecer un protocolo para manipular una variable en particular (como Strength) y aplicar
el mismo protocolo cada vez que esos datos sean analizados. Sería un error hacer el análisis
exploratorio de datos descrito en este Capítulo, cada vez que un conjunto de datos similares sea
recolectado. En lugar de eso, este tipo de análisis debería usarse solo para determinar la forma a
tratar la variable seleccionada y luego aplicar uno de los plantemientos siempre que se vaya a
analizar dicha variable.

250/ Análisis de Capacidad del Proceso


15.4 Índices de Capabilidad
La esencia de un análisis de capabilidad reside en la estimación del porcentaje de producto que
cae fuera de los límites de especificación (o su equivalente DPM, defectos por millón). Para
resumir la capabilidad del proceso, los usuarios también basan su criterio en varios índices de
capabilidad. El indice más ampliamente conocido es el Cpk, definido como:

⎛ μˆ − LSL USL − μˆ ⎞
C pk = min⎜ , ⎟
⎝ 3σˆ 3σˆ ⎠

De manera breve, Cpk es la distancia mínima desde la media estimada del proceso hasta
cualquiera de los límites de especificación, dividido entre 3 veces el sigma estimado del proceso.

El procedimiento Análisis de Capabilidad de Proceso en STATGRAPHICS presenta los índices de


capabilidad en el Gráfico de Capabilidad y también en la tabla de Índices de Capabilidad. Al asumir
una distribución normal, los índices de corto y largo plazo serán calculados:

Índices de Capabilidad para Strength


Especificaciones
LSE = 230.0
Nom = 210.0
LIE = 190.0

Corto Plazo Largo Plazo


Capabilidad Desempeño
Sigma 5.75525 6.23781
Cp/Pp 1.15836 1.06875
Cpk/Ppk 0.741874 0.684481
Cpk/Ppk (superior) 1.57485 1.45302
Cpk/Ppk (inferior) 0.741874 0.684481
K -0.35955
DPM 13020.9 20021.2
Nivel de Calidad Sigma 3.72559 3.55332
Con base en límites 6.0 sigma. La sigma de corto plazo se estimó a partir del rango móvil promedio. El Nivel de Calidad
Sigma incluye un drift de 1.5 sigma en la media.

Intervalos de confianza del 95.0% Intervalos de Confianza


Índice Límite Inferior Límite Superior
Cp 0.997149 1.31931
Pp 0.920008 1.21725
Cpk 0.619618 0.864129
Ppk 0.568904 0.800059

Figura 15-15. Tabla de los Índices de Capabilidad

251/ Análisis Capabilidad de Procesos


Los índices de corto plazo, calculados usando un estimado del sigma obtenido de las
observaciones ocurridas en tiempos cercanos, describen la “capabilidad” del proceso en caso de
que la media se mantenga constante. Los índices de largo plazo, calculados usando un estimado
del sigma obtenido de la variabilidad total entre las observaciones a traves del periódo de
muestreo, describen el comportamiento real del proceso. Un proceso fuera de control en el que
la media se ha movido durante el periódo de la recolección de datos puede mostrar un
comportamiento mucho peor al que sería capaz de realizar si se hubiera efectuado bajo control.
De forma predeterminada, el STATGRAPHICS Centurion etiqueta los índices de capabilidad
usando la letra “C” y los índices de comportamiento usando la letra “P”.

El separador Capabilidad dentro del cuadro de Preferencias, encontrado bajo Editar en el menú
principal del STATGRAPHICS, especifica que índices serán calculados de forma
predeterminada, así como también otras opciones de interés especial:

Figura 15-16. Preferencias del Sistema para los Índices de Capabilidad

252/ Análisis Capabilidad de Procesos


En el lado izquierdo del cuadro se enlistan los posibles índices a ser calculados. Adicionalmente
a Cpk, , se incluyen índices como:

1. Cp – índice de capabilidad bilateral, cuya fórmula es

USL − LSL
Cp =
6σ̂

Este índice mide la distancia entre los límites de especificación con relación a la distancia
abarcada por 6 desviaciones estándar. Cp siempre será mayor o igual a Cpk. Una
diferencia substancial entre los dos índices implica que el proceso no esta bien centrado.

2. K – medida de que tan alejado del centro se encuentra el proceso. K se calcula así

μˆ − NOM
K=
(USL − LSL ) / 2

Donde NOM es el valor nominal o valor objetivo. Un valor de K cercano a 0 es


indicativo de un proceso bien centrado.

3. Nivel de Calidad Sigma – índice utilizado en la metodología Seis Sigma para indicar el nivel
de calidad asociado con un proceso. Un Nivel de Calidad Sigma de 6 es generalmente
asociado con el parámetro de 3.4 defectos por millón.

En el cuadro de Preferencias también se indica que índices serán mostrados en el Gráfico de


Capabilidad y su descripción. Una explicación detallada de los diferentes índices los puede
encontrar en el documento PDF titulado Análisis de Capabilidad – Datos Continuos.

Adicionalmente a los índices de capabilidad, la tabla en la Figura 15.15 contiene los intervalos de
confianza que muestran el margen de error al estimar esos índices. Por ejemplo, en la tabla se
muestra un Cpk de 0.74. Los intervalos de confianza al 95% comprenden de 0.62 a 0.86. Esto
indica que el verdadero Cpk en el proceso del cual los datos fueron muestreados, puede estar en
cualquier lugar dentro del rango de 0.62 y 0.86.

Cuando los datos no siguen una distribución normal, es necesario modificar los índices de
capabilidad. La opción predeterminada en el cuadro de Preferencias calcula índices no-normales,
primero calculando los valores-Z equivalentes para la distribución no-normal ajustada. Para una
distribución normal, los valores-Z miden el número de desviaciones estándar entre la media del
proceso y un límite de especificación y está directamente relacionado a la probabilidad de que

253/ Análisis Capabilidad de Procesos


una observación esté más allá de ese límite. Para una distribución no-normal, un valor-Z
equivalente se calcula primero determinando la probabilidad de exceder el límite y luego
encontrando el valor-Z que corresponde a esa probabilidad. Después de calcular los valores-Z
equivalentes para ambos límites de especificación, el Cpk puede calcularse de la siguiente forma

C pk = min (Z lsl , Z usl ) /3

Nota: A pesar de que el cuadro de Preferencias proporciona la opción de calcular índices


de capabilidad a partir de percentiles en lugar de valores-Z equivalentes, al hacerlo se
rompe la relación entre los índices de capabilidad y los DPM.

15.5 Calculadora Seis Sigma


Así como el índice Cpk es un indicador muy útil de la capabilidad del proceso. Considerando que
se haya calculado apropiadamente, entonces este puede relacionarse con los DPM. El menú
Herramientas del STATGRAPHICS Centurion contiene una Calculadora Seis Sigma que permite la
conversión entre ambos indicadores, con la condición de que:

1. Los datos provienen de una distribución normal.

2. Valores-Z equivalentes sean utilizados para calcular los índices.

La Calculadora Seis Sigma se muestra a continuación:

254/ Análisis Capabilidad de Procesos


Figura 15-17. Calculadora Seis Sigma
Para usar la calculadora:

1. Seleccione cualquiera de las opciones de captura e introduzca el valor del estadístico


correspondiente.

2. Si desea hacer el cálculo basado únicamente en el límite de especificación más cercano,


deshabilite la opción bilateral.

3. Indique el valor que desea sea asumido para el cambio a largo plazo en la media del
proceso. En la metodología Seis Sigma, a menudo se supone que la media del proceso,
oscilará alrededor de su valor a largo plazo en 1.5 sigmas.

255/ Análisis Capabilidad de Procesos


4. Pulse el botón Calcular para mostrar los valores asociados de los otros estadísticos en el
cuadro de Resultados.

Si asumimos que la media del proceso no cambia, un Cpk de 1.33 equivale a cerca de 33 defectos
por millón fuera de la especificación más cercana.

256/ Análisis Capabilidad de Procesos


Capítulo

16
Tutorial #7: Diseño de Experimentos
Diseñando un experimento para ayudar a mejorar un proceso.

Todos los datos son creados de manera diferente. A menudo, un pequeño estudio bien planeado
ofrece más información que uno grande erróneamente diseñado. Este último tutorial examina algunas
de las capacidades del STATGRAPHICS Centurion para crear y analizar diseños de experimentos.

Consideremos el caso de un ingeniero que desea determinar cuál de las muchas variables de un
proceso es la que tiene mayor impacto en el producto final. Intentará investigar el impacto de estos 5
factores: temperatura de entrada, velocidad de flujo, concentración, velocidad de agitación y
porcentaje del catalizador. En la práctica, existen varios planteamientos para tratar el problema,
incluyendo:

1. Prueba y error: seleccionando arbitrariamente una combinación diferente de los factores, cada
vez que corre un experimento. Dicho planteamiento raramente ofrece información útil.

2. Experimentar con un factor a la vez: considerando solo un factor constante, para determinar su
efecto en ese expermiento. Este planteamiento es extremadamente ineficiente y puede
llevarnos a conclusiones incorrectas en caso de que cualquiera de los factores interactúe.

3. Usar un diseño de experimentos estadístico: estableciendo una serie de experimentos que generen la
mayor información acerca de los factores y su interacción entre ellos, en el menor número de
experimentos como sea posible.

Este tutorial describirá cómo se construye un diseño de experimentos usando el tercer planteamiento,
y como serán analizados los resultados.

257/ Diseño de Experimentos


16.1 Seleccionando Diseños de Cribado
El objetivo de un experimento de cribado es encontrar, en un mínimo de corridas experimentales, que
variables del proceso tienen el mayor impacto en el producto final. En el STATGRAPHICS
Centurion, el primer paso al diseñar un experimento de cribado es determinar qué tipo de diseño se
correrá y cuántas corridas son necesarias. La sección DDE contiene un procedimiento que puede
ayudarnos en este tema:

1. Si usa el menú Clásico, elija DDE – Crear Diseño – Selección de Diseños de Cribado.

2. Si usa el menú Seis Sigma, elija Mejorar – Crear Diseños de Experimentos – Selección de Diseños de
Cribado.

En el primer cuadro de diálogo se solicita la información básica sobre el experimento:

Figura 16-1. Cuadro Inicial de Selección de un Diseño de Cribado

258/ Diseño de Experimentos


La llenado que se requiere es:

• Número de Factores: el número de factores experimentales (X) a ser incluídos durante el


experimento. En este ejemplo, el ingeniero desea estudiar 5 factores.

• Diseños a Considerar: los tipos de diseño a evaluar. El STATGRAPHICS Centurion


intentará encontrar el diseño óptimo para cada tipo especificado que cumpla con los
requerimientos. Los diseños existentes son:

1. Factoriales – corridas de combinaciones posibles entre los niveles de cada factor.

2. Factoriales Fraccionados – corridas hechas en un subconjunto del factorial completo, donde


el subconjunto es igual a la mitad, un cuarto, un octavo y así en adelante.

3. Fracciones Irregulares – corridas hechas en un subconjunto del factorial completo, pero la


fracción es irregular, como podría ser tres octavos de las corridas.

4. Factoriales de Niveles Mixtos – corre un factor a 3 niveles, y los demás son corridos en 2.

5. Diseños Plackett-Burman – diseños de dos niveles donde el número de corridas no es una


potencia de 2.

Los diseños son clasificados de acuerdo a su resolución:

o Resolución V, estima todos los efectos principales e interacciones entre dos factores.

o Resolución IV, estima todos los efectos principales, pero algunas interacciones de dos
factores están confundidas con otras interacciones o efectos de bloque.

o Rresolución III, estima solo los efectos principales, requiriendo para su interpretación
adecuada que no se presenten interacciones.

• Corridas Máximas por Bloque: Al hacer el experimento, el ingeniero se percató que no


podía hacer mas de 10 corridas con un mismo lote de la materia prima. Debido a que los lotes
pueden ser diferentes entre sí, las corridas experimentales necesitan ser agrupadas en bloques
de no más de 10 corridas cada uno.

• Mínimo de Puntos Centrales por Bloque: especifica el menor número de puntos centrales
deseados en cada bloque. Los puntos centrales son corridas experimentales en el centro de la
región experimental y usualmente son utilizados para crear réplicas de las cuales estimar el

259/ Diseño de Experimentos


error experimental. En este caso, el ingeniero permite al programa determinar el número
necesario de puntos centrales.

• Sigma del error experimental: la desviación estándar del proceso experimental. Esta es la
desviación estándar que se observará para corridas repetidas con un mismo conjunto de
condiciones experimentales. En estudios previos, se pensó que este valor estaría alrededor de
0.5 para rendimiento, que fue considerado como el parámetro más importante.

Cuando se pulsa ACEPTAR, el programa presentará este segundo cuadro de diálogo:

Figura 16-2. Segundo Cuadro de Diálogo para el Diseño de Cribado


En este cuadro se determina la potencia requerida del experimento. “Potencia” es la probabilidad
que un factor con un efecto de magnitud específica se declare estadísticamente significativo una vez
que el experimento concluya y los datos sean analizados. En detalle, es la probabilidad de obtener un
valor-P significativo en la tabla inicial ANOVA cuando el efecto real iguala al especificado en el
campo Efecto a Detectar, operando con el nivel de significancia inferido en el campo Nivel de Confianza.

En este caso, el ingeniero consideró un 90% de probabilidad para detectar un efecto igual a 3
veces el sigma del error experimental. Cualquier efecto menor a esto sería desechado para

260/ Diseño de Experimentos


tomarlo en cuenta como de interés práctico. Debido a que el nivel de confianza se estableció en
un 95%, un valor-P significativo será aquel que sea menor a 0.05.

Al pulsar ACEPTAR una vez más, se presenta una ventana de análisis enlistando los diseños
experimentales más pequeños de cada tipo que cumplan con los requerimientos definidos:

Selección Diseños de Cribado


Entrada
Número de Puntos Centrales Min. Corridas Max. Sigma Deseada Meta Nivel de
Factores por Bloque por Bloque Error Exp. Potencia Efecto Confianza
5 0 10 0.5 90.0% 1.5 95.0%

Diseños Selecionados
Puntos Puntos G.L.
Diseño Corridas Resol. Esquina Centrales Error Reps. Bloques Power (%)
Factoriales en 4 bloques 2^5 32 V* 32 0 13 1 4 99.9987
Media fracción en 2 bloques 20 IV* 16 4 4 1 2 98.4379

El StatAdvisor
La tabla muestra 2 diseños experimentales que tienen, al menos, un 90.0% de probabilidades de detectar un efecto de
magnitud 1.5. Ninguno de los diseños tienen más de 10 corridas en cada bloque.
Figura 16-3. Diseños de Cribado Seleccionados
Se sugieren dos diseños:

1. Un diseño factorial 25 completo que consiste de todas las combinaciones a 2 niveles de cada
uno de los 5 factores experimentales. Este es un diseño relativamente grande con 8
corridas en cada uno de los 4 bloques. Tiene mucho más potencial que el solicitado.

2. Una media fracción en 2 bloques de 10 corridas cada uno. Cada bloque consiste de 8
factoriales o puntos esquinados y 2 puntos centrales. El diseño es de resolución IV
pudiendo estimar todos los efectos principales y algunas interacciones entre dos factores.
Un cálculo rápido revela que dados 5 factores, los efectos de un interés práctico son:

a. 1 media global
b. 5 efectos principales
c. 10 interacciones de dos factores
d. 1 efecto de bloque

261/ Diseño de Experimentos


Sin el efecto de bloque, el diseño sería de resolución V, debido a que 16 corridas
factoriales son suficientes para estimar la media y los otros 15 efectos. Si se elige este
diseño, solo se sacrificaría una interacción de dos factores en los efectos de bloque.

Debido a que el segundo diseño es más pequeño que el primero, el ingeniero lo seleccionó.

16.2 Creando el Diseño


Una vez que se ha seleccionado un diseño, puede regresar al menú principal y:

1. Si usa el menú Clásico, elija DDE – Crear Diseño – Diseño Nuevo.

2. Si usa el menú Seis Sigma, elija Mejorar – Crear Diseños de Experimentos – Nuevo Diseño.

Se presentará una serie de cuadros de diálogo en los cuales podremos configurar el diseño. El primer
cuadro de diálogo solicita el tipo de diseño, el número de variables de respuesta y el número de
factores experimentales:

Figura 16-4. Cuadro Inicial para la Creación de un Diseño

262/ Diseño de Experimentos


Continuando con el ejemplo de la sección anterior, establecer el experimento significa involucrar 2
variables de respuesta y 5 factores experimentales.

El segundo cuadro de diálogo es utilizado para determinar los factores experimentales y el rango sobre
el cual variarán:

Figura 16-5. Estableciendo los Factores Experimentales


Para determinar la información de los 5 factores, habilite los botones del A hasta el E, de uno en uno.
Capture la siguiente información para los cinco factores del experimento actual:

Factor Nombre Min Max Unidades Continuos


A temperatura 150 180 Grados C si
B velocidad de flujo 10 12 litros/min si
C concentración 5 8 % si
D tasa de agitación 125 150 rpm si
E catalizador 1 1.5 % si

Estos límites fueron establecidos para abarcar un rango de operación razonable en el proceso.

En el siguiente cuadro se establecen las variables de respuesta:

263/ Diseño de Experimentos


Figura 16-6. Definición de las Variables de Respuesta
Los datos a capturar para las dos respuestas son:

Nombre Unidades
rendimiento gramos
fuerza psi

El cuarto cuadro de diálogo es utlizado para elegir el diseño:

264/ Diseño de Experimentos


Figura 16-7. Selección del Diseño
Para ver la lista de los posibles diseños de cribado para cinco factores, pulse la flecha para ir
recorriendo la lista. La lista muestra:

1. Nombre: el nombre de cada diseño disponible.

2. Corridas: el número de corridas en el diseño base, antes de que se agreguen puntos


centrales o corridas repetidas.

3. Resolución: la resolución del diseño.

4. G.L.del Error.: el número de grados de libertad disponibles para estimar el error


experimental. El potencial de las pruebas estadísticas está relacionado con el número de
grados de libertad, así también con el número total de corridas en el experimento. En
general, se debe contar con al menos 3 grados de libertad, aunque se recomiendan más.

5. Tamaño del Bloque: el número de corridas en el bloque más grande.

En este caso, el ingeniero seleccionó una fracción media en dos bloques de 8 corridas cada uno.

265/ Diseño de Experimentos


El cuadro de diálogo final es usado para agregar los puntos centrales o corridas repetidas:

Figura 16-8. Opciones de Diseño


Los campos de captura establecen:

1. Puntos Centrales: el número de corridas a realizar en el centro del experimento. Agregando


puntos centrales, es una buena forma de agregar grados de libertad al el error experimental.

2. Posicionamiento: la posición de los puntos centrales. Las opciones más comunes son Aleatorio,
que dispersa los puntos centrales aleatoriamente a traves de las otras corridas y Espaciado, que
separa los puntos centrales uniformemente a traves del diseño.

3. Repetir Diseño: el número de veces adicionales que cada conjunto de condiciones


experimentales debe ejecutarse. Repetir el diseño completo de esta manera incrementa muy
rápidamente el número de corridas a realizar.

4. Aleatorizar: si las corridas deben enlistarse en orden aleatorio. La aleatoriedad debe hacerse
siempre que sea posible para prevenir que variables externas no consideradas (como cambios
en el proceso a traves del tiempo) puedan influir en los resultados.

Para el experimento del ejemplo, se solicitaron cuatro puntos centrales, llevando el diseño final hasta
las 20 corridas. También se solicitó que el diseño se realice en orden aleatorio, que significa que el
orden de las 10 corridas dentro de cada bloque será generado aleatoriamente.

266/ Diseño de Experimentos


Después del cuadro de diálogo final, aparece una ventana con los atributos del diseño:

Figura 16-9. Ventana de Atributos del Diseño


Esta información se usa para verificar que el diseño fue creado correctamente. Al mismo tiempo,
el diseño se carga en el separador A del Libro de Datos del STATGRAPHICS Centurion:

267/ Diseño de Experimentos


Figura 16-10. Diseño Final
La hoja de datos contiene una columna con los números de bloque, 5 columnas con los datos de
los factores experimentales y 2 columnas para capturar las respuestas una vez que se han
realizado las corridas experimentales. Después de crear el diseño, guárdelo seleccionando
Archivo – Guardar Como – Guardar Archivo de Diseño en el menú principal.

Antes de realizar el experimento, es muy útil seleccionar la Estructura de Alias en la barra de


herramientas de análisis en la ventana Atributos del Diseño de Cribado, que muestra lo siguiente:

268/ Diseño de Experimentos


Estructura de Alias
Contraste Estimados
1 A
2 B
3 C
4 D
5 E
6 AB
7 AC
8 AD
9 AE
10 BC
11 BD
12 BE
13 CD+bloque
14 CE
15 DE

El StatAdvisor
La estructura alias muestra que efectos principales e interacciones están confundidos unos con otras. Puesto que este
diseño de resolución IV, los efectos principales estarán libres de las interacciones de dos factores. No obstante, al menos
una interacción de dos factores estará confundida con otra interacción de dos factores ó con el efecto de bloques. No será
capaz de estimar estas interacciones. Verifique la tabla para determinar cuales interacciones están confundidas.
Figura 16-11. Estructura de Alias del Diseño Seleccionado
Cada línea de la tabla indica una cantidad que puede estimarse por el experimento seleccionado.
Un concepto como “A” indica que el efecto principal del factor A puede estimarse libre de
cualequier otro efecto. “AB” se refiere a la interacción entre los factores A y B, que también está
libre de los otros efectos. El único contraste que muestra confusión entre los dos efectos es el
número 13, en el cual la interacción CD aparece junto con el efecto del bloque. Esto implica
que el diseño puede estimar la combinación de la interacción CD además de cualquier diferencia
entre los bloques 1 y 2, pero sin poder separar esos dos efectos.

Note que el diseño ha sacrificado arbitrariamente la capacidad de estimar la interacción entre los
factores C y D, que son la concentración y la velocidad de agitación. Si esta es una interacción que el
ingeniero cree ser importante, debe cambiar el orden de las variables, de manera que C y D
correspondan a dos variables que no parezcan interactuar.

16.3 Analizando los Resultados


Después de diseñar el experimento, el ingeniero realizó las 20 corridas indicadas. Luego reinició
el programa y capturó las mediciones de rendimiento y fuerza en la hoja de datos del experimento.

269/ Diseño de Experimentos


Para repetir este análisis, debe cargar el archivo tutorial7.sfx del mismo modo en que lo haría para
cualquier archivo de datos STATGRAPHICS, seleccionando Abrir Datos en el menú Archivo.

Después de cargar la variable de datos:

1. Si usa el menú Clásico, elija DDE – Análizar Diseño – Analizar Diseño.

2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Diseños de Experimentos – Analizar Diseño.

El cuadro de diálogo de captura de datos muestra las dos variables de respuesta:

Figura 16-12. Cuadro de Captura de datos para Analizar un Diseño


Se construirán modelos independientes para cada uno.

La ventana de análisis para Rendimiento de inicio muestra la siguiente información:

270/ Diseño de Experimentos


Figura 16-13. Ventana de Análisis Analizar Diseño
La ventana muestra cuatro paneles:

1. Resumen del Análisis: enlista los efectos principales estimados y las interacciones.

2. Tabla ANOVA: contiene los valores-P que pueden usarse después para probar la
significancia estadística de cada efecto.

3. Gráfico de Pareto Estandarizado: muestra los efectos en orden de significancia decreciente,


con una línea para determinar que efectos son estadísticamente significativos.

4. Gráfico de Efectos Principales: grafica el cambio estimado en la respuesta cuando cada uno
de los factores es movido desde su nivel inferior hasta su nivel superior.

El gráfico de Pareto estandarizado en la esquina superior derecha puede usarse para fácilmente
determinar que efectos son los más importantes:

271/ Diseño de Experimentos


Carta de Pareto Estandarizada para yield

A:temperature
AB +
C:concentration -
E:catalyst
AC
AE
D:agitation rate
B:flow rate
DE
AD
BD
BE
BC
CE
CD+bloque
0 4 8 12 16
Efecto estandarizado

Figura 16-14. Gráfico de Pareto Estandarizado


La longitud de cada barra es proporcional al valor del estadístico-t calculado para el efecto
correspondiente. Cualquier barra más allá de la línea vertical es estadísticamente significativa en
el nivel de significancia seleccionado, establecido de forma predeterminada en 5%. En este
caso, hay 3 efectos principales significativos: temperatura, concentración y catalizador. También hay
una interacción significativa entre temperatura y velocidad de flujo.

El Gráfico de Efectos Principales en el panel inferior derecho muestra cómo cada factor afecta el
rendimiento:

272/ Diseño de Experimentos


Gráfica de Efectos Principales para yield

86

85
yield

84

83

82

temperature concentration catalyst


flow rate agitation rate

Figura 16-15. Gráfico de Efectos Principales


Las líneas indican el cambio estimado en el rendimiento conforme cada factor es movido de su
nivel inferior a su nivel superior, manteniendo constante todos los demás factores con un valor a
la mitad de sus respectivos niveles. Note que los tres factores con efectos principales
significativos tienen un mayor impacto en la respuesta que los otros. Por ejemplo, el rendimiento
promedio a temperatura baja es aproximadamente 82, mientras que el rendimiento promedio a
temperatura alta es aproximadamente 85.4. La diferencia de 3.4 es llamada “efecto principal” de
la temperatura.

Para graficar la interacción entre temperatura y velocidad de flujo, primero elija Gráfico de Interacciones
en el cuadro Gráficas. Luego use Opciones de Ventana para seleccionar solo esos dos factores:

273/ Diseño de Experimentos


Figura 16-16. Cuadro Opciones de Ventana para Gráfico de Interacciones
El gráfico resultante muestra el rendimiento promedio conforme la temperatura es cambiada, para
cada nivel de velocidad de flujo:

Gráfica de Interacción para yield

88
flow rate=12.0

86
yield

84 flow rate=10.0
flow rate=10.0

82

flow rate=12.0
80
150.0 180.0
temperature

Figura 16-17. Gráfico de Interacción entre Velocidad de flujo y Temperatura

274/ Diseño de Experimentos


Note que a menor velocidad de flujo, la temperatura tiene poco ó nulo efecto. A una alta velocidad de
flujo, la temperatura es un factor muy importante.

Antes de utilizar el modelo estadístico que soporta a este análisis, es importante eliminar los
efectos no significativos. Para eliminar estos efectos:

1. Pulse el ícono de Opciones de Análisis en la barra de herramientas de análisis.

2. Pulse el ícono Excluir en el cuadro Opciones de Análisis.

3. En el cuadro Opciones para Excluir Efectos, dar doble clic en cualquiera de los efectos que
deseé excluir y lo arrastra de la columna Incluir a la columna Excluir:

Figura 16-18. Cuadro para Excluir Efectos


Las reglas básicas que se deben seguir para excluir efectos es:

1. Cualquier interacción de dos factores que no sea significativa.

2. Efectos no significativos que no estén involucrados en interacciones significativas.

275/ Diseño de Experimentos


En este caso, significa eliminar todo lo que no sea significativo en el Gráfico de Pareto, excepto
el efecto principal de B. Dicho efecto principal se mantiene porque esta involucrado en una
interacción significativa con el factor A.

Habiendo eliminado los efectos, el Gráfico de Pareto aparece como se muestra a continuación:

Carta de Pareto Estandarizada para yield

A:temperature +
-
AB

C:concentration

E:catalyst

B:flow rate

0 3 6 9 12 15
Efecto estandarizado

Figura 16-19. Gráfico de Pareto Estandarizado después de Eliminar Efectos


Excepto por el efecto principal del factor B, todos los efectos restantes son estadísticamente
significativos. El modelo final se verá seleccionando Coeficientes de Regresión del cuadro Tablas:

Coef. de regresión para yield - Tutorial #7


Coeficiente Estimado
constante 250.074
A:temperature -1.0595
B:flow rate -17.4475
C:concentration 0.555417
E:catalyst 2.6175
AB 0.106625

El StatAdvisor
Esta ventan despliega la ecuación de regresión que se ha ajustado a los datos. La ecuación del modelo ajustado es

yield = 250.074 - 1.0595*temperature - 17.4475*flow rate + 0.555417*concentration + 2.6175*catalyst +


0.106625*temperature*flow rate
Figura 16-20. Modelo de Regresión Ajustado

276/ Diseño de Experimentos


Note que el modelo subyacente toma la forma de un modelo de regresión lineal múltiple. Cada
efecto principal retenido es incluido por si solo en el modelo, mientras que la interacción de dos
factores está representada por un producto cruzado entre temperatura y velocidad de flujo.

16.4 Graficando el Modelo Ajustado


Para entender completamente el modelo ajustado, lo mejor es graficarlo. Diferentes tipos de
gráficos pueden crearse al seleccionar Gráficos de Respuesta en el cuadro Gráficas. De forma
predeterminada, una superficie de malla es mostrada :

Superficie de Respuesta Estimada


concentration=6.5,agitation rate=137.5,catalyst=1.25

88

86
yield

84

82
12
11.6
80 11.2
10.8
150 155 10.4
160 165 170 10
175 180 flow rate
temperature

Figura 16-21. Gráfico de Superficie de Respuesta


En este gráfico, la altura de la superficie representa el valor predicho del rendimiento a travez del
espacio de temperatura y velocidad de flujo, con los otros tres factores permaneciendo constantes en
sus valores medios. Mejores rendimientos se obtienen en temperaturas y velocidad de flujo altas.

El tipo de gráfico y los factores con los que se grafica la superficie de respuesta pueden ser
cambiados usando Opciones de Ventana:

277/ Diseño de Experimentos


Figura 16-22. Opciones de Ventana para Gráficos de Respuesta
Los tipos de gráfico que pueden crearse son:

1. Superficie: grafica la ecuación ajustada como una superficie 3-D con respecto a
cualesquiera 2 factores experimentales. La superficie puede ser una malla, un color sólido,
o niveles de contorno para la respuesta. Contornos Abajo incluye contornos en la cara
inferior de la gráfica.

2. Contorno: crea un gráfico de contorno de 2-D con respecto a cualesquiera 2 factores


experimentales. Los contornos pueden mostrarse como líneas, como en un mapa
topográfico, como regiones coloreadas, o usando una rampa de color contínuo.

3. Cuadrado: grafica la región experimental para cualesquiera 2 factores experimentales y


muestra la respuesta predicha en cada esquina del cuadrado.

278/ Diseño de Experimentos


4. Cúbico: grafica la región experimental para cualesquiera 3 factores experimentales y
muestra la respuesta predicha en cada esquina del cubo. Para crear este gráfico, primero
debe pulsar el botón Factores y seleccionar un tercer factor.

El ícono Factores se utiliza para seleccionar los factores que definen los ejes de los gráficos y los
valores constantes que conservan los otros factores :

Figura 16-23. Factores de Gráficos de Respuesta


Para crear el gráfico de la siguiente página, se estableció la opción de coloreado para el campo de
Contornos, como Sólido el color de la Superficie con Contornos Abajo, y donde los contornos van en
una escala del 81 a 86 de uno en uno:

279/ Diseño de Experimentos


Superficie de Respuesta Estimada yield
concentration=6.5,agitation rate=137.5,catalyst=1.25
81.0
82.0
83.0
84.0
88
85.0
86 86.0
yield

84

82
12
11.6
80 11.2
10.8
150 155 10.4
160 165 170 10
175 180 flow rate
temperature

Figura 16-24. Gráfico de Superficie de Respuesta con Contornos Abajo


El mismo gráfico puede mostrarse como uno de contorno en lugar de un gráfico de superficie:

Contornos de la Superficie de Respuesta Estimada


concentration=6.5,agitation rate=137.5,catalyst=1.25
12 yield
81.0
11.6 82.0
83.0
84.0
flow rate

11.2
85.0
86.0
10.8

10.4

10
150 155 160 165 170 175 180
temperature

Figura 16-25. Gráfico de Contorno de la Superficie Respuesta


Altos valores del rendimiento son detectados en la esquina superior derecha.

280/ Diseño de Experimentos


16.5 Optimizando la Respuesta
Para determinar los valores de los factores experimentales donde se obtienen los mejores
rendimientos, elija Optimizar en el cuadro Tablas. Esto presentará la siguiente salida:

Optimizar Respuesta
Meta: maximizar yield

Valor óptimo = 88.6736

Factor Bajo Alto Óptimo


temperature 150.0 180.0 180.0
flow rate 10.0 12.0 12.0
concentration 5.0 8.0 8.0
agitation rate 125.0 150.0 150.0
catalyst 1.0 1.5 1.5

Figura 16-26. Diseño Optimizado


La tabla anterior estima que el máximo rendimiento posible dentro de la región experimental es
aproximadamente 88.7 gramos, considerando los factores establecidos mostrados en la columna
extrema derecha.

Si la maximización no era el objetivo, se pueden seleccionar otras metas usando Opciones de


Ventana:

281/ Diseño de Experimentos


Figura 16-27. Opciones de Ventana para la Optimización
Ud. puede elegir el maximizar la respuesta, el minimizarla, o mantenerla en un valor específico.
Los campos Bajo y Alto a la derecha de cada factor establecen la región sobre la cual se realizará
la optimización. Además también se pueden establecer varios puntos de inicio desde donde
comenzar la búsqueda de las condiciones óptimas. Para funciones de respuesta complicadas,
buscar desde diferentes puntos de inicio puede ayudar a encontrar el óptimo global.

16.6 Experimentación Adicional


Si desea hacer más experimentos, el STATGRAPHICS Centurion puede ayudar de dos formas:

1. Si elige Aumentar Diseño en el menú principal, puede añadir corridas adicionales al


experimento actual con nuevos niveles de los factores. Esto le permitirá un mejor

282/ Diseño de Experimentos


refinamiento al estimado de la superficie de respuesta al agregar parámetros secundarios
como la temperatura2 y la (velocidad de flujo)2.

2. Puede generar puntos a lo largo de la Ruta de Máxima Pendiente en un intento de


acercarnos rápidamente a regiones de mejor rendimiento.

La Ruta de Máxima Pendiente es el trayecto que comienza en el centro de la región experimental


y se mueve en dirección al mayor cambio de la respuesta estimada, para los cambios más
pequeños de los factores experimentales. Siguiendo este trayecto resulta ser muy efectivo para
obtener mejoras dramáticas rápidamente.

Los puntos a lo largo de la Ruta de Máxima Pendiente se generan al seleccionar Ruta de Máxima
Pendiente en el menú Tablas. El cuadro Opciones de Ventana controla el sitio donde se generan los
puntos. En el cuadro de diálogo, elija el factor a escalar, la cantidad a incrementar y el número
de pasos:

Figura 16-28. Cuadro Ruta de Máxima Pendiente


En el cuadro de diálogo anterior, se seleccionó el factor temperatura y se establecieron que los
incrementos serán de 5 grados cada uno. STATGRAPHICS Centurion entonces determina los
valores de los otros factores que siguen la Ruta de Máxima Pendiente, así como la predcción del
posible rendimiento:
283/ Diseño de Experimentos
Camino de Máximo Ascenso para yield
Predicción para
temperature flow rate concentration agitation rate catalyst yield
(degrees C) (liters/min) (%) (rpm) (%) (grams)
165.0 11.0 6.5 137.5 1.25 83.7405
170.0 11.0775 6.73825 137.5 1.28119 84.5739
175.0 11.2385 6.95299 137.5 1.3093 85.57
180.0 11.4566 7.13861 137.5 1.3336 86.8115
185.0 11.711 7.2974 137.5 1.35439 88.3439
190.0 11.9882 7.434 137.5 1.37227 90.1917
195.0 12.28 7.55283 137.5 1.38782 92.3682
200.0 12.5817 7.65747 137.5 1.40152 94.8813
205.0 12.8902 7.75068 137.5 1.41372 97.7358
210.0 13.2036 7.83454 137.5 1.4247 100.935
215.0 13.5206 7.91067 137.5 1.43467 104.481

Figura 16-29. Valores Predichos en la Ruta de Máxima Pendiente


Por supuesto, nadie sabe que pasará realmente cuando uno se mueve fuera de la región
experimental, pero la Ruta de Máxima Pendiente sugiere el mejor trayecto a seguir.

284/ Diseño de Experimentos


Lecturas Recomendadas
Los siguientes libros son excelentes fuentes de información sobre las técnicas estadísticas descritas en
este manual:

Estadísticas básicas: Applied Statistics and Probability for Engineers, 3a Edición, por Douglas C.
Montgomery y George C. Runger (2003). John Wiley and Sons, New York.

Análisis de varianza: Applied Linear Statistical Models, 5a Edición, por Michael H. Kutner,
Christopher J. Nachtsheim y John Neter (2004). McGraw Hill.

Análisis de Regresión: Applied Linear Regression, 3a Edición, por Sanford Weisberg (2005). John
Wiley and Sons, New York.

Control Estadístico de Proceso: Introduction to Statistical Quality Control, 5a Edición, por Douglas
C. Montgomery (2005). John Wiley and Sons, New York.

Diseño de Experimentos: Statistics for Experimenters: Design, Innovation and Discovery, 2a


Edición por George E. P. Box, William G. Hunter y J. Stuart Hunter (2005). John Wiley and Sons,
New York.

285/ Lecturas Recomendadas


Archivos de Datos
93cars.sf6

Estos datos fueron tomados del Archivo de Datos del Journal of Statistical Education (JSE).
Fueron recopilados por Robin Lock del Departamento de Matemáticas de la Universidad de St.
Lawrence y son utilizados con su previa autorización. Un artículo asociado con el archivo de
datos aparece en el Journal of Statistics Education, Volúmen 1, Número 1 (Julio 1993).

bodytemp.sf3

Estos datos también fueron tomados del Archivo de Datos del Journal of Statistical Education
(JSE). Fueron recopilados por Allen Shoemaker del Departamento de Psicología en Calvin
College y son usados con su previa autorización. Los datos se derivna de un artículo en el Journal
of the American Medical Association (1992, vol. 268, pp. 1578-1580) titulado "A Critical Appraisal of
98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl
Reinhold August Wunderlich" por P. A. Mackowiak, S. S. Wasserman, y M. M. Levine. Un
artículo asociado con el archivo de datos aparece en el Journal of Statistics Education, Volúmen 4,
Número 2 (Julio 1996).

Sitio web con Archivos de Datos del Journal of Statistical Education (JSE):

http://www.amstat.org/publications/jse/jse_data_archive.htm

286/Archivos de Datos
Indice
ABS, 46 bloques, 259
Actualizar Fórmulas, 45 bondad de ajuste, 244
actualizar vínculos, 144 buscando pruebas y estadísticas, 139
administrador de la licencia, 7 Calculadora Seis Sigma, 254
aleatorizar, 266 campo de selección, 65
Análisis de Capabilidad, 240 código de activación, 7
análisis de capabilidad de proceso, 237 coeficientes de regresión, 276
análisis de correlación, 200 columnas de datos
análisis de medias, 198 comentario, 14, 34
Análisis de Pareto, 222 nombre, 14, 33
análisis de regresión, 199 tipo, 14, 34
Análisis de Una Variable, 20, 149, 238 Comparación de Dos Muestras, 173
análisis de varianza, 190 Comparación de Varias Muestras, 186
Analizar Diseño, 270 condicionadas variables, 138
AND, 66 Configurar Impresión, 145
ANOM, 198 Configurar Página, 78
ANOVA, 190 confusión, 269
ANOVA Gráfico, 191 consultas ODBC, 40
Archivos ASCII, 37 contrato de la licencia, 2
Archivos de Datos COUNT, 58
lecturas en intervalos, 61 Cp, 253
leyendo, 35 Cpk, 251
solo lectura, 61 cuadro de diálogo captura de datos, 64, 67
Archivos Excel, 37, 39 cuartiles, 152
Archivos HTML, 116 curtosis, 153
Archivos XML, 37 datos
asimetría (sesgo), 153 acceso, 35
Atributos del Diseño de Cribado, 267 archivos, 17
Aumentar Diseño, 282 captura, 11
Autoguardar, 71, 144 combinar columnas, 51
AVG, 46 copiar, 41
barra de herramientas de análisis, 23, 67 cortar, 41

287/ Indice
eliminar, 41 desviación estándar, 47
generando, 56 diferencias sucesivas, 46
hoja de datos, 11 función exponential, 46
insertar, 41 logaritmo base 10, 46
nuevas variables, 41 logaritmo natural, 46
ordenando, 49 máximo, 46
patrones, 56 mínimo, 46
pegar, 41 promedio, 46
recodificar, 50, 232 raíz cuadrada, 47
transformando, 45 restraso por k periodos, 46
datos aberrantes, 157, 197 valor absoluto, 46
datos categóricos, 220 FTP, 117
desviación estándar, 153 Generación de Datos, 48, 58
diagrama de barras, 222, 229 gráficas
diagrama de sectores, 222 agregando texto, 96
DIFF, 46 blanco y negro, 144
dígitos significativos efectos 3D, 84
establecer predeterminados, 143 escala de los ejes, 93
directorio de archivos escala de potencia en los ejes, 144
temporal, 145 escala logaritmica, 94
diseñado de experimentos, 257 etiquetas, 145
diseños de cribado, 258 excluyendo puntos, 76
diseños factoriales, 259 fondo, 84
diseños factoriales fraccionados, 259 funetes, 94
diseños Plackett-Burman, 259 íconos de la barra de herramientas, 75
distribución acumulada, 164 mantenar espacio en las marcas de los
distribución del mayor valor extremo, 244 ejes, 144
distribución normal, 153, 242 mantenar razón de apariencia, 144
DPM, 247, 251 manteniendo cambios en las escala, 94
encabezados de los análisis, 145 modificando, 82
Estadísticas por Filas, 52 modificar apariencia predeterminada, 146
estudios R&R, 132 rotando etiquetas de los ejes, 94
Excluir, 76 titulo de los ejes, 93
excluir efectos, 275 Gráficas, 69
EXP, 46 gráfico
fechas, 144 identificando puntos, 103
FIRST, 65 rotando, 102
fórmulas gráfico cuantil-cuantil, 184
conversión a valores-Z, 47 gráfico cúbicos, 278

288/ Indice
gráfico cudrados, 278 K, 253
gráfico de caja y bigotes, 23, 155, 177, 195 LAG, 46
gráfico de capabilidad, 241, 251 LAST, 65
gráfico de contorno, 278 lectura de datos
gráfico de cuantiles, 165, 182 actualización a intervalos constantes, 115
gráfico de efectos principales, 272 Libro de Datos, 11, 31
gráfico de interacciones, 273 Límites de Tolerancia Estadística, 170
gráfico de matriz, 106, 201 límites de tolerencia, 170
gráfico de medias, 192 LOG, 46
gráfico de mosaico, 229 LOG10, 46
gráfico de Pareto estandarizado, 271 LOWESS, 202
gráfico de probabilidad normal, 249 matriz de correlación, 203
gráfico de rascacielos, 230 MAX, 46
gráfico de superficie respuesta, 278 máximo, 153
gráfico de tolerancia, 171 media, 152
gráficos mediana, 153
copiando a otras apliaciones, 107 menú Seis Sigma, 9, 144
guardando en Archivos de Imágen, 108 menús del sistema, 9
gráficos de residuos, 196, 210 métodos no-paramétricos
Gráficos de Superficie y de Contorno, 216 prueba Friedman, 194
Guardar Resultados, 70 prueba Kolmogorov-Smirnov, 183, 244
heteroscedasticidad, 197 prueba Kruskal-Wallis, 194
histograma, 26, 161, 176, 239 prueba Mann-Whitney (Wilcoxon), 181
imprimiendo prueba para muestras apareadas, 170
análisis, 77 MIN, 46
ancho de lineas, 80 mínimo, 153
encabezado, 79 modelo de regresión lineal, 207
fondo, 79 modelo de regresión no lineal, 207
márgenes, 79 Modificar Columna, 43
indices de capabilidad, 251 modo de evaluación, 3
iniciando el programa, 6 muesca de la mediana, 156
instalación, 1 Nivel de Calidad Sigma, 253
intervalos bootstrap, 167 niveles de confianza
intervalos de confianza estableciendo predeterminado, 143
desviación estándar, 166 número de serie, 3
media, 166 numeros aleatorios, 59
mediana, 167 Opciones de Análisis, 72
intervalos HSD, 193 Opciones de Ventana, 26, 73
intervalos LSD, 193 Opciones Gráficas, 27

289/ Indice
diseño, 83 prueba Mann-Whitney (Wilcoxon), 181
ejes, 93 prueba para muestras apareadas, 170
lineas, 87 prueba Shapiro-Wilks, 243
mallas, 85 prueba t, 180
perfil, 146 pruebas de hipótesis
puntos, 89 aberrantes, 159
rellenos, 95 coeficiente de correlación, 203
texto, etiquetas y leyendas, 96 comparando desviaciones estándar, 179
titulo principal, 91 comparando distribuciones, 183
operadores algebraicos comparando medianas, 181
división, 46 comparando medias, 180
exponencial, 46 comparando proporciones, 236
multiplicación, 46 comparando varias desviaciones estándar,
resta, 46 196
suma, 46 comparando varias medianas, 194
optimizar, 281 comparando varias medias, 190
OR, 66 media, 168
Ordenar Datos, 49 mediana, 168
ordenar nombres de variables, 144 normalidad, 243
paneles, 66 regresión, 206
parsimonia, 199 tabla de dos vías, 231
percentiles, 153, 166 puntos centrales, 266
potencia, 260 puntos externos, 156
Preferencias, 113, 142 RANDOM, 65
AED, 161 R-cuadrada, 206, 208
capabilidad, 252 Recodificar Datos, 50
estadísticos, 154 referencias, 285
promedio, 152 regla de Sturges, 162
Propiedades del Libro de Datos, 61 Regresión Múltiple, 211
prueba chi-cuadrada, 231, 236 regresión por pasos, 214
prueba de Friedman, 194 Regresión Simple, 63, 204
prueba de Grubbs, 159 REP, 58
prueba de Levene, 196 resaltando un gráfico de dispersión, 99
prueba de rangos múltiples, 193 RESHAPE, 59
prueba desviación estudentizada extrema, residuos, 196
159 residuos estudentizados, 210
prueba F, 179 resolución, 259
prueba Kolmogorov-Smirnov, 183, 244 Resumen Estadístico, 22, 151, 175, 239
prueba Kruskal-Wallis, 194 RNORMAL, 60

290/ Indice
ROWS, 65 StatLink, 61, 115
ruta de máxima pendiente, 283 StatPublish, 116
SD, 47 StatReporter, 126
secuencia Booleana, 66 copiando salidas a, 127
Seis Sigma, 237 guardando, 128
seleccionando análisis, 134 modificando, 128
separando un gráfico de dispersión, 98, 189 StatWizard, 9, 12, 129
setup.exe, 1 suavización de gráfico de dispersión, 102
SQRT, 47 suavización LOWESS, 102
STANDARDIZE, 47 tabla ANOVA, 271
StatAdvisor tabla de contingencia, 225
predeterminados, 145 Tablas, 68
StatFolios tablas de contingencia, 235
guardando, 30, 110 tablas de dos vías, 227
publicando, 116 Tabulación, 221
rutinas iniciales, 112, 115, 145 Tabulación Cruzada, 225
StatGallery, 249 Tabulación de Frecuencias, 164
configurando, 119 transformación Box-Cox, 248
copiando gráficas a, 121 transformaciónes, 138
imprimiendo, 125 valores estudentizados, 158
modificando gráficas, 123 valores-P, 159
sobreponiendo gráficas, 122 valores-Z, 254
Statistics for Experimenters, 191 ventana de análisis, 21

291/ Indice

Das könnte Ihnen auch gefallen