Sie sind auf Seite 1von 114

ESTADSTICA APLICADA

CON SPSS

Alfonso Garca Prez


Mara Yolanda Cabrero Ortega

ESTADSTICA APLICADA CON SPPS

Copyright 2011 Alfonso Garca Prez


Mara Yolanda Cabrero Ortega
``No est permitida la reproduccin total o parcial de este
libro, ni su tratamiento informtico, ni la transmisin de
ninguna forma o por cualquier medio, ya sea electrnico,
mecnico, por fotocopia, por registro u otros medios, sin el
permiso previo y por escrito de los titulares del Copyright.
El contenido de este libro est registrado por el autor en el
Registro de la Propiedad Intelectual y protegido por la Ley,
que establece penas de prisin adems de las correspondientes
indemnizaciones para quien lo plagiara"

Edita: Universidad Nacional de Educacin a Distancia

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

Contenido

Prlogo. 5
Captulo 1: Introduccin al SPSS 7
Captulo 2: Estadstica Descriptiva . 11
Captulo 3: Intervalos y Contrastes bsicos . 17
Captulo 4: Anlisis de la Varianza ............. 19
Captulo 5: Regresin Lineal y Correlacin .. 31
Captulo 6: Tablas de Contingencia ............... 37
Captulo 7: Anlisis de Componentes Principales .. 47
Captulo 8: Anlisis de Correspondencias .... 51
Captulo 9: Anlisis de Discriminante ............ 57
Captulo 10: Anlisis de Conglomerados.... 63
Captulo 11: Anlisis de Series Temporales.......... 71
Captulo 12: Regresin Logstica .........79
Captulo 13: Regresin Poisson .............. 85
Captulo 14: Anl. Supervivencia sin covariables 93
Captulo 15: Anl. Supervivencia con covariables .103

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

Prlogo

El presente texto es dedicado al estudio de Paquete estadstico SPSS para el


curso Tcnicas Actuales de Estadstica Aplicada.
No obstante, ya adelantamos que no es exhaustivo en cuanto al anlisis de
todos los Mtodos a los que dicho paquete se puede aplicar, ya que la mejor
manera de aprenderlo es utilizarlo y, en la mayora de las ocasiones, los
comentarios resultan redundantes ante la sencillez de manejo de este software.
Dado que los ejemplos que analizaremos en este texto son los de los libros
Estadstica Aplicada: Conceptos Bsicos, Mtodos Avanzados de Estadstica
Aplicada. Tcnicas Avanzadas y Tcnicas Actuales de Estadstica Aplicada, no
repetiremos aqu los enunciados de dichos ejemplos, indicndolos con las
abreviaturas CB, TA y TAEA, respectivamente, y el nmero del ejemplo
correspondiente.
Por ltimo, le recordamos que puede ver ms grandes la reproducciones de la
pantalla, es decir, las ventanas, utilizando el zoom de su pdf.

Alfonso Garca Prez


Mara Yolanda Cabrero Ortega
agar-per@ccia.uned.es

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

Captulo 1

Introduccin al SPSS

1.1. Introduccin
Una de las caractersticas ms destacadas de SPSS (en especial con
respecto a R o SAS) es que no es necesario conocer un lenguaje de
programacin para utilizarlo (aunque lo tiene). Su exitosa presentacin de
Mtodos Estadsticos a ejecutar en forma de persianas, permite comenzar a
utilizarlo casi sin conocimientos previos del paquete.
Por esta razn, este texto ser simple y breve ya que, sin duda, la mejor
manera de aprende a manejar SPSS es utilizarlo.

1.2. El editor de datos


Lo primero que analizaremos es cmo introducir los datos de nuestro
problema, definiendo las variables a analizar con posterioridad.
Al abrir el paquete SPSS nos aparece un cuadro como el de la Figura 1.1,
en el que, si queremos ir tecleando los datos, elegiremos la opcin Introducir
datos, apareciendo, a continuacin el editor de datos en blanco en el que
debemos introducir los datos observados en el primer individuo de la primera
variable en la primera fila de la primera columna.
Para ir viendo cmo funciona el editor de datos, vamos a considerar un
ejemplo
Ejemplo 1.1 _____________________________________________
Se eligi al azar una muestra de 56 individuos de una poblacin a los que se
clasific segn su Edad, su Sexo y segn si era o no Fumador, obtenindose
los siguientes datos:

ESTADSTICA APLICADA CON SPPS

Menores de 20 aos
Hombre Mujer
S fuma 11
3
No fuma
1
7
Entre 20 y 50 aos
Hombre Mujer
S fuma
1
4
No fuma
2
5
Mayores de 50 aos
Hombre Mujer
S fuma 13
1
No fuma
2
6
En determinados modelos, las variables deben ser categricas; es decir, deben
definir categoras en las que clasificar los datos. Nosotros, de momento,
utilizaremos datos de tipo numrico. Para ello, lo ms simple es ir introduciendo
los datos y ms tarde, modificar, si es necesario, sus propiedades.

Figura 1.1
Para el ejemplo en cuestin, incluiremos (por este orden) datos de las
tres variables: la variable Edad, con tres valores, 1 para los individuos
menores de 20 aos, 2 para los individuos entre 20 y 50 aos y 3 para los
individuos mayores de 50 aos.
Para la variable Sexo, dos valores, 0 para los hombres y 1 para las mujeres.
Y, finalmente, la variable Fumador, con dos valores, 0 para los individuos
que no fuman y 1 para los que s fuman.
As, los datos de los individuos de la tabla anterior sern los de la
Figura 1.2.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

Figura 1.2
Con objeto de introducir el nombre de las variables, pincharemos con el Ratn
la pestaa de abajo Vista de variables, apareciendo un panel como el de la
Figura 1.3. Pinchando el 1, podremos teclear el nombre de las tres variables
as como sus principales caractersticas. Volveremos al editor de datos
pinchando en la pestaa inferior, Vista de datos.

Figura 1.3
En la barra de arriba (en Archivo) deberemos salvar nuestro fichero de datos.
Si nuestros datos estn ya en un archivo, debemos incluirlos en el Editor de
datos con la opcin: Archivo Abrir Datos (Figura 1.4)

10

ESTADSTICA APLICADA CON SPPS

Figura 1.4

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

11

Captulo 2

Estadstica Descriptiva
2.1. Distribuciones de Frecuencias, Representaciones Grficas,
Medidas de Posicin y Dispersin
El estudio de las tcnicas estudiadas aqu, puede seguirse en el Captulo 2
del texto CB.
Una de las ventajas de SPSS es que, de una vez, obtenemos la mayora de
los resultados en los que estamos interesados.
Ejemplo 2.1-CB ___________________________________________
Despus de introducir los datos, ejecutamos la secuencia
Analizar Estadsticos Descriptivos Frecuencias

Figura 2.1

12

ESTADSTICA APLICADA CON SPPS

aparecindonos una ventana de dilogo como la de la Figura 2.2

Figura 2.2
Ahora, pasamos la variable en estudio, nivel, al cuadro de la derecha,
completamos lo estadsticos que queremos calcule en el botn Estadsticos,
que en nuestro caso hemos elegido segn la Figura 2.3

Figura 2.3
cerrando la ventana con el botn Continuar.
Lo mismo hacemos con el botn Grficos, con el que, en este caso, hemos
elegido las opciones que aparecen en la Figura 2.4,

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

13

Figura 2.4
Ya podemos ejecutar nuestras elecciones efectuadas con las anteriores
ventanas de dilogo, presionando el botn Aceptar. No obstante, queremos
sealar que, todo lo que hemos ido seleccionando, se ha ido traduciendo al
lenguaje SPSS dentro de lo que aparece en el botn Pegar, que si lo
presionamos aparecer, en este ejemplo,
FREQUENCIES
VARIABLES=nivel
/NTILES= 4
/STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE
SKEWNESS
SESKEW KURTOSIS SEKURT
/HISTOGRAM NORMAL
/ORDER= ANALYSIS .

sta es la denominada Sintaxis SPSS o Lenguaje de Programacin SPSS, que


podemos salvar, guardar, modificar y ejecutar en lugar de utilizar las persianas
que aparecen arriba del Editor de Datos. No obstante, como precisamente
stas son la ventaja de SPSS, no utilizaremos la sintaxis de este paquete sino
dichas persianas, pero queremos que el lector tenga presente siempre la
existencia subyacente de estos programas.
O bien mediante los mens o bien con la sintaxis, para este ejemplo
obtendramos los siguientes resultados:

ESTADSTICA APLICADA CON SPPS

14
Estadsticos
nivel
N

Vlidos

34

Perdidos

Media

11,3529

Mediana

11,4500

Moda

12,50

Desv. tp.

1,87459

Varianza

3,514

Asimetra

,536

Error tp. de asimetra

,403

Curtosis

,876

Error tp. de curtosis

,788

Rango

8,70

Mnimo

7,80

Mximo

16,50

Percentiles

25

10,0500

50

11,4500

75

12,4000

nivel

Frecuencia
Vlidos

Porcentaje

Porcentaje
vlido

Porcentaje
acumulado

7,80

2,9

2,9

2,9

8,50

2,9

2,9

5,9

8,60

2,9

2,9

8,8

9,10

2,9

2,9

11,8

9,20

2,9

2,9

14,7

9,30

2,9

2,9

17,6

9,70

2,9

2,9

20,6

9,90

2,9

2,9

23,5

10,10

2,9

2,9

26,5

10,20

2,9

2,9

29,4

10,30

2,9

2,9

32,4

10,60

2,9

2,9

35,3

10,80

2,9

2,9

38,2

11,10

5,9

5,9

44,1

11,30

2,9

2,9

47,1

11,40

2,9

2,9

50,0

11,50

2,9

2,9

52,9

11,60

2,9

2,9

55,9

11,80

2,9

2,9

58,8

11,90

2,9

2,9

61,8

12,00

2,9

2,9

64,7

12,20

2,9

2,9

67,6

12,30

5,9

5,9

73,5

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

15

12,40

5,9

5,9

79,4

12,50

8,8

8,8

88,2

12,70

2,9

2,9

91,2

14,90

2,9

2,9

94,1

15,00

2,9

2,9

97,1

16,50

2,9

2,9

100,0

Total

34

100,0

100,0

Histograma

Frecuencia

Media =11,3529
Desviacin tpica =1,
87459
N =34

0
8,00

10,00

12,00

14,00

16,00

18,00

nivel

El histograma final se puede editar y cambiar los colores, el ttulo, etc.


Con la secuencia
Grficos Histograma
podemos volver a obtener el histograma anterior, pero lo que queremos sealar
es que la persiana de Grficos, permite obtener grficos de ata calidad sin
tener que realizar anlisis estadstico alguno.

16

ESTADSTICA APLICADA CON SPPS

Figura 2.5

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

17

Captulo 3

Intervalos y Contrastes bsicos

3.1. Intervalos y tests t-Student


SPSS calcula, bsicamente, intervalos y tests de la t de Student. Aunque en
CB resolvimos este ejemplo con un intervalo basado en la normal, lo
ejecutaremos a continuacin con uno basado en la t de Student. Dado que se
consideran 35 observaciones, las diferencias apenas si existe entre ambas
metodologas.
Ejemplo 6.2-CB ___________________________________________
Despus de introducir los datos, ejecutamos la secuencia
Analizar Comparar medias Prueba T para una muestra

Figura 3.1

ESTADSTICA APLICADA CON SPPS

18

A continuacin aparece (Figura 3.2) el siguiente cuadro de dilogo en donde


hemos trasladado la variable en estudio al cuadro de la derecha.
El 0 de la ventana Valor de Prueba es la hiptesis nula a contrastar. Con el
botn Opciones podemos solicitar el intervalo de confianza para el coeficiente
de confianza deseado.

Figura 3.2
El resultado obtenido es el siguiente:
Estadsticos para una muestra

N
Actividad

Desviacin
tp.

Media
35

,75300

,518283

Error tp. de
la media
,087606

Prueba para una muestra

Valor de prueba = 0
95% Intervalo de
confianza para la
diferencia

Actividad

t
8,595

gl
34

Sig. (bilateral)
,000

Diferencia
de medias
,753000

Inferior
,57496

Superior
,93104

Al final del segundo cuadro vemos el intervalo de confianza de confianza 095.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

19

Captulo 4

Anlisis de la Varianza

4.1. Un Factor: Diseo Completamente Aleatorizado


El estudio del test analizado aqu, puede estudiar en la Seccin 8.2 del texto
CB.
Ejemplo 8.1-CB ___________________________________________
Despus de introducir los datos, primero vamos a visualizar los datos dibujando
un Diagrama de Cajas mediante la secuencia (Figura 4.1)
Grficos Diagramas de Cajas

Figura 4.1
con lo que se abre la ventana de dilogo de la Figura 4.2

20

ESTADSTICA APLICADA CON SPPS

Figura 4.2
en la que seleccionamos definir, hacindolo segn la Figura 4.3

Figura 4.3
Ahora, con el botn Aceptar obtenemos los siguientes resultados,

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

21

dieta
Resumen del procesamiento de los casos
Casos
Vlidos
dieta
1

peso

Perdidos

Porcentaje

Total

Porcentaje

Porcentaje

100,0%

,0%

100,0%

100,0%

,0%

100,0%

100,0%

,0%

100,0%

peso

peso

36,00

33,00

30,00

dieta

en donde destaca el ltimo grfico, el Diagrama de Cajas buscado, en donde


se puede apreciar que puede aceptarse una dispersin parecida en los tres
tratamientos del factor dieta.

22

ESTADSTICA APLICADA CON SPPS

El Anlisis de la Varianza para un factor puede hacerse ahora con la


secuencia
Analizar Comparar medias ANOVA de un factor
pero preferimos seguir la secuencia (Figura 4.4)
Analizar Modelo lineal general Univariante
por ser este anlisis el ms simple de Modelo Lineal General

Figura 4.4
La ventana de dilogo que aparece a continuacin se completa como se indica

Figura 4.5

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

23

en la Figura 4.5. Con el botn Aceptar obtendramos ahora los siguientes


resultados
Factores inter-sujetos

N
dieta

Pruebas de los efectos inter-sujetos


Variable dependiente: peso

Fuente
Modelo corregido

Suma de
cuadrados
tipo III

Media
cuadrtica

gl

Significacin

20,133(a)

10,067

1,144

,351

16800,267

16800,267

1909,121

,000

20,133

10,067

1,144

,351

Error

105,600

12

8,800

Total

16926,000

15

Interseccin
dieta

Total corregida

125,733
14
a R cuadrado = ,160 (R cuadrado corregida = ,020)

de donde destaca el ltimo cuadro que es la tabla de Anlisis de la Varianza


Ejemplo 8.2-CB ___________________________________________
Despus de introducir los datos y de ver con un diagrama de cajas que puede
admitirse la hiptesis de homocedasticidad, correramos un Anlisis de la
Varianza como antes, obteniendo la tabla final
Pruebas de los efectos inter-sujetos
Variable dependiente: insulina

Fuente
Modelo corregido

Suma de
cuadrados
tipo III
154,920(a)

Interseccin

957,071

estimula

Media
cuadrtica
38,730

F
29,755

Significacin
,000

957,071

735,281

,000

29,755

,000

gl

154,920

38,730

Error

45,557

35

1,302

Total

1157,548

40

Total corregida

200,477
39
a R cuadrado = ,773 (R cuadrado corregida = ,747)

ESTADSTICA APLICADA CON SPPS

24

que indica rechazar la hiptesis nula de igualdad de los efectos medios de los
cinco estimulantes. Para ejecutar test de comparaciones mltiples elegimos el
botn Post hoc y completamos el cuadro de dilogo con varios de estos tests,
una vez trasladada la variable en estudio al cuadro de la derecha (Figura 4.6)

Figura 4.6
Los resultados as obtenidos (adems de la tabla ANOVA anterior) aparecen a
continuacin,

Pruebas post hoc


estimula
Comparaciones mltiples
Variable dependiente: insulina
Intervalo de confianza al
95%.

DHS de Tukey

(I) estimula
1

Diferencia
entre medias
(I-J)
-,0263
-2,2800(*)

Error tp.
,57045
,57045

Significacin
1,000
,003

Lmite inferior
-1,6663
-3,9201

Lmite
superior
1,6138
-,6399

-4,3900(*)

,57045

,000

-6,0301

-2,7499

-4,4363(*)

,57045

,000

-6,0763

-2,7962

,0263

,57045

1,000

-1,6138

1,6663

3
4
5

-2,2538(*)
-4,3638(*)
-4,4100(*)

,57045
,57045
,57045

,003
,000
,000

-3,8938
-6,0038
-6,0501

-,6137
-2,7237
-2,7699

2,2800(*)

,57045

,003

,6399

3,9201

2,2538(*)

,57045

,003

,6137

3,8938

-2,1100(*)

,57045

,006

-3,7501

-,4699

(J) estimula
2
3

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

5
4

Scheffe

25

1
2

-2,1563(*)
4,3900(*)
4,3638(*)

,57045
,57045
,57045

2,1100(*)

,57045

-,0463

,57045

4,4363(*)

,57045

2
3
4

4,4100(*)
2,1563(*)
,0463

2
3
4
5

,005
,000
,000

-3,7963
2,7499
2,7237

-,5162
6,0301
6,0038

,006

,4699

3,7501

1,000

-1,6863

1,5938

,000

2,7962

6,0763

,57045
,57045
,57045

,000
,005
1,000

2,7699
,5162
-1,5938

6,0501
3,7963
1,6863

-,0263

,57045

1,000

-1,8805

1,8280

-2,2800(*)

,57045

,009

-4,1342

-,4258

-4,3900(*)

,57045

,000

-6,2442

-2,5358

1
3
4

-4,4363(*)
,0263
-2,2538(*)
-4,3638(*)

,57045
,57045
,57045
,57045

,000
1,000
,010
,000

-6,2905
-1,8280
-4,1080
-6,2180

-2,5820
1,8805
-,3995
-2,5095

-4,4100(*)

,57045

,000

-6,2642

-2,5558

2,2800(*)

,57045

,009

,4258

4,1342

2,2538(*)

,57045

,010

,3995

4,1080

4
5
1

-2,1100(*)
-2,1563(*)
4,3900(*)

,57045
,57045
,57045

,018
,015
,000

-3,9642
-4,0105
2,5358

-,2558
-,3020
6,2442

4,3638(*)

,57045

,000

2,5095

6,2180

2,1100(*)

,57045

,018

,2558

3,9642

-,0463

,57045

1,000

-1,9005

1,8080

1
2
3

4,4363(*)
4,4100(*)
2,1563(*)

,57045
,57045
,57045

,000
,000
,015

2,5820
2,5558
,3020

6,2905
6,2642
4,0105

,0463

,57045

1,000

-1,8080

1,9005

Basado en las medias observadas.


* La diferencia de medias es significativa al nivel ,05.

Subconjuntos homogneos
insulina
Subconjunto
estimula
1
DHS de
Tukey(a,b)

N
8

1
2,6650

2,6913

Significacin

Scheffe(a,b)

4,9450
7,0550
7,1013
1,000

2,6650

2,6913

Significacin

1,000

1,000

4,9450
7,0550
7,1013
1,000

1,000

Se muestran las medias para los grupos en subconjuntos homogneos.

1,000

26

ESTADSTICA APLICADA CON SPPS

Basado en la suma de cuadrados tipo III


El trmino error es la Media cuadrtica (Error) = 1,302.
a Usa el tamao muestral de la media armnica = 8,000
b Alfa = ,05.

observndose en la ltima tabla los mismos grupos de tratamientos


homognenos obtenidos en el texto CB.

4.2. Un Factor: Diseo por Bloques Aleatorizados


El estudio del test analizado aqu, puede estudiar en la Seccin 8.3 del texto
CB.
Ejemplo 8.3-CB ___________________________________________
Despus de introducir los datos, obtenemos la tabla de Anlisis de la Varianza
ejecutando la secuencia (Figura 4.7)
Analizar Modelo lineal general Univariante

Figura 4.7
para completar luego el cuadro de dilogo como se indica en la Figura 4.8

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

27

Figura 4.8
Ahora con el botn Modelo elegimos la opcin Personalizado y, pasando las
variables a la ventana de la derecha, la opcin de Efectos principales, ya que
en el diseo por bloques no consideramos la posibilidad de interaccin entre
las variables. Con los botones Continuar y Aceptar obtenemos los siguientes
resultados,
Factores inter-sujetos

N
Vitamina

Raza

Pruebas de los efectos inter-sujetos


Variable dependiente: Peso

Fuente
Modelo corregido

Suma de
cuadrados
tipo III

Media
cuadrtica

gl

Significacin

165,000(a)

33,000

3,062

,103

94696,333

94696,333

8786,258

,000

Vitamina

84,667

42,333

3,928

,081

Raza

80,333

26,778

2,485

,158

Error

64,667

10,778

Total

94926,000

12

Interseccin

28

ESTADSTICA APLICADA CON SPPS

Total corregida

229,667
11
a R cuadrado = ,718 (R cuadrado corregida = ,484)

en donde la ltima tabla es la de Anlisis de la Varianza obtenida en CB.

4.3. Dos Factores: Diseo Completamente Aleatorizado


El estudio del test analizado aqu, puede estudiar en la Seccin 8.5 del texto
CB.
Ejemplo 8.5-CB ___________________________________________
Despus de introducir los datos, obtenemos la tabla de Anlisis de la Varianza
ejecutando la secuencia
Analizar Modelo lineal general Univariante
y completando despus la ventana de dilogo como se indica en la Figura 4.9

Figura 4.9

Hay muchas semejanzas con el caso anterior del diseo por bloques pero
ahora s se admite la interaccin entre variables, por lo que no hace falta
modificar el modelo; ahora lo requerimos completo. Por eso, presionando ya el
botn Aceptar, obtenemos los siguientes resultados, en donde la ltima tabla
es la misma de ANOVA obtenida en CB

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

29

Factores inter-sujetos

N
Estacin

Frmaco

12

12

12

12

16

16

16

Pruebas de los efectos inter-sujetos


Variable dependiente: Alergia

Fuente
Modelo corregido

Suma de
cuadrados
tipo III

Media
cuadrtica

gl

Significacin

10488,167(a)

11

953,470

44,781

,000

93633,333

93633,333

4397,652

,000

Estacin

4132,167

1377,389

64,691

,000

Frmaco

6017,167

3008,583

141,303

,000

338,833

56,472

2,652

,031

Error

766,500

36

21,292

Total

104888,000

48

11254,667

47

Interseccin

Estacin * Frmaco

Total corregida

a R cuadrado = ,932 (R cuadrado corregida = ,911)

30

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

31

Captulo 5

Regresin Lineal y Correlacin

5.1. Regresin Lineal Simple


El estudio del test analizado aqu, puede estudiar en las Secciones 9.2 y
9.3 del texto CB. Como all destacbamos, hay dos aspectos de inters: la
representacin grfica de los datos y el Anlisis de la Regresin
Ejemplo 9.1-CB ___________________________________________
Despus de introducir los datos, primero vamos a visualizar los datos dibujando
un Diagrama de Dispersin mediante la secuencia (Figura 5.1)
Grficos Interactivos Diagrama de dispersin

Figura 5.1

ESTADSTICA APLICADA CON SPPS

32

La cantidad de oxgeno se pasa a la dependiente y la profundidad a la


independiente, obtenindose el siguiente grfico en donde puede verse
tambin la correlacin entre ambas variables.

Regresin lineal

6,00

cont_oxi

4,00

2,00

1cont_oxi = 8,63 + -0,11 * profund


R-cuadrado = 0,80

0,00
20,00

30,00

40,00

50,00

60,00

70,00

profund

La segunda cuestin importante es contrastar, mediante la tabla de Anlisis de


la Varianza para la Regresin Lineal, si puede admitirse la hiptesis nula de
que la variable independiente no es significativa a la hora de predecir a la
variable dependiente. Para ello ejecutamos la secuencia
Analizar Regresin Lineal
completando la ventana de dilogo que aparece como se indica en la Figura
5.2, en donde. A dems de indicar cul es la variable independiente y
dependiente, hemos seleccionado el Mtodo Hacia atrs.
El resto de las opciones, como la de que nos d los estimadores o el nivel
de significacin del test de la F de Snedecor de la tabla de Anlisis de la
Varianza para la Regresin Lineal, ya vienen dadas por defecto.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

33

Figura 5.2
Los resultados as obtenidos son los siguientes, en donde de nuevo destaca la
penltima tabla ANOVA y las estimaciones de los coeficientes de regresin de
la ltima tabla.

Regresin
Variables introducidas/eliminadas(b)

Modelo
1

Variables
introducidas
profund(a)

Variables
eliminadas

Mtodo
Introducir

a Todas las variables solicitadas introducidas


b Variable dependiente: cont_oxi

Resumen del modelo

Modelo
1

R cuadrado

R cuadrado
corregida

,896(a)
,803
a Variables predictoras: (Constante), profund

,763

Error tp. de la
estimacin
1,20444

ANOVA(b)

Modelo
1

Suma de
cuadrados
Regresin
Residual
Total

Media
cuadrtica

gl

29,481

29,481

7,253

1,451

36,734

a Variables predictoras: (Constante), profund

Sig.

20,322

,006(a)

ESTADSTICA APLICADA CON SPPS

34
b Variable dependiente: cont_oxi

Coeficientes(a)
Coeficientes
estandarizado
s

Coeficientes no
estandarizados
Modelo
1

Error tp.

(Constante)

8,631

1,077

profund

-,108

,024

Beta
-,896

Sig.

8,010

,000

-4,508

,006

a Variable dependiente: cont_oxi

5.2. Regresin Lineal Mltiple


El estudio del test analizado aqu, puede estudiar en las Secciones 10.2 y
10.3 del texto CB. Las opciones a ejecutar son las mismas que en la seccin
anterior, con la diferencia de que debemos incluir ms de una variable
independiente.
Ejemplo 10.1-CB __________________________________________
Despus de introducir los datos, ejecutamos
Regresin Lineal
completando el cuadro de dilogo como se indica en la Figura 5.3

Figura 5.3
Las tres ltimas tablas que as se obtienen,

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

35

ANOVA(c)

Modelo
1

Media
cuadrtica
1251,195

440,543

12

36,712

Total

2942,933

14

Regresin

2502,373

2502,373

440,561

13

33,889

2942,933

14

Regresin
Residual

Residual
Total

Suma de
cuadrados
2502,390

gl

F
34,081

Sig.
,000(a)

73,840

,000(b)

a Variables predictoras: (Constante), X2, X1


b Variables predictoras: (Constante), X2
c Variable dependiente: Y

Coeficientes(a)
Coeficientes
estandarizado
s

Coeficientes no
estandarizados
Modelo
1

B
2,086

Error tp.
6,739

,309

Sig.
,762

X1

,057

2,613

,006

,022

,983

X2

1,050

,326

,916

3,219

,007

(Constante)

1,977
1,057

4,373
,123

,922

,452
8,593

,659
,000

(Constante)

X2
a Variable dependiente: Y

Beta

Variables excluidas(b)
Estadsticos de
colinealidad
Modelo
2

Beta dentro
X1

Sig.

,006(a)
,022
a Variables predictoras en el modelo: (Constante), X2
b Variable dependiente: Y

Correlacin
parcial

,983

,006

Tolerancia
,154

indican considerar a X2 como nica covariable independiente significativa y


concluir con la recta ajustada
Y = 1977 + 1057 X2

36

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

37

Captulo 6

Tablas de Contingencia

6.1. Contraste de homogeneidad de varias muestras


El estudio del test analizado aqu, puede estudiar en la Seccin 12.3 del
texto CB.
Ejemplo 12.8-CB __________________________________________
Despus de introducir los datos, ejecutamos la secuencia (Figura 6.1)
Datos Ponderar casos

Figura 6.1

38

ESTADSTICA APLICADA CON SPPS

y, en el cuadro de dilogo resultante, ponderamos los datos con la variable


frecu (Figura 6.2)

Figura 6.2
Ahora ya podemos realizar el Anlisis de la tabla de contingencia ejecutando la
secuencia (Figura 6.3)
Analizar Estadsticos descriptivos Tablas de contingencia

Figura 6.3
Ahora debemos completar el cuadro de dilogo que se abre, teniendo en
cuenta cul variable forma las filas y cul las columnas. Adems, con el botn
Estadsticos, le pedimos el Chi-cuadrado de Pearson, que es el utilizado en
CB (Figura 6.4)

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

39

Figura 6.4
Por ltimo, en el botn Casillas le podemos pedir no slo las frecuencias
observadas sino las esperadas de cada casilla. (Figura 6.5)

Figura 6.5

Los resultados as obtenidos son los siguientes:

ESTADSTICA APLICADA CON SPPS

40

Tablas de contingencia
Resumen del procesamiento de los casos
Casos
Vlidos
N
Comunidad * Fumador

300

Perdidos

Porcentaje
100,0%

N
0

Total

Porcentaje
,0%

N
300

Porcentaje
100,0%

Tabla de contingencia Comunidad * Fumador


Fumador
1
Comunidad

Recuento
Frecuencia esperada

Recuento
Frecuencia esperada

Recuento
Frecuencia esperada

Total

Recuento
Frecuencia esperada

13

2
87

Total
100

16,0

84,0

100,0

17

83

100

16,0

84,0

100,0

18

82

100

16,0

84,0

100,0

48

252

300

48,0

252,0

300,0

Pruebas de chi-cuadrado

Valor
Chi-cuadrado de Pearson
Razn de verosimilitudes
Asociacin lineal por lineal
N de casos vlidos

1,042(a)
1,069
,927

Sig. asinttica
(bilateral)

gl
2
2
1

,594
,586
,336

300

a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 16,00.

destacando la ltima tabla en la que aparece el valor del estadstico chicuadrado de Pearson, 1042 y el p-valor del test, 0594, los mismos valores que
en CB.

6.2. Contraste de independencia de caracteres


El estudio del test analizado aqu, puede estudiar en la Seccin 12.4 del
texto CB. El anlisis con SPSS es idntico al de la seccin anterior.
Ejemplo 12.9-CB __________________________________________
Despus de introducir los datos, ejecutamos la secuencia (Figura 6.6)

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

41

Datos Ponderar casos

Figura 6.6
ponderndolos en este caso con la variable frecuen. Ahora ya podemos
ejecutar el Anlisis de la tabla de contingencia ejecutando la secuencia (Figura
6.7)
Analizar Estadsticos descriptivos Tablas de contingencia

Figura 6.7

ESTADSTICA APLICADA CON SPPS

42

sin olvidar completar, como antes, los botones Estadsticos y Celdas. Los
resultados as obtenidos son los siguientes:

Tablas de contingencia
Resumen del procesamiento de los casos
Casos
Vlidos
N
deterior * depresio

100

Perdidos

Porcentaje
100,0%

N
0

Total

Porcentaje
,0%

N
100

Porcentaje
100,0%

Tabla de contingencia deterior * depresio


depresio
,00
deterior

,00

Recuento
Frecuencia esperada

1,00

Recuento
Frecuencia esperada

Total
31

53

16,4

36,6

53,0

38

47

14,6

32,4

47,0

Recuento
Frecuencia esperada

Total

1,00
22

31

69

100

31,0

69,0

100,0

Pruebas de chi-cuadrado

Valor
Chi-cuadrado de Pearson

Sig. asinttica
(bilateral)

gl

5,823(b)

,016

Correccin por
continuidad(a)

4,824

,028

Razn de verosimilitudes

5,975

,015

Estadstico exacto de
Fisher
Asociacin lineal por lineal
N de casos vlidos

Sig. exacta
(bilateral)

,018
5,764

Sig. exacta
(unilateral)

,013

,016

100

a Calculado slo para una tabla de 2x2.


b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 14,57.

observando en la ltima tabla los valores del estadstico de Pearson, 5823 y el


p-valor del test asociado, 0016, los mismos que los obtenidos en CB.

6.3. Contraste de bondad del ajuste


El estudio del test analizado aqu, puede estudiar en la Seccin 12.2 del
texto CB.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

43

Ejemplo 12.4-CB __________________________________________


Primero incorporamos los datos como aparece en la Figura 6.8

Figura 6.8
y ponderamos los datos de la variable CLASES con la variable FRECU.
Ahora ejecutamos la secuencia
Analizar -> Pruebas no paramtricas -> chi-cuadrado
apareciendo el cuadro de dilogo de la Figura 6.9 que completamos segn se
indica en ella,

ESTADSTICA APLICADA CON SPPS

44

Figura 6.9
Presionado el botn Aceptar se obtiene el valor del estadstico de Pearson,
047 como en el texto CB,

Prueba de chi-cuadrado
Frecuencias
CLASES
N observado

N esperado

Residual

315

312,8

2,3

108

104,3

3,8

101

104,3

-3,3

32

34,8

-2,8

Total

556

Estadsticos de contraste
CLASES
Chi-cuadrado
Gl
Sig. asintt.

,470

3
,925

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

Estadsticos de contraste
CLASES
Chi-cuadrado
Gl
Sig. asintt.

,470

3
,925

a. 0 casillas (,0%) tienen


frecuencias esperadas
menores que 5. La frecuencia
de casilla esperada mnima es
34,8.

45

46

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

47

Captulo 7

Anlisis de Componentes Principales

7.1. Anlisis de Componentes Principales


El Anlisis de Componentes Principales se obtiene ejecutando la secuencia:
Analizar Reduccin de datos Anlisis Factorial (Figura 2.1).

Figura 7.1
Una vez incluidas todas las variables a utilizar en el Anlisis, incluyndolas
en el cuadro de la derecha con la flecha, es importante comprobar que en
Extraccin se utilice la opcin Componentes Principales y Grfico de
sedimentacin (Figura 7.2). Una vez seleccionadas stas, SPSS se ejecuta
con el botn Aceptar que aparece en dicha Figura 7.2.

ESTADSTICA APLICADA CON SPPS

48

Ejemplo 2.1-TA ___________________________________________


Si ejecutamos la secuencia anterior con los datos del Ejemplo 2.1 del texto
Tcnicas Avanzadas, se obtienen los siguientes resultados. En [1] y [2] puede
verse la variacin explicada por cada componente principal.
A continuacin aparece lo que SPSS denomina Grfico de sedimentacin y
que en TA denominamos Grfico de desmoronamiento.
Por ltimo, en [3] aparecen las Componentes Principales, con coeficientes
algo distintos de los que obtenamos en TA pero, por supuesto, con la misma
interpretacin.

Figura 7.2

A. factorial
Comunalidades
Inicial

Extraccin

X1

1,000

,973

X2

1,000

,747

X3

1,000

,817

X4

1,000

,862

X5

1,000

,945

X6

1,000

,597

X7

1,000

,781

X8

1,000

,969

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

49

Mtodo de extraccin: Anlisis de Componentes principales.


Varianza total explicada
Sumas de las saturaciones al cuadrado
de la extraccin

Autovalores iniciales
Total
2,686

% de la
varianza
33,577

% acumulado
33,577

Total
2,686

% de la
varianza
33,577

% acumulado
33,577

1,862

23,275

56,852

1,862

23,275

56,852

1,112

13,905

70,757

1,112

13,905

70,757

1,030

12,881

83,637

1,030

12,881

83,637

,619

7,740

91,377

,367

4,591

95,968

,277

3,467

99,436

Componente
1

,045
,564
100,000
Mtodo de extraccin: Anlisis de Componentes principales.
[1]

[2]

Grfico de sedimentacin

3,0

2,5

Autovalor

2,0

1,5

1,0

0,5

0,0
1

Nmero de componente

ESTADSTICA APLICADA CON SPPS

50

Matriz de componentes(a)
Componente
1

X1

,753

,450

,445

-,070

X2

-,704

,363

,093

-,332

X3

-,113

,872

-,176

,118

X4

,064

,764

-,443

,279

X5

,803

,273

,470

-,078

X6

,629

-,159

-,392

,149

X7

-,719

,255

,445

,026

X8

-,222

-,140

,326

,891

Mtodo de extraccin: Anlisis de componentes principales.


a 4 componentes extrados
[3]

Los resultados obtenidos al ejecutar SPSS son ficheros que pueden ser
salvados y reutilizados.

7.2. Sintaxis de SPSS


Aunque la forma habitual de utilizar SPPS (al menos en una primera
aproximacin al paquete) es mediante las persianas de la barra de comandos
superior, SPSS puede ser utilizado a travs de un lenguaje de programacin
como lo era SAS o BMDP. Este lenguaje SPSS se llama Sintaxis SPSS.
Si observamos de nuevo la Figura 7.2, vemos un botn denominado Pegar.
Si lo hubiramos seleccionado, obtendramos el Programa
FACTOR
/VARIABLES X1 X2 X3 X4 X5 X6 X7 X8 /MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5
X6 X7 X8
/PRINT INITIAL EXTRACTION
/PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION .

Este Programa SPSS ejecuta lo mismo que el botn Aceptar de dicha


Figura 7.2 y puede ser salvado, modificado y reutilizado, de manera que una
forma de ejecutar SPSS reiteradamente sin tener que ir completando las
diversas ventanas de dilogo de las persianas SPSS, es utilizar directamente
Sintaxis SPSS. Adems, esta Sintaxis puede modificarse adecundola
precisamente a aquello en lo que estamos interesados, pudiendo unirse varios
Programas en una sola Sintaxis.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

51

Captulo 8

Anlisis de Correspondencias

8.1. Anlisis de Correspondencias


La explicacin detallada de este tipo de anlisis aparece en el captulo 3 del
texto TA. Explicaremos su ejecucin siguiendo el ejemplo 3.2 de dicho texto.
Ejemplo 3.2-TA ___________________________________________
La primera observacin que debemos hacer es sobre el manejo de los datos.
SPSS requiere que los valores de las dos variables sean de tipo numrico
pero, por otro lado, stas tienen un marcado acento de etiqueta. Adems,
como los datos se refieren a tablas de frecuencia, no vamos a introducir los,
para este ejemplo, 6851 datos uno a uno.

Figura 8.1

52

ESTADSTICA APLICADA CON SPPS

Lo haremos mediante una variable de frecuencia a la que hemos denominado


Pondera. De ah que el Editor de datos para este ejemplo sea el de la Figura
8.1. Pero observemos cmo hemos trabajado la opcin de la pestaa Vista de
variables en la Figura 8.2, dando nombres a los valores de las variables.

Figura 8.2
Ahora ya tenemos preparados los datos para realizar un Anlisis de
Correspondencias. Para ello ejecutaremos la secuencia:
Analizar Reduccin de datos Anlisis de correspondencias (Figura 8.3).

Figura 8.3

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

53

En el anlisis hemos utilizado las opciones que aparecen en la Figura 8.4.


Resaltamos que debemos codificar las variables que forman la tabla, como se
indica en el panel de la izquierda, y que con el botn Modelo obtenemos el
cuadro de dilogo de la derecha, en donde se ve que la solucin que buscamos
es de dos dimensiones y que utilizamos una distancia chi-cuadrado.

Figura 8.4
Con estas opciones obtenemos los siguientes resultados,

Correspondencias

Tabla de correspondencias
Bebe
Madre
jnf
jf
mnf
mf
Margen activo

pm

pv

Gcm
24

gcv
4012

Margen activo
4401

50

315

40

459

514

41

147

14

1594

1796

11

124

140

104

513

45

6189

6851

[1]

ESTADSTICA APLICADA CON SPPS

54

Resumen

Proporcin de inercia

Confianza para el Valor

Corre
Dimensin
1

Valor propio

Inercia

Chi-cuadrado

Sig.

Explicada

,050

,003

,908

,016

,000

,004

,000

Total

,003

19,109

,024(a)

Desviacin
tpica

Acumulada
,908

,013

,087

,995

,015

,005

1,000

1,000

1,000

a 9 grados de libertad

[2]

Examen de los puntos de fila(a)

Puntuacin en la dimensin

Contribucin
De los puntos a la inercia
de la dimensin

Madre
jnf

Masa

,642

-,165

jf

,075

mnf

,262

mf

,020

Total activo

Inercia

De la dimensin a la inercia del


1

-,015

,001

,347

,009

,997

,003

,190

,418

,000

,054

,840

,400

,599

,313

-,063

,001

,511

,066

,986

,012

,465

-,253

,000

,088

,084

,877

,081

,003

1,000

1,000

1,000

a Normalizacin Simtrica

Examen de los puntos columna(a)

Puntuacin en la dimensin

Contribucin
De los puntos a la inercia
de la dimensin

Bebe
pm

Masa

,015

1,562

pv

,075

gcm

,007
,903

gcv
Total activo

1,000

a Normalizacin Simtrica

Inercia

De la dimensin a la inercia del


1

-,360

,002

,736

,126

,983

,016

,265

-,008

,000

,105

,000

,960

,000

,899

1,441

,000

,106

,873

,556

,443

-,055

-,004

,000

,054

,001

,994

,001

,003

1,000

1,000

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

55

Puntos de columna y de fila

Simtrica Normalizacin
1,5

gcm

Bebe
Madre

Dimensin 2

1,0

0,5

jf

jnf gcv

0,0

pv
mnf
mf
pm

-0,5
-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

Dimensin 1
[3]
En [1] puede comprobarse que la tabla de doble entrada ha sido bien
creada. La inercia acumulada puede verse en [2] . A continuacin aparecen
las coordenadas suministradas pos SPSS (algo distintas que las obtenidas con
el software del curso) y, por ltimo, en [3] , el grfico, principal objetivo del
Anlisis, ampliamente comentado en TA.

56

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

57

Captulo 9

Anlisis Discriminante

9.1. Anlisis Discriminante


El Tratamiento Informtico de Anlisis Discriminante que ejecuta SPSS es
algo distinto que el estudiado en el captulo 6 de TA.

Figura 9.1
Ejemplo 6.1-TA ___________________________________________
Despus de introducir los datos ejecutamos la secuencia que aparece en la
Figura 9.1:
Analizar Clasificar Discriminante

58

ESTADSTICA APLICADA CON SPPS

Apareciendo el cuadro de dilogo que aparece en la Figura 9.2, en donde se ha


incluido la variable X6 en Variable de agrupacin por ser sta la que determina
los dos grupos que componen los datos.

Figura 9.2
Las otras variables, X1, ,X5 se incluyen en la ventana Independientes. Si se
quiere obtener la Funcin Discriminante lineal de Fisher, se debe seleccionar
esta opcin en el botn Estadsticos (Figura 9.3).

Figura 9.3
Con esta seleccin obtendramos los siguientes resultados,

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

59

Discriminante
Resumen del procesamiento para el anlisis de casos
Casos no ponderados
Vlidos
Excluidos

N
Cdigos de grupo
perdidos o fuera de
rango
Perdida al menos una
variable discriminante
Perdidos o fuera de
rango ambos, el
cdigo de grupo y al
menos una de las
variables
discriminantes.
Total excluidos

Casos Totales

Estadsticos de grupo

x6
1,0

2,0

Total

N vlido (segn lista)


No
ponderados
Ponderados
x1

17

17,000

x2

17

17,000

x3

17

17,000

x4

17

17,000

x5

17

17,000

x1

15

15,000

x2

15

15,000

x3

15

15,000

x4

15

15,000

x5

15

15,000

x1

32

32,000

x2

32

32,000

x3

32

32,000

x4

32

32,000

x5

32

32,000

32

Porcentaje
100,0

,0

,0

,0

,0

32

100,0

ESTADSTICA APLICADA CON SPPS

60

Anlisis 1
Resumen de las funciones cannicas discriminantes
Autovalores

Funcin
1

Autovalor

% de varianza

Correlacin
cannica

% acumulado

,930(a)
100,0
100,0
,694
a Se han empleado las 1 primeras funciones discriminantes cannicas en el anlisis.
Lambda de Wilks
Contraste de
las funciones
1

Lambda de
Wilks
,518

Chi-cuadrado
18,083

gl
5

Sig.
,003

Coeficientes estandarizados de las funciones discriminantes cannicas


Funcin
1
x1

,367

x2

-,578

x3

-,017

x4

,405

x5

,627

Matriz de estructura
Funcin
1
x4

,830

x1

,759

x5

,578

x3

,246

x2

-,048
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes
cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin.
Funciones en los centroides de los grupos
Funcin
x6
1,0

1
-,877

2,0

,994

Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

61

Estadsticos de clasificacin
Coeficientes de la funcin de clasificacin
x6
1,0

2,0

x1

1,468

1,558

x2

2,361

2,205

x3

2,752

2,747

x4

,775

,952

x5
(Constante)

,195

,372

-514,956

-545,419

Funciones discriminantes lineales de Fisher

[1]
Al final de dichos resultados, en [1] , aparecen los coeficientes cuya
diferencia son los obtenidos en TA: 1,468-1,558 = -009, 2,361-2,205=0156,
2,752-2,747=0005, 0,775-0,952=-0177, 0,195-0,372=-0177.

62

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

63

Captulo 10

Anlisis de Conglomerados

10.1. Introduccin
Como sabemos, existen, bsicamente, dos mtodos de Anlisis Cluster: uno
es el Anlisis Jerrquico y otro el Algoritmo k-medias. Analizaremos estos dos
mtodos en dos secciones separadas.

10.2. Anlisis Jerrquico


Con SPSS es posible realizar los cinco mtodos de agrupamiento
estudiados en TA: Agrupamiento simple, Agrupamiento completo,
Agrupamiento promedio, Agrupamiento centroide, y el Mtodo de Ward, as
como utilizar las diversas distancias all estudiadas. Tambin podemos obtener
el dendograma.

Figura 10.1

64

ESTADSTICA APLICADA CON SPPS

Ejemplo 5.6-TA ___________________________________________


Despus de introducir los datos como aparece en la Figura 10.1, ejecutamos la
secuencia que tambin aparece en dicha Figura:
Analizar Clasificar Conglomerados jerrquicos
apareciendo un cuadro de dilogo como el de la Figura 10.2, en donde hemos
incluido las dos variables en anlisis. Tambin aparecen all los cuatro botones
en donde tendremos que seleccionar nuestras opciones.

Figura 10.2
Para formar los clusters utilizando un Agrupamiento centroide, seleccionamos
en el botn Mtodo las tres opciones que aparecen en la Figura 10.3,

Figura 10.3

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

65

Agrupacin de centroides, Distancia Eucldea y que no estandarice los datos


con la opcin de Ninguno.
Para este ejemplo, no es necesario pinchar en el botn Estadsticos ni en
Guardar, puesto que las opciones que vienen por defecto son adecuadas.
En el botn Grficos es necesario indicarle que nos ejecute el Dendograma.
Como en situaciones anteriores, salimos de las ventanas con Continuar.
Despus de nuestras selecciones, como siempre, pinchando en el botn
Aceptar, obtenemos los resultados que vienen a continuacin,

Conglomerados jerrquicos
Advertencia
La medida eucldea al cuadrado debera emplearse cuando se solicite el mtodo de
conglomeracin CENTROID, MEDIAN o WARD.

Resumen del procesamiento de los casos(a,b)


Casos
Vlidos
N

Perdidos

Porcentaje

5
100,0
a distancia eucldea usada
b Vinculacin de centroides

Total

Porcentaje
0

Porcentaje

,0

100,0

Vinculacin de centroides
Historial de conglomeracin
Etapa en la que el
conglomerado aparece
por primera vez

Conglomerado que se
combina

Etapa
1

Conglomer
ado 1

Conglomer
ado 2

Coeficientes

Conglomer
ado 1

Conglomer
ado 2

Prxima
etapa

10,770

11,180

10,701

62,556

[1]

[3]

ESTADSTICA APLICADA CON SPPS

66

Diagrama de tmpanos vertical


Caso

Nmero de
conglomerados
1

2
X

Dendrograma
* * * * * * H I E R A R C H I C A L
* * * * *

C L U S T E R

A N A L Y S I S *

Dendrogram using Centroid Method


Rescaled Distance Cluster Combine
C A S E
Label Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

En ellos se observa, en [1] , en la tabla Historial de conglomeracin, como


en la Etapa 1, se unen los elementos 4 y 5. En el paso segundo, Etapa 2, se
unen los elementos 1 y 3. Luego, en la Etapa 3, se une el elemento 2 al
elemento 1; mejor dicho, al cluster en el que est el elemento 1, unindose
finalmente el cluster donde est el elemento 4 (primer cluster formado) al
cluster donde est el elemento 1.
El Dendograma que aparece en [2] , corresponde a esa aglomeracin y en
l parece que se unen aal principio los elementos casi a la vez. Lo que ocurre
es que las distancias a las que se van uniendo son muy inferiores a la de
aglomeracin final, como puede verse en [3] .

10.3. Algoritmo k-medias


El proceso para realizar el algoritmo k-medias es similar al realizado para
ejecutar el anlisis jerrquico. Esta vez (Figura 10.4) deberemos ejecutar la
secuencia
Analizar Clasificar Conglomerados de K medias

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

67

Figura 10.4
Ejemplo 5.6-TA ___________________________________________
Despus de introducir los datos y ejecutar la secuencia anterior, incluimos las
dos variables en anlisis (Figura 10.5)

Figura 10.5

68

ESTADSTICA APLICADA CON SPPS

Con el botn Guardar seleccionamos las dos opciones que permite (Figura
10.6)

Figura 10.6
Con el botn Opciones seleccionamos las marcadas en la Figura 10.7

Figura 10.7

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

69

Pulsando los botones Continuar y, finalmente, Aceptar, obtenemos los


resultados que aparecen a continuacin, los cuales, lgicamente, son los
mismos que los comentados en TA.

Anlisis de conglomerados de K medias


Centros iniciales de los conglomerados
Conglomerado
talla

1
189,00

2
170,00

sueldo

100,00

180,00

Historial de iteraciones(a)
Cambio en los centros
de los conglomerados
Iteracin
1

5,385

8,333

,000
,000
a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn
cambio o ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de ,000.
La iteracin actual es 2. La distancia mnima entre los centros iniciales es de 82,225.

Centros de los conglomerados finales


Conglomerado
1

talla

187,00

175,00

sueldo

105,00

173,33

ANOVA

talla
sueldo

Conglomerado
Media
cuadrtica
gl
172,800
5603,333

1
1

Error
Media
cuadrtica
19,333
55,556

gl
3

F
8,938

Sig.
,058

100,860

,002

Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido
elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos
no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de
los conglomerados son iguales.

Nmero de casos en cada conglomerado

ESTADSTICA APLICADA CON SPPS

70

Conglomerad
o
Vlidos
Perdidos

2,000

3,000
5,000
,000

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

71

Captulo 11

Anlisis de Series Temporales

11.1. Introduccin
El Anlisis de Series Temporales se estudia en el Captulo 13 de TA y en el
7 de TAEA.

11.2. Identificacin del modelo


Los grficos necesarios para identificar el modelo se obtienen ejecutando la
secuencia
Grficos Serie temporal Autocorrelacin
Ejemplo 13.1-TA __________________________________________
Ejecutando la secuencia anterior (Figura 11.1)

Figura 11.1

ESTADSTICA APLICADA CON SPPS

72

Obtenemos los siguientes resultados en donde se observa que los dos ltimos
grficos se corresponden exactamente con las Figuras 13.2 y 13.4 del texto TA,
funciones ACF y PACF respectivamente, con la excepcin del primer valor que,
como all dijimos, es siempre igual a 1 y que aqu desaparece.

Autocorrelaciones simples
MODEL:

MOD_2.

Autocorrelations:

niveles

Auto- Stand.
Lag Corr.
Err. -1 -.75 -.5 -.25
0
.25 .5
.75
1
Ljung Prob.

1
,576
,140
16,914
,000
2
,182
,138
18,639
,000
3 -,145
,137
19,756
,000
4 -,175
,135
21,423
,000
5 -,150
,134
22,673
,000
6 -,021
,132
22,698
,001
7 -,020
,131
22,722
,002
8 -,004
,129
22,723
,004
9 -,136
,127
23,856
,005
10 -,154
,126
25,351
,005
11 -,097
,124
25,964
,007
12
,049
,122
26,124
,010
13
,120
,121
27,104
,012
14
,087
,119
27,635
,016
15
,119
,117
28,663
,018
16
,151
,115
30,374
,016
Plot Symbols:
Total cases:

*****.******

**** .
. ***

. ***

. ***

. ***

. ***

**

**

**

*** .

Autocorrelations *
48

**

Box-

Two Standard Error Limits .

Computable first lags:

47

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

Partial Autocorrelations:
Lag

73

niveles

Pr-Aut- Stand.
Corr.
Err. -1 -.75 -.5 -.25
0
.25 .5
.75
1

*****.******

,576

,144

-,223

,144

. ****

-,227

,144

.*****

,103

,144

-,076

,144

,068

,144

7
8
9
10
11

-,104
,012
-,188
,003
,066

,144
,144
,144
,144
,144

.
**
.
*
. ****
.
*
.
*

.
.
.
.
.

12
13
14

,032
,022
-,093

,144
,144
,144

.
.
.

*
*
**

.
.
.

15

,230

,144

*****.

16

,044

,144

Plot Symbols:
Total cases:

Autocorrelations *
48

.
.

**
**

.
.

.
Two Standard Error Limits .

Computable first lags:

47

ESTADSTICA APLICADA CON SPPS

74

niveles

Coeficiente

1,0

Lmite superior
de confianza
Lmite inferior
de confianza

ACF

0,5

0,0

-0,5

-1,0
1

9 10 11 12 13 14 15 16

No de retardos

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

75

niveles

Coeficiente

1,0

Lmite superior
de confianza
Lmite inferior
de confianza

ACF parcial

0,5

0,0

-0,5

-1,0
1

9 10 11 12 13 14 15 16

No de retardos

11.3. Estimacin de parmetros


La estimacin de los parmetros del modelo ARIMA(p,d,q) seleccionado en
la seccin anterior se lleva a cabo con la secuencia
Analizar Series temporales ARIMA
Ejemplo 13.1-TA(continuacin) ________________________________
Ejecutando la secuencia anterior a los datos del Ejemplo 13.1 del texto,
como se indica en la Figura 11.2 aparece la ventana de dilogo de la Figura
11.3 en donde incluimos la variable en estudio como variable Dependiente
segn se indica en la Figura 11.3, as como los valores del modelo ARIMA a
ajustar

76

ESTADSTICA APLICADA CON SPPS

Figura 11.2

Figura 11.3
Antes de preceder a ejecutar el Anlisis, es conveniente modificar un tanto
las Opciones, eligiendo las que aparecen en la Figura 11.4. En concreto, en lo
que se refiere al nmero de iteraciones (aumentndolo), a los niveles de
tolerancia (disminuyndolos) y a la eliminacin de los clculos intermedios, de
manera que slo nos d las estimaciones finales.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

77

Figura 11.4
Con estas selecciones, pulsando los botones Continuar y luego Aceptar,
se obtuvieron los siguientes resultados, en donde pueden verse, en [1] , los
valores de las estimaciones obtenidas, las mismas que en TA pero con el signo
cambiado la del coeficiente de la Media Mvil. En [2] aparece el valor del
logaritmo de la verosimilitud alcanzada y, en [3] , el de la cantidad de
informacin de Akaike.

Arima
MODEL:

MOD_1

Split group number: 1 Series length: 48


No missing data.
Melard's algorithm will be used for estimation.

Conclusion of estimation phase.


Estimation terminated at iteration number 68 because:
Sum of squares decreased by less than ,0001 percent.
FINAL PARAMETERS:
Number of residuals
Standard error
Log likelihood
AIC
SBC

48
,45291761
-28,798731
63,597462
69,211065

[2]
[3]

ESTADSTICA APLICADA CON SPPS

78

Analysis of Variance:

Residuals

DF

Adj. Sum of Squares

Residual Variance

45

9,3163187

,20513437

Variables in the Model:

AR1
MA1
CONSTANT

SEB

T-RATIO

APPROX. PROB.

,4478397
-,2041347
2,4100066

,22299179
,24527657
,13973742

2,008324
-,832263
17,246680

,05063335
,40965538
,00000000

[1]
The following new variables are being created:
Name
FIT_1
ERR_1
LCL_1
UCL_1
SEP_1

Label
Fit for niveles from ARIMA, MOD_1 CON
Error for niveles from ARIMA, MOD_1 CON
95% LCL for niveles from ARIMA, MOD_1 CON
95% UCL for niveles from ARIMA, MOD_1 CON
SE of fit for niveles from ARIMA, MOD_1 CON

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

79

Captulo 12

Regresin Logstica

12.1. Regresin Logstica


Este Mtodo Estadstico se estudia en el Captulo 9 del texto TA y en el 6 de
TAEA. Su tratamiento con SPSS se basa en ejecutar la secuencia
Analizar Regresin Logstica binaria
Ejemplo 9.1-TA ___________________________________________
Despus de introducir los datos, ejecutamos la secuencia anterior, como
puede verse en la Figura 12.1

Figura 12.1

ESTADSTICA APLICADA CON SPPS

80

Entonces se abre una ventana de dilogo como la de la Figura 12.2 en


donde deberemos incluir la variable dependiente (necesariamente dicotmica)
en la ventana Dependiente; el resto de las covariables en Covariables,
marcando las que sean cualitativas con el botn Categrica.

Figura 12.2
Al correr ahora el programa, presionando el botn Aceptar, se obtienen los
siguientes resultados

Regresin logstica
Resumen del procesamiento de los casos
Casos no ponderados(a)
Casos seleccionados

N
Incluidos en el anlisis
Casos perdidos
Total

Casos no seleccionados
Total

50

Porcentaje
100,0

,0

50

100,0

,0

50

100,0

a Si est activada la ponderacin, consulte la tabla de clasificacin para ver el nmero total de casos.

Codificacin de la variable dependiente


Valor original
,00
1,00

Valor interno
0
1

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

81

[1]

Codificaciones de variables categricas


Codificacin de parmetros
activi

presion
angina

Frecuencia
9

(1)
1,000

(2)
,000

1,00

12

,000

1,000

,000

2,00

19

,000

,000

1,000

3,00

10

,000

,000

,000

,00

24

1,000

1,00

26

,000

,00

1,000

1,00

43

,000

,00

(3)
,000

Bloque 0: Bloque inicial


Tabla de clasificacin(a,b)
Observado

Pronosticado
infarto
,00

Paso 0

infarto

Porcentaje
correcto

1,00

,00

17

,0

1,00

33

100,0

Porcentaje global

66,0

a En el modelo se incluye una constante.


b El valor de corte es ,500

Variables en la ecuacin
B
Paso 0

Constante

E.T.
,299

,663

Wald
4,936

gl
1

Sig.
,026

Exp(B)
1,941

Variables que no estn en la ecuacin

Paso 0

Variables

Sig.
,398

activi(1)

2,273

,132

activi(2)

,570

,450

activi(3)

,806

,369

angina(1)

1,410

,235

presion(1)

3,566

,059

,230

,632

7,395

,286

Activi

Edad
Estadsticos globales

Puntuacin
2,957

Bloque 1: Mtodo = Por pasos hacia atrs (Wald)

gl

ESTADSTICA APLICADA CON SPPS

82

Pruebas omnibus sobre los coeficientes del modelo


Chi-cuadrado
Paso 1

Paso
2(a)
Paso
3(a)
Paso
4(a)

gl

Sig.

Paso

8,441

,208

Bloque

8,441

,208

Modelo

8,441

,208

-2,171

,538

Bloque

6,270

,099

Modelo

6,270

,099

Paso

-,707

,400

Bloque

5,563

,062

Modelo

5,563

,062

Paso

Paso

-1,912

,167

Bloque

3,650

,056

Modelo

3,650

,056

a Un valor de chi-cuadrado negativo indica que ha disminuido el valor de chi-cuadrado con respecto al
paso anterior.

Resumen de los modelos

-2 log de la
verosimilitud
55,662(a)

R cuadrado de
Cox y Snell
,155

R cuadrado
de
Nagelkerke
,215

57,834(a)

,118

,163

58,541(a)

,105

,146

Paso
1

60,453(b)
,070
,097
a La estimacin ha finalizado en el nmero de iteracin 5 porque las estimaciones de los parmetros han
cambiado en menos de ,001.
b La estimacin ha finalizado en el nmero de iteracin 4 porque las estimaciones de los parmetros han
cambiado en menos de ,001.
Tabla de clasificacin(a)
Observado

Pronosticado
infarto
,00

Paso 1

infarto

Porcentaje
correcto

1,00

,00

12

29,4

1,00

32

97,0

Porcentaje global
Paso 2

infarto

74,0
,00

10

41,2

1,00

29

87,9

Porcentaje global
Paso 3

infarto

72,0
,00

12

70,6

1,00

10

23

69,7

,00

17

,0

1,00

33

100,0

Porcentaje global
Paso 4

infarto
Porcentaje global

a El valor de corte es ,500

70,0

66,0

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

83

Variables en la ecuacin
B
Paso
1(a)

gl
3

Sig.
,559

Exp(B)

-1,221

1,127

1,174

,279

,295

activi(2)

,017

1,036

,000

,987

1,017

activi(3)

,088

,919

,009

,924

1,092

2,111

1,408

2,248

,134

8,260

1,178

,703

2,812

,094

3,249

-,038

,039

,978

,323

,962

2,083

2,223

,877

,349

8,026

1,633

1,204

1,840

,175

5,120

1,328

,671

3,916

,048

3,773

-,030

,036

,691

,406

,971

1,429

1,808

,625

,429

4,174

,218

4,148

,054

3,500

,931

,964

,064

3,257

,695

1,167

presion(1
)
edad

Paso
3(a)

Wald
2,063

activi(1)

angina(1)

Paso
2(a)

E.T.

activi

Constant
e
angina(1)
presion(1
)
edad
Constant
e
angina(1)

1,423
1,154
1,520
presion(1
1,253
,651
3,699
)
Constant
-,036
,421
,007
e
Paso
presion(1
1,181
,638
3,423
4(a)
)
Constant
,154
,393
,154
e
a Variable(s) introducida(s) en el paso 1: activi, angina, presion, edad.
Variables que no estn en la ecuacin
Puntuacin
Paso 2(a)

Variables

2,187

,534

2,171

,141

activi(2)

,099

,753

,462

,497

Estadsticos globales

2,187

,534

Variables

Activi

1,894

,595

activi(1)

1,744

,187

activi(2)

,177

,674

activi(3)

,512

,474

Edad

,706

,401

2,816

,589

Activi

1,567

,667

activi(1)

1,163

,281

activi(2)

,153

,696

activi(3)

,631

,427

1,699

,192

,281

,596

4,107

,534

Estadsticos globales
Paso 4(c)

Sig.

activi(1)
activi(3)
Paso 3(b)

gl

Activi

Variables

angina(1)
Edad
Estadsticos globales
a Variable(s) eliminada(s) en el paso 2: activi.

ESTADSTICA APLICADA CON SPPS

84
b Variable(s) eliminada(s) en el paso 3: edad.
c Variable(s) eliminada(s) en el paso 4: angina.

[2]

Es muy interesante la codificacin que realiza SPSS, la cual hemos


marcado ms arriba con [1], que indica cul ser el modelo finalmente
ajustado, la cual aparentemente lleva a ajustes de modelos distintos a los
obtenidos con BMDP SAS.
En la ltima tabla hemos marcado con [2] el lugar en el que podemos
observar que la nica covariable de las 4 con lo que nos quedamos ser la que
no aparece all, es decir, Presin.
Volviendo a correr el programa ahora slo con Presin obtendramos el
modelo final que se ajusta,
log (p/(1-p)) = 0154 + 1181 Presin
en donde apuntamos de nuevo la diferencia de codificaciones en las variables
para explicar la aparente diferencia con los resultados de otros paquetes
estadsticos.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

85

Captulo 13

Regresin Poisson

13.1. Regresin Poisson


El estudio de este tipo de modelos puede seguirse en el Captulo 10 del
texto TA y en el 6 de TAEA. Su ejecucin con SPSS consiste en la secuencia
Analizar Loglineal General
Ejemplo 10.1-TA __________________________________________
Despus de introducir los datos y ejecutar la secuencia anterior, Figura 13.1,

Figura 13.1

86

ESTADSTICA APLICADA CON SPPS

En la ventana que se abra despus de hacer dicha seleccin deberemos incluir


(Figura 13.2) la variable dependiente (es decir, la Tasa) en la ventana
Estructura de las casillas y las covariables cualitativas, Edad y Sexo, en
Factores.

.
Figura 13.2
A continuacin, en el botn Modelo, elegimos la opcin Personalizado y
completamos la ventana de la derecha desplazando las dos covariables como
Efectos principales (Figura 13.3).

Figura 13.3

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

87

Despus de aceptar esas selecciones con el botn Continuar, volvemos a


la ventana de dilogo anterior, en donde elegimos las Opciones que aparecen
en la Figura 13.4.

Figura 13.4
Una vez aceptadas stas con el botn Continuar y ejecutando todas las
selecciones con el botn Aceptar de la ventana de dilogo principal,
obtenemos los resultados que aparecen a continuacin,

Loglineal general
Informacin sobre los datos
N
Casos

Vlidos

Perdidos

Casillas

Vlidos
ponderados
Casillas definidas

Categoras

Ceros
estructurales
Ceros de
muestreo
edad

6
6
0
0
3

sexo

Informacin sobre la convergencia(a,b)


Nmero mximo de
iteraciones
Tolerancia de
convergencia

20
,00100

ESTADSTICA APLICADA CON SPPS

88
Mxima diferencia
absoluta final

,00013(c)

Mxima diferencia
relativa final

,00078

Nmero de iteraciones

a Modelo: Poisson
b Diseo: Constante + edad + sexo
c La iteracin ha convergido ya que el mximo de cambios absolutos de las estimaciones de los
parmetros es inferior al criterio de convergencia especificado.
Contrastes de bondad de ajuste(a,b)

Razn de verosimilitudes

Valor
,004

Chi-cuadrado de Pearson

,004

gl
2

Sig.
,998

,998

[3]

a Modelo: Poisson
b Diseo: Constante + edad + sexo

Residuos y recuentos de casillas(a,b)


Observado
edad
1,00
2,00
3,00

Esperado

sexo
,00

Recuento
1

%
16,7%

Recuento
,976

%
16,3%

Residual
,024

Residuo
tipificado
,024

Residuo
corregido
,041

1,00

16,7%

1,024

17,1%

-,024

-,023

-,041

-,023

,00

16,7%

1,038

17,3%

-,038

-,037

-,066

-,038

1,00

16,7%

,962

16,0%

,038

,039

,066

,039

,00

16,7%

,985

16,4%

,015

,015

,025

,015

16,7%

1,015

16,9%

-,015

-,014

-,025

-,014

1,00

1
a Modelo: Poisson
b Diseo: Constante + edad + sexo

Estimaciones de los parmetros(b,c)


Intervalo de confianza al
95%
Parmetro
Constante

Estimacin

Error tpico

Sig.

Lmite
superior

Lmite inferior

2,540

,814

3,122

,002

,946

4,135

[edad = 1,00]

-,328

1,000

-,328

,743

-2,288

1,632

[edad = 2,00]

-,171

1,000

-,171

,864

-2,131

1,789

[edad = 3,00]

0(a)

[sexo = ,00]

-,029

,817

-,036

,972

-1,630

1,572

[sexo = 1,00]

0(a)

[1]

[2]

a Este parmetro se ha definido como cero ya que es redundante.


b Modelo: Poisson
c Diseo: Constante + edad + sexo
Correlaciones de las estimaciones de los parmetros(a,b,c)
Constante

[edad = 1,00]

[edad = 2,00]

[sexo = ,00]

Desviacin
,024

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

Constante
[edad = 1,00]
[edad = 2,00]

89

-,616

-,604

-,616

,500

,004

-,604

,500

-,022

-,022

[sexo = ,00]

-,495
,004
a Modelo: Poisson
b Diseo: Constante + edad + sexo
c Los parmetros redundantes no se muestran.

-,495

Covarianzas de las estimaciones de los parmetros(a,b,c)


Constante
,662

[edad = 1,00]
-,501

[edad = 1,00]

-,501

1,000

,500

,003

[edad = 2,00]

-,491

,500

1,000

-,018

[sexo = ,00]

-,329

,003

-,018

,667

Constante

[edad = 2,00]
-,491

[sexo = ,00]
-,329

a Modelo: Poisson
b Diseo: Constante + edad + sexo
c Los parmetros redundantes no se muestran.

Residuos corregidos

Frecuencias ...

Frecuencias ...

Modelo de Poisson

Frecuencias ...

Frecuencias ...

Residuos corregidos

ESTADSTICA APLICADA CON SPPS

90

Grfico Q-Q normal de residuos corregidos

1,5

Valor normal esperado

1,0

0,5

0,0

-0,5

-1,0

-1,5
-0,075

-0,050

-0,025

0,000

0,025

0,050

0,075

Residuos corregidos

Grfico Q-Q normal de residuos corregidos

0,3

Desviacin de normal

0,2

0,1

0,0

-0,1

-0,2

-0,3
-0,075

-0,050

-0,025

0,000

0,025

0,050

0,075

Residuos corregidos

En la mencionada salida se observa, marcado con [1] , la codificacin que


da SPSS a los parmetros del modelo, haciendo iguales a cero [Edad=3] y
[Sexo=1] ya que de las covariables cualitativas hay que construir el Modelo con
tantas variables indicadoras como clases tengan las covariables cualitativas
menos una.
En [2] aparecen las estimaciones obtenidas, las cuales proporcionan el
Modelo
log Tasa = 2'540 - 0'328 [Edad=1] -0'171 [Edad=2] -0'029 [Sexo=0]
Esto hace que para un Hombre ([Sexo=0]) de 50 a 70 aos ([Edad=2]) se
obtenga una prediccin en su tasa de supervivencia igual a
log Tasa} = 2'540 - 0'328 * 0 - 0'171 * 1 - 0'029 * 1 = 2'34.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

91

Observemos que en TA obtuvimos, en esta misma situacin, prcticamente


el mismo valor pero con signo menos; la razn es que SPSS ajusta un modelo
de la forma Xi en donde la variable dependiente que supuestamente sigue
la distribucin de Poisson (habitualmente una tasa de fallo) es de la forma
r = exp{- Xi

Por tanto, deberemos cambiar el signo de la tasas ajustadas con SPSS,


quedando, en este caso igual a -2'34, como en TA.
Por ltimo, en [3], observamos el contraste del modelo ajustado que
claramente puede admitirse.

92

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

93

Captulo 14

Anlisis de Supervivencia sin covariables

14.1. Introduccin
Para realizar cualquier anlisis, primero debemos incluir los datos en el
Editor de Datos de la forma habitual
Ejemplo 2.1. Cuadernos de Estadstica Aplicad: rea de la Salud (ratas.sav)
Primero incorporamos los datos utilizando tres variables: los Das, que es la
variable en observacin, el Grupo, 1 2, y el Estatus, de valores, 2 para los
individuos no censurados y el 1 para los censurados, como puede apreciarse
en la Figura 14.1.

Figura 14.1

ESTADSTICA APLICADA CON SPPS

94

14.2. Tablas de Mortalidad


Para obtener las Tablas de Mortalidad, que no son ms que las
distribuciones de frecuencias de las observaciones, ejecutamos la secuencia
(Figura 14.2)
Analizar Supervivencia Tablas de mortalidad

Figura 14.2
con lo que nos aparecer el cuadro de dilogo de la Figura 14.3, que hemos
completado incluyendo en Hora, la variable en observacin Das. En Intervalos
de Tiempo elegimos el extremo superior, 400, y pedimos que los intervalos
tengan amplitud 5

Figura 14.3

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

95

En Estado le indicamos cul es la variable que nos indica si el datos es


censurado o no y le sealamos el valor de las que queremos obtener las
distribuciones de frecuencias.
En el botn Opciones elegimos las dadas por la Figura 14.4 para obtener
todas las grficas y el test de comparacin de ambas poblaciones

Figura 14.4
Finalmente, con el botn Aceptar, obtenemos los siguientes resultados

Variable de supervivencia: Tiempos

Tabla de mortalidad

Momento de inicio del


Controles de primer orden

intervalo

Grupo

Nmero que

Nmero que

Nmero

Nmero de

entra en el

sale en el

expuesto a

eventos

Proporcin que

intervalo

intervalo

riesgo

terminales

termina

19

19,000

Proporci

sobre
,00

ESTADSTICA APLICADA CON SPPS

96

30

19

19,000

,00

60

19

19,000

,00

90

19

19,000

,00

120

19

19,000

,05

150

18

18,000

,06

180

17

17,000

,35

210

11

10,500

,57

240

3,500

,57

270

1,000

,00

300

1,000

1,00

21

21,000

,00

30

21

21,000

,00

60

21

21,000

,00

90

21

21,000

,00

120

21

21,000

,05

150

20

20,000

,10

180

18

17,500

,11

210

15

15,000

,47

240

8,000

,25

270

6,000

,67

300

2,000

,50

330

,500

,00

Mediana del tiempo de supervivencia


Controles de primer orden
Grupo

Tiempo med.
1

217,159

231,947

Control de primer orden: Grupo

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

97

98

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

99

Comparaciones para la variable de control: Grupo

Comparaciones globales

Estadstico de Wilcoxon
(Gehan)

gl
2,571

Sig.
1

,109

a. Las comparaciones son exactas.

14.3. Estimador de Kaplan-Meier y Comparacin de Curvas de


Supervivencia
El otro mtodo utilizado para estimar la distribucin de la variable Tiempo
de Fallo es el estimador de Kaplan-Meier. Si queremos determinar estos
estimadores en las poblaciones en las que se han dividido las observaciones y,
adems, comparar stas, ejecutamos la secuencia (Figura 1.5)
Analizar Supervivencia Kaplan-Meier

Figura 14.5
con lo que aparece el cuadro de dilogo de la Figura 14.6, en el que hemos

100

ESTADSTICA APLICADA CON SPPS

Figura 14.6
incorporado en la ventana Horas la variable en observacin Das; en la ventana
Estado hemos incluido la variable que nos indica si el dato es censurado o no,
es decir, la variable Estatus, indicando que es 2 el valor de sta que nos
proporciona los Datos no censurados. Finalmente, en la ventana Factor, hemos
incorporado la variable que forma los grupos a comparar.
Con el botn Comparar Factores indicamos los estadsticos a utilizar en la
comparacin de los dos grupos. Hemos elegido los tres posibles (Figura 14.7).

Figura 14.7
Despus de elegir el botn Continuar, en el botn Opciones, le marcamos slo
la opcin de los Grficos de Supervivencia (Figura 14.8).

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

101

Figura 14.8
Ahora, presionando los botones Continuar, Aceptar, obtenemos los siguientes
resultados:

Resumen del procesamiento de los casos


Censurado
Grupo

N total

N de eventos

Porcentaje

19

17

10,5%

21

19

9,5%

Global

40

36

10,0%

Comparaciones globales
Chi-cuadrado

Gl

Sig.

Log Rank (Mantel-Cox)

3,123

,077

Breslow (Generalized Wilcoxon)

2,651

,103

Tarone-Ware

2,977

,084

Prueba de igualdad de distribuciones de supervivencia para diferentes niveles de Grupo.

102

ESTADSTICA APLICADA CON SPPS

en donde se observa primero un resumen de los datos, a continuacin los tres


tests de comparacin de las dos poblaciones, siendo los dos primeros tests los
considerados en el texto de teora, indicando una aceptacin de la igualdad de
ambas poblaciones. Finalmente aparece el grfico de las dos curvas de
supervivencia de Kaplan-Meier.

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

103

Captulo 15

Anlisis de Supervivencia con covariables

15.1. Introduccin
Para realizar cualquier anlisis, primero debemos incluir los datos en el
Editor de Datos de la forma habitual.
Ejemplo 2.2. Cuadernos de Estadstica Aplicad: rea de la Salud (globulos.sav)
Primero incorporamos los datos como puede apreciarse en la Figura 15.1.

Figura 15.1

ESTADSTICA APLICADA CON SPPS

104

Si queremos realizar una Regresin de Cox ejecutaremos la secuencia


Analizar -> Supervivencia -> Regresin de Cox
Como puede verse en la Figura 15.2

Figura 15.2
Completamos en cuadro de dilogo como se indica en la Figura 15.3

Figura 15.3

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

105

Si alguna de las covariables fuera categrica habra que indicrselo.


Presionando el botn Aceptar se obtendran los siguientes resultados,

Regresin de Cox
Notas
Resultados creados

27-abr-2011 20:21:47

Comentarios
Entrada

Datos

G:\charlas\globulos.sav

Conjunto de datos activo

Conjunto_de_datos1

Filtro

<ninguno>

Peso

<ninguno>

Segmentar archivo

<ninguno>

Nm. de filas del archivo de trabajo


Tratamiento de los datos perdidos

Definicin de perdidos

33
Los valores perdidos definidos por el usuario se
consideran perdidos.

Sintaxis

COXREG Tiempos
/STATUS=estatus(2)
/STRATA=Poblacion
/METHOD=BSTEP(WALD) globulos
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20).

Recursos

Tiempo de procesador

00 00:00:00,016

Tiempo transcurrido

00 00:00:00,015

[Conjunto_de_datos1] G:\charlas\globulos.sav

Resumen del proceso de casos


N
Casos disponibles en el anlisis

Eventoa

33

100,0%

,0%

33

100,0%

Casos con valores perdidos

,0%

Casos con tiempo negativo

,0%

Casos censurados antes del evento

,0%

,0%

33

100,0%

Censurado
Total
Casos excluidos

Porcentaje

ms temprano en un estrato
Total
Total

ESTADSTICA APLICADA CON SPPS

106

Resumen del proceso de casos


N
Eventoa

Casos disponibles en el anlisis

33

100,0%

,0%

33

100,0%

Casos con valores perdidos

,0%

Casos con tiempo negativo

,0%

Casos censurados antes del evento

,0%

,0%

33

100,0%

Censurado
Total
Casos excluidos

Porcentaje

ms temprano en un estrato
Total
Total
a. Variable dependiente: Tiempos

Estado del estratoa


Estrato

Evento

Censurado

Porcentaje censurado

17

,0%

16

,0%

Total

33

,0%

a. La variable de estratos es: Poblacion

Bloque 0: Bloque inicial

Pruebas omnibus sobre los


coeficientes del modelo
-2 log de la verosimilitud
129,705

Bloque 1: Mtodo = Por pasos hacia atrs (Wald)

Pruebas omnibus sobre los coeficientes del modeloc


-2 log de la
Paso

verosimilitud

127,593

129,705

1
2

Global (puntuacin)
Chi-cuadrado
2,338

gl

Cambio desde el paso anterior


Sig.

Chi-cuadrado
,126

gl

Cambio desd
Sig.

Chi-cuadrado

2,112

,146

2,112

2,112

,146

,000

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

107

Pruebas omnibus sobre los coeficientes del modelo


Global (puntuacin)

-2 log de la
Paso

verosimilitud

1a

127,593

129,705

Chi-cuadrado

gl

2,338

Cambio desde el paso anterior


Sig.

Chi-cuadrado
,126

gl

Cambio desd
Sig.

Chi-cuadrado

2,112

,146

2,112

2,112

,146

,000

a. Variables introducidas en el paso nmero 1: globulos


b. Variable eliminada en el paso nmero 2: globulos
c. Bloque inicial nmero 1. Mtodo = Por pasos hacia atrs (Wald)

Variables en la ecuacin
B
Paso 1

globulos

ET
,008

Wald
,005

gl

2,275

Sig.
1

Exp(B)
,132

1,008

Variables que no estn en la ecuacina


Puntuacin
Paso 2

globulos

2,338

gl

Sig.
1

,126

a. Chi-cuadrado residual = 2,338 con 1 gl Sig. = ,126

Medias de las covariables


Media
globulos

29,165

Destacamos el contraste sobre la significacin de la covariable glbulos que


indica que no es significativa para explicar a la variable tiempo de fallo, al ser el
p-valor del test, 0126.
No obstante, si consideramos la variable log(glbulos) veamos lo que pasa.
Primero la creamos con la secuencia
Transformar -> Calcular variable
como indicamos en la Figura 15.4, presionando el botn Aceptar

108

ESTADSTICA APLICADA CON SPPS

Figura 15.4
con lo que la matriz de datos es la de la Figura 15.5

Figura 15.5
Ahora repetimos el proceso anterior analizando si la nueva variable es
significativa para explicar la variable Tiempos. Primero completamos el cuadro
de dilogo, Figura 15.6,

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

109

Figura 15.6
obteniendo ahora los siguientes resultados, en donde se aprecia en el ltimo
test que s es significativa esta nueva covariable.
Regresin de Cox
Notas
Resultados creados

27-abr-2011 20:32:32

Comentarios
Entrada

Datos

G:\charlas\globulos.sav

Conjunto de datos activo

Conjunto_de_datos1

Filtro

<ninguno>

Peso

<ninguno>

Segmentar archivo

<ninguno>

Nm. de filas del archivo de trabajo


Tratamiento de los datos perdidos

Definicin de perdidos

33
Los valores perdidos definidos por el usuario se
consideran perdidos.

Sintaxis

COXREG Tiempos
/STATUS=estatus(2)
/STRATA=Poblacion
/METHOD=BSTEP(WALD) logglo
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20).

Recursos

Tiempo de procesador

00 00:00:00,016

Tiempo transcurrido

00 00:00:00,014

ESTADSTICA APLICADA CON SPPS

110

[Conjunto_de_datos1] G:\charlas\globulos.sav
Resumen del proceso de casos
N
a

Casos disponibles en el anlisis

Evento

33

100,0%

,0%

33

100,0%

Casos con valores perdidos

,0%

Casos con tiempo negativo

,0%

Casos censurados antes del evento

,0%

,0%

33

100,0%

Censurado
Total
Casos excluidos

Porcentaje

ms temprano en un estrato
Total
Total
a. Variable dependiente: Tiempos

Estado del estratoa


Estrato

Evento

Censurado

Porcentaje censurado

17

,0%

16

,0%

Total

33

,0%

a. La variable de estratos es: Poblacion

Bloque 0: Bloque inicial

Pruebas omnibus sobre los


coeficientes del modelo
-2 log de la verosimilitud
129,705

Bloque 1: Mtodo = Por pasos hacia atrs (Wald)

Pruebas omnibus sobre los coeficientes del modelob


-2 log de la
Paso
a

verosimilitud
122,403

Global (puntuacin)
Chi-cuadrado

Gl

7,424

Cambio desde el paso anterior


Sig.

a. Variables introducidas en el paso nmero 1: logglo


b. Bloque inicial nmero 1. Mtodo = Por pasos hacia atrs (Wald)

Variables en la ecuacin

Chi-cuadrado
,006

7,302

gl

Cambio desd
Sig.

Chi-cuadrado
,007

7,302

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

B
Paso 1

logglo

111

ET
,378

Wald
,142

gl

7,056

Sig.
1

Exp(B)
,008

1,459

Medias de las covariables


Media
logglo

2,616

Si queremos analizar si hay diferencias entre las dos poblaciones, podramos


utilizar esta variable como covariable y analizar si es significativa
cumplimentando el cuadro de dilogo como se indica en la Figura 15.7

Figura 15.7
obteniendo los siguientes resultados,
Regresin de Cox
Notas
Resultados creados

27-abr-2011 20:58:25

Comentarios
Entrada

Datos

G:\charlas\globulos.sav

Conjunto de datos activo

Conjunto_de_datos1

Filtro

<ninguno>

ESTADSTICA APLICADA CON SPPS

112

Peso

<ninguno>

Segmentar archivo

<ninguno>

Nm. de filas del archivo de trabajo


Tratamiento de los datos perdidos

Definicin de perdidos

33
Los valores perdidos definidos por el usuario se
consideran perdidos.

Sintaxis

COXREG Tiempos
/STATUS=estatus(2)
/CONTRAST (Poblacion)=Indicator
/METHOD=BSTEP(WALD) Poblacion logglo
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20).

Recursos

Tiempo de procesador

00 00:00:00,015

Tiempo transcurrido

00 00:00:00,016

[Conjunto_de_datos1] G:\charlas\globulos.sav
Resumen del proceso de casos
N
Casos disponibles en el anlisis

Evento

33

100,0%

,0%

33

100,0%

Casos con valores perdidos

,0%

Casos con tiempo negativo

,0%

Casos censurados antes del evento

,0%

,0%

33

100,0%

Censurado
Total
Casos excluidos

Porcentaje

ms temprano en un estrato
Total
Total
a. Variable dependiente: Tiempos

Codificaciones de variables categricasb


Frecuencia
Poblaciona

(1)

17

16

a. Codificacin de parmetros de indicador


b. Variable de categora: Poblacion

Bloque 0: Bloque inicial


Pruebas omnibus sobre los
coeficientes del modelo
-2 log de la verosimilitud
171,994

Bloque 1: Mtodo = Por pasos hacia atrs (Wald)

ALFONSO GARCA PREZ y


MARA YOLANDA CABRERO ORTEGA

113

Pruebas omnibus sobre los coeficientes del modelo


Global (puntuacin)

-2 log de la
Paso

verosimilitud

Chi-cuadrado

157,363

Gl

15,325

Cambio desde el paso anterior


Sig.

Chi-cuadrado
,000

gl

14,631

Cambio desd
Sig.

Chi-cuadrado
,001

a. Variables introducidas en el paso nmero 1: Poblacion logglo


b. Bloque inicial nmero 1. Mtodo = Por pasos hacia atrs (Wald)

Variables en la ecuacin
B
Paso 1

Poblacion
logglo

ET

Wald

gl

Sig.

Exp(B)

-1,018

,423

5,775

,016

,361

,360

,136

7,068

,008

1,434

Medias de las covariables


Media
Poblacion
Logglo

,515
2,616

Los p-valores 0016 y 0008 indican que la poblacin s es significativa (hay


diferencias) y que log(globulos) tambin influye.
Si elegimos la opcin del botn de grficos del cuadro de dilogo de la Figura
15.8, en donde le pedimos la representacin de las dos curvas de
supervivencia de ambas poblaciones,

14,631

114

ESTADSTICA APLICADA CON SPPS

Figura 15.8
vemos grficamente la diferencia significativa en la Figura 15.9

Figura 15.9

Das könnte Ihnen auch gefallen