Sie sind auf Seite 1von 21

UNIVERSIDAD DE CORDOBA

Departamento de Estadstica, Econometra e Investigacin


Operativa

Introduccin a SPSS
Jos M Caridad y Ocerin
DT 2010

DOCUMENTOS DE TRABAJO
del
Grupo de Investigacin PAI SEJ 281
Estadstica aplicada y Econometra
Editor: Jos M Caridad y Ocerin

SPSS

Editor: Jos M. Caridad y Ocerin


Departamento de Estadstica, Econometra, Investigacin Operativa SEJ 281. PAI
Comit Cientfico: Jos M Caridad y
Ocerin, Arturo Gallego Segador, Roberto
Espejo Mohedano, Jos ngel Roldn Casas,
Nuria Ceular Villamandos
Primera Edicin: Noviembre 2004
D. L.:

CO-1168-2009

SPSS

SPSS

PROGRAMAS ESTADSTICOS EN
ORDENADOR: SPSS
Desde los aos sesenta empezaron a difundirse numerosos paquetes de
programas estadsticos y matemticos. El lenguaje Fortran era el ms difundido
en ambientes acadmicos y varios paquetes de rutinas (IMSL, NAG, SSP, etc.)
eran utilizados para construir programas estadsticos. Posteriormente fueron los
grandes programas de difusin general (BMDP, SAS, SPSS, Minitab y otros) los
utilizados por la mayora de los estadsticos en el mundo. La aparicin de los
microordenadores en la dcada de los setenta y su difusin masiva en las dos
dcadas siguientes, ha desplazado el anlisis estadstico desde los sistemas
centralizados multiusuario, a estos equipos personales. Las grandes bibliotecas
de programas estadsticos se adaptaron rpidamente a estos cambios con
versiones que funcionan en equipos IBM o en compatibles y en ordenadores

SPSS

Apple, y a la vez aparecieron nuevos paquetes como GLIM, Statgraphics,


Statistica, y otros, as como programas especializados en Econometra,
Investigacin Operativa, o en ramas de la Estadstica, como el paquete CoCo de
anlisis de tablas de contingencia, o el Cademo de optimizacin de diseo de
experimentos y muchos otros. Desde la aparicin del sistema operativo Windows
la prctica totalidad de los paquetes citados estn disponibles bajo este interfaz
grfico y sin problemas para tratar grandes volmenes de datos, por lo que es de
esperar que prcticamente desaparezcan los programas basados en DOS y
queden afectados negativamente los paquetes que funcionan con el sistema
operativo Unix. No obstante una ventaja de los grandes paquetes es que
funcionan prcticamente sin modificacin en distintos equipos y bajo diferentes
sistemas operativos.
Los paquetes SAS y SPSS estn formados por una serie de procedimientos
que se encadenan formando programas para realizar los anlisis estadsticos. El
primero es ms flexible pues permite usar con comodidad los resultados de un
procedimiento para ser tratados por el siguiente. El sistema de ficheros de datos
tambin es potente y til. No obstante el manejo del paquete puede parecer ms
complejo que otros, si bien cabe usarlo con un subconjunto de instrucciones
bastante reducido.
Los sistemas de ventanas y mens desplegables constituyen una alternativa
cmoda para usar un programa estadstico. La entrada de datos se realiza o
bien con una hoja de clculo del paquete que se use, o leyndola de un fichero
generado con otro programa (un fichero texto, un fichero dBase, Excel, etc.).
Estos datos incorporan bastantes elementos de meta-informacin, como la escala
de medida, los nombres de las variables y categoras, y cdigos de datos que
faltan. Existen numerosas instrucciones para realizar transformaciones, seleccin
de casos y de variables, y de gran variedad de procedimientos estadsticos.
En relacin al funcionamiento de los programas estadsticos se distingue entre
el uso interactivo y el proceso por lotes, aunque la mayor parte pueden ser
utilizados de ambas formas. En el procedimiento interactivo, se seleccionan las
instrucciones correspondientes en el sistema de mens, y se ejecutan
directamente. En el trabajo por lotes, las instrucciones se introducen en un

SPSS

fichero, generalmente de tipo texto, y, al llamar a este fichero, se ejecutan


sucesivamente todas las instrucciones contenidas en l. Es un modo prctico,
cuando se necesita realizar una serie de clculos de forma repetitiva.
El paquete SPSS es uno de los programas estadsticos mas difundidos. Sus
primeras versiones desarrolladas para grandes ordenadores fueron evolucionando
y, en la actualidad, su uso ms frecuente es en ordenadores personales bajo los
distintos tipos de sistemas operativos de Microsoft. Consta de varios mdulos
que estn dedicados a diferentes tcnicas estadsticas: BASE, mtodos bsicos de
Estadstica y anlisis de datos; TABLAS, para tablas de contingencia,
TENDENCIAS, con distintos mtodos de anlisis de series temporales,
CATEGORAS, dedicado a mtodos de anlisis de datos categorizados,
ANLISIS CONJUNTO, para estudios de preferencias, PRUEBAS EXACTAS,
de contrastes no paramtricos, ANSWER TREE, para rboles de regresin,
AMOS, para modelos estructurales y multiecuacionales, QI, de control de
calidad, VALORES PERDIDOS, con tcnicas de imputacin, NEURAL, con
modelos de redes neuronales, y otros mdulos que se van aadiendo
opcionalmente al paquete bsico.
Para empezar a trabajar con SPSS es necesario tenerlo instalado en un
ordenador personal. En la instalacin se personaliza con el nmero de serie y la
clave de acceso. Peridicamente hay que actualizar esta clave, pues su uso est
limitado en el tiempo.
Para realizar un anlisis estadstico, cabe distinguir varios elementos
-

El conjunto de datos: k variables, X, Y,...Z son observadas sobre n


unidades experimentales o casos dando lugar a una matriz de datos
n k.

La meta-informacin, o informacin sobre los datos, como el nombre


de cada variable, el tipo de datos (numrico o no numrico), el
tamao de los datos y nmero de cifras decimales (en su caso), el
nombre ampliado de cada variable o etiqueta, los valores y nombres
asociados a cada categora de las variables no numricas, los cdigos

SPSS

7
empleados para representar los datos que faltan, y la escala de medida
(numrica, ordinal o nominal) de cada variable.
-

Las tcnicas estadsticas a utilizar, incluyendo la posibilidad de


transformar datos y de obtener datos mediante simulacin.

Los resultados analticos y grficos, as como su posibilidad de edicin,


modificacin e incorporacin a informes.

SPSS aborda cada una de las fases anteriores mediante un sistema de


ventanas que pueden visualizarse de forma independiente unas de otras. Con un
ejemplo muy simple se van a realizar esta introduccin al paquete.
Se realiza una encuesta en un colectivo de personas a las que se formulan
diversas preguntas: edad, sexo, altura, peso, su nivel de estudios, y si tiene o no
trabajo. Algunas de estas variables son numricas y las variables no numricas
son ordinal (nivel de estudios) o nominales (sexo y trabajo). Las variables no
numricas se codifican con unos cdigos a los que se asocia un nombre: para el
sexo, 1 representa hombre y 2 mujer; el nivel de estudios se codifica con 1,
primarios, 2, secundarios y 3 superior; si el encuestado tiene trabajo, se
representa mediante un 1 y con un 2, en caso contrario. En definitiva, se ha
descrito parte de la meta-informacin sobre los datos. El nmero de variables es
k = 6, y van a ser entrevistados n = 22 personas.
Al arrancar SPSS se accede a una ventana preparada para introducir los
datos y a otra ventana para la meta-informacin. De una a otra se pasa usando
las pestaas situadas en la parte inferior rotuladas Vista de datos (Data Viewer)
y Vista de variables (Variable Viewer). A continuacin se observa esta primera
ventana principal.
En la parte superior est la lista de opciones principales de la aplicacin: el
men de archivos (Archivo -Files), el de edicin (Edicin - Edit), el de visualizar
(Ver - View), el de manipulacin de datos (Datos - Data), el de transformaciones (Transformar - Transform), el de anlisis estadsticos (Analizar - Analyze),
el de grficos (Grficos - Graph), el de utilidades (Utilidades - Utilities), el de
manejo de las ventanas de trabajo (Ventana - Windows) y la ayuda (?). Los
botones permiten ejecutar algunas rdenes sin entrar en el sistema de mens.

SPSS

La ventana de datos est vaca, y, antes de empezar a teclear en ella los datos,
es conveniente definir la meta informacin asociada al problema. Pulsando sobre
la pestaa inferior Vista de variables (Variable Viewer), se obtiene la siguiente
ventana. En sta (que ya se ha rellenado), aparecen los nombres de las
variables, su formato, escala de medida, los cdigos de datos que pueden faltar
(se ha usado el 0 para tres variables; en las otras tres se supone que no va a
faltar ningn dato), los nombres de las categoras de las variables no numricas,
etc.

Para cambiar algo basta pulsar encima del recuadro correspondiente y

modificar su contenido directamente o mediante la ventana auxiliar que se


genera.

SPSS

Una vez introducidos los n = 22 datos de las k = 6 variables, se dispone de la


siguiente matriz (en este caso se ha usado la coma decimal, en lugar del punto)

SPSS

10

En este momento lo aconsejable es almacenar esta matriz de datos y la meta


informacin introducida en la pantalla anterior en un fichero. Para ello se
selecciona en el men principal la opcin Archivos (Files), y en el
correspondiente men desplegable se pulsa en Guardar como (Save as) que
muestra una ventana con el directorio donde se va a guardar el fichero. En la
ventana siguiente se genera el fichero EJEMPLO.SAV en el directorio SPSS.

A partir de este momento se puede iniciar el anlisis de los datos seleccionando


en la ventana principal la opcin Analizar (Analyze) o Grficos (Graph).
Tambin cabe generar alguna variable auxiliar mediante transformaciones.
Por ejemplo, para construir una tabla de frecuencias con cada una de las
variables no numricas, se selecciona la opcin Estadsticos descriptivos
(Descriptives) como se muestra a continuacin

.
que abre una ventana en la que se seleccionan las variables a analizar

SPSS

11

En esta ventana se han seleccionado dos variables, que han sido trasladadas al
recuadro blanco de la derecha; la tercera variable est ahora seleccionndose, y
se traslada al cuadro derecho pulsando en el botn central. Si adems de la
tabla de frecuencias se desea obtener un diagrama de barras para cada variable,
se pulsa en el botn de grficos (Grficos -Charts) situado en la parte inferior de
la ventana anterior, y aparece la ventana siguiente, en la que se ha seleccionado
realizar un grfico de diagrama de barras con las frecuencias originales (tambin
puede obtenerse usando porcentajes).

Al pulsar el botn de continuacin, se vuelve a la ventana inmediatamente


anterior, y en sta, al pulsar el botn Continuar se inicia el proceso de clculo.
Los resultados resultantes de aplicar un procedimiento estadstico o grfico se
muestran en una ventana de salida (Output), como la siguiente:

SPSS

12

La columna de la parte izquierda contiene un ndice de los clculos y grficos


realizados. Se puede eliminar o disminuir de tamao. La parte de los clculos
muestra los resultados. La primera tabla es un resumen general en la que se
especifica que se han ledo los 22 casos completos para cada variable (no existan
celdas vacas en la tabla de datos originales); la segunda tabla corresponde a las
frecuencias absolutas, relativas y acumuladas de la variable Sexo. En el caso que
falten datos de una variable, en la columna de porcentajes vlidos, se estiman
stos slo sobre los datos existentes. Los resultados siguientes estn contenidos
en esta ventana, y se visualizan desplazando el contenido de sta.
Los contenidos de una ventana de salida pueden exportarse, por ejemplo a un
procesador de textos. Para ello se pincha encima del elemento a exportar (datos
o grfico) que aparece rodeado de un recuadro. Pulsando entonces Ctrl C, se
copia esta informacin al portapapeles de Windows, y, una vez activada la
ventana de la otra aplicacin (por ejemplo, el procesador de textos Word), se
pega en esta la informacin del portapapeles pulsando Ctrl V.

SPSS

13

Tambin pueden editarse las tablas y grficos, en la ventana de salida de SPSS


antes de realizar operaciones de copiar-pegar.
La tabla de frecuencias siguiente se ha copiado desde SPSS de otra forma, pues
conserva el formato grfico original. En primer lugar se ha marcado en la
ventana de salida de SPSS, y al pulsar el botn derecho del ratn, se selecciona
la opcin Copiar objetc, que pasa al portapapeles la imagen de la tabla.
Nive l de e studios

Vlidos

Frecuencia
4
12
6
22

Primarios
Secundarios
Superiores
Total

Porcentaje
18,2
54,5
27,3
100,0

Porcentaje
vlido
18,2
54,5
27,3
100,0

Porcentaje
acumulado
18,2
72,7
100,0

Los diagramas de barras se traspasan desde SPSS al documento del procesador


de texto marcndolos y con los controles C y V.
Para la ltima variable, en el diagrama de barras siguiente, se representa la
tabla de frecuencias

Nivel de estudios
60

50

40

30

Porcentaje

20

10

0
Primarios

Secundarios

Superiores

Niv el de estudios

Para obtener un grfico de una variable numrica, un histograma o un


diagrama en caja, se seleccionan las opciones siguientes en la pantalla principal
de SPSS

SPSS

14

Los resultados, una vez mas, aparecen en la ventana de salida Por ejemplo, para
la altura, en la ventana de salida, adems del histograma (ntese que aunque el
nmero de clases, 7, se ha seleccionado automticamente, puede modificarse) se
obtiene la media, 1.71 metros, y la cuasi-desviacin tpica, 0.07 metros. Adems
se ha superpuesto al histograma la funcin de densidad de una variable Normal
con media

= 1.71 (la media aritmtica de los datos) y desviacin tpica

0.07 (la cuasi-desviacin tpica de los datos), aunque en este caso no tenga
sentido el dibujar esta curva de Gauss sobre el histograma.

8
2,0

14

1,9

1,8

Altura en metros

1,7

1,6

Desv. tp. = ,07


Media = 1,71
N = 22,00

1,5
N=

1,56

1,63

1,69

1,75

1,81

Altura en metros

1,88

1,94

11

11

Hombre

Mujer

SEXO

El grfico en caja, en este caso obtenido para la variable Peso se muestra al


lado del histograma anterior, el cual se obtiene seleccionando en el men de
grficos la opcin Diagrama de caja (Boxplot), y definiendo la variable numrica
para la que se va a obtener el grfico, y, en este caso, una variable no numrica,
el sexo, de clasificacin.

SPSS

15

El diagrama en caja anterior permite realizar una comparacin del peso de las
dos sub-muestras asociadas a cada sexo. Tambin cabe realizar un test de
comparacin de medias, mediante la seleccin siguiente

y definiendo la variable (peso, en este caso) y los grupos o poblaciones a


comparar (las correspondientes a cada sexo):

Los resultados que se obtienen son los siguientes: con el test de Levene de
comparacin de varianzas (p = 0.28, es decir, hay poca evidencia de
heterocedasticidad), los estadsticos T para el test de comparacin de medias de
los pesos en las dos poblaciones (t = 5.146) en los casos de suponer ambas

SPSS

16

poblaciones de igual varianza o heterocedsticas, sus respectivas probabilidades


lmite (p < 0.001, indicativo de diferencias claras entre el peso medio de
hombres y mujeres), las diferencias entre los pesos medios y sus desviaciones
estndar (suponiendo homo o heterocedasticidad, respectivamente), y un
intervalo de confianza 1

= 0.95 para la diferencia de medias.


Es tadsticos de grupo

SEXO
Hombre
Mujer

Pes o en Kg

N
11
11

Media
79,36
63,55

Desviacin
tp.
8,925
4,927

Error tp. de
la media
2,691
1,485

Prueba de m ue stras indepe ndie ntes


Prueba de Levene
para la igualdad de
varianzas

F
Pes o en Kg

Se han asumido
varianzas iguales
No se han asumido
varianzas iguales

1,233

Sig.
,280

Prueba T para la igualdad de medias

gl

Sig. (bilateral)

Dif erencia
de medias

Error tp. de
la dif erencia

95% Intervalo de
confianza para la
diferencia
Inferior
Superior

5,146

20

,000

15,82

3,074

9,406

22,230

5,146

15,577

,000

15,82

3,074

9,288

22,349

Para cruzar dos variables no numricas, obteniendo una tabla de contingencia


bidimensional, se usan las opciones siguientes

A partir de estas es preciso proporcionar las variables que se quieren cruzar y


los estadsticos asociados a los contrastes de asociacin,

SPSS

17

Los resultados aparecen a continuacin


Tabla de contingencia Trabaja * Nivel de estudios

Trabaja

No

Total

Recuento
Frecuencia esperada
% de Trabaja
Recuento
Frecuencia esperada
% de Trabaja
Recuento
Frecuencia esperada
% de Trabaja

Primarios
0
2,2
,0%
4
1,8
40,0%
4
4,0
18,2%

Nivel de es tudios
Secundarios Superiores
7
5
6,5
3,3
58,3%
41,7%
5
1
5,5
2,7
50,0%
10,0%
12
6
12,0
6,0
54,5%
27,3%

Total
12
12,0
100,0%
10
10,0
100,0%
22
22,0
100,0%

Los correspondientes contrastes de asociacin se realizan con los resultados


siguientes
Pruebas de chi-cuadrado

Chi-cuadrado de Pearson
Razn de verosimilitud
A sociacin lineal por
lineal
N de cas os vlidos

V alor
6,875a
8,609
5,992

2
2

Sig. as inttica
(bilateral)
,032
,014

,014

gl

22

a. 4 casillas (66,7%) tienen una frec uencia esperada inf erior a 5.


La f recuencia mnima esperada es 1,82.

SPSS

18

Los estadsticos P y G 2, con sus grados de libertad y probabilidades lmite


respectivas, permiten realizar el test de asociacin entre el nivel de estudios y el
tener o no empleo. Grficamente se representa la tabla de contingencia mediante
unos diagramas de barras superpuestos, con barras proporcionales a las
frecuencias por filas, o a las distribuciones condicionales por filas (o por
columnas).
8
7

6
5

Niv el de estudios
Recuento

2
Primarios
1

Secundarios

Superiores
S

No

Trabaja

Los modelos de regresin se obtienen utilizando los siguientes mens

SPSS

19

en los que se puede apreciar las distintas opciones de modelizacin. En una


ventana intermedia hay que especificar cual es la variable respuesta o
dependiente (Y) y cuales son las variables causales o explicativas (X). Por
ejemplo para estimar el peso de una persona en funcin de su altura y del sexo,
se estima el modelo siguiente
Peso = -53.625 + 82.838Altura 10.848Sexo + e
como se deduce del cuadro siguiente
b
Re sum en de l m odelo

Modelo
1

R
,913a

R cuadrado
,834

R cuadrado
corregida
,816

Error tp. de la
estimacin
4,598

a. Variables predic toras : (Constante), SEXO, Altura en metros


b. Variable dependiente: Peso en Kg
Coeficiente sa

Modelo
1

(Constante)
A ltura en metros
SEXO

Coef icientes no
estandarizados
B
Error tp.
-53,625
27,276
82,838
15,085
-10,848
2,160

Coef icientes
estandarizad
os
Beta
,566
-,518

t
-1,966
5,491
-5,023

Sig.
,064
,000
,000

a. V ariable dependiente: Peso en Kg

En realidad el modelo anterior es de anlisis de covarianza, pues la variable


Sexo es no numrica y la Altura es numrica (es decir, una covariable). Los
estadsticos T y sus probabilidades lmite indican que las dos variables
explicativas deben mantenerse en el modelo.

SPSS

20

De forma anloga se estiman modelos de anlisis de la varianza: en el men


de comparacin de medias, la ltima opcin es para especificar un modelo de
anlisis de la varianza con un solo factor. Para modelos de anlisis de la
varianza ms complejos, se usa la opcin siguiente

En el tratamiento previo de datos es frecuente tener que realizar operaciones


como las siguientes:
-

Generar una variable nueva mediante una transformacin; en el men


de transformaciones se seleccin Calcular variable

y se define la nueva variable, en este caso, y = ln(peso). Las funciones


disponibles son numerosas (aritmticas, estadsticas, de manejo de fechas
y de cadenas de caracteres, etc.). Unas especialmente interesante son las
de generacin de nmeros aleatorios correspondientes a distintas
distribuciones estadsticas.
- La recodificacin de una variables se puede hacer generando una nueva
variable recodificada, o sobrescribiendo en la propia variable.

SPSS

21

La nueva variable PesoCod es no numrica ordinal.


El programa SPSS tiene numerosas opciones, no slo de anlisis estadstico,
sino para manipular ficheros de datos, unindolos, aadiendo casos o variables,
lo que lo hace especialmente til. Su sistema de ayuda es extenso y claro,
aunque las secuencias de mens desplegables no son, a veces, intuitivas.
Tambin dispone de un lenguaje de programacin propio, usando unos ficheros
de macro-instrucciones en los que se almacenan grupos de rdenes que llaman a
procedimientos estadsticos que se ejecutan sucesivamente al ejecutar el fichero
que los contiene.