Sie sind auf Seite 1von 16

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

Escuela Nacional de Estadstica e Informtica

1. NOMBRE DEL CURSO

Lima Per 2013

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

Reestructuracin de los Archivos de Datos 1. Ordenar datos Permite ordenar todos los casos de un archivo, utilizando como criterio una o ms variables. Men Datos / Ordenar casos. Entonces, aparecer en pantalla un cuadro de dilogo :

Deberemos introducir en el cuadro "Ordenar por", en primer lugar, la variable que va a constituir el criterio de ordenacin principal y, a continuacin, la variable o variables que se van a tener en cuenta cuando existan determinados casos que tengan para dicha variable el mismo valor. Asimismo, habr que especificar el "Orden de clasificacin", es decir, si queremos que los casos los ordene de menor a mayor (ascendente) o de mayor a menor (descendente).

Ejemplo: (Archivo Encuesta USA.sav): Ordena los casos por el nmero de hijos en orden ascendente y en el caso de que tengan varios encuestados el mismo nmero de hijos, por la categora ocupacional en orden ascendente. 2. Transponer datos y variables Esta opcin intercambia filas y columnas, leyendo filas como variables y las columnas como casos.

Pueden seleccionarse una, varias o todas las variables para trasponer. Aquellas variables que no sean seleccionadas, no aparecern en la nueva ventana de datos. Al realizar esta operacin se generar un

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

nuevo archivo de datos con las filas y las columnas (seleccionadas) transpuestas, y se perdern las variables no usadas.

Men Datos/ Transponer. Entonces, podremos observar en pantalla un cuadro de dilogo

En "Variables" habr que introducir las variables (columnas) que van a pasar a ser casos (filas) en el nuevo archivo de datos. Adems, opcionalmente, en "Variable de nombres" deberemos teclear el nombre de la variable del archivo de datos sin transponer cuyos valores van a ser adoptados como nombres de las nuevas variables. Siempre que se transponga, surgir una nueva variable denominada CASE_LBL que contendr los nombres de las variables antes de la operacin de transposicin. En el caso de que no se introduzca ninguna variable en Variable de nombres, el programa asignar por defecto a las nuevas variables los nombres VAR001, VAR002, VAR003, etc. 3. Agregar Datos

Al usar este comando puede crear un nuevo archivo a partir de la seleccin de un grupo de casos con caractersticas definidas. Los casos se agregan en funcin del valor de una o ms variables de segmentacin. El nuevo archivo de datos contiene un caso para cada grupo. Variables de segmentacin: Cada combinacin nica de estos valores define un grupo y genera un caso en el nuevo archivo agregado. Todas las variables de segmentacin se guardan en el nuevo

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

archivo con los nombres actuales y la informacin del diccionario. Este tipo de variable puede ser tanto numrica como de cadena. Agregar variables. Muestra las variables que se van a utilizar con las funciones de agregacin para crear las nuevas variables del archivo agregado. Por defecto, Agregar datos crea nuevos nombres de variables agregadas usando los primeros caracteres del nombre de la variable de origen seguidos de un carcter de subrayado y un nmero secuencial de dos dgitos. El nombre de la variable agregada viene seguido de una etiqueta de variable opcional entrecomillada, el nombre de la funcin de agregacin y el nombre de la variable de origen entre parntesis. Para las funciones de agregacin, las variables de origen deben ser numricas.

Como resultado obtendremos:

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

3. Fundir Archivos En ocasiones, la informacin relativa a los pacientes de un estudio reside en bases de datos diferentes, relacionadas ellas mediante un nico identificador de caso. Esta situacin es frecuente cuando por ejemplo, para garantizar la confidencialidad de los pacientes, los datos de filiacin estn en un archivo, distinto al que contiene los datos clnicos del paciente. Ambas bases se relacionaran, por ejemplo, con el identificador "historia clnica". En otras

ocasiones, los datos del estudio estn distribuidos en distintos archivos, conteniendo cada uno de ellos las mismas variables, pero en cada archivo residen los datos relativos a distintos grupos de sujetos (por ejemplo los datos del grupo de hombres residen en un archivo distinto al de las mujeres). Para realizar un anlisis conjunto de estos datos, es preciso fusionarlos en un nico archivo. El SPSS contempla dos posibles operaciones de fusin: fusin de variables y fusin de casos.

Para fundir Archivos Elegir en el men: Datos Fundir archivos Seleccionar: Aadir casos o Aadir variables Aadir casos Este procedimiento se utiliza cuando se cuenta con dos o ms archivos con el mismo variables tipo de o

preguntas y cuya nica radica diferencia en las

respuestas o casos.

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

Para poder comprender los pasos que se deben ejecutar en la fusin de informacin, realizaremos a manera de ejemplo la unin de los casos de los archivos hogareste.sav y hogarsur.sav, los cuales contienen informacin de una encuesta realizada en cien (100) hogares de cada regin.

Despus de localizar el archivo, lo seleccionamos y hacemos clic en Abrir, con lo que aparece el cuadro de dilogo correspondiente Aadir casos note como en la parte superior del cuadro se hace

referencia a la ubicacin y nombre del archivo externo, de donde sern extrados los casos.

Este cuadro se encuentra dividido en secciones; la primera corresponde a la lista de variables desemparejadas, en donde aparecen las variables que por algn motivo no se encuentran en los dos archivos. Generalmente son dos los factores que causan su aparicin, ya sea porque tienen nombres diferentes en cada uno de los archivos (EJ: NMHAB y HABITANT estas dos variables hacen referencia al nmero de habitantes de un hogar y su diferencia radica en el nombre que se le asigno en cada archivo); la segunda razn es por la existencia de variables nicas en cada archivo, es decir variables que fueron creadas en uno de los archivos pero omitidas en el otro.

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

La segunda seccin del cuadro corresponde a Variables en el nuevo archivo de datos de trabajo; en esta casilla encontraremos las variables que han coincidido en los dos archivos, la nica condicin que han cumplido estas variables es tener el mismo nombre y el mismo tipo de datos (Numrico o Cadena) en los dos archivos. Si nos fijamos en el listado observaremos que cada una de las variables cuenta con un nombre nico y no se encuentran duplicados; esto se debe a que el programa rene los casos de los dos archivos en una sola variable y le asigna el nombre que aparece en los dos archivos. Finalmente obtendremos el archivo final con los 200 registros producto de la fusin de casos, dicho archivo puede ser grabado con otro nombre manteniendo los archivos originales sin cambio alguno. 4. Seleccionar submuestras de datos En definitiva, la opcin Seleccionar casos del men Datos nos permitir trabajar con un subconjunto de casos o submuestra en lugar de con el total. Las caractersticas de la submuestra de datos dependern de la forma en que la hayamos escogido. Men Datos / Seleccionar casos

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

De esta forma, aparecer en pantalla un cuadro de dilogo en el que existen 5 opciones : Todos los casos: Esta es la opcin por defecto. Si escogemos esta opcin, todos los procedimientos estadsticos que realicemos sern aplicados sobre el conjunto de todos los casos. Si hemos filtrado nuestro archivo de datos de tal forma que slo estamos considerando determinados casos y queremos de nuevo trabajar con todos los casos, ser necesario que seleccionemos esta opcin. Si se satisface la condicin: Se establece una condicin para incluir o no en la seleccin a cada uno de los casos. Si un caso cumple la condicin, es seleccionado. Si no la cumple, no es seleccionado. Muestra aleatoria de casos: Selecciona una muestra aleatoria basndose en un porcentaje aproximado del nmero total de casos o en un nmero exacto de casos. Basndose en el rango del tiempo o de los casos: Sirve para seleccionar una muestra de sujetos adyacentes. Por ejemplo, para seleccionar del elemento 5 al 15, una vez seleccionada esta opcin, haramos clic en el botn Rango y, posteriormente, en el nuevo cuadro de dilogo teclearamos 5 como Primer caso y 15 como ltimo caso. Usar variable de filtro: Utiliza como variable para el filtrado la variable escogida del archivo de datos. Se seleccionan todos los casos que tomen para dicha variable un valor distinto de cero o que no sean valores perdidos del sistema.

El resultado puede ser: Los casos no seleccionados son descartados (aparecen tachados) Los casos seleccionados se copian en un nuevo conjunto de datos. Los casos no seleccionados sern borrados de forma permanente de la ventana

Ejemplo 4: Selecciona aquellas mujeres que tengan un nmero de hijos entre 2 y 4 (no elimines los casos no seleccionados!!!). Determina la media aritmtica y desviacin tpica de la variable n de hijos.

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

El resultado ser:

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

Instituto Nacional de Estadstica e Informtica SPSS BSICO

Escuela Nacional de Estadstica e Informtica

5. Dividir archivos. Este comando nos va a permitir dividir nuestro archivo de datos en distintos grupos de elementos. Por ejemplo, pensemos que tenemos las variables peso, edad y sexo.

Podramos estudiar el peso y la edad por separado en los hombres y en las mujeres. Men Datos / Dividir Archivo

Dividir o Segmentar un archivo es un procedimiento que crea un nuevo grupo cada vez que aparece un nuevo valor de la variable que se emplea para segmentar el archivo de datos. Las opciones que podemos seleccionar en el cuadro de dilogo son:

Analizar todos los casos, no crear los grupos: Analiza todos los casos juntos.

De esta manera, si se selecciona esta opcin se dejar de realizar los distintos anlisis estadsticos para cada uno de los posibles grupos en que estuviera segmentado el archivo, pasando a realizarse sobre el total de casos. Comparar los grupos: Los resultados obtenidos tras la ejecucin de un

determinado procedimiento se presentan juntos para que puedan ser comparados.

Organizar los resultados por grupos: Los resultados de cada grupo se presentan por separado para cada grupo en que est segmentado el archivo.

Ejemplo (Archivo Encuesta USA.sav): Separa los datos en grupos en funcin de la variable raza. Calcula a continuacin las medias aritmticas de cada grupo, las varianzas y las desviaciones tpicas de tal forma que aparezcan todos los resultados en una sola tabla para facilitar su comparacin, para la variable n de hijos.

6. AGRUPACIN VISUAL

La agrupacin visual est diseada para ayudar a "categorizar" datos de escala en rangos categricos (por ejemplo, edad en rangos de 10 aos). Su objetivo es el de ayudar en el proceso de creacin de variables nuevas, basado en la agrupacin de los valores contiguos de las variables existentes para dar lugar a un nmero limitado de categoras diferentes. Puede utilizarse para: Crear variables categricas a partir de variables de escala continuas. Por ejemplo, puede utilizar una variable de escala con el peso para crear una variable categrica nueva que contenga intervalos de peso. Colapsar un nmero elevado de categoras ordinales en un conjunto menor de categoras. Por ejemplo, es posible colapsar una escala de evaluacin de nueve categoras en tres categoras que representen: bajo, medio y alto.

El procedimiento: 1. Transformar/ Agrupacin Visual/ Seleccionar la variable numrica de escala u ordinales para la que se desea crear nuevas variables categricas (por ej. peso) 2. Poner el nombre a la nueva variable (xpeso)

Instituto Nacional de Estadstica e Informtica NOMBRE DEL CURSO

Escuela Nacional de Estadstica e Informtica

3. Crear puntos de corte. Hay tres opciones: Generar intervalos de la misma amplitud b) A travs de percentiles A travs de puntos de corte en la media y en desviaciones tpicas seleccionadas Aplicar. Poner etiqueta a los intervalos que van a crearse. Aceptar. Como alternativa, puede limitar la cantidad de casos que se van a explorar. Con los archivos de datos que contengan un gran nmero de casos, la limitacin del nmero de casos que se va a explorar puede ahorrar tiempo, pero debe evitarse este procedimiento en lo posible, ya que influir en la distribucin de los valores que sern utilizados en los clculos posteriores en la Agrupacin Visual. Nota: Las variables de cadena no se muestran en la lista de variables origen. La Agrupacin Visual requiere que las variables sean numricas, puesto que asume que los valores de los datos representan algn tipo de orden lgico que puede ser utilizado para agrupar los valores con sentido.

Numero de Pagina: 13

Total de Paginas:16

Instituto Nacional de Estadstica e Informtica NOMBRE DEL CURSO

Escuela Nacional de Estadstica e Informtica

EJERCICIOS
Ejercicio 1.En la siguiente tabla se muestran las ventas efectuadas por seis comerciales de una misma empresa en distintas ciudades espaolas, en los meses de julio, agosto y septiembre del ao 2007, as como el porcentaje que cada uno recibe en concepto de comisiones.

VENDEDO R MANUEL ANTONIO LUIS JOSE PEDRO JAVIER

PROVINCI A 1 2 2 3 1 3

COMISIO N 5.25 5.15 4.75 4.50 5.50 6.00

JULIO 2.500,0 0 3.420,5 0 5.632,2 0 4.263,1 5 2.323,1 0 5.241,0 0

AGOSTO 2.154,50 3.542,00 4.569,24 4.352,25 2.100,10 4.900,05

SEPTIEMBRE 3.050,50 2.700,20 5.900,45 4.980,63 3.025,52 4.950,10

Crea un archivo en SPSS con estos datos y gurdalo con el nombre ventas.sav Asigna etiquetas a las siguientes variables: COMISION: % comisin ejercicio 2007 2. Asigna la siguiente etiqueta de valor a la variable PROVINCIA: 3. Valor 1: Madrid Valor 2: Valencia Valor 3: Sevilla 4. Crea la variable VENTAS2T, con la suma de las ventas de julio, agosto y septiembre. Asgnale la etiqueta: ventas del 2 trimestre. 5. La empresa decide modificar las comisiones recibidas por sus agentes en base al siguiente criterio: i. aquellos agentes que cobraban hasta un mximo de un 4.80%, cobrarn ahora un 4,90% ii. los que cobraban ms de un 4.80% y hasta un 5.50%, pasan a cobrar 5.60%. iii. el resto seguir cobrando el mismo porcentaje. Nota: No elimines la variable comisin. 6. Ordena los casos segn las ventas realizadas en el mes de julio, de mayor a menor.

Numero de Pagina: 14

Total de Paginas:16

Instituto Nacional de Estadstica e Informtica NOMBRE DEL CURSO

Escuela Nacional de Estadstica e Informtica

7. Agrupa las ventas de julio, agosto y septiembre segn la ciudad en la que se hayan realizado (utiliza la funcin suma). 8. Selecciona aquellos casos que cumplan la condicin: ventas de septiembre mayor o igual a 3.500. 9. Considera valores perdidos para la variable JULIO, para aquellos valores comprendidos entre 2000 y 3500. 10. A partir de la variable JULIO, construye una nueva variable categrica, con tres intervalos de igual amplitud, denominada JULIO2 y con las siguientes categoras: MINIMO, MEDIO y ALTO. Ejercicio 2.11. En el archivo juventud.sav se recogen los resultados de una encuesta llevada a cabo durante 1999 entre jvenes espaoles, con estudios universitarios. Con los datos del citado archivo da respuesta a las siguientes cuestiones:

12. Crea la variable ingresototal, con la suma de los ingresos del encuestado y los ingresos de su pareja, slo para los encuestados que afirman que tienen una relacin afectiva estable.

13. Agrega los datos de la variable edad segn el tipo de ocio que disfruta el encuestado. Responde: Cul es la edad media de aqullos a los que les gusta hacer deporte en su tiempo de ocio?

14. Segmenta el archivo segn la variable ocio y calcula la media y la desviacin tpica de la variable ingresototal.

15. Selecciona los datos relativos a los hombres que afirman que recae en ellos la responsabilidad de limpiar la casa Cuntos casos hay?

16. Ordena los datos segn la variable edad, de mayor a menor y para una misma edad, segn los ingresos del encuestado de menor a mayor.

17. 6. Recodifica la variable tv crea una nueva variable denominada tv2, con etiqueta 18. horas ante la tv con 3 categoras: 1- Nivel bajo: [1-10] hora s
Numero de Pagina: 15 Total de Paginas:16

Instituto Nacional de Estadstica e Informtica NOMBRE DEL CURSO

Escuela Nacional de Estadstica e Informtica

2- Nivel medio: 3- Nivel alto:

(10-30] + 30

hora s hora s

19. Utilizando la Agrupacin Visual, construye una nueva variable denomina edad2 a partir de la variable edad con 4 intervalos de la misma amplitud. Asgnale etiqueta a esos 4 intervalos

Numero de Pagina: 16

Total de Paginas:16

Das könnte Ihnen auch gefallen