Sie sind auf Seite 1von 13

Tema :

APLICACIONES AL ANÁLISIS DE DATOS USANDO ESTADÍSTICAS CON


SPSS PARA INVESTIGACIONES MEDICAS
Curso: Informática Aplicada a la Investigación - Prof. Ulises ROMAN C- Enero. 2008

RESUMEN
En las investigaciones medicas en la actualidad, se usan mucho las estadísticas, para
generar cálculos, gráficos y reportes. Es así como la investigación estadística en todos
los campos de la ciencia (ciencias de la salud, economía, ciencias sociales, , ciencias de
la educación, etc) se ha visto facilitada con el uso de las herramientas
computacionales para su presentación y procesamiento, con ello generar resultados
sobre la exploración de los datos.

EL SPSS:
Statistical Package for the Social Sciences (SPSS), fue desarrollado por Hull y Nie
hace 30 años, en la actualidad con mas difusión mundial. Es un software modular
(base, mapas, tablas, modelos de regresión, modelos avanzados, pruebas exactas,
tendencias, categorías, análisis de conjuntos, valores perdidos, etc.). Chaid y spss
base ofrecen técnicas : para el acceso, manipulación, análisis y presentación de
datos: Análisis Exploratorio, tablas de contingencia, correlación y regresión lineal
múltiple, análisis factorial, discriminante y de conglomerados(clusters), calculo de
proximidad, etc.

VERSIONES SPSS:

SPSS 9 (versión Ingles)


SPSS 10 (Versión Ingles)
SPSS 12 (versión Español-Ingles)
SPSS 13 (versión Español-Ingles)
SPSS 14 (versión Español-Ingles)
SPSS 15 (versión Español-Ingles)
SPSS 16 (versión Ingles)

CARACTERISTICAS DEL SPSS:


- Graficas Mejoradas (3-D)
- Gestion de datos (Nombre de variables mas largos)
- Muestras complejas
- Sistema de Gestion de resultados

INSTALACION DEL SPSS:


1. Insertar CD  Opción instalar SPSS
2. Setup
3. Continuar con el proceso que indica el SW

ENTORNO DE TRABAJO DE SPSS:

VISTA DE DATOS (Figura Mostrada)


VISTA DE VARIABLES (Figura mostrada)

MODULOS CLASIFICACION
- PARA CLUTERS O CONGLOMERADOS O AGRUPACIONES: Minería de
Datos
MODULO CORRELACION
o PARA BIVARIADA, PARCIAL Y DISTANCIAS

MODULO REGRESION
o PARA BIVARIADA, PARCIAL Y DISTANCIAS
PRACTICA No.03 DE LABORATORIO

APLICACIONES AL ANÁLISIS DE DATOS USANDO ESTADÍSTICAS CON


SPSS PARA INVESTIGACIONES MEDICAS
Curso: Informática Aplicada a la Investigación - Prof. Ulises ROMAN C- Diciembre. 2008

Para el acceso, manipulación, análisis y presentación de datos como: Análisis


Exploratorio, tablas de contingencia, correlación y regresión lineal múltiple, análisis
factorial, discriminante y de conglomerados (clusters), calculo de proximidad, etc es
necesario contar con el software SPSS para este caso la versión 12/15/16. a
continuación se presenta esquemas generales – para lo cual se debe contar con la
DATA correspondiente del caso de la Investigación Medica:

1. Definir los Datos (vista de datos, propiedades, insertar variables, etc.)


2. Analizar (Tablas, modelos, Informes – pruebas no paramétricas, estadísticas
descriptivas,etc)
3. Transformar (calcular, decodificar, crear series temporales, etc.)
4. Mostrar las Graficas (Tipos de gráficos, mapas, etc.)

Ejercicio 1:
Los Directivos del Hospital Docente de la UNMSM pide que se haga un análisis
sanguíneo para 80 pacientes, dado que los valores de pH sanguíneo son las siguientes:
7.33 7.32 7.34 7.40 7.28 7.29 7.35 7.33 7.34 7.28
7.31 7.35 7.32 7.33 7.33 7.36 7.32 7.31 7.35 7.36
7.26 7.39 7.29 7.32 7.34 7.30 7.34 7.32 7.39 7.30
7.33 7.33 7.35 7.34 7.33 7.36 7.33 7.35 7.31 7.33
7.37 7.38 7.38 7.33 7.35 7.30 7.31 7.33 7.35 7.33
7.27 7.33 7.32 7.31 7.34 7.32 7.34 7.32 7.31 7.36
7.30 7.37 7.33 7.32 7.31 7.33 7.32 7.30 7.29 7.38
7.33 7.35 7.32 7.33 7.32 7.34 7.32 7.34 7.32 7.33
a) Definir la variable pH, Tipo (Numérico), Anchura(8), Decimal (2), Perdidos
(ninguno), columna(6), Alineación(derecha), Medida(Escala)

b) En Vista de datos ingresar los datos de los 80 individuos como se muestra en la


tabla anterior.

c) Realizar un análisis exploratorio completo de los datos del pH incluyendo


gráficos de caja y bigotes, diagramas de tallo y hojas y análisis de simetría de
normalidad.

d) Construir el histograma de frecuencias absolutas y relativas

e) Construir el histograma de frecuencias relativas acumuladas


Ejercicio 2:
Se tiene el archivo TIERRA que contiene indicadores demográficos, económicos,
sanitarios y otros tipos para diversos países del mundo entre los que se
encuentran la ESPERANZA DE VIDA FEMENINA (variable espvidaf), la
ESPERANZA DE VIDA MASCULINA (espvidam) y el PROCENTAJE DE
ALFABETIZACION (alfabet). En total contiene 26 VARIABLES como se muestra en
la figura . Se desea hacer procedimientos correlacionales bivarias para calcular: el
coeficiente de correlación de pearson, el coeficiente de Rho de Spearman y la
Tau-b de Kendall con sus niveles de significación. Los datos analizados son 109
países.
a) calcular: el coeficiente de correlación de pearson con sus niveles de
significación
b) Calcular de Pearson , el coeficiente de Rho de Spearman y la Tau-b de Kendall
con sus niveles de significación

c) Para el análisis de correlación bivaraida seleccionar dos o mas variables – puede


tomar las variables: alfabet , espvidam y espvidaf.

d) Interpretación de los resultados dados

Los Coeficientes de correlación pueden estar entre -1 (una relación negativa


perfecta) y +1 (una relación positiva perfecta). Un valor 0 indica que no existe una
relación lineal.
Ejercicio 3:
Se tiene el archivo TIERRA que contiene indicadores demográficos, económicos,
sanitarios y otros tipos para diversos países del mundo. Determinar los informes y
resumen de casos teniendo en consideración lo siguiente:

a) Seleccionar una o mas variables del archivo TIERRA para Clasificar la Población
Mundial (poblac), el indice de alfabetizacion (alfabet) y la mortalidad infantil
(mortinf) por religiones (relig).

b) Determinar Numero de casos, Media, Desviación típica, curtosis, Varianza,


Mínimo, Máximo, Porcentaje de N total

c) Interpretación de los resultados dados.

Ejercicio 4:
Se tiene la siguiente tabla bidimensional de frecuencias con los datos sobre presiones
diastolitas de la sangre tomadas en reposo. Los valores de las variables T denotan el
tiempo en minutos transcurridos desde el comienzo del descanso y los valores de la
variable P presentan las presiones diastolitas.

T 0 5 10 15 20
P
66 1 1 0 1 2
68 3 2 1 0 1
70 0 1 9 1 2
72 1 2 1 2 1
74 3 1 2 1 2

a) Introducir adecuadamente los valores de las dos variables P y T en la Columna


del Editor SPSS – Ejemplo para P=66 y T=0 se introduce 1 vez, P=68 y T=0 se
introduce 3 veces, y así sucesivamente se introduce cada para de valores.

b) Estudiar el grado de dependencia lineal existente entre las dos variables.

c) Hallar las distribuciones marginales de P y T y sus medias y desviaciones


d) típicas.

e) Hallar la Distribución de P condicionada a que T y su esperanza, varianza y


mediana.

f) Interpretar los resultados dados.


PRACTICA No.04 DE LABORATORIO
APLICACIONES AL ANÁLISIS DE DATOS USANDO ESTADÍSTICAS CON
SPSS PARA INVESTIGACIONES MEDICAS
Curso: Informática Aplicada a la Investigación - Prof. Ulises ROMAN C- Enero. 2008

Ejercicio 1:
Análisis de Cluster (conglomerados) el SPSS incorpora un procedimiento que
implementa el análisis de cluster no jerárquicos mediante el método de k-medias. Este
procedimiento intenta identificar grupos de casos relativamente homogéneos
basándose en las características seleccionadas y utilizando un algoritmo que puede
gestionar un gran numero de casos. El usuario debe especificar el numero de
conglomerados (centros iniciales de los conglomerados si conoce de antemano).
Trabajar con el Archivo TIERRA Para la solución completa se obtendrá los centros
iniciales de los conglomerados y la tabla ANOVA. Para cada caso se obtendrá
información del conglomerado y la distancia desde el centro del conglomerado. Ejm.
Podemos preguntar ¿ Cuales son los grupos identificables de países con población,
densidad de población y población urbana similares?. Son el Análisis de
Conglomerados k-medias, podrían agruparse los países en k grupos homogéneos
basados en las características consideradas.

a) Abrir el archivo TIERRA y guardar con TIERRACLUSTER

b) Realizar el análisis de cluster no jerárquico de k-medias. Las variables


clasificadoras a considerar son: Población (poblac), población urbana(urbana) y
densidad (densidad), como variable de agrupación usamos país(pais). En cuanto
a los datos las variables deben ser cuantitativas en el nivel de intervalo o
razón. Si las variables son binarias o recuentos, utilice el procedimiento análisis
de conglomerados jerárquicos.

c) Solo clasificar el numero de conglomeraciones

d) Hacer 30 iteraciones con medida

e) Interpretación de los resultados dados

Ejercicio 2:
Utilizar el archivo DIABETES_DBF.XLS, que contiene indicadores sociodemográficos,
indicadores clínicos, indicadores económicos, indicadores de respuestas adaptativas,
y otros de los pacientes de un Centro de Salud Publica. Determinar lo siguiente:
a) Convertir el archivo de DIABETES_DBF.XLS a DIABETES_DBF.SAV las 49
variables deberán ser definidos según la vista de variables de SPSS según su
tipo y característica de datos/variable.

b) Llenar los datos con (N=230) pacientes con Diabetes Mellitus, guardar la
información.

c) Determinar ¿ cuáles son los grupos identificables de pacientes con Diabetes


Mellitus tipo 2 (DM2), con obesidad y retinopatía similares?. Con el Análisis de
cluster o conglomerados (k-medias) podemos agrupar los pacientes en K grupos
homogéneos. Las variables de clasificación a considerar son: pacientes con
obesidad (pacobe), retinopatía (retin), cardiopatía (cardpa) y variable de
agrupación diabetes mellitus tipo 2 (DM2) en cuanto a los datos las variables
deben ser cuantitativas en el nivel de intervalos o de razón.

d) Según su trabajo de Investigación de Diabetes Mellitus 3 casos a ser


procesada por el Análisis de Cluster en sus tres módulos (jerárquico, no
jerárquico, dos fases) refererencia el punto c).

Ejercicio 3:
Se considera una muestra de 60 pacientes con cáncer de próstata en los que mide la
edad (edad), el nivel de acido (acido) que mide la extensión del tumor, el grado de
agresividad del tumor (grado), la etapa en la que se encuentra (etapa), los resultados
de una radiografía (radiogra) y cuando se ha detectado al intervenir quirúrgicamente
que el cáncer se ha extendido a los nodos linfáticos. A partir de estos datos se trata
de ajustar un modelo que permita predecir cuado el cáncer se extiende a los nodos
linfáticos (nodo) sin necesidad de intervención quirúrgica. Determinar lo siguiente:

a) Usar el archivo de datos (CANCER_PROSTATA.SAV) con sus variables


respectivas.

b) Usar el la regresión logística binaria ( analizar, regresión, logística binaria,


variables dependientes y covariables). La regresión logística resulta útil para
los casos en los que se desea predecir la presencia o ausencia de una
característica o resultado según los valores de un conjunto de variables
predictoras.

c) Analizar e interpretar los resultados, según los resultados del calculo.


Ejercicio 4:
Teniendo como modelo base el ejercicio No.3, usar el modelo de regresión logística
binaria para estudiar que factores significan riesgo de enfermedad cardiovascular.
Dada una muestra d pacientes a los que se mide : la situación de fumador (fumador),
dieta (dieta), ejercicios (ejer), consumo de alcohol (consual), y estado de enfermedad
cardiovascular (estado). Determinar:

a) Definir las variables con sus tipos de datos correspondientes y asignar el


nombre de archivo como CARDIOVASCULAR.SAV (puede tomar como
referencia el archivo DIABETES_DBF.SAV)

b) Ingresar los datos de 100 pacientes como mínimo y si es mayor mejor.

c) Construir el modelo utilizando las 4 variables (si requiere mas variables


agregar) de estilo de vida para predecir la presencia o la ausenta de la
enfermedad cardiovascular en una muestra de pacientes (N=100). El modelo
puede usar para estimar cada uno de los factores, ejem. Cuanto mas probable
es que los fumadores desarrollen una enfermedad cardiovascular frente a los
no fumadores.

d) Analizar e interpretar los resultados, según los resultados del calculo.

Nota: La variable dependiente debe ser dicotomica (1, 0)(presencia , ausencia)

Ejercicio 5:

Hacer un análisis estadístico usando SPSS para predecir el comportamiento de los


usuarios externos de los hospitales y/o Clínicas y/o enfermedades para determinar:
Cuales son los patrones de comportamiento en el presente y como será en el futuro
respecto a la atención, diagnostico, enfermedades y pronostico. Se debe determinar
cual es el perfil del usuario del servicio (edad, sexo, procedencia, grado de
instrucción, a que servicios acude más y otros). Para complementar en el análisis de
datos usar el concepto de minería de datos y generar gráficos y reportes
correspondientes usando el paquete SPSS (opcionalmente puede usar el Modulo de
Minería en EXCEL). Nota los datos deben ser reales para ver comportamiento real y la
predicción real (mínimo 200 usuarios, mejor si es mayor).

Para el Análisis de Datos pueden tomar 2 o más categorías debajo descritos- estos
son algunas aplicaciones que se puedan realizar en los Hospitales, Postas de Salud,
Clínicas, EsSalud y Consultorio de Salud.
1. Descubrir distintos comportamientos de una misma patología.
2. Realizar pronósticos ajustados a cada paciente.
3. Predecir las patologías que pueden aparecer como complicación de una
enfermedad determinada.
4. Encontrar la predisposición a padecer determinadas enfermedades.
5. Descubrir asociaciones entre patologías.
6. Determinar el mejor tratamiento individual para cada paciente.
7. Sistema de apoyo al diagnóstico.
8. Descubrir nuevas características de una patología.
9. Comparación entre parámetros clínicos.

Así, por ejemplo, en el caso de descubrir comportamientos de una misma patología, los
sistemas de minería de datos pueden encontrar subgrupos, dentro de una determinada
patología, que tienen características comunes dentro del mismo subgrupo y diferentes
entre los diversos subgrupos. Estas clasificaciones pueden encontrarlas el sistema de
manera automática, es decir, a partir de las relaciones que el sistema encuentra por sí
mismo y que no tienen porqué atenerse a las clasificaciones clásicas realizadas con
interés académico, clínico o fisiopatológico.

Das könnte Ihnen auch gefallen