Beruflich Dokumente
Kultur Dokumente
UNIDAD
DIDACTICA 0:
GESTIÓN Y
MANIPULACIÓN
DE ARCHIVOS
Visualización de
un archivo de
datos
Práctica 4. Abra el
archivo Depres.sav
y ordene a los sujetos en función de la
edad. Para ello debe seleccionar la
opción Ordenar casos del menú Datos e incorporar la variable edad como criterio de
ordenación.
Práctica 5. Observe ahora el efecto de ordenar el archivo en función del sexo y la edad,
incluyendo simultáneamente ambas variables como criterio de ordenación.
Práctica 6. Active la opción que permite mostrar las etiquetas de los valores en las variables,
seleccionando el botón Etiquetas de valor, , de la barra de herramientas. Pulsando de nuevo el
mismo botón volvemos a ocultar las etiquetas.
Práctica 7. Busque el caso 212 con el botón Ir a caso de la barra de herramientas.
Práctica 8. Continuando con el archivo Depres.sav, cree una nueva variable denominada país
con el valor constante 1 (al que etiquetaremos como USA) para todos los casos, ya que todos
los sujetos son norteamericanos (ver Figura 5). Para asignar la etiqueta USA al valor 1 debe
acceder a la pantalla Vista de Variables del Editor (ver Figura 2) y trabajar desde la columna
Valores, en la celdilla correspondiente a la variable país.
Práctica 9. Transforme la edad de los sujetos sumando un año. Lo podemos hacer
transformando la propia variable edad o creando una nueva variable, por ejemplo con el
nombre edad1. Haga esto último a partir de edad1 (variable de destino) = edad +1 (expresión
numérica).
Práctica 10. Defina una nueva variable (subescala) que sea la suma total de los cuatro primeros
ítems de la escala de depresión (variables c.1, c.2, c.3 y c.4). Lo hacemos a partir de subescala
(variable de destino) = c.1+c.2+c.3+c.4 (expresión numérica).
Transformar-calcular variable
Práctica 11. Transforme la variable ingresos en euros, teniendo en cuenta que viene expresada
originalmente en dólares y que 1 $ = 0,8 €. Hágalo creando una nueva variable denominada
ingresos€.
Práctica 17. Abra el archivo Datos Psicología sin depurar.sav y localice 5 errores de codificación
en algunas de las siguientes variables: sexo, edad, estatura, peso, calzado y estado civil.
Sexo
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
8 1 ,1 ,1 100,0
Estado civil
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Separado/a 2 ,1 ,1 99,6
Divorciado/a 3 ,2 ,2 99,8
Viudo/a 1 ,1 ,1 99,9
11 2 ,1 ,1 100,0
Perdidos Sistema 4 ,2
Identificación religiosa
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Perdidos Sistema 1 ,6
Práctica 3. En lugar de continuar trabajando con todos los sujetos del archivo vamos a
seleccionar los varones.
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Total 42 100,0
Práctica 4. A partir de las variables sexo y Modalidad de parjea preferida, seleccione a las
mujeres que se casarían por la iglesia y vuelva a obtener la distribución de frecuencias de la
variable Identificación religiosa.
Analizar-estadísticos descriptivos-frecuencias-religión-aceptar.
Identificación religiosa
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido Católico practicante 9 15,0 15,0 15,0
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
38 2 ,7 ,7 44,6
39 1 ,3 ,3 44,9
41 1 ,3 ,3 46,9
44 2 ,7 ,7 52,7
53 2 ,7 ,7 66,0
63 2 ,7 ,7 83,0
67 2 ,7 ,7 87,4
69 1 ,3 ,3 89,1
72 2 ,7 ,7 92,5
73 2 ,7 ,7 93,2
75 1 ,3 ,3 94,6
77 2 ,7 ,7 95,2
78 2 ,7 ,7 95,9
79 2 ,7 ,7 96,6
80 1 ,3 ,3 96,9
81 2 ,7 ,7 97,6
82 1 ,3 ,3 98,0
89 1 ,3 ,3 100,0
*Asimetría negativa. Por ejemplo calificaciones. La mayoría tiene unas puntuaciones con
respecto al 8-9 y poquitos 5-6 y menos con 2. la moda es myor que la mediana y la media. Es
aconsejable no usar la media sino la mediana.
*Simétrica: la media coincide con la mediana y la moda. Da igual usar mediana, moda o media.
Práctica 6. Vamos a efectuar cáculos adicionales con la edad, pulsando el botón Estadísticos
del cuadro de Frecuencias. Señale cuartiles, puntos de corte, media , mediana, moda, suma,
desv. Típica, varianza, amplitud/rango, mínimo máximo, e.t. Media, asimetría y curtosis.
Analizar-estadístios descritpvos-frecuencias-edad-estadísticos-metemos todo lo de arriba-
continuar-aceptar.
Estadísticos
N Válido 294
Perdidos 0
Media 44,41
Mediana 43,00
Moda 23
Varianza 328,195
Asimetría ,356
Curtosis -,954
Rango 71
Mínimo 18
Máximo 89
Suma 13057
Percentiles 10 22,00
20 26,00
25 28,00
30 31,00
40 35,00
50 43,00
60 50,00
70 57,00
75 59,00
80, ( 61,00
90 70
Interpretación: Las edades oscian entre los 18 t los 89 años, siendo la media 44,41 y la desv.
Típica 1,12 La distribución de la asimetría positiva (Fisher 0,356) refleja un cierto predominio
de las edades bajas y en el hecho de que el valor de la media 44,41 sea ligeramente superior a
la mediana de 43 años (la distribución hubiese sido simétrica si hubiesen coincidido los valores
de media, mediana y moda). Finalmente se apuntan los 9 deciles (percenties 10, 20.. y 90) que
se corresponden con las edades de 22, 26... y 70 años, respectivamente y os 3 cuartiles
(percentiles 25, 50, y 75 que se corresponden a las edades 28, 43, y 59 años.
*Fisher se ve en en Asimetría.
Práctica 8. A partir de los datos del archivo Global Psicología 1999-2009.sav, seleccione a las
mujeres de 18 años con una estatura entre 160 y 170cm y obtenga la correspondiente tabla de
percentiles (puntos de corte para 100 grupos iguales) del peso.
Estadísticos
Peso
N Válido 943
Perdidos 33
Percentiles 1 45,0000
2 46,0000
3 47,0000
4 48,0000
5 48,0000
6 49,0000
7 49,0000
8 49,0000
9 50,0000
10 50,0000
11 50,0000
12 50,0000
13 50,0000
14 50,0000
15 50,0000
16 50,0000
17 51,0000
18 51,0000
19 51,0000
20 51,0000
21 51,0000
22 52,0000
23 52,0000
24 52,0000
25 52,0000
26 52,0000
27 52,0000
28 52,0000
29 53,0000
30 53,0000
31 53,0000
32 53,0000
33 53,0000
34 54,0000
35 54,0000
36 54,0000
37 54,0000
38 54,0000
39 54,0000
40 54,5000
41 55,0000
42 55,0000
43 55,0000
44 55,0000
45 55,0000
46 55,5720
47 56,0000
48 56,0000
49 56,0000
50 56,0000
51 56,0000
52 57,0000
53 57,0000
54 57,0000
55 57,0000
56 57,0000
57 58,0000
58 58,0000
59 58,0000
60 58,0000
61 58,0000
62 58,0000
63 58,0000
64 59,0000
65 59,0000
66 59,0000
67 59,0000
68 60,0000
69 60,0000
70 60,0000
71 60,0000
72 60,0000
73 60,0000
74 60,0000
75 60,0000
76 61,0000
77 61,0000
78 62,0000
79 63,0000
80 63,0000
81 63,6400
82 64,0000
83 65,0000
84 65,0000
85 65,0000
86 65,9200
87 66,0000
88 66,7200
89 67,0000
90 68,0000
91 68,0000
92 69,0000
93 70,0000
94 70,0000
95 71,0000
96 73,9240
97 75,0000
98 78,1200
99 80,5600
Práctica 11 Analice la variable edad del archivo Drepress.sav desde el enfoque del Análisis
Exploratorio de datos, incorporando todas las opciones de análisis estadístico y los gráficos de
“tallos y hojas” y “caja”.
Descriptivos
Mediana 43,00
Varianza 328,195
Desviación estándar 18,116
Mínimo 18
Máximo 89
Rango 71
Rango intercuartil 31
Estimadores M
Percentiles
Percentiles
5 10 25 50 75
Valores extremos
Número del
caso Valor
2 114 83
3 148 83
4 198 83
5 257 83a
Menor 1 229 18
2 206 18
3 201 18
4 141 18
5 25 18
Muestra los cinco valores más altos (un sujeto de 89 años y cuatro de 83) y los cinco valores
más bajos (todos de 18 años) de la distribución.
10,00 1 . 8888899999
41,00 2 . 00000011111122222222233333333333444444444
29,00 2 . 55555556666666667777888889999
35,00 3 . 00000011111222222222233333444444444
17,00 3 . 55566666677777889
23,00 4 . 00000122222222333333344
21,00 4 . 555566677777788889999
21,00 5 . 000001111111222233444
29,00 5 . 55556667777778888888999999999
21,00 6 . 000000011111222233444
15,00 6 . 555556667788889
15,00 7 . 000001112233444
7,00 7 . 5778899
9,00 8 . 011233333
1,00 8 . 9
*En caso de ver datos atípicos los circulitos serían datos atípicos y los * datos atípicos
extremos. Considerándose atípicos los que se alejan del cuartil 1 por debajo o del cuartil 3 por
encima, en una distribución superior a 1,5 veces la longitud de la caja. I esta desviación supera
3 veces la longitud de la caja serían valores atípicos extremos. Se calcula por ejemplo 20 +1,5
(2) El (2) sería el resultado de Q3-Q1 y para realizar esta cuenta, primero mutiplicamos 1,5 por
el resultado de Q3-Q1, en este caso 2 y luego sumamos el resto, en este caso 20. Igual pero
cambiando el 1,5 por 3 sería en el caso de los valores atípicos extremos.
Práctica 14. Compruebe el supuesto de normalidad en la variable edad del archivo Psicología
2009.sav, a través de la prueba de Kolmogrov-Smirnov.
Kolmogorov-Smirnova Shapiro-Wilk
Práctica 1. Abra el archivo Psicología 2009.sav y construya una tabla de contngencia d las
variables sexo y ¿Eres fumador? (fumar).
Recuento
Sí No
Sexo Varón 15 27 42
Mujer 49 90 139
Práctica 2. En la misma tabla de contingencia que se acaba de reaizar, junto con las frecuencias
absolutas conjuntas, presente los porcentajes condicionales por filas, o calculados respecto al
total de varones y mujeres
Sí No
Práctica 4. Elabore un gráfico donde se aprecie la relación entre las dos variables de la tabla de
contingencia (género y el se o no fumador). Lo haremos representando en un diagrama de barras
los porcentajes adicionales del hábito de fumar respecto al total de varones y mujeres.
Entre los varones hay un 35,7% de fumadores y entre las mujeres un 35,3%, lo que supone un
porcentaje de fumadores muy similar en ambas muestras, por lo que apenas existen
diferencias de género respecto al hábito de fumar.
Práctica 5. Obtenga la prueba de significación chi-cuadrado junto con algunos índices para
evaluar el grado de asociación entre las variables.
Pruebas de chi-cuadrado
Significación Significación
asintótica Significación exacta
Valor gl (bilateral) exacta (bilateral) (unilateral)
a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 14,85.
Medidas direccionales
Error
estandarizado
Valor asintóticoa
Medidas simétricas
Significación
Valor aproximada
Interpretación: Según el resultado de la prueba Chi cuadrado de Pearson, vemos que el valor es
de 0,003; p=0,956, no podemos rechazar la hipótesis nula de independencia entre las variables,
porque es mayor de 0,05. Así, no parece existir relación entre el género y el hábio de fumar, no
existen diferencias significativas entre el 35,7% de fumadores en los varones y el 35,4% de
fumadoras en las mujeres.
Respecto al grado de relación entre las variables, la diferencia entre los porcentajes de
fumadores en los varones y las mujeres es de tan solo un 35,7%-35,3%=0,4%. Según e
coeficiente pi, 0,004, la magnitud de la asociación entre las variables es prácticamente nula, un
resultado idéntico o muy similar al de las demás medidas de asociación en las tablas, simétricas
y direccionales.
*En el análisis de tablas de contingencia con dos variables cualitativas, la prueba Chi-cuadrado
es el estadístico más aplicado para evaluar si existe o no una relación estadísticamente
significativa entre las variables. La validez de esta prueba depende del cumplimiento de una
serie de condiciones, como por ejemplo el que las frecuencias esperadas bajo el puesto de
independencia no sean demasiado pequeñas: que el porcentaje de frecuencias esperadas menor
que 5 no supere el 20% del total de frecuencias esperadas. Cuando la tabla consta de 2 filas y 2
columnas, es habitua e empleo de prueba inferenciales alternativas a la Chi cuadrado, como
Fisher. Finalmente respecto a los múltiples indices para valorar el grado de asociación entre las
variables, os hemos centrado en dos de los más aplicados en las tablas 2x2: la diferencia de
posiciones (o porcentajes) y el coeficiente phi.
Práctica 11. A partir de archivo Depres.sav, vamos a contruir tablas de contingencia para las
variables sexo y Diagnóstico (diagnos). Pero estatificadas por la variable ¿Bebe habitualmente?
(bebida).
Recuento
Normal Deprimido
Si Sexo Varón 87 8 95
NO Sexo Varón 15 2 17
Mujer 37 7 44
Total 52 9 61
Práctica 12. A partir del archivo Psicología 2099.sav obtenga el diagrama de dispersión de las
variables calzado y estatura.
Interpretación: Se aprecia una clara relación lineal directa entre ambas variables: conforme
aumenta la estatura también lo hace en el número de calzado. Así, los sujetos de baja estatura
suelen tener un número de calzado pequeño y los altos u mayor número de calzado.
Correlaciones
Calzado Estatura
N 181 181
N 181 181
Cuantifica el grado de relación lineal entre dos variables controlando el posible efecto de una o
más variables adicionales.
Práctica 18. El archivo Mireault.sav contiene los datos de una muestra de 381 estudiantes
universitarios a los que se les administró el Inventario Breve de Síntomas, una medida de
autoinforme que explora múltiples aspectos de la sintomatologia psicológica: depresión
ansiedad, psicoticismo, hostilidad, somatización, obsesiones... Calcule el coeficiente de
correlación parcial entre las variables ansiedad y depresión, una vez controlado el efecto de la
sintomatología obsesiva.
Correlaciones
Variables de control Depresión Ansiedad Obsesión
gl 0 373 373
gl 373 0 373
gl 373 373 0
gl 0 372
gl 372 0
Informe
Peso
Desviación
Sexo Media N estándar Mediana Mínimo Máximo Varianza Asimetría
Interpretación: Sí, se observa una clara relación entre las variables genero y peso, en el sentido
de que los varones pesan en promedio 12,24kg más que las mujeres.
Práctica 21. Elabore un diagrama de barras donde se muestre los pesos medios de los varones y
las mujeres.
*Se puede cambiar el aspecto del gráfico para que la diferencia entre ambas variables parezca
más o menos pronunciada. Cambiando los límites del eje vertical o de ordenadas (Y). Para elo
hay que hacer doble click sobre gráfico con el botón izquierdo del ratón. Pulsar el icono Y en el
Editor de Gráficos y en e cuadro de Propiedades pulsar la pestaña Escala, donde se pueden
cambiar los valores mínimo y máximo.
Práctica 23. Otra alternativa gráfica consiste en presentar simutáneamente dos “diagramas de
caja” de la variable peso uno para cada valor de sexo, loq ue posibilitará una comparación más
directa de la distribución de peso entre varones y mujeres.
Estadísticas de grupo
El resultado de la prueba T=177; p=0,050 nos indica que existen diferencias estadísticamente
significativa entre los pesos medios de los varones y mujeres, ya que el correspondiente nivel
crítico de probabilidad es igual a 0,05. El sentido de la diferencia entre las medias se reflea en
que los varones pesan en promedio 12,24kilos más que las mujeres.
Finalmente para evaluar la significación práctica del resultado, podemos obtener el valor de la
diferencia media tipificada, d=1.24, nos informa de que la magnitud de la diferencia entre las
dos medias es muy elevada respecto a los resultados encontrados en a investigación de las
Ciencias de la Salud.
*La interpretación del valor de una diferencia media tipificada puede hacerse ayudándonos el
criterio propuesto por Cohen, según el cual los valores 0,2, 0,5 y 0,8 corresponderían a un efecto
típicamente bajo, medio y alto respectivamente en el ámbito de las Ciencias Sociales y de la
Salud.
Práctica 31. En el archivo de Dogas.sav, compare las medias de las variables Ansiedad Pretest
(ans1) y Ansiedad Postest (ans2), con el propósito de contrastar si se ha producido una
disminución significativa en los niveles de ansiedad del pretest a postest.
N Correlación Sig.
Diferencias emparejadas
Inferior Su
El resultado de la prueba T (49); p=0,000 nos indica que la diferencia entre los niveles medios
de ansiedad es estadísticamente significativa, ya que el nivel critico de probabilidad es inferior a
0,05. Ambas medias difieren en e sentido de una reducción significativa de a ansiedad en e
pretest 70,74 a la de pstest 59,84.
Finalmente para evaluar la significación práctica del resultado podemos obtener el valor de la
diferencia media tipificada, a partir de la expresión d=0,60, que nos informa de que la
disminución en los niveles promedio de ansiedad es de una magnitud media respecto a los
resultados tipicamente encontrados en la investigación sanitaria.
Práctica 32. Elabore un gráfico de barras donde se muestre el cambio en las medias de ansiedad
del pretest al postest.
Estadísticos descriptivos
Desviación
Farmaco Media estándar N
,830 2 20 ,450
Total 8702,000 23
A continuación, interpretamos el resultado de la prueba F del ANOVA, que en este caso arroja
un resultado estadísticamente significativo (F(2, 20)=15,886, p=,001). Por tanto, podemos
concluir que el nivel medio de síntomas maníacos con los pacientes que recibieron los tres
fármacos no es el miso en el postest es decir, tras la finalización del tratamiento.
El gráfico de las medias nos ayuda a interpretar este resultado significativo, observando cómo
los pacientes que se sometieron al litio y la Carbamazepina presentan medias de 16,71 y 16,25,
respectivamente) inferiores a la media obtenida por los pacientes sometidos a Divalproex sodio
(media igual a 23,63), lo que indica que el litio y la carbamazepina parecen funcionar mejor
que el divalproex sodio en cuanto a la presencia de síntomas maníacos. No obstante el
resultado de la prueba F no nos permite ir más allá en la comparación de las tres medias, ya
que es una prueba ómnibus, es decir, evalúa la significación global de las diferencias existentes
entre el conjunto de todas las medias. Para examinar más en detalle las diferencias entre los
fármacos tendremos que aplicar pruebas de comparaciones a posteriori.
YMRS2
Comparaciones múltiples
HSD Tukey
Diferencia de
(I) Farmaco (J) Farmaco medias (I-J) Error estándar Sig. Intervalo de confianza al 95%
YMRS2
HSD Tukeya,b
1 2
Carbazepina 8 16,25
Litio 7 16,71
Divalproex Sodio 8 23,63
En, la primera tabla de salida tenemos los resultados de todas las comparaciones simples entre
los fármacos. Vemos que a comparación entre Litio y Carbamazepina no ha resultado
estadísticamente significativa p=,949 ya que la diferencia entre las medias es mínima (solo 0,46
puntos. Sin embargo, la comparación entre Litio y Divalproex sodio (p=<0,001) y la de
Carbamazepina y Divaproex sodio (p<,001) fueron estadísticamente significativas, con
diferencias entre sus medias de 6,91 y 7,38 respectivamente. Se deduce pues, que los resultados
con Litio y Carbamazepina son muy similares, y a su vez están por encima de los obtenidos con
Divalproex sodio.
3. ANOVA FACTORIAL.
Cuando son dos o más los factores a poner en relación con una variable dependiente
cuantitativa.
Para responder a cada pregunta es precios formular una hipótesis nula con su correspondiente
hipótesis alternativa.
a. Factor A:
c)Interacción AxB
Ha: si existe.....
Cuando son los mismos sujetos los que pasan por las diferentes condiciones experimentales.
Podemos encontrar ANOVA de medida totalmente repetidas, cuando todos los factores son de
medidas repetidas o intra-sujeto. Y ANOVA factorial mixto, cuando al menos un factor es de
medidas repetidas o intra-sujeto y al menos un factor es inter-sujeto.
3.3 ANOVA de medidas totalmente repetidas:
Variable dependiente cuantitativa, comprobar si el factor intra-sujeto influye sobre la variable
dependiente aplicando anova de un factor de medidas repetidas. Da una razón F que nos permite
ver qué hipótesis aceptar. Ho cuando no hay diferencias Ha cuando si hay diferencias. <0,05 se
rechaza Ho >0,05 se acepta Ho.
Además del supuesto de normalidad y homogeneidad, hay que cumplir el supuesto de
esfericidad (Prueba de Mauchly). Si no se cumpe el supuesto se interpreta alguna de las pruebas
F robustas univariantes que el programa incorpora (Greenhouse-Geisser, Huynh-Feldt o Límite
inferior), o bien alguna de las pruebas multivariantes (Lambda de Wilks, Traza de Pillai-Bartlett,
Raiz característica mayor de Roy o Traza de Hotelling).
Ejemplo pg 11:
Analizar-modelo lineal general-medidas repetidas-niveles (3)-añadir-definir-meter las variables
en Variables intra-sujetos (p.ej YMRS 1, 2 y 3-opciones (Estadísticos descriptivos, estimación
del tamaño de efecto)-Gráfico-pasar factor 1-añadir-continuar-aceptar.
Factores dentro de
sujetos
Medida: MEASURE_1
Variable
factor1 dependiente
1 YMRS1
2 YMRS2
3 YMRS3
Estadísticos descriptivos
Desviación
Media estándar N
Pruebas multivariantea
Eta parcial al
Efecto Valor F Gl de hipótesis gl de error Sig. cuadrado
a. Diseño : Intersección
b. Estadístico exacto
Medida: MEASURE_1
Aprox. Chi-
Efecto inter sujetos W de Mauchly cuadrado gl Sig. Épsilonb
Greenhouse-
Geisser Huynh-Feldt
Prueba la hipótesis nula que la matriz de covarianzas de error de las variables dependientes con transformación ortonormalizad
proporcional a una matriz de identidad.
a. Diseño : Intersección
Medida: MEASURE_1
Medida: MEASURE_1
Medida: MEASURE_1