Beruflich Dokumente
Kultur Dokumente
22
En la parte inferior aparecen cuatro botones. Cada uno de ellos despliega una ventana de la que se sale
pulsando
no lo vemos.
El botn
muestra la ventana de ms abajo (que dejamos como est). En ella se especifican los
valores P para entrar (Entrada 0,05) y P para salir (Salida 0,10) tpicos del procedimiento por pasos (que
no es el del caso actual), as como que se desea que la ecuacin a ajustar contenga el trmino a = altura en
el origen (casilla Incluir constante en la ecuacin). Si se desmarca esta ltima casilla, SPSS ajustar la
ecuacin y = ixi; como est marcada, ajustar lo tradicional: y = + ixi.
Tras todo ello, una vez regresados a la ventana principal, se pulsa
todo lo solicitado
23
. Introducir
11007,949
50
220,159
13791,170
52
Total
a Variables predictoras: (Constante), Presin sistlica media, Logaritmo de la dosis
24
La penltima tabla que aparece (la ltima no interesa) es la de ms abajo, la cual especifica lo siguiente (no
se comenta la columna Coeficientes estandarizados pues no se la ha estudiado en clase):
Fila 1: El estimador de (la altura en el origen) es a = 23,011, con un intervalo de confianza de
13,716 a 59,737 (al 95%) que contiene al 0 (lo que indica que es posible que = 0). Esto se ve
corroborado por el contraste de hiptesis para H0 = 0, que da un valor P = 0,214 > 0,05 concluir
H0 es aceptable un modelo sin trmino independiente. Como este no era el problema actual, el
resultado no tiene inters.
Fila 2: El estimador de 1 (el coeficiente del Logaritmo de la dosis) es b1 = 23,639, con un intervalo
de confianza de 9,884 a 37,393 (al 95%) que no contiene al 0 (lo que indica que 1 0). Esto se ve
corroborado por el contraste de hiptesis para H0 1 = 0, que da un valor P = 0,001 0,05
rechazar H0 para presiones fijadas, existe asociacin entre la dosis y el tiempo la dosis aade
informacin extra acerca del tiempo sobre la proporcionada por la presin.
Fila 3: Proporciona datos similares a los de la Fila 2, pero ahora para la variable Presin sistlica
media, que tambin resulta ser significativa.
Como consecuencia de todo ello, tanto la dosis como la presin son relevantes para predecir el tiempo
(no pudindose omitir ninguna de ellas sin una prdida relevante de informacin).
Coeficientes(a)
Modelo
Coeficientes no
estandarizados
B
Error tp.
23,011
18,285
(Constante)
Logaritmo de
la dosis
Presin
sistlica media
23,639
6,848
Coeficientes
estandarizados
Sig.
1,258 ,214
Lmite
inferior
-13,716
Lmite
superior
59,737
9,884
37,393
-1,320
-,109
Beta
,022
2,371
a Variable dependiente: Tiempo de recuperacin
-,715
,301
Intervalo de confianza
para B al 95%
-,339
pantalla de ms abajo que hay que rellenar como se indica. Tras pulsar
SPSS sacar la grfica
solicitada en el Visor de Resultados: grfica (a) de la siguiente pgina.
Las otras tres grficas -Linealidad en Dosis grfica (b), Linealidad en Presin grfica (c) y No
interaccin grfica (d)- se obtienen de modo similar. Todas las grficas se comentan al pi de ellas.
25
26
Unstandardized Residual
40,00000
20,00000
0,00000
-20,00000
1,00
1,50
2,00
2,50
3,00
Logaritmo de la dosis
Unstandardized Residual
40,00000
20,00000
0,00000
-20,00000
50,00
100,00
150,00
200,00
250,00
dp
27
28
DOSIS
ALBUMINA
Variables introducidas/eliminadas(a)
Variables
eliminadas
Mtodo
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
La segunda salida es similar a la de la tabla de abajo (Resumen del modelo). Ella presenta los valores del
coeficiente de determinacin para cada uno de los tres modelos. Ntese que R va aumentando conforme
van entrando ms variables en el modelo (lo que puede no ocurrir si las variables tienen datos faltantes).
Para el Modelo 1 (en el que slo est REDUREA) R2 = 0,061: solo el 6,1% de la variabilidad del valor
hematocrito se debe a la reduccin de urea tras la sesin de hemodilisis.
Resumen del modelo
R cuadrado Error tp. de
Modelo
R
R cuadrado
corregida
la estimacin
1
,248(a)
,061
,051
3,69292
2
,319(b)
,102
,082
3,63209
3
,394(c)
,155
,128
3,54138
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBMINA
La tercera tabla (ANOVA de ms abajo) presenta el anlisis de la varianza del test global para cada uno
de los modelos: H0 1 = 2 = = K = 0 (independencia global) vs.H1 En alguna ocasin i 0
(dependencia global) para K = 1, 2 o 3 respectivamente. Su significado ya fue descrito en la Actividad 1.
ANOVA(d)
Suma de
Media
cuadrados
cuadrtica
Modelo
gl
F
Sig.
1
Regresin
83,786
1
83,786
6,144
,015(a)
Residual
1281,939
94
13,638
Total
1365,724
95
2
Regresin
138,859
2
69,429
5,263
,007(b)
Residual
1226,866
93
13,192
Total
1365,724
95
3
Regresin
211,919
3
70,640
5,633
,001(c)
Residual
1153,806
92
12,541
Total
1365,724
95
a
b
c
d
La cuarta tabla (Coeficientes de ms abajo) da los estimadores, intervalos y tests para los parmetros de
cada uno de los modelos (tambin de modo similar al descrito en la Actividad 1). El mayor inters radica
en el Modelo 3: HEMATOCRITO = 13,713 + 0,165REDUREA 0,062DOSIS + 2,354ALBMINA
para valores constantes de las otras variables independientes, el valor hematocrito aumenta con la
reduccin de urea y la albmina, pero disminuye con la dosis. El resto de las interpretaciones son como en
la Actividad 1. Como ninguno de los valores P de esta tabla es 10% ninguna variable sale del
modelo.
Finalmente, la tabla Variables excluidas de ms abajo, muestra los tests para cada una de las variables
candidatas a entrar en el modelo tras cada uno de los pasos (pero que finalmente no fueron seleccionadas
en el mismo). As, tras el primer paso (Modelo 1 que contiene solo a REDUREA), el valor ms pequeo de
29
P es el correspondiente a la variable DOSIS (P = 0,044 0,05) esa fue la variable que entr para formar
el Modelo 2 acompaando a REDUREA. Tras el segundo paso (Modelo 2 que contiene a REDUREA y
DOSIS), quedaban fuera la albmina y la creatinina y, como la de menor valor de P es la ALBMINA (P
= 0,018 0,05) esa fue la variable que entr para formar el Modelo 3 acompaando a REDUREA y
DOSIS. Tras el tercer paso (Modelo 3 que contiene a REDUREA, DOSIS y ALBMINA), la nica que
queda fuera es la creatinina: ella no entra en el modelo pues su valor P = 0,207 > 0,05.
Coeficientes(a)
Coeficientes no
estandarizados
Modelo
1
(Constante)
REDEUREA
(Constante)
REDEUREA
DOSIS
(Constante)
REDEUREA
DOSIS
ALBMINA
2
3
B
16,774
,203
20,233
,195
-,053
13,713
,165
-,062
2,354
Error
tp.
5,104
,082
5,298
,081
,026
5,829
,080
,026
,975
Coeficientes
estandarizados
Intervalo de confianza
para B al 95%
t
3,287
2,479
3,819
2,415
-2,043
2,353
2,067
-2,432
2,414
Beta
,248
,238
-,201
,201
-,236
,237
Sig.
,001
,015
,000
,018
,044
,021
,042
,017
,018
Lmite
inferior
6,640
,040
9,713
,035
-,104
2,136
,006
-,113
,417
Lmite
superior
26,907
,366
30,753
,356
-,001
25,290
,323
-,011
4,292
Variables excluidas(d)
Estadsticos
de
colinealidad
Modelo
1
2
3
a
b
c
d
Beta dentro
ALBMINA
,201(a)
CREATININA
-,129(a)
DOSIS
-,201(a)
ALBMINA
,237(b)
CREATININA
-,109(b)
CREATININA
-,122(c)
t
2,022
-1,299
-2,043
2,414
-1,100
-1,270
Sig.
,046
,197
,044
,018
,274
,207
Correlacin
parcial
,205
-,133
-,207
,244
-,114
-,132
Tolerancia
,978
1,000
,997
,956
,988
,985
Guin Prctica IV
REGRESIN LOGSTICA
_____________________________________________________________________________
IV.0. Archivos implicados en este guin (tipo)
Hiperutilizador (SPSS).
Infeccion (SPSS).
IV.1: Actividad 1
Se desea determinar de qu depende la hiperutilizacin de los servicios de atencin primaria (uso
excesivo de los mismos). Para ello se tom una muestra de 1.112 pacientes que haban acudido a las
consultas de Atencin Primaria de varios Centros de Salud y se les clasific segn las tres covariables Sexo,
Edad y Sufrir Patologa Crnica y segn que hubieran sido en ese ao Hiperutilizadores o no. Se desea
determinar cules de las tres variables anteriores influyen en ser o no hiperutilizador (cuando se las
considera actuando de modo conjunto). Los datos figuran en el archivo: Hiperutilizador.
Es el mismo ejemplo de clase la interpretacin de sus resultados es como all!
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el ser hiperutilizador de los servicios de atencin
primaria (Hiperutilizacin 0=No, 1=S 1 es la enfermedad), las variables de apoyo (xi), todas ellas
dicotmicas, son el sexo (Sexo 0=Hombre, 1=Mujer 1 es el factor de riesgo), la edad (Edad
0=<65 aos, 1=65 aos 1 es el factor de riesgo) y la presencia de una patologa crnica (Crnica
0=No, 1=S 1 es el factor de riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = + 1(Sexo)
+ 2(Edad) + 3(Crnica).
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s hiperutilizacin.
Peticin de resultados: ventana principal
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (Hiperutilizacin) a la caja de Dependientes (variable y = logit p) y las variables Sexo, Edad y Crnica a la caja
de Covariables (variables x1, x2 y x3).
Adicionalmente, pulsando en la caja Mtodo se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir (marcada de oficio) a fin de ajustar el modelo con todas las variables que se
pusieron en el cajn de Covariables. La opcin Adelante:Condicional (mtodo paso a paso ascendente
similar al ya visto en regresin mltiple) no la vemos, pero su objetivo es similar al del captulo anterior.
32
An falta por definir qu categora es la de referencia (la de no riesgo) en cada una de las covariables
categricas incluidas en el problema (todas en nuestro caso). Con tal fin hay que seleccionar una a una las
covariables y utilizar los botones y opciones presentes en Cambiar contraste en cada una de ellas (abajo
se ilustra como quedara la ventana en nuestro ejemplo):
En Contraste elegir siempre Indicador;
En Categora de referencia hay que indicar cul es la categora de no riesgo para la variable
seleccionada. SPSS ofrece por defecto la Ultima (dejarlo as cuando sea lo apropiado), pero en
nuestro caso siempre es la Primera (pues el valor 0 alude siempre al no riesgo), que es la que hay
que marcar en las tres variables.
Por ltimo, para que el cambio sea efectivo hay que pulsar el botn Cambiar: en ese momento, en la
ventana Covariables categricas el texto Sexo(indicador) cambia a Sexo(indicador(primera))
cuando se seleccion Primera. Si se hubiera dejado Ultima, aparecera solo Sexo(indicador)
Pulsando
El botn
33
El botn
permite obtener estadsticos y grficos, o cambiar el criterio de construccin del
modelo. Tras pulsarlo aparece una ventana como la de abajo (ya rellenada en lo que interesa) de la que se
sale pulsando
34
Pulsando ya
y a continuacin
problema (todas en nuestro caso) y las frecuencias obtenidas. Obsrvese que como las tres covariables son
binarias cada una da lugar a una sola covariable de valores 0/1.
Codificaciones de variables categricas
Codificacin
de parmetros
Sufrir
enfermedad
crnica
Edad
cortada en
65 aos
Sexo
No
S
Frecuencia
655
(1)
,000
457
1,000
< 65 aos
>=65 aos
502
,000
610
1,000
Hombre
Mujer
La cuarta salida de SPSS (abajo) no tiene inters.
475
637
,000
1,000
Tabla de clasificacin(a,b)
Observado
Pronosticado
Ser hiperutilizador
No
S
Paso 0
Ser
No
hiperutilizador
S
Porcentaje global
a En el modelo se incluye una constante.
b El valor de corte es ,500
Porcentaje
correcto
793
100,0
319
,0
71,3
35
La quinta salida de SPSS es la tabla de abajo: analiza el modelo con solo el trmino independiente (sin
inters).
Variables en la ecuacin
Paso 0
Constante
B
-,911
E.T.
,066
Wald
188,645
gl
1
Sig.
,000
Exp(B)
,402
La sexta salida de SPSS es la tabla de abajo: permite saber si las diferentes variables presentes el modelo,
Variables
SEXO(1)
EDAD(1)
CRON(1)
Estadsticos globales
Puntuacin
13,353
63,922
88,726
116,521
gl
1
1
1
3
Sig.
,000
,000
,000
,000
La sptima salida de SPSS es la tabla de abajo: presenta diferentes tests globales dependiendo del mtodo
de construccin del modelo empleado solo nos interesa la fila Modelo (que es la que alude al mtodo de
Introducir que se ha empleado). Ella alude al test global H0: 1 = 2 = = K = 0 (independencia global)
vs. H1: Alguna igualdad no es cierta (dependencia global). En nuestro caso:
2
Como exp
= 119,363 (g.l. = 3 = n de covariables) da P = 0,000 0,05 al menos una de las variables
presentes en el modelo (que incluye a todas las variables) est asociada a la hiperutilizacin.
Esta es la primera tabla relevante: si ella no diera significativa, el problema finaliza (ninguna variable
influye en la infeccin).
Pruebas omnibus sobre los coeficientes del modelo
Paso 1
Chi-cuadrado
Paso
119,364
Bloque
119,364
Modelo
119,364
gl
3
3
3
Sig.
,000
,000
,000
Puesto que el test global dio significativo conviene ver las medidas de resumen de la octava salida de
SPSS (tabla de abajo). Segn ella, el 10,2% de la variabilidad de la hiperutilizacin es debida a la relacin
de esta variable con el sexo, la edad y el padecer una enfermedad crnica (en trminos de la R2 de CoxSnell). En el caso del coeficiente de Nagelkerke: el 14,6% de la variabilidad de la hiperutilizacin la
explican las tres variables presentes en el modelo.
Resumen de los modelos
Paso
1
-2 log de la
verosimilitud
1213,537(a)
R cuadrado
de Cox y
Snell
,102
R cuadrado
de
Nagelkerke
,146
Para evaluar si el modelo logstico ajustado es el adecuado hay que contrastar H0: Los datos de la muestra
se representan bien por un modelo logstico vs. H1: Los datos de la muestra no se representan bien por un
2
modelo logstico. La novena salida de SPSS (tabla de abajo) responde a esa pregunta. Como exp
= 1,719
(g.l. = 5 = n de covariables) da P = 0,886 > 0,10 el test no es significativo y el modelo se ajusta bien a los
datos puede aceptarse todo lo que sigue y lo anterior.
36
Chi-cuadrado
1,719
gl
Sig.
,886
Tabla de clasificacin(a)
Observado
Pronosticado
Ser hiperutilizador
No
Paso 1
Ser
No
hiperutilizador
S
Porcentaje global
Porcentaje
correcto
793
100,0
319
,0
71,3
La tabla ms importante es la de la undcima y ltima salida de SPSS (abajo). Ella es la que proporciona
Paso
1(a)
SEXO(1)
EDAD(1)
CRNICA(1)
Constante
B
,137
,798
1,028
-1,968
E.T.
,150
,158
,146
,146
Wald
,827
25,349
49,818
180,451
gl
1
1
1
1
Sig.
,363
,000
,000
,000
Exp(B)
1,147
2,220
2,796
,140
IV.2: Actividad 2
Estudiar qu variables influye sobre la presencia de una infeccin postoperatoria (en pacientes intervenidos
de apendicitis aguda) en base al fichero de datos Infeccion que contiene las siguientes 8 variables:
37
SEXO
EDAD
DURACLI
TIPAPEN
DURACINT
INFEC
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el sufrir una infeccin (Infec 0=No, 1=S 1 es la
enfermedad), las variables de apoyo (xi) son el tratamiento aplicado (Tratamiento dicotmico
1=Irrigacin es el factor de riesgo), el sexo (Sexo dicotmico 1 es el factor de riesgo), la edad
(Edad cuantitativo a ms edad, ms riesgo), la duracin de la clnica (Duracli cuantitativo a ms
duracin, ms riesgo), el tipo de apndice (Tipapen categrico con 3 clases dar lugar a dos variables
Tipapen(1) Flemonoso s/no y Tipapen(2) Gangrenoso s/no si se entiende que Normal = categora
de no riesgo) y la duracin de la intervencin (Duracint cuantitativo a ms duracin, ms riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = +
1Tratamiento + 2Sexo + 3Edad + 4Duracli + 5Tipapen(1) + 6Tipapen(2) + 7Duracint.
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s infeccin.
Peticin de resultados
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (abajo). En ella ya se han realizado las acciones de pasar la variable objetivo (Infec) a la caja de
Dependientes (variable y = logit p), el resto de las variables (salvo Nupac) a la caja de Covariables y
dejado la seleccin de Introducir (para que as SPSS contemple a todas las variables).
38
El siguiente paso consiste en indicarle a SPSS qu variables son categricas (las dems las contemplar
como cuantitativas), para lo cual se pulsa el botn
y, en la ventana que se obtiene (la de ms
abajo, que contempla las acciones que siguen) se pasan las covariables categricas Tratamiento, Sexo y
Tipapen del cajn Covariables al cajn Covariables categricas.
El siguiente paso es identificar la categora de referencia (de no riesgo) de cada una de estas covariables
categricas. Para ello, con cada una de las tres covariables implicadas hay que actuar as (abajo se indica
cmo quedara la ventana anterior tras las operaciones que siguen):
Tratamiento: los investigadores del estudio pensaban que el tratamiento con antibiticos era el de
menor riesgo de infeccin 0=Antibitico es la categora de referencia pinchar sobre la covariable
Tratamiento en la caja de Covariables categricas, seleccionar Primera en la opcin Categora de
referencia
y pulsar el botn
.
Sexo: los investigadores no tenan claro cul poda ser la categora de referencia se puede elegir la
que sea si elegimos 0=Hombre (la Primera) se actuar igual que arriba (pero con la covariable
Sexo).
Tipapen: el tipo de apndice presenta tres categoras (de menos a ms deterioro del apndice)
conforme mayor sea la categora, ms deteriorado estar el apndice mayor riesgo de infeccin
postoperatoria existir el apndice 1=Normal ser la categora de referencia (de menor riesgo) y
las categoras 2=Flemonoso y 3=Gangrenoso sern dos categoras de riesgo. Como 1=Normal
tiene el valor ms bajo l se emplear como categora de referencia la Primera actuar como
arriba (pero con la covariable Tipapen).
39
Tras pulsar
se regresa a la pantalla inicial en la que pulsaremos
a fin de marcar
Bondad de ajuste e IC para exp(B) como en la Actividad 1. La nueva ventana es la misma de entonces
(abajo aparece con las selecciones ya marcadas). Tras pulsar
que ya solo hay que pulsar
Tipo de apndice
Normal
Flemonoso
Gangrenoso
Hombre
Mujer
Tratados con
antibiticos
Tratados con irrigacin
Frecuencia
27
88
5
72
48
Codificacin de
parmetros
(1)
(2)
,000
,000
1,000
,000
,000
1,000
,000
1,000
60
,000
60
1,000
La siguiente salida (abajo) proporciona el test global de independencia (fila Modelo). Como es
significativo (P = 0,000) podemos decir que al menos una de las variables presentes en el modelo est
asociada con la variable dependiente.
La tabla de abajo permite determinar la fuerza de la relacin entre las 7 covariables estudiadas y la variable
a predecir (Infeccin).
Resumen de los modelos
R cuadrado
R cuadrado
-2 log de la
de Cox y
de
Paso
verosimilitud
Snell
Nagelkerke
1
42,344(a)
,308
,599
40
La tabla de abajo permite aceptar que el modelo logstico ajustado se ajusta bien a los datos (pues P =
0,480 > 0,10 se acepta H0).
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado
gl
Sig.
1
7,538
8
,480
La tabla ms relevante es la de abajo: ella proporciona los estimadores puntuales y por intervalo de y de
las siete i, permite determinar que la relacin buscada es
Logit (p) = 11,422 + 0,282Tratamiento 0,374Sexo + 0,129Edad 0,043Duracli
0,435Tipapen(1) 0,326Tipapen(2) + 0,109Duracint
(en donde p alude a la probabilidad de padecer una infeccin), permite realizar el test de independencia
para cada una de las 7 covariables (columna Wald, gl y Sig.) y evaluar la fuerza de la asociacin entre la
variable de respuesta y cada una de las covariables cuando el resto de las variables presentes en el modelo
permanecen constantes (tres ltimas columnas).
Variables en la ecuacin
Paso
1(a)
TRATAMIENTO(1)
SEXO(1)
EDAD
DURACLI
TIPAPEN
TIPAPEN(1)
TIPAPEN(2)
DURACINT
Constante
B
,282
-,374
,129
-,043
E.T.
,882
,867
,035
,023
-,435
-,326
,109
-11,422
,906
2,684
,038
2,859
Wald
,102
,186
13,888
3,455
,231
,230
,015
8,229
15,956
gl
1
1
1
1
2
1
1
1
1
Sig.
,749
,666
,000
,063
,891
,631
,903
,004
,000
Exp(B)
1,326
,688
1,138
,958
,647
,722
1,115
,000
3,824
139,153
1,201