Sie sind auf Seite 1von 20

Guin Prctica III

REGRESIN LINEAL MLTIPLE


_____________________________________________________________________________
III.0. Archivos implicados en este guin (tipo)
Tiempo_Recuperacion (SPSS).
Insuficiencia_Renal (SPSS).
III.1: Anlisis con todas las variables: Actividad 1
Se desea determinar de qu depende el tiempo (y) que tarda una rata en recuperar su tensin arterial
tras la administracin de una droga hipotensora. Se sabe que hay al menos dos factores que pueden influir
sobre dicho tiempo la dosis empleada (es de esperar que a mayor dosis, mayor tiempo de recuperacin) y la
presin sistlica media que la rata ha tenido durante la hipotensin (pues el efecto de la droga depender de
la situacin inicial de cada rata). El objetivo es conocer el efecto conjunto de las dos variables sobre el
tiempo de recuperacin. Los datos estn en el archivo Tiempo_Recuperacion (que no recoge la dosis, sino
el logaritmo de la dosis, pues de lo contrario surgen problemas con el modelo).
Es el mismo ejemplo de clase la interpretacin de sus resultados es como all!
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable a predecir (y) es el tiempo de recuperacin (tiempo), las variables de apoyo (xi) son el
logaritmo de la dosis (ldosis) y la presin sistlica media (presin).
El objetivo es analizar el problema empleando la ecuacin de regresin tiempo = + 1(ldosis) +
2(presin).
Para aplicar el modelo es preciso verificar las condiciones de aplicacin del mismo: Normalidad +
Linealidad + Homogeneidad de Varianzas ( + No Interaccin).
Peticin de resultados: ventana principal
Pulsando Analizar Regresin Lineales..., se abre la ventana general de la regresin lineal mltiple
de abajo (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (tiempo) a la
caja de Dependientes (variable y) y las variables ldosis y presin a la caja de Independientes (variables
x1 y x2).
Adicionalmente, pulsando en la caja Mtodo se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir a fin de ajustar el modelo con todas las variables que se pusieron en el cajn de
Independientes. Ms adelante se ilustrar la opcin Pasos suc. (mtodo paso a paso ascendente).

Peticin de resultados: botones

22

Anlisis Estadstico con Ordenador de Datos Mdicos

En la parte inferior aparecen cuatro botones. Cada uno de ellos despliega una ventana de la que se sale
pulsando

cuando se la haya rellenado convenientemente.

despliega la ventana de ms abajo (izquierda) que ya est rellenada en lo que interesa:


El botn
Estimaciones (premarcada): para obtener las estimaciones puntuales de los parmetros del modelo +
sus errores estndar + el test de que son significativamente distintos de cero.
Ajuste del modelo (premarcada), para obtener el coeficiente de determinacin (corregido y nocorregido).
Intervalos de confianza (marcada de modo adicional) para obtener los intervalos de confianza de los
parmetros del modelo.
El botn

no lo vemos.

despliega la ventana de ms abajo (derecha) con dos casillas ya marcadas: Valores


El botn
pronosticados No tipificados (predicciones y) y Residuos No tipificados (residuos y y ). Esto obliga a
SPSS a calcular tales valores en todos los individuos y a mostrarlos como nuevas variables que se aaden
al final del archivo de datos de trabajo (PRE_1 y RES_1 respectivamente).

El botn
muestra la ventana de ms abajo (que dejamos como est). En ella se especifican los
valores P para entrar (Entrada 0,05) y P para salir (Salida 0,10) tpicos del procedimiento por pasos (que
no es el del caso actual), as como que se desea que la ecuacin a ajustar contenga el trmino a = altura en
el origen (casilla Incluir constante en la ecuacin). Si se desmarca esta ltima casilla, SPSS ajustar la
ecuacin y = ixi; como est marcada, ajustar lo tradicional: y = + ixi.
Tras todo ello, una vez regresados a la ventana principal, se pulsa
todo lo solicitado

para que SPSS responda a

GUIN DE LA PRCTICA III: Regresin Lineal Mltiple

23

Resultados: interpretacin y anlisis de los mismos


La primera salida de SPSS es la tabla de abajo: indica las variables implicadas y el mtodo elegido.
Variables introducidas/eliminadas(b)
Variables
Variables
Modelo introducidas eliminadas
Mtodo
1
Presin
sistlica
media,
Logaritmo
de la dosis(a)

. Introducir

a Todas las variables solicitadas introducidas


b Variable dependiente: Tiempo de recuperacin
A continuacin aparece el resumen que sigue, especificando los valores de R y R2 (corregido = 0,170 o no
= 0,202) que, siendo similares, indica que el no corregido estima bien.
Resumen del modelo
R cuadrado Error tp. de
corregida
la estimacin
Modelo
R
R cuadrado
1
,449(a)
,202
,170
14,83776
a Variables predictoras: (Constante), Presin sistlica media, Logaritmo de la dosis
La tercera tabla presenta el anlisis de la varianza del test global,
H0 1 = 2 = = K=0 (independencia global)
H1 En alguna ocasin i 0 (dependencia global).
que en nuestro caso P = 0,004 rechazar la hiptesis nula concluir que al menos una de las dos
variables est asociada con la variable dependiente. Si el test no diera significativo ninguna variable
est asociada con la dependiente y el problema finaliza.
ANOVA(b)
Suma de
Media
cuadrados
cuadrtica
Modelo
gl
F
Sig.
1
Regresin
2783,220
2
1391,610
6,321
,004(a)
Residual

11007,949

50

220,159

13791,170
52
Total
a Variables predictoras: (Constante), Presin sistlica media, Logaritmo de la dosis

24

Anlisis Estadstico con Ordenador de Datos Mdicos


b Variable dependiente: Tiempo de recuperacin

La penltima tabla que aparece (la ltima no interesa) es la de ms abajo, la cual especifica lo siguiente (no
se comenta la columna Coeficientes estandarizados pues no se la ha estudiado en clase):
Fila 1: El estimador de (la altura en el origen) es a = 23,011, con un intervalo de confianza de
13,716 a 59,737 (al 95%) que contiene al 0 (lo que indica que es posible que = 0). Esto se ve
corroborado por el contraste de hiptesis para H0 = 0, que da un valor P = 0,214 > 0,05 concluir
H0 es aceptable un modelo sin trmino independiente. Como este no era el problema actual, el
resultado no tiene inters.
Fila 2: El estimador de 1 (el coeficiente del Logaritmo de la dosis) es b1 = 23,639, con un intervalo
de confianza de 9,884 a 37,393 (al 95%) que no contiene al 0 (lo que indica que 1 0). Esto se ve
corroborado por el contraste de hiptesis para H0 1 = 0, que da un valor P = 0,001 0,05
rechazar H0 para presiones fijadas, existe asociacin entre la dosis y el tiempo la dosis aade
informacin extra acerca del tiempo sobre la proporcionada por la presin.
Fila 3: Proporciona datos similares a los de la Fila 2, pero ahora para la variable Presin sistlica
media, que tambin resulta ser significativa.
Como consecuencia de todo ello, tanto la dosis como la presin son relevantes para predecir el tiempo
(no pudindose omitir ninguna de ellas sin una prdida relevante de informacin).
Coeficientes(a)
Modelo

Coeficientes no
estandarizados

B
Error tp.
23,011
18,285

(Constante)
Logaritmo de
la dosis
Presin
sistlica media

23,639

6,848

Coeficientes
estandarizados

Sig.

1,258 ,214

Lmite
inferior
-13,716

Lmite
superior
59,737

,494 3,452 ,001

9,884

37,393

-1,320

-,109

Beta

,022
2,371
a Variable dependiente: Tiempo de recuperacin
-,715

,301

Intervalo de confianza
para B al 95%

-,339

Verificacin del modelo


Otro de los resultados que se solicitaron fueron las Predicciones y los Residuales. Si se observa el archivo
de datos, al final del mismo aparecen estas dos variables: PRE_1 y RES_1 respectivamente (el 1 alude a
que son los 1os valores solicitados (si se solicitara otra regresin tambin dara PRE_2 y RES_2).
Segn se vio en las clases de teora hay que verificar el modelo, lo que exige verificar lo siguiente:
Normalidad: la variable y tiene que ser al menos continua: el tiempo lo es.
Homogeneidad de varianzas: graficar RES_1 (eje y) vs. PRE_1 (eje x).
Linealidad: graficar RES_1 (eje y) vs. ldosis (eje x) + RES_1 (eje y) vs. presin (eje x).
No interaccin: graficar RES_1 (eje y) vs. (ldosis)(presin) (eje x).
Lo ltimo exige determinar la nueva variable (ldosis)(presin) = dp. Para ello (como se vio en la Troncal)
hay que ejecutar Transformar Calcular variable hasta que aparezca la pantalla de ms abajo que hay
que rellenar como se indica. Tras pulsar

la variable queda creada al final del fichero.

La grfica aludida en Homogeneidad de varianzas se obtiene como en la Troncal: Grficos Cuadros


de dilogo antiguos Dispersin/Puntos Dispersin simple

hasta que aparezca la

pantalla de ms abajo que hay que rellenar como se indica. Tras pulsar
SPSS sacar la grfica
solicitada en el Visor de Resultados: grfica (a) de la siguiente pgina.
Las otras tres grficas -Linealidad en Dosis grfica (b), Linealidad en Presin grfica (c) y No
interaccin grfica (d)- se obtienen de modo similar. Todas las grficas se comentan al pi de ellas.

GUIN DE LA PRCTICA III: Regresin Lineal Mltiple

La conclusin es que el modelo analizado en todo lo anterior es aceptable.

25

26

Anlisis Estadstico con Ordenador de Datos Mdicos

Unstandardized Residual

40,00000

20,00000

0,00000

-20,00000

1,00

1,50

2,00

2,50

3,00

Logaritmo de la dosis

(a) Indicios de no Homogeneidad de varianzas

(b) Lineal en la Dosis

Unstandardized Residual

40,00000

20,00000

0,00000

-20,00000

50,00

100,00

150,00

200,00

250,00

dp

(c) Lineal en la Presin

(d) Lineal en la DosisPresin

III.2: Seleccin del mnimo conjunto de variables: Actividad 2


Se desea saber de qu variables depende fundamentalmente el valor hematocrito de un paciente renal
tras una sesin de dilisis. Para ello se llev a cabo un estudio con 96 pacientes renales en los que, tras una
sesin de dilisis, se midieron diversas variables. Los datos estn en el archivo Insuficiencia_Renal.
Determinar el menor conjunto posible de variables que ayuden a predecir el valor hematocrito.
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable a predecir (y) es el valor hematocrito (hematocrito), las variables de apoyo (xi) son cuatro: la
albmina en sangre (albmina), el nivel de creatinina (creatinina), la reduccin de urea tras la
sesin (redurea) y la dosis de eritropoyetina administrada (dosis).
El objetivo es seleccionar el menor conjunto de variables xi que permiten predecir y.
Para aplicar el modelo es preciso verificar las condiciones de aplicacin del mismo: Normalidad +
Linealidad + Homogeneidad de Varianzas ( + No Interaccin). No se ver puesto que ya se practic con
esto en el ejemplo anterior.
Peticin de resultados
El modo de actuar es similar al del ejemplo anterior: pulsar Analizar Regresin Lineales...,
introducir hematocrito en la caja Dependientes, el resto de las variables en la caja Independientes y,
como nica novedad, seleccionar Pasos suc. en la caja Mtodo (pues se desea seleccionar el mnimo
conjunto de variables por el mtodo ascendente). La ventana principal de Regresin lineal quedar como
abajo.

GUIN DE LA PRCTICA III: Regresin Lineal Mltiple

El resto de las selecciones son como antes. Con el botn

27

aparece la ventana de abajo

(izquierda); tras marcar sus casillas como se indica se pulsa


. Con el botn
aparece la
ventana de abajo (derecha); tras dejarla como est (pues ya tiene asignado todo lo que se precisa) se pulsa
. Una vez en la ventana principal, se pulsa
que siguen.

para que SPSS proporciones los resultados

Resultados: interpretacin y anlisis de los mismos


La primera salida de SPSS es similar a la de la tabla de abajo (Variables introducidas /eliminadas): por
simplificacin, en ella (y en adelante) se acortan los nombres de las variables. En ella se indican las
variables que han sido introducidas en cada uno de los pasos del procedimiento, las que se han eliminado
(aqu, ninguna) y el criterio empleado. En el ejemplo el proceso ha seguido tres pasos: en el primero se ha
introducido REDUREA, en el segundo la DOSIS y en el ltimo paso la ALBMINA (por tanto el modelo
final contiene esas tres variables, pero no la CREATININA). Esto ya indica que para predecir el
HEMATOCRITO basta considerar las variables REDUREA, DOSIS y ALBMINA (cada una de las
cuales proporciona una informacin extra sobre el hematocrito a la que proporcionan las dems), pues la
CREATININA no aade nada nuevo sobre las otras tres (su informacin est contenida en ellas).

28

Anlisis Estadstico con Ordenador de Datos Mdicos

Modelo Variables introducidas


1
REDEUREA
2

DOSIS

ALBUMINA

Variables introducidas/eliminadas(a)
Variables
eliminadas
Mtodo
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).

a Variable dependiente: HEMATO

La segunda salida es similar a la de la tabla de abajo (Resumen del modelo). Ella presenta los valores del
coeficiente de determinacin para cada uno de los tres modelos. Ntese que R va aumentando conforme
van entrando ms variables en el modelo (lo que puede no ocurrir si las variables tienen datos faltantes).
Para el Modelo 1 (en el que slo est REDUREA) R2 = 0,061: solo el 6,1% de la variabilidad del valor
hematocrito se debe a la reduccin de urea tras la sesin de hemodilisis.
Resumen del modelo
R cuadrado Error tp. de
Modelo
R
R cuadrado
corregida
la estimacin
1
,248(a)
,061
,051
3,69292
2
,319(b)
,102
,082
3,63209
3
,394(c)
,155
,128
3,54138
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBMINA

La tercera tabla (ANOVA de ms abajo) presenta el anlisis de la varianza del test global para cada uno
de los modelos: H0 1 = 2 = = K = 0 (independencia global) vs.H1 En alguna ocasin i 0
(dependencia global) para K = 1, 2 o 3 respectivamente. Su significado ya fue descrito en la Actividad 1.
ANOVA(d)
Suma de
Media
cuadrados
cuadrtica
Modelo
gl
F
Sig.
1
Regresin
83,786
1
83,786
6,144
,015(a)
Residual
1281,939
94
13,638
Total
1365,724
95
2
Regresin
138,859
2
69,429
5,263
,007(b)
Residual
1226,866
93
13,192
Total
1365,724
95
3
Regresin
211,919
3
70,640
5,633
,001(c)
Residual
1153,806
92
12,541
Total
1365,724
95
a
b
c
d

Variables predictoras: (Constante), REDEUREA


Variables predictoras: (Constante), REDEUREA, DOSIS
Variables predictoras: (Constante), REDEUREA, DOSIS, ALBMINA
Variable dependiente: HEMATOCRITO

La cuarta tabla (Coeficientes de ms abajo) da los estimadores, intervalos y tests para los parmetros de
cada uno de los modelos (tambin de modo similar al descrito en la Actividad 1). El mayor inters radica
en el Modelo 3: HEMATOCRITO = 13,713 + 0,165REDUREA 0,062DOSIS + 2,354ALBMINA
para valores constantes de las otras variables independientes, el valor hematocrito aumenta con la
reduccin de urea y la albmina, pero disminuye con la dosis. El resto de las interpretaciones son como en
la Actividad 1. Como ninguno de los valores P de esta tabla es 10% ninguna variable sale del
modelo.
Finalmente, la tabla Variables excluidas de ms abajo, muestra los tests para cada una de las variables
candidatas a entrar en el modelo tras cada uno de los pasos (pero que finalmente no fueron seleccionadas
en el mismo). As, tras el primer paso (Modelo 1 que contiene solo a REDUREA), el valor ms pequeo de

GUIN DE LA PRCTICA III: Regresin Lineal Mltiple

29

P es el correspondiente a la variable DOSIS (P = 0,044 0,05) esa fue la variable que entr para formar
el Modelo 2 acompaando a REDUREA. Tras el segundo paso (Modelo 2 que contiene a REDUREA y
DOSIS), quedaban fuera la albmina y la creatinina y, como la de menor valor de P es la ALBMINA (P
= 0,018 0,05) esa fue la variable que entr para formar el Modelo 3 acompaando a REDUREA y
DOSIS. Tras el tercer paso (Modelo 3 que contiene a REDUREA, DOSIS y ALBMINA), la nica que
queda fuera es la creatinina: ella no entra en el modelo pues su valor P = 0,207 > 0,05.
Coeficientes(a)
Coeficientes no
estandarizados
Modelo
1

(Constante)
REDEUREA
(Constante)
REDEUREA
DOSIS
(Constante)
REDEUREA
DOSIS
ALBMINA

2
3

B
16,774
,203
20,233
,195
-,053
13,713
,165
-,062
2,354

Error
tp.
5,104
,082
5,298
,081
,026
5,829
,080
,026
,975

Coeficientes
estandarizados

Intervalo de confianza
para B al 95%
t
3,287
2,479
3,819
2,415
-2,043
2,353
2,067
-2,432
2,414

Beta
,248
,238
-,201
,201
-,236
,237

Sig.
,001
,015
,000
,018
,044
,021
,042
,017
,018

Lmite
inferior
6,640
,040
9,713
,035
-,104
2,136
,006
-,113
,417

Lmite
superior
26,907
,366
30,753
,356
-,001
25,290
,323
-,011
4,292

a Variable dependiente: HEMATOCRITO

Variables excluidas(d)
Estadsticos
de
colinealidad
Modelo
1

2
3
a
b
c
d

Beta dentro
ALBMINA
,201(a)
CREATININA
-,129(a)
DOSIS
-,201(a)
ALBMINA
,237(b)
CREATININA
-,109(b)
CREATININA
-,122(c)

t
2,022
-1,299
-2,043
2,414
-1,100
-1,270

Sig.
,046
,197
,044
,018
,274
,207

Correlacin
parcial
,205
-,133
-,207
,244
-,114
-,132

Variables predictoras en el modelo: (Constante), REDEUREA


Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS
Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS, ALBMINA
Variable dependiente: HEMATOCRITO

Tolerancia
,978
1,000
,997
,956
,988
,985

Guin Prctica IV
REGRESIN LOGSTICA
_____________________________________________________________________________
IV.0. Archivos implicados en este guin (tipo)
Hiperutilizador (SPSS).
Infeccion (SPSS).
IV.1: Actividad 1
Se desea determinar de qu depende la hiperutilizacin de los servicios de atencin primaria (uso
excesivo de los mismos). Para ello se tom una muestra de 1.112 pacientes que haban acudido a las
consultas de Atencin Primaria de varios Centros de Salud y se les clasific segn las tres covariables Sexo,
Edad y Sufrir Patologa Crnica y segn que hubieran sido en ese ao Hiperutilizadores o no. Se desea
determinar cules de las tres variables anteriores influyen en ser o no hiperutilizador (cuando se las
considera actuando de modo conjunto). Los datos figuran en el archivo: Hiperutilizador.
Es el mismo ejemplo de clase la interpretacin de sus resultados es como all!
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el ser hiperutilizador de los servicios de atencin
primaria (Hiperutilizacin 0=No, 1=S 1 es la enfermedad), las variables de apoyo (xi), todas ellas
dicotmicas, son el sexo (Sexo 0=Hombre, 1=Mujer 1 es el factor de riesgo), la edad (Edad
0=<65 aos, 1=65 aos 1 es el factor de riesgo) y la presencia de una patologa crnica (Crnica
0=No, 1=S 1 es el factor de riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = + 1(Sexo)
+ 2(Edad) + 3(Crnica).
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s hiperutilizacin.
Peticin de resultados: ventana principal
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (Hiperutilizacin) a la caja de Dependientes (variable y = logit p) y las variables Sexo, Edad y Crnica a la caja
de Covariables (variables x1, x2 y x3).
Adicionalmente, pulsando en la caja Mtodo se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir (marcada de oficio) a fin de ajustar el modelo con todas las variables que se
pusieron en el cajn de Covariables. La opcin Adelante:Condicional (mtodo paso a paso ascendente
similar al ya visto en regresin mltiple) no la vemos, pero su objetivo es similar al del captulo anterior.

32

Anlisis Estadstico con Ordenador de Datos Mdicos

La ventana Variable de seleccin no la vemos.


Peticin de resultados: botones
El botn
(que se ilumina slo cuando hay alguna variable en el cajn de las Covariables)
permite indicar qu covariables son categricas (pues SPSS trata todas las variables como numricas
-discretas o continuas- a menos que se le diga que son categricas). Al pulsarlo aparece la ventana de abajo
que ya est rellenada como se desea: como en nuestro caso todas las covariables son categricas, se han
pasado todas ellas de la caja Covariables a la caja Covariables categricas. Hay que tener en cuenta que:
Cada covariable categrica ser sustituida por una o ms covariables.
Cuando la covariable es binaria (como las de nuestro caso) se crear una variable que tendr un cero en
la categora de referencia y un 1 en la categora de riesgo.
Cuando la covariable tiene K categoras, se crearn K1 covariables codificadas como se explic en las
clases de teora.

An falta por definir qu categora es la de referencia (la de no riesgo) en cada una de las covariables
categricas incluidas en el problema (todas en nuestro caso). Con tal fin hay que seleccionar una a una las
covariables y utilizar los botones y opciones presentes en Cambiar contraste en cada una de ellas (abajo
se ilustra como quedara la ventana en nuestro ejemplo):
En Contraste elegir siempre Indicador;
En Categora de referencia hay que indicar cul es la categora de no riesgo para la variable
seleccionada. SPSS ofrece por defecto la Ultima (dejarlo as cuando sea lo apropiado), pero en
nuestro caso siempre es la Primera (pues el valor 0 alude siempre al no riesgo), que es la que hay
que marcar en las tres variables.
Por ltimo, para que el cambio sea efectivo hay que pulsar el botn Cambiar: en ese momento, en la
ventana Covariables categricas el texto Sexo(indicador) cambia a Sexo(indicador(primera))
cuando se seleccion Primera. Si se hubiera dejado Ultima, aparecera solo Sexo(indicador)

GUIN DE LA PRCTICA IV: Regresin Logstica

Pulsando
El botn

33

se regresa a la pantalla principal (abajo): ahora ya indica de qu tipo es cada covariable.


no lo vemos.

El botn
permite obtener estadsticos y grficos, o cambiar el criterio de construccin del
modelo. Tras pulsarlo aparece una ventana como la de abajo (ya rellenada en lo que interesa) de la que se
sale pulsando

y de la que conviene destacar:

Bondad de ajuste de Hosmer-Lemeshow: Test para verificar si el modelo de regresin logstica


ajusta bien o no a los datos H0: El modelo ajusta bien vs. H1: El modelo no ajusta bien. Si el
test da significativo (P 0,10 en este caso), nada de lo que se calcule es vlido.
IC para exp(B): Calcula el intervalo de confianza para las razones del producto cruzado de todas las
variables presentes en el modelo. La ventana a su derecha permite fijar la confianza deseada (el 95%
marcado por defecto).
Incluir constante en la ecuacin: Si se marca, ajusta un modelo con trmino independiente ; si se
quita la marca, ajusta un modelo sin trmino independiente . Lo usual es lo primero (por ello SPSS lo
tiene marcado por defecto).

34

Anlisis Estadstico con Ordenador de Datos Mdicos

Pulsando ya

y a continuacin

aparecen los resultados siguientes:

Resultados: interpretacin y anlisis de los mismos


La primera salida de SPSS es la tabla de abajo: indica el nmero total de casos presentes en el estudio
(1.112) y el de casos perdidos (0).
Resumen del procesamiento de los casos
Casos no ponderados(a)
N
Porcentaje
Casos seleccionados
Incluidos en el anlisis
1112
100,0
Casos perdidos
0
,0
Total
1112
100,0
Casos no seleccionados
0
,0
Total
1112
100,0
a Si est activada la ponderacin, consulte la tabla de clasificacin para
ver el nmero total de casos.
La segunda salida de SPSS es la tabla de abajo: indica la codificacin empleada para la variable
dependiente, tanto real (No/S) como interna (0/1) ( etiquetas de valor). Se entiende que 1 = enfermedad.
Codificacin de la variable dependiente
Valor
Valor
original
interno
No
0
S
1
La tercera salida de SPSS es la tabla de abajo: indica cmo se han codificado las variables categricas del

problema (todas en nuestro caso) y las frecuencias obtenidas. Obsrvese que como las tres covariables son
binarias cada una da lugar a una sola covariable de valores 0/1.
Codificaciones de variables categricas
Codificacin
de parmetros
Sufrir
enfermedad
crnica
Edad
cortada en
65 aos
Sexo

No
S

Frecuencia
655

(1)
,000

457

1,000

< 65 aos
>=65 aos

502

,000

610

1,000

Hombre
Mujer
La cuarta salida de SPSS (abajo) no tiene inters.

475
637

,000
1,000

Tabla de clasificacin(a,b)
Observado

Pronosticado
Ser hiperutilizador
No
S

Paso 0

Ser
No
hiperutilizador
S
Porcentaje global
a En el modelo se incluye una constante.
b El valor de corte es ,500

Porcentaje
correcto

793

100,0

319

,0
71,3

GUIN DE LA PRCTICA IV: Regresin Logstica

35

La quinta salida de SPSS es la tabla de abajo: analiza el modelo con solo el trmino independiente (sin

inters).
Variables en la ecuacin

Paso 0

Constante

B
-,911

E.T.
,066

Wald
188,645

gl
1

Sig.
,000

Exp(B)
,402

La sexta salida de SPSS es la tabla de abajo: permite saber si las diferentes variables presentes el modelo,

consideradas individualmente, estn asociadas o no con la variables dependiente es un anlisis


univariante. Como en todos los casos P ( Sig.) 5% considerada cada covariable individualmente (es
decir, sin contemplar las otras), todas estn asociadas con la hiperutilizacin. Su inters es menor.
Variables que no estn en la ecuacin
Paso 0

Variables

SEXO(1)
EDAD(1)
CRON(1)
Estadsticos globales

Puntuacin
13,353
63,922
88,726
116,521

gl
1
1
1
3

Sig.
,000
,000
,000
,000

La sptima salida de SPSS es la tabla de abajo: presenta diferentes tests globales dependiendo del mtodo

de construccin del modelo empleado solo nos interesa la fila Modelo (que es la que alude al mtodo de
Introducir que se ha empleado). Ella alude al test global H0: 1 = 2 = = K = 0 (independencia global)
vs. H1: Alguna igualdad no es cierta (dependencia global). En nuestro caso:
2
Como exp
= 119,363 (g.l. = 3 = n de covariables) da P = 0,000 0,05 al menos una de las variables
presentes en el modelo (que incluye a todas las variables) est asociada a la hiperutilizacin.
Esta es la primera tabla relevante: si ella no diera significativa, el problema finaliza (ninguna variable
influye en la infeccin).
Pruebas omnibus sobre los coeficientes del modelo
Paso 1

Chi-cuadrado
Paso
119,364
Bloque
119,364
Modelo
119,364

gl
3
3
3

Sig.
,000
,000
,000

Puesto que el test global dio significativo conviene ver las medidas de resumen de la octava salida de

SPSS (tabla de abajo). Segn ella, el 10,2% de la variabilidad de la hiperutilizacin es debida a la relacin
de esta variable con el sexo, la edad y el padecer una enfermedad crnica (en trminos de la R2 de CoxSnell). En el caso del coeficiente de Nagelkerke: el 14,6% de la variabilidad de la hiperutilizacin la
explican las tres variables presentes en el modelo.
Resumen de los modelos

Paso
1

-2 log de la
verosimilitud
1213,537(a)

R cuadrado
de Cox y
Snell
,102

R cuadrado
de
Nagelkerke
,146

Para evaluar si el modelo logstico ajustado es el adecuado hay que contrastar H0: Los datos de la muestra

se representan bien por un modelo logstico vs. H1: Los datos de la muestra no se representan bien por un
2
modelo logstico. La novena salida de SPSS (tabla de abajo) responde a esa pregunta. Como exp
= 1,719
(g.l. = 5 = n de covariables) da P = 0,886 > 0,10 el test no es significativo y el modelo se ajusta bien a los
datos puede aceptarse todo lo que sigue y lo anterior.

36

Anlisis Estadstico con Ordenador de Datos Mdicos


Prueba de Hosmer y Lemeshow
Paso
1

Chi-cuadrado
1,719

gl

Sig.
,886

La dcima salida de SPSS es la tabla de abajo (sin inters).

Tabla de clasificacin(a)
Observado

Pronosticado
Ser hiperutilizador
No

Paso 1

Ser
No
hiperutilizador
S
Porcentaje global

Porcentaje
correcto

793

100,0

319

,0
71,3

La tabla ms importante es la de la undcima y ltima salida de SPSS (abajo). Ella es la que proporciona

(para el modelo que incluye las tres variables):


Columna B: Los estimadores bi de las pendientes i de cada una de las variables y al estimador a de la
altura en el origen (en la ltima fila = Constante).
Columna E.T.: Los valores de los errores tpico o estndar ee (bi) y ee (a).
Columnas Wald, gl y Sig.: Los resultados del test H0: i = 0 para cada variable y del test H0: = 0 para
la altura. Este test es fiable cuando es significativo, pero cuando no lo es (pero est cerca de la
significacin). En nuestro caso los resultados para las diferentes variables son:
2
(a) Sexo: exp
=0,827 (g.l.=1) P = 0,363 >>0,05 teniendo en cuenta el efecto de la edad y del
padecimiento de alguna enfermedad crnica, el sexo no est asociado con la hiperutilizacin;
2
(b) Edad: exp
=25,349 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y del
padecimiento de alguna enfermedad crnica, la edad s est asociado con la hiperutilizacin;
2
(c) Crnica: exp
=49,818 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y de la
edad, el padecimiento de alguna enfermedad crnica s est asociado con la hiperutilizacin.
Columna Exp(B): Las estimaciones de Oi (odds-ratio) para cada una de las variables del modelo la
fuerza de asociacin de cada una de ellas con la hiperutilizacin. En el caso de la edad se obtiene un
valor de 2,22 los pacientes que tienen 65 aos o ms tienen 2,22 veces ms riesgo de ser
hiperutilizadores que los que tienen menos de 65 aos. El caso de Constante no tiene inters.
Columna I.C.: El intervalo de confianza (al 95%) para las Oi del prrafo anterior. En el caso del
intervalo para el sexo el intervalo es (0,854; 1,54) que contiene el valor 1! es posible que la
hiperutilizacin sea independiente del sexo (en valores constantes de las dems variables), lo que ya
se haba visto con el test de Wald!
Variables en la ecuacin

Paso
1(a)

SEXO(1)
EDAD(1)
CRNICA(1)
Constante

B
,137
,798
1,028
-1,968

E.T.
,150
,158
,146
,146

Wald
,827
25,349
49,818
180,451

gl
1
1
1
1

Sig.
,363
,000
,000
,000

Exp(B)
1,147
2,220
2,796
,140

I.C. 95,0% para


EXP(B)
Inferior Superior
,854
1,540
1,628
3,029
2,102
3,720

a Variable(s) introducida(s) en el paso 1: SEXO, EDAD, CRNICA.

IV.2: Actividad 2
Estudiar qu variables influye sobre la presencia de una infeccin postoperatoria (en pacientes intervenidos
de apendicitis aguda) en base al fichero de datos Infeccion que contiene las siguientes 8 variables:

GUIN DE LA PRCTICA IV: Regresin Logstica

37

TRATAMIENTO Grupo al que fueron asignados los pacientes: 0 = Antibiticos; 1 = Irrigacin


NUPAC

Nmero del paciente.

SEXO

Sexo del paciente: 0 = Hombre; 1 = Mujer.

EDAD

Edad del paciente (en aos).

DURACLI

Duracin de la clnica (en horas).

TIPAPEN

Tipo de apndice: 1 = Normal; 2 = Flemonoso; 3 = Gangrenoso.

DURACINT

Duracin de la intervencin (en minutos).

INFEC

Infectado en las 72 horas posteriores a la operacin: 0 = No; 1 = S.


Es el mismo ejemplo de clase la interpretacin de sus resultados es como all!
Notas previas

Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el sufrir una infeccin (Infec 0=No, 1=S 1 es la
enfermedad), las variables de apoyo (xi) son el tratamiento aplicado (Tratamiento dicotmico
1=Irrigacin es el factor de riesgo), el sexo (Sexo dicotmico 1 es el factor de riesgo), la edad
(Edad cuantitativo a ms edad, ms riesgo), la duracin de la clnica (Duracli cuantitativo a ms
duracin, ms riesgo), el tipo de apndice (Tipapen categrico con 3 clases dar lugar a dos variables
Tipapen(1) Flemonoso s/no y Tipapen(2) Gangrenoso s/no si se entiende que Normal = categora
de no riesgo) y la duracin de la intervencin (Duracint cuantitativo a ms duracin, ms riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = +
1Tratamiento + 2Sexo + 3Edad + 4Duracli + 5Tipapen(1) + 6Tipapen(2) + 7Duracint.
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s infeccin.
Peticin de resultados
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (abajo). En ella ya se han realizado las acciones de pasar la variable objetivo (Infec) a la caja de
Dependientes (variable y = logit p), el resto de las variables (salvo Nupac) a la caja de Covariables y
dejado la seleccin de Introducir (para que as SPSS contemple a todas las variables).

38

Anlisis Estadstico con Ordenador de Datos Mdicos

El siguiente paso consiste en indicarle a SPSS qu variables son categricas (las dems las contemplar
como cuantitativas), para lo cual se pulsa el botn
y, en la ventana que se obtiene (la de ms
abajo, que contempla las acciones que siguen) se pasan las covariables categricas Tratamiento, Sexo y
Tipapen del cajn Covariables al cajn Covariables categricas.

El siguiente paso es identificar la categora de referencia (de no riesgo) de cada una de estas covariables
categricas. Para ello, con cada una de las tres covariables implicadas hay que actuar as (abajo se indica
cmo quedara la ventana anterior tras las operaciones que siguen):
Tratamiento: los investigadores del estudio pensaban que el tratamiento con antibiticos era el de
menor riesgo de infeccin 0=Antibitico es la categora de referencia pinchar sobre la covariable
Tratamiento en la caja de Covariables categricas, seleccionar Primera en la opcin Categora de
referencia
y pulsar el botn
.
Sexo: los investigadores no tenan claro cul poda ser la categora de referencia se puede elegir la
que sea si elegimos 0=Hombre (la Primera) se actuar igual que arriba (pero con la covariable
Sexo).
Tipapen: el tipo de apndice presenta tres categoras (de menos a ms deterioro del apndice)
conforme mayor sea la categora, ms deteriorado estar el apndice mayor riesgo de infeccin
postoperatoria existir el apndice 1=Normal ser la categora de referencia (de menor riesgo) y
las categoras 2=Flemonoso y 3=Gangrenoso sern dos categoras de riesgo. Como 1=Normal
tiene el valor ms bajo l se emplear como categora de referencia la Primera actuar como
arriba (pero con la covariable Tipapen).

GUIN DE LA PRCTICA IV: Regresin Logstica

39

Tras pulsar
se regresa a la pantalla inicial en la que pulsaremos
a fin de marcar
Bondad de ajuste e IC para exp(B) como en la Actividad 1. La nueva ventana es la misma de entonces
(abajo aparece con las selecciones ya marcadas). Tras pulsar
que ya solo hay que pulsar

se regresa a la pantalla inicial, en la

para que SPSS d las respuestas a lo solicitado.

Resultados: interpretacin y anlisis de los mismos


En lo que sigue solo se resean y comentan las salidas de mayor inters(el resto son similares a las de la
Actividad 1)muchas de las cuales fueron comentadas con ms profundidad en las clases de teora
La primera salida de inters (abajo) alude a las codificaciones empleadas con las covariables categricas:
una variable para las dos dicotmicas (Sexo y Tratamiento) y dos variables para Tipapen (pues tiene 3
niveles), cada uno con indicacin del valor que indica la ausencia de riesgo (el 0).
Codificaciones de variables categricas

Tipo de apndice

Sexo del paciente


Tratamiento al que
fueron asignados los
pacientes

Normal
Flemonoso
Gangrenoso
Hombre
Mujer
Tratados con
antibiticos
Tratados con irrigacin

Frecuencia
27
88
5
72
48

Codificacin de
parmetros
(1)
(2)
,000
,000
1,000
,000
,000
1,000
,000
1,000

60

,000

60

1,000

La siguiente salida (abajo) proporciona el test global de independencia (fila Modelo). Como es
significativo (P = 0,000) podemos decir que al menos una de las variables presentes en el modelo est
asociada con la variable dependiente.
La tabla de abajo permite determinar la fuerza de la relacin entre las 7 covariables estudiadas y la variable
a predecir (Infeccin).
Resumen de los modelos
R cuadrado
R cuadrado
-2 log de la
de Cox y
de
Paso
verosimilitud
Snell
Nagelkerke
1
42,344(a)
,308
,599

40

Anlisis Estadstico con Ordenador de Datos Mdicos

La tabla de abajo permite aceptar que el modelo logstico ajustado se ajusta bien a los datos (pues P =
0,480 > 0,10 se acepta H0).
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado
gl
Sig.
1
7,538
8
,480
La tabla ms relevante es la de abajo: ella proporciona los estimadores puntuales y por intervalo de y de
las siete i, permite determinar que la relacin buscada es
Logit (p) = 11,422 + 0,282Tratamiento 0,374Sexo + 0,129Edad 0,043Duracli
0,435Tipapen(1) 0,326Tipapen(2) + 0,109Duracint
(en donde p alude a la probabilidad de padecer una infeccin), permite realizar el test de independencia
para cada una de las 7 covariables (columna Wald, gl y Sig.) y evaluar la fuerza de la asociacin entre la
variable de respuesta y cada una de las covariables cuando el resto de las variables presentes en el modelo
permanecen constantes (tres ltimas columnas).
Variables en la ecuacin

Paso
1(a)

TRATAMIENTO(1)
SEXO(1)
EDAD
DURACLI
TIPAPEN
TIPAPEN(1)
TIPAPEN(2)
DURACINT
Constante

B
,282
-,374
,129
-,043

E.T.
,882
,867
,035
,023

-,435
-,326
,109
-11,422

,906
2,684
,038
2,859

Wald
,102
,186
13,888
3,455
,231
,230
,015
8,229
15,956

gl
1
1
1
1
2
1
1
1
1

Sig.
,749
,666
,000
,063
,891
,631
,903
,004
,000

Exp(B)
1,326
,688
1,138
,958
,647
,722
1,115
,000

I.C. 95,0% para


EXP(B)
Inferior Superior
,235
7,472
,126
3,763
1,063
1,217
,915
1,002
,110
,004
1,035

3,824
139,153
1,201

a Variable(s) introducida(s) en el paso 1: TRATAMIENTO, SEXO, EDAD, DURACLI, TIPAPEN, DURACINT.

Das könnte Ihnen auch gefallen