Sie sind auf Seite 1von 6

EST-203 ESTADISTICA II

Arturo Caldern G.-2014

Captulo II Regresin no lineal y Regresin Logstica


2. Regresin con variable dependiente dicotmica: Regresin Logstica
En este caso Y es dicotmica, por ejemplo Y = 0 si el paciente no se recupera e
Y = 1 si el paciente s se recupera.
Ejemplo
Una investigacin trata de explicar el estado de los pacientes de un tipo no agresivo
de cncer en funcin de las variables:
X1 = Pronmed = Pronstico mdico inicial (0-100; 0=Peor, 100=Mejor)
X2 = Evitacin = Afrontamiento de evitacin
X3 = Intrusiones = Pensamientos intrusos

Pensamientos
intrusivos

Afrontamiento de
evitacin

Pronstico mdico
inicial (0-100)

Resultados

La variable respuesta es Y = Resultados = Estado despus de cierto tiempo de


tratamiento, que se registr con slo dos valores (1 = Mejor, 0 = Empeor o sigue
igual). Un grfico de dispersin mltiple result:

Resultados

Pronstico mdico
inicial (0-100)

Afrontamiento de
evitacin

Pensamientos
intrusivos

El grfico muestra ciertos problemas, siendo el principal que la variable respuesta Y


slo toma dos valores y restringe la nube de puntos. No queda claro que haya algn
tipo de relacin lineal, aunque s se observan tendencias, por ejemplo: cuando el pronstico inicial es pobre el paciente no mejora o permanece igual en su estado clnico.
Si aplicamos de todos modos un modelo Y=0 + 1X1 +2X2 +3X3 + de regresin
lineal mltiple, obtenemos de SPSS las tablas

EST-203 ESTADISTICA II

Arturo Caldern G.-2014

Tabla 1 Resumen del modelo

Modelo

R cuadrado

Error tp. de la

corregida

estimacin

R cuadrado
a

,761

,579

,559

,298

a. Variables predictoras: (Constante), Intrusiones, Pronmed,


Evitacin
b. Variable dependiente: Resultados
b

Tabla 2 ANOVA

Suma de
Modelo
1

cuadrados

Media
gl

cuadrtica

Regresin

7,582

2,527

Residual

5,508

62

,089

13,091

65

Total

Sig.
a

28,448

,000

a. Variables predictoras: (Constante), Intrusiones, Pronmed, Evitacin


b. Variable dependiente: Resultados
a

Tabla 3 Coeficientes

Modelo
1

Coeficientes no

Coeficientes

estandarizados

tipificados

Error tp.

(Constante)

,276

,110

Pronmed

,010

,001

Evitacin

-,017
,006

Intrusiones

Beta

Sig.

2,506

,015

,655

7,608

,000

,006

-,277

-2,828

,006

,006

,095

,999

,322

a. Variable dependiente: Resultados

Los resultados parecen convincentes, con una prueba F global significativa y en las
pruebas t-Student individuales se obtienen resultados coherentes: hay relacin significativa del estado con el pronstico (a mejor pronstico mejor estado) y con el
afrontamiento de evitacin (a ms evitacin peor estado). Pero hay dos problemas:
El estado Y no es continuo y la interpretacin de los coeficientes B1 y B2 es
forzada
Algo ms fuerte es que los valores de las variables predictoras no resultan en
valores 0 o 1 de la variable respuesta Estado (Y) sino en valores decimales e incluso fuera de rango, lo que es inadmisible. Por ejemplo:
Caso
105
106
108

Resultados Pronmed Evitacin Intrusin Pronstico


1
33
17
20
0.42072
1
50
7
15
0.72185
1
90
2
2
1.11197

Lo que sucede es que el modelo lineal no es aplicable. El modelo y el mtodo de estimacin de mnimos cuadrados as como las pruebas de significacin ya no son v-

EST-203 ESTADISTICA II

Arturo Caldern G.-2014

lidos. Necesitamos cambiar la forma del modelo que relaciona la variable respuesta
Y con las variables independientes.
Lo anterior motiva el modelo de regresin logstica, donde estaremos interesados no
en los valores de Y sino en las probabilidades de esto valores. Cambiamos el enfoque
a uno donde interesa pronosticar la probabilidad de un evento y relacionarla con
variables que expliquen la magnitud de la probabilidad.
Se adapta el modelo y se cambia mtodo de estimacin y de contrastes de hiptesis:
el mtodo se llama de Mxima verosimilitud (Maximun Likelihood en ingls) o de
mxima probabilidad.
El modelo
Sea
1 la probabilidad de un evento A de inters, entonces
representa cuantas veces es ms probable que ocurra A a que no ocurra (chance de A) y
su logaritmo neperiano
(que se llama logit) mide de modo continuo y de
- a + cmo cambia esta chance. En el modelo de regresin logstica ponemos esta
medida de la chance en funcin de las variables independientes:
1
Por ejemplo, si 1 >0 entonces, conforme el pronstico inicial es mejor, mayor
probabilidad de mejora del paciente.
Grficamente:
Figura 1 Relacin entre p y Logit(p)
-4.6
-2.9
-2.2
-1.4
-0.8
-0.4
0.0
0.4
0.8
1.4
2.2
2.9
4.6

logit p = ln(p/(1-p)

0.01
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.95
0.99

5.0
4.0
3.0
2.0
1.0
0.0
-1.0
-2.0
-3.0
-4.0
-5.0
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
p

EST-203 ESTADISTICA II

Arturo Caldern G.-2014

Anlisis estadstico del modelo logstico


Los pasos son similares a los del caso lineal, previa estimacin de parmetros, tenemos:
(1) Contraste global de H0: 1=2=3=0 (con el Test de mxima verosimilitud).
(2) Ajuste del modelo (con el R2 de Nagelkerke y la matriz de confusin que SPSS
llama Tabla de Clasificacin).
(3) Contrastes individuales para cada Xj, H0: j=0 vs H1 donde H1 puede ser de una
cola o de dos colas (con el Test de Wald).
(4) Importancia relativa de cada v.i. con el indicador Exp(B) (que se interpreta en
trminos del cociente
: A mayor exponencial Exp(B), ms importante la
correspondiente v.i.
Ejemplo
En el estudio de cncer y la asociacin de los resultados del tratamiento con ciertas
variables clnicas y psicolgicas, aplicamos el procedimiento Binary Logistic del mdulo Regression SPSS a la base de datos CANCER.SAV (en intranet), obteniendo
varios cuadros, pero los que se interpretan son:
Primero: El Test global de H0: 1=2=3=0 que SPSS llama Prueba omnibus, en
donde se mira la significacin del modelo
Tabla 1 Pruebas omnibus sobre los coeficientes
del modelo
Chi
cuadrado
Paso 1 Paso

gl

Sig.

45,695

,000

Bloque

45,695

,000

Modelo

45,695

,000

Se observa que el modelo resulta significativo (Sig.=0.000<0.05), as que rechazamos


H0: 1=2=3=0 y sabemos entonces que al menos una de las variables independientes tiene efecto en la mejora
Segundo: Evaluamos el ajuste del modelo final, en la tabla Resumen del modelo
(Model Summary) que muestra el R2 de Nagelkerke de 0.724 indica que hay una
verosimilitud de 72.4% en este modelo en comparacin con el modelo donde no se
postula ninguna v.i. como asociada a la mejora.

EST-203 ESTADISTICA II

Arturo Caldern G.-2014

Tabla 2 Resumen del modelo


-2 log de la
verosimilitud

Paso

R cuadrado
de Cox y
Snell

31,650a

R cuadrado
de
Nagelkerke

,500

,724

a. La estimacin ha finalizado en el nmero de


iteracin 6 porque las estimaciones de los
parmetros han cambiado en menos de .001.

Tambin es importante ver la tabla matriz de confusin que SPSS llama Tabla de
clasificacin (Classification Table)
Tabla 3 Tabla de clasificacina
Pronosticado
Resultados
Observado

Empeor/Sin cambio

Paso 1 Resultados Empeor/Sin cambio


Mejor

Porcentaje
correcto

Mejor

14

77,8

45

93,8

Porcentaje global

89,4

a. El valor de corte es .500

Se encuentra que el modelo clasifica bien al 77.8% de casos donde no hubo mejora y
al 93.8% de casos donde s la hubo. En promedio, el modelo logra clasificar bien al
89.4% de los casos, que es un % apreciable en relacin al 50% que se espera si se
hace clasificacin al azar.
Tercero: Examinamos la significacin de cada coeficiente (o sea de cada variable
independiente) en el cuadro Variables en la ecuacin (Variables in the equation)
Tabla 4 Variables en la ecuacin
B
a

Paso 1

E.T.

Wald

gl

Sig.

Exp(B)

Pronmed

,082

,021

14,950

,000

1,085

Evitacin

-,162

,078

4,331

,037

,851

,059

,081

,528

,467

1,061

-1,611

1,178

1,870

,171

,200

Intrusiones
Constante

a. Variable(s) introducida(s) en el paso 1: Pronmed, Evitacin, Intrusiones.

SPSS muestra el estadstico de Wald y al lado la significacin (a dos colas) del


correspondiente coeficiente. Notamos que slo Pronmed (el pronstico clnico
inicial) y Evitacin resultan significativas. Es importante ver el signo de cada
coeficiente. As:
Pronmed tiene B1=0.082 > 0, es decir, a mejor pronstico mayor probabilidad de
mejora.
Evitacin tiene B2=-0.162 < 0, o sea que, a mayor evitacin menor probabilidad de
mejora.

EST-203 ESTADISTICA II

Arturo Caldern G.-2014

Lo anterior se basa en que, en general, si H0: j=0 es cierta el estadstico de


~! 0,1 y debiera ser cero. Si cae lejos de cero, se rechaza H0.

Wald

Por razones de conveniencia computacional, SPSS eleva al cuadrado $ y lo presenta


como Wald, esto es $% &
que tiene distribucin Chi2 con k = 1 grado de
libertad. Manualmente, se rechazar H0: j=0 si Wald es mayor que el percentil 95 de
la tabla Chi2 con k = 1 grado de libertad.
Cuarto: Evaluamos la importancia relativa de las v.i. significativas con el Exp(B), que
se interpreta en trminos de la chance
donde
' , que en este caso sera
la probabilidad de mejora. Exp(B) figura en la ltima columna de la tabla Variables
en la ecuacin. En general, a mayor valor ms importancia relativa.
Tabla 4 Variables en la ecuacin
B
a

Paso 1

E.T.

Wald

gl

Sig.

Exp(B)

Pronmed

,082

,021

14,950

,000

1,085

Evitacin

-,162

,078

4,331

,037

,851

,059

,081

,528

,467

1,061

-1,611

1,178

1,870

,171

,200

Intrusiones
Constante

a. Variable(s) introducida(s) en el paso 1: Pronmed, Evitacin, Intrusiones.

En el caso de Pronmed: Exp(B1)=1.085 indica que por cada punto adicional en el


pronstico inicial, la nueva chance de mejora es 1.085 veces la antigua chance de
mejora (esto es debido a que B1>0).
En cambio en el caso de Evitacin: Exp(B2)=0.851 indica que por cada punto adicional en Evitacin la nueva chance de mejora es 0.851 veces la antigua (pues
B2<0).

Das könnte Ihnen auch gefallen