Regresión Logística

Introducción
La regresión logística es un instrumento estadístico de

análisis multivariado, de uso tanto explicativo como
predictivo. Resulta útil su empleo cuando se tiene una
variable dependiente dicotómica (un atributo cuya
ausencia o presencia hemos puntuado con los valores
cero y uno, respectivamente) y un conjunto de
variables predictoras o independientes, que pueden
ser cuantitativas (que se denominan covariables o
covariadas) o categóricas. En este último caso, se
requiere que sean transformadas en variables
“dummy”, es decir variables simuladas.
Cuando tengamos una variable dependiente dicotómica
(0/1; SI/NO; VIVO/MUERTO; CURADO/NO-CURADO,
HIPERTENSIÓN/NORMOTENSIÓN, etc.) que deseemos
predecir, o para la que queramos evaluar la asociación
o relación con otras (más de una) variables
independientes y de control, el procedimiento a realizar
es una REGRESIÓN LOGÍSTICA (RL) BINARIA.
La Regresión Logística es probablemente el tipo de análisis
multivariante más empleado en Ciencias de la Vida. Las
razones más poderosas son:
1. Permite introducir como variables predictoras de la
respuesta (efecto o v. dependiente) una mezcla de
variables categóricas y cuantitativas.
2. A partir de los coeficientes de regresión ( bi) de las
variables independientes introducidas en el modelo se
puede obtener directamente la OR(1) de cada una de ellas,
que corresponde al riesgo de tener el resultado o efecto
evaluado para un determinado valor (x) respecto al valor
disminuido en una unidad (x-1).
(1) OR = e , siendo el número “e” la base de los logaritmos

neperianos (una constante cuyo valor es 2,718).
Así, si la variable independiente es una variable
cuantitativa, la OR que se obtiene representa la
probabilidad del evento predicho que tiene un
individuo con un valor x frente a la probabilidad
que tiene un individuo con valor (x-1). Por
ejemplo, si X es la variable EDAD (en años
cumplidos) y estamos prediciendo muerte, la OR
será la probabilidad de muerte que tiene, por
ejemplo, un individuo de 40 años en relación a
la que tiene uno de 39 años.
Si la variable independiente es cualitativa, la RL
sólo admite categóricas dicotómicas, de manera
que la OR es el riesgo de los sujetos con un valor
frente al riesgo de los sujetos con el otro valor
para esa variable.
3. En la RL la variable dependiente (la que se
desea modelizar, Y) es categórica, habitualmente
dicotómica (RL binaria), lo que constituye una
circunstancia muy frecuente y simple de
representar fenómenos en la naturaleza y en
ciencias de la vida: SI/NO, PRESENTE/AUSENTE,
etc. Esto hace a este tipo de análisis el ideal para
aplicar en los estudios de casos y controles,
estudios en los que los casos tienen algo
(habitualmente una enfermedad, un efecto o un
desenlace) y los controles no.
4. Lo que se pretende mediante la RL es expresar la probabilidad
de que ocurra el evento en cuestión como función de ciertas
variables, que se presumen relevantes o influyentes. Si ese
hecho que queremos modelizar o predecir lo representamos
por Y (la variable dependiente), y las k variables explicativas
(independientes y de control) se designan por X1, X2, X3,…,Xk, la
ecuación general (o función logística) es:
1
P(Y=1) = ---------------------------------------------------------------
1 + exp(– α –β1X1 – β2X2 – β3X3 – … –βKXk)
• donde , b1, b2, b3,…, bk son los parámetros del
modelo, y exp denota la función exponencial.
• Esta función exponencial es una expresión
simplificada que corresponde a elevar el
número e a la potencia contenida dentro del
paréntesis, siendo e el número o constante de
Euler, o base de los logaritmos neperianos
(cuyo valor aproximado a la milésima es
2,718).
Por ejemplo, la regresión logística tomará en cuenta los valores que
asumen en una serie de variables (edad, sexo, nivel educativo,
posición en el hogar, origen migratorio, etc.) los sujetos que están
efectivamente desocupados (=1) y los que no lo están (=0). En base
a ello, predecirá a cada uno de los sujetos – independientemente
de su estado real y actual – una determinada
probabilidad de ser desocupado (es decir, de tener valor 1 en la
variable dependiente). Digamos, si alguien es un joven no jefe de
hogar, con baja educación y de sexo masculino y origen migrante
(aunque esté ocupado) el modelo le predecirá una alta probabilidad
de estar desocupado (puesto que la tasa de desempleo del grupo
así definido es alta), generando una variable con esas
probabilidades estimadas. Y procederá a clasificarlo como
desocupado en una nueva variable, que será el resultado de la
predicción.
Y además, analizará cuál es el peso de cada uno de
estas variables independientes en el aumento o la
disminución de esa probabilidad. Por ejemplo, cuando
aumenta la educación disminuirá en algo la
probabilidad de ser desocupados. En cambio, cuando
el sexo pase de 0 = mujer a 1 = varón, aumentará en
algo la probabilidad de desempleo porque la tasa
de desempleo de los jóvenes de sexo masculino es
mayor que la de las jóvenes mujeres. El modelo,
obviamente, estima los coeficientes de tales cambios.
Cuanto más coincidan los estados pronosticados con

los estados reales de los sujetos, mejor ajustará el
modelo.
• Un ejemplo de regresión logística
•
• Se trata de predecir la probabilidad de TENER HIPERTENSION ARTERIAL de los entrevistados, a
partir de datos de la Encuesta ejecutada para este caso. Se trabajará con el fichero
REGR_LOGISTICA.SAV
•
• Variable dependiente:
•
• - HIPERTENSION ARTERIAL HTA ( 0= SI TIENE, 1= NO TIENE)
•
• Variables independientes cuantitativas (covariadas):
•
- SEXO
- EDAD
- PESO
- ESTATURA
- TABAQUISMO
- DIABETES
- HIPERCOLESTEROLEMIA
•
• Variables independientes categóricas (se convierten en dummy):
•
• SEXO (0=MUJER 1= VARON); DIABETES (0=NO TIENE 1= SI TIENE); TABAQUISMO (0= NO FUMA 1=
SI FUMA); HIPERCOLESTOROLEMIA (0= NO TIENE 1= SI TIENE)
• La función logística refleja la probabilidad del evento (SI TIENE HTA), expresada como “Odds”
(chances):
• Prob SI TIENE/prob NO TIENE = ez
• Donde:
• e = base del logaritmo natural (2,718) Z = α + β1X1 + β2X2 + ...bkXk

• De manera que:
• Z = Log. PP/PNP (Prob SI TIENE/prob NO TIENE)
1
P(Y=1) = ---------------------------------------------------------------
1 + exp(– α –β1X1 – β2X2 – β3X3 – … –βKXk)
• α = constante del modelo (como la ordenada al origen de la regresión, es decir el valor de la

variable dependiente cuando todas las variables independientes son = cero)
• Xi = variables independientes
• βi = pesos de cada variable independiente, que pueden ser positivos o negativos (cuando X
varía en una unidad, el logaritmo del cociente PP/PNP aumenta o disminuye en b unidades)
• Tablas de resultados
• Uno de los primeros indicadores de importancia para

apreciar el ajuste del modelo logístico es el doble
logaritmo del estadístico de Likelihood. Se trata de un
estadístico que sigue una distribución similar a Chi
Cuadrado y compara los valores de la predicción con
los valores observados en dos momentos: a) en el
modelo sin variables independientes, sólo con la
constante y b) una vez introducidas las variables
predictoras. Por lo tanto, el valor del Likelihood debiera
disminuir sensiblemente entre ambas instancias e –
idealmente – tender a cero cuando el modelo predice
bien. (observar cuadro RESUMEN DE RESULTADOS)
Luego, tenemos otro modo de apreciar la bondad de
las predicciones: una tabla de contingencia nos
muestra los valores reales de SI TIENE/NO TIENE que
asumen los sujetos y los que les predice el modelo.
Cuanto mayor sea la carga en la diagonal positiva de la
tabla, mejor será el ajuste: (OBSERVAR LA TABLA DE
CLASIFICACION) En este caso, en el paso 6, tenemos un
61% de predicciones correctas. Sobre 31 personas que
si tienen HTA, el modelo les predijo esa condición a 19
personas. Se nos dice también que el “punto de corte”
para asignar a las personas a las categorías “si tiene” y
“No tiene” fue de 50%. Se le clasifica como “Si tiene”
cuando las chances de serlo superan ese valor.
• La tabla logística:
• Finalmente, tenemos el elemento decisivo para la interpretación del modelo: la tabla logística que
proporciona los pesos y significación de cada variable en la predicción del evento, donde:
• B: son las estimaciones de las b de la ecuación
• E.T.: es el error estándar de estas estimaciones
• Wald: el estadístico de Wald es una prueba de significación estadística que testea la hipótesis nula
de que las b son iguales a cero
• DF: son los grados de libertad de cada variable
• Sig.: es el nivel de significación del Wald (vale decir la probabilidad de error al descartar la hipótesis
nula)
• Exp (B): este estadístico nos dice cuanto aumenta (o disminuye) el “Odds ratio”, o sea el cociente
Pp/pnp (luego de que X aumenta en una unidad) / sobre Pp/pnp (antes de que X varíe). El valor 1
indica que la variable no influye. Valores superiores a 1 indican aumento y valores inferiores a 1
indican disminución.
• Un primer criterio para apreciar los resultados es
ceñirse a aquellas variables para las cuales el
estadístico de Wald arroja significación. Ello
permitiría:
• desechar las variables con menos nivel de
significación
•
• Luego, para las variables que resultan
significativas (es decir, donde la probabilidad de
que b sea cero en la población es muy reducida),
podemos examinar los valores y el signo de estos
coeficientes b:
• Por cada fumador “adicional” en el hogar, se
reduce en 3,7 el logaritmo de la chance de no
ser HIPERTENSO; por cada VARON (VARIABLE
SEXO), el logaritmo de esta chance disminuye
en 4,4; en cambio, el logaritmo de la variable
ESTATURA se incrementa en 16,87 (aquí b es
positivo)
• Los Exp (b) nos indican la relación entre las chances SI
TIENE/NO TIENE, “antes y después” de que cada variable
independiente aumente en una unidad. Cuando ese coeficiente es
1, entonces quiere decir que no cambian esas chances. Si Exp (b)es
mayor a uno, entonces esas chances aumentan. Por el contrario,
cuando es menor a uno, ellas disminuyen. Por ejemplo, el aumento
del peso hace que se reduzca este cociente en mas de la tercera
parte. (0.736)
• Como producto de la aplicación del modelo se crean variables

nuevas:
• La clasificación SI TIENE/NO TIENE según la predicción

• La probabilidad asignada por el modelo en términos de “odds”
(pp/pnp)
Finalmente, los coeficientes R, tal como la
correlación parcial, nos dicen cuanto pesa
cada variable en el aumento o disminución de
la probabilidad del evento, con prescindencia
de las otras.

Regresión Logística

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresión Logística

Hochgeladen von

Copyright:

Verfügbare Formate

Introducción

La regresión logística es un instrumento estadístico de

(1) OR = e , siendo el número “e” la base de los logaritmos

Cuanto más coincidan los estados pronosticados con

• Prob SI TIENE/prob NO TIENE = ez

• e = base del logaritmo natural (2,718) Z = α + β1X1 + β2X2 + ...bkXk

• Z = Log. PP/PNP (Prob SI TIENE/prob NO TIENE)

• α = constante del modelo (como la ordenada al origen de la regresión, es decir el valor de la

• Uno de los primeros indicadores de importancia para

• B: son las estimaciones de las b de la ecuación

• E.T.: es el error estándar de estas estimaciones

• DF: son los grados de libertad de cada variable

• Como producto de la aplicación del modelo se crean variables

• La clasificación SI TIENE/NO TIENE según la predicción

Das könnte Ihnen auch gefallen