EpiClin18 2005-Regresion II

Prof.M.R.
López Patricio González Pizarro
Epi. 18 MODELO DE REGRESIÓN LOGÍSTICA

MULTIVARIANTE
Hasta ahora hemos hablado de modelos lineales para variables continuas, de
distribución normal. Sin embargo existen modelos no lineales que van a tener sus
propias ecuaciones. Un ejemplo de modelo no lineal es el modelo de regresión
logística que se llama así porque la función (fx) que la define es una curva logística.
Constituye un planteamiento especial que busca un modelo o ecuación capaz de
predecir el valor que tomará una variable dependiente (y) en función de los valores que
presenten diversas variables independientes ( x1..xp ); pero ahora con tres importantes
características y que tienen una traducción práctica muy frecuente y útil en situaciones
de investigación biológica.:
1. La variable dependiente es cualitativa, generalmente dicotómica (0=no, 1=si )

2. Las independientes pueden ser cuantitativas o cualis, preferentemente dicotómicas.
3. La relación que se busca no es una ecuación lineal (pocos procesos en medicina
guardan este tipo de relación), sino exponencial de tipo sigmoideo.
HTA
Modelo de regresión múltiple no lineal
Sí
Modelo de regresión logística multivariante
No
Como vemos en la figura, Parece claro que de momento
no puedo establecer una ecuación del tipo y = ax (línea roja ), X [col]
por ello lo que hacemos con vars dicotómicas es ver la probabilidad de que se de una
circusntancia (HTA sí/no).
Asignando probabilidades (valor numérico) podré conseguir un modelo de probabilidad del tipo
P = ax; obtendremos una función logística que permitirá clasificar a los individuos es uno de los
dos grupos.
CARACTERÍSTICAS DE ESTE MODELO
1.Regresión : porque tiene variables dependientes e independientes

2.Múltiple: hay más de una variable independiente.
3.No lineal: es una ecuación exponencial.
Una ecuación exponencial indica crecimiento. Y=ae bx, crecimiento infinito.
Pero existen planteamientos en biología en los que varía; ej: Bioensayos, cuando
analizamos la dosis-respuesta de un fármaco, llega un momento en que la respuesta no
sube mas aunque se aumente la dosis, porque los receptores están saturados (es la
1
máxima probabilidad); es un modelo exponencial pero la ecuación es algo diferente y se
llama modelo o ecuación logística. En este ejemplo del fármaco-dosis sería un ejemplo
de regresión UNIVARIANTE (hay una variable independiente, la dosis) que nos sirve
de ayuda para entender el tema, aunque la clase sea de modelo multivariante. Si tuviera
más de una var. X, tendría un plano o un hiperpepino (Carrasco)de 3, 4,..., n
dimensiones.
Y respuesta
Crecimiento sigmoidal
X, dosis, independiente
ECUACIÓN
(ejemplo de bivariante, para que sea más fácil entenderlo)

1
P(Enf/A)= P= variable dependiente (respuesta al tto)
–(b +b A)
1+ e  1 X= variable independiente (dosis)
Donde b0 = constante y b1 multiplica a la variable A (o a x si la representásemos como b0 + ax).

Las que mejor funcionan son las variables dicotómicas pero si no lo son, pueden valer
las ordinales. Las cuantis funcionan peor.
Una vez sé b0 y b1, el modelo me sirve para saber una respuesta a una dosis determinada
sin necesidad de medir por ejemplo las concentraciones plasmáticas a todos los
pacientes (de ahí la utilidad de crear ecuaciones, gracias a una variable independiente
fácil de medir obtenemos otra dependiente que es complicada de medir o haría falta
métodos cruentos y/o costoso para ello).El cálculo de b0 y b1es complicado y dijo que no venía a
la clase su explicación.
En multivariante: P(E/A1,A2,A3) sería como el de bivariante pero con b1, b2 y b3 y para
interprearlo intentaremos usar el OR en lugar de b1, b2 y b3.
Ahora vamos a ver aplicaciones prácticas:
OBJETIVO DE LA INVESTIGACIÓN (lo que permite conseguir el modelo logístico

multivariante).
Influencia de una serie de FR en un proceso
Modelación matemática o estadística (diseñar el modelo que se quiere aplicar)
Modelo de regresión: con unas variables independientes que en este caso serían los FR
(si es uno sería univariante, si son mas sería un modelo de regresión múltiple)
Y una dependiente que sería el proceso dicotómico que queremos
estudiar (enfermedad-no enfermedad).
2
Las características especiales del modelo logístico son: que la variable dependiente es
dicotómica (enf-no enf) y que la independiente puede ser cuali o cuanti.
Vamos a poner unos ejemplos para entenderlo mejor:
La variable Y del ejemplo anterior (dosis-respuesta) era una proporción de respuesta, si

lo que me quiero plantear es el peso de un FR, ejemplo de FR: la edad en el IAM. En
este caso la variable enfermedad se expresaría en IAM/no IAM, entonces la respuesta
sería 0 y 1.Si lo quisiéramos representar como en el caso anterior, en un gráfico, habría
que cambiar si/no por: probabilidad o proporción de que aparezca la enfermedad en
función de la edad, la probabilidad va en aumento hasta que llega un máximo donde se
estabiliza ( P= 1 )
1 --------------------------------------
prob de enfermar
FR: edad
Este modelo ayuda a estimar la importancia de un FR en una enfermedad. Esta relación

también lo podríamos representar en una tabla de contingencia, en este ejemplo vemos
la influencia del tabaco en el IAM:
Enfermedad (IAM) No enfermedad

FR tabaco a b
FR- (no FR ) c d
Donde OR=axd/bxc.
RELACIÓN ENTRE EL ODDS RATIO Y EL MODELO LOGÍSTICO:

Lo que vamos a hacer es linealizar.
Vamos a calcular la probabilidad de que NO se presente la enfermedad (1-P) y calculo
su cociente, hago una trasformación logi:
P
= e( b0 + b1 A), de modo que si hago logaritmo: ln(P/1-P) = b0 + b1A
1-P
Así, he conseguido linealizarlo!! (siendo la y sustituida por ln(P/1-P))
3
Ahora metemos al OR:
ENFERMEDAD EXPOSICIÓN a A
Sí No
Sí P (E/A) = 1 P (E/A) = 0
No (1 – P) 1 - P (E/A) = 1 1 - P (E/A) = 0
Tomando la ecuación anterior, en la que: 1

P =
1 + e-( b0 + b1 x)
La Odds Ratio (OR o razón de probabilidades) es la razón entre:

- la “odd” de enfermar teniendo el FR: P(E/A) / P(nE/A) = P / 1-P para x=1
- la “odd” de enfermar sin tener el FR: P(E/nA) / P(nE/nA) = P / 1-P para x=0
Porque conceptualmente Odd = probabilidad de enfermar / probabilidad de no enfermar

y el OR seríael odd con A presente / odd sin A presente.
Si sustituimos valores P
para hallar las “odds”: = e +x
(nota: α = b0 y β = b1)
1-P
Odd de enfermar teniendo el FR = P(E/F) / P(nE/F), para X = 1:
P/1-P = e+
Odd de enfermar sin tener el FR = P(E/nF) / P(nE/nF), para X = 0:
P/1-P = e
OR final = e+ / e= e log neperiano Ln OR  (parámetro del

modelo regresión que
permite estudiar el
OR, su significación
y su intervalo de
confianza)
= 0, no significación e0 = 1 ; OR=1(no hay relación)
negativo--------protección
 = positivo--------riesgo
Es decir, si el OR = eb1 (no puedo usar sólo b1 porque no sé interpretar el lnOR) , si b1=
0, el OR = 1 que es lo mismo que nada, no?? Un OR = 1 no me dice nada. Sólo será
signifactivo para un OR ≠ 1 que es un b1≠ 0.
4
VENTAJAS DEL MODELO LOGÍSTICO:
- No restricción de FR para ver cómo influyen

- No necesita que el FR que estudiamos sea dicotómico
En el modelo multivariante dónde intervengan varios FR se puede obtener el OR para

cada uno de los FR ajustados por todos los demás.
El concepto de OR se puede generalizar al caso de FR que sean variables cuanti o cuali
con más de 2 categorías. (gran ventaja frente a la tabla de contingencia). Al ser
multivariante, conforme voy metiendo variables se van ajustando, dando un peso real a
cada una. Por ejemplo, en la cardiopatía isquémica hay muchos FR, habrá que ver el
peso que tienen por separado pero también todos juntos: una persona normalmente no es
sólo obesa…sino que a veces también fuma, es diabética ,no hace ejercicio…
Se miden distintos riesgos : OR :medida de riesgo de un FR en una enfermedad.
OR=axd/bxc nos da un número, cuánto más probable es tener la enfermedad en

aquellos con FR frente aquellos sin FR razón de probabilidades
La estimación a través de coeficientes de regresión (no con tablas de contingencia) nos
ajusta los FR y tendrá una gran ventaja para las multivariantes, en cambio en las
univariantes da igual usar sólo tabla de contingencia.
Volvemos a lo mismo pero con varias variable….(siento que sea tan coñazo)
P= 1/1+e-( 1x1+2x2+..nxn )
Supongamos que varía un factor y el resto permanecen ctes:
Si x1=1 ORa = e +x2nxn

OR1= ORa / ORb = e 
Si x1=0 ORb = e 2x2+…nxn (OR para el FR nº 1)
La medida del efecto de un factor sobre la enfermedad es constante e

independiente de los valores que el individuo presente en los demás factores.
Supongamos la presencia de todos los FR ( x 1=1…xn=1 ) frente a la ausencia de todos

ellos (x1=0…xn=0) tenemos que :
OR = e +…n / e  = e n = e 1x e  x e n = OR1 X OR2 X ORn…
El modelo asume que la relación de riesgos entre sí es multiplicativa Ej: fumador,

bebedor…
El procedimiento de ajuste para este modelo no es por mínimos cuadrados sino de
máxima verosimilitud que decide si el modelo es significativo:
5
-puede ser globalmente significativo aunque no todas las variables
tienen que serlo, cada coeficiente tiene su significación individual igual que en la lineal.
-se pueden fijar una serie de variables o paso a paso, se van
metiendo variables, si alguna deja de ser significativa se quita.
-hay variables que casi siempre se meten, por ejemplo, la edad,
para decir que el riesgo está ajustado por edades…lo mismo con el sexo.
EJEMPLO PRÁCTICO
Queremos saber la probabilidad de que una persona tenga un IAM:
Y= IAM (V. dependiente)

X1=edad
X2=diabetes (no=0 ; si=1 )
Metiendo los datos en el ordenador (programa SPSS, procedimiento de máxima

verosimilitud) nos salen los siguientes datos :
= -1.7
= 0.086
=0.625
1.para saber el peso de tener diabetes:
e= e 0.625 = 1.87 esto es el nº de veces que es probable tener un IAM siendo
diabético.
2.si es diabético y tiene 60 años la probabilidad de tener IAM :
P=1/1+e-(-1.7 + 0.086 x 60 + 0.625x1)= 1/1+e –4 = 0.98 esta es la probabilidad de que este

paciente tenga IAM.
3. relación entre dos pacientes : uno de 60 á y con DM

otro de 35á y con DM
OR= e 0.086 (60-35) x e 0.625 (1-1) = 8.58 nº de veces que tiene más riesgo el primer
paciente.
Es mejor usar este método para estimaciones relativas (ej 3) que para las absolutas (ej2).

EpiClin18 2005-Regresion II

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

EpiClin18 2005-Regresion II

Hochgeladen von

Copyright:

Verfügbare Formate

Prof.M.R.

López Patricio González Pizarro

Epi. 18 MODELO DE REGRESIÓN LOGÍSTICA

1. La variable dependiente es cualitativa, generalmente dicotómica (0=no, 1=si )

CARACTERÍSTICAS DE ESTE MODELO

1.Regresión : porque tiene variables dependientes e independientes

Una ecuación exponencial indica crecimiento. Y=ae bx, crecimiento infinito.

(ejemplo de bivariante, para que sea más fácil entenderlo)

Donde b0 = constante y b1 multiplica a la variable A (o a x si la representásemos como b0 + ax).

Ahora vamos a ver aplicaciones prácticas:

OBJETIVO DE LA INVESTIGACIÓN (lo que permite conseguir el modelo logístico

Modelación matemática o estadística (diseñar el modelo que se quiere aplicar)

Vamos a poner unos ejemplos para entenderlo mejor:

La variable Y del ejemplo anterior (dosis-respuesta) era una proporción de respuesta, si

Este modelo ayuda a estimar la importancia de un FR en una enfermedad. Esta relación

Enfermedad (IAM) No enfermedad

RELACIÓN ENTRE EL ODDS RATIO Y EL MODELO LOGÍSTICO:

Tomando la ecuación anterior, en la que: 1

La Odds Ratio (OR o razón de probabilidades) es la razón entre:

Porque conceptualmente Odd = probabilidad de enfermar / probabilidad de no enfermar

Odd de enfermar teniendo el FR = P(E/F) / P(nE/F), para X = 1:

Odd de enfermar sin tener el FR = P(E/nF) / P(nE/nF), para X = 0:

OR final = e+ / e= e log neperiano Ln OR  (parámetro del

= 0, no significación e0 = 1 ; OR=1(no hay relación)

- No restricción de FR para ver cómo influyen

En el modelo multivariante dónde intervengan varios FR se puede obtener el OR para

OR=axd/bxc nos da un número, cuánto más probable es tener la enfermedad en

Supongamos que varía un factor y el resto permanecen ctes:

Si x1=1 ORa = e +x2nxn

Si x1=0 ORb = e 2x2+…nxn (OR para el FR nº 1)

La medida del efecto de un factor sobre la enfermedad es constante e

Supongamos la presencia de todos los FR ( x 1=1…xn=1 ) frente a la ausencia de todos

OR = e +…n / e  = e n = e 1x e  x e n = OR1 X OR2 X ORn…

El modelo asume que la relación de riesgos entre sí es multiplicativa Ej: fumador,

Queremos saber la probabilidad de que una persona tenga un IAM:

Y= IAM (V. dependiente)

Metiendo los datos en el ordenador (programa SPSS, procedimiento de máxima

1.para saber el peso de tener diabetes:

2.si es diabético y tiene 60 años la probabilidad de tener IAM :

P=1/1+e-(-1.7 + 0.086 x 60 + 0.625x1)= 1/1+e –4 = 0.98 esta es la probabilidad de que este

3. relación entre dos pacientes : uno de 60 á y con DM

Das könnte Ihnen auch gefallen