Modelos de Regresión Logística Incondicional

Modelos de regresin logstica incondicional (I)
Parte I Parte II
ndice
1. 2. 3. 4. 5. Introduccin Introduccin al modelo de regresin logstica Introduccin a la seleccin de variables Multicolinealidad Anexos
Introduccin
Esta nota pretende la introduccin, de la forma ms amena posible pero de forma extensa, de conceptos en relacin con el manejo de los modelos de regresin logstica incondicional, es decir, modelos basados en observaciones independientes. Existen modificaciones del modelo incondicional que nos permiten manejar datos dependientes, como ocurre para los estudios caso-control pareados. A lo largo del texto general aparecern las mnimas formulaciones necesarias, atendiendo principalmente a conceptos y estrategias de diseo. Aparte del texto general, en el apartado de Anexos, aparecern siempre que se crea necesario, explicaciones breves, ejemplos o bien desarrollos matemticos para que aquellos lectores que posean un conocimiento de clculo suficiente puedan desarrollar sus aplicaciones informticas propias. Os recomiendo la siguiente bibliografa: 1. Hosmer DW, Lemeshow S. Applied Logistic regression. John Willey & Sons, Inc. 2 Ed. 2000. 2. Carrasco JL, Hernn MA. Estadstica multivariante en las ciencias de la vida. Editorial Ciencia 3. Madrid. 1993.
3. Klinbaum DG, Kupper LL, Morgenstern H. Epidemiologic research. Principles and quantitative methods. Van Nostrand Reinhold. 1982.
Introduccin al modelo de regresin logstica

Los modelos de regresin son modelos estadsticos en los que se desea conocer la relacin entre:
Una variable dependiente cualitativa, dicotmica (regresin logstica binaria o binomial) o con ms de dos valores (regresin logstica multinomial). Una o ms variables explicativas independientes, o covariables, ya sean cualitativas o cuantitativas.
... siendo la ecuacin inicial del modelo de tipo exponencial, si bien su transformacin logartmica (logit) permite su uso como una funcin lineal. Como vemos, las covariables pueden ser cuantitativas o cualitativas. Las covariables cualitativas deben ser dicotmicas, tomando valores 0 para su ausencia y 1 para su presencia (esta codificacin es importante, ya que cualquier otra codificacin provocara modificaciones en la interpretacin del modelo). Pero si la covariable cualitativa tuviera ms de dos categoras, para su inclusin en el modelo deberamos realizar una transformacin de la misma en varias covariables cualitativas dicotmicas ficticias o de diseo (las llamadas variables dummy), de forma que una de las categoras se tomara como categora de referencia. Con ello cada categora entrara en el modelo de forma individual. En general, si la covariable cualitativa posee ncategoras, habr que realizar n-1 covariables ficticias. Un ejemplo con la covariable color de ojos:
Categoras Azules (categora de referencia) Verdes Marrones F1 0 1 0 F2 0 0 1
En este ejemplo un sujeto de ojos azules (la categora de referencia), entrara en el modelo con F1=0 y F2=0, mientras que un sujeto con ojos verdes entrara con F1=1 y F2=0.
Por sus caractersticas, los modelos de regresin logstica permiten dos finalidades: 1. Cuantificar la importancia de la relacin existente entre cada una de las covariables y la variable dependiente, lo que lleva implcito tambin clarificar la existencia de interaccin y confusin entre covariables respecto a la variable dependiente (es decir, conocer la odds ratio para cada covariable). 2. Clasificar individuos dentro de las categoras (presente/ausente) de la variable dependiente, segn la probabilidad que tenga de pertenecer a una de ellas dada la presencia de determinadas covariables. En esta nota me ocupar nicamente de los modelos de regresin logstica binaria. Resultan los de mayor inters ya que la mayor parte de las circunstancias analizadas en medicina responden a este modelo (presencia o no de enfermedad, xito o fracaso, etc). Como hemos visto, la variable dependiente ser una variable dicotmica que se codificar como 0 1 (ausencia y presencia respectivamente). Este aspecto de la codificacin de las variables no es vanal (influye en la forma en que se realizan los clculos matemticos), y habr que tenerlo muy en cuenta si empleamos paquetes estadsticos que no recodifican automticamente nuestras variables cuando stas se encuentran codificadas de forma diferente (por ejemplo el frecuente uso de 1 para la presencia y -1 2 para la ausencia). La ecuacin de partida en los modelos de regresin logstica es como sigue:
Ecuacin 1 ... siendo P(y=1|X) la probabilidad de que y tome el valor 1 (presencia de la caracterstica estudiada), en presencia de las covariables X (aqu X es un conjunto de n covariables x1, x2, ... , xn-1, xn). Los componentes de esta ecuacin son:
1. 2. 3. 4.
b0 es la constante del modelo o trmino independiente n el nmero de covariables bi los coeficientes de las covariables xi las covariables que forman parte del modelo.
Es lo que se denomina distribucin logstica. En la siguiente imagen vemos un ejemplo de esta distribucin: la probabilidad de padecer enfermedad coronaria en funcin de la edad. Como puede verse, la relacin entre la variable dependiente (cualitativa dicotmica), y la covariable (edad, cuantitativa continua en este caso), no es definida por una recta (lo que correspondera un modelo lineal), sino que decribe una forma sigmoidea (distribucin logstica).
Figura 1 Si dividimos la expresin anterior de la Ecuacin 1 por su complementario, es decir, si construimos su odds (en el ejemplo de presencia o no de enfermedad, la probabilidad de estar enfermo entre la probabilidad de estar sano), obtenemos una expresin de de ms fcil manejo matemtico:
Ecuacin 2 Pero esta expresin an es difcil de interpretar. Su representacin grfica es como se ve en la Figura 2.
Figura 2 Si ahora realizamos su transformacin logartmica con el logaritmo natural, obtenemos una ecuacin lineal que es lgicamente de manejo matemtico an ms fcil y de mayor comprensin:
Ecuacin 3 En la expresin de la Ecuacin 3 vemos a la izquierda de la igualdad el llamado logit, es decir, el logaritmo natural de la odss de la variable dependiente (esto es, el logaritmo de la razn de proporciones de enfermar, de fallecer, de xito, etc). El trmino a la derecha de la igualdad es la expresin de un recta, idntica a la del modelo general de regresin lineal:
Ecuacin 4 Siguiendo el ejemplo de las Figuras 1 y 2, podemos representar el logit frente a la edad de la forma que se observa en la Figura 3.
Figura 3 Pero la regresin lineal presenta una diferencia fundamental respecto al modelo de regresin logstica. En el modelo de regresin lineal se asume que los errores estndar de cada coeficiente siguen una distribucin normal de media 0 y varianza constante (homoscedasticidad). En el caso del modelo de regresin logstica no pueden realizarse estas asunciones pues la variable dependiente no es continua (slo puede tomar dos valores, 0 1, pero ningn valor intermedio). Si llamamos al posible error de prediccin para cada covariable xi,, tendremos que el error cometido depender del valor que llegue a tomar la variable dependiente y, tal como vemos en la Ecuacin 5.
Ecuacin 5 Esto implica que sigue una distribucin binomial, con media y varianza proporcionales al tamao muestral y a P(y=1|xi) (la probabilidad de que y=1 dada la presencia de xi). Para la estimacin de los coeficientes del modelo y de sus errores estndar se recurre al clculo de estimaciones de mxima verosimilitud, es decir, estimaciones que maximicen la probabilidad de obtener los valores de la variable dependiente Y proporcionados por los datos de nuestra muestra. Estas estimaciones no son de clculo directo, como ocurre en el caso de las estimaciones de los coeficientes de regresin de
la regresin lineal mltiple por el mtodo de los mnimos cuadrados. Para el clculo de estimaciones mximo-verosmiles se recurre a mtodos iterativos, como el mtodo de Newton-Raphson. Dado que el clculo es complejo, normalmente hay que recurrir al uso de rutinas de programacin o a paquetes estadsticos. De estos mtodos surgen no slo las estimaciones de los coeficientes de regresin, sino tambin de sus errores estndar y de las covarianzas entre las covariables del modelo. El siguiente paso ser comprobar la significacin estadstica de cada uno de los coeficientes de regresin en el modelo. Para ello podemos emplear bsicamente tres mtodos: 1. El estadstico de Wald. Contrasta la hiptesis de que un coeficiente aislado es distinto de 0, y sigue una distribucin normal de media 0 y varianza 1. Su valor para un coeficiente concreto viene dado por el cociente entre el valor del coeficiente y su correspondiente error estndar. La obtencin de significacin indica que dicho coeficiente es diferente de 0 y merece la pena su conservacin en el modelo. En modelos con errores estndar grandes, el estadstico de Wald puede proporcional falsas ausencias de significacin (es decir, se incrementa el error tipo II). Tampo es recomendable su uso si se estn empleando variables de diseo. 2. El estadstico G de razn de verosimilitud. Se trata de ir contrastando cada modelo que surge de eliminar de forma aislada cada una de las covariables frente al modelo completo. En este caso cada estadstico G sigue una 2 con 1 grado de libertad (no se asume normalidad). La ausencia de significacin implica que el modelo sin la covariable no empeora respecto al modelo completo (es decir, da igual su presencia o su ausencia), por lo que segn la estrategia de obtencin del modelo ms reducido (principio de parsimonia), dicha covariable debe ser eliminada del modelo ya que no aporta nada al mismo. Esta prueba no asume ninguna distribucin concreta, por lo que es la ms recomendada para estudiar la significacin de los coeficientes. 3. La prueba Score. Su clculo para el caso de una nica variable viene dado por la Ecuacin 6.
Ecuacin 6 En el caso de mltiples covariables hay que utilizar clculo matricial, si bien no requiere un clculo iterativo (precisamente su rapidez de clculo sera su aspecto ms favorable). En contra del mismo dos aspectos: 1. Se sabe que este estadstico se incrementa conforme aumenta el nmero de covariables (es decir tiende a dar significacin con mayor frecuencia). 2. Este estadstico tambin asume una distribucin normal con media 0 y varianza 1. Al igual que en los casos anteriores, si alcanza significacin nos indica que la covariable debera permanecer en el modelo. Su uso en algunos paquetes estadsticos ha quedado relegado a la seleccin de variables en mtodos paso a paso (por la mayor rapidez de clculo). Cuando la covariable es cualitativa con n categoras (siendo n > 2), en el modelo se analizar la significacin de cada una de sus n-1 variables ficticias, as como la significacin global de la covariable comparando la presencia en bloque frente a la ausencia en bloque de sus n-1 covariables ficticias. En el siguiente ejemplo, tomado de Hosmer y realizado con SPSS, se analiza la variable edad (AGE) y la variable IVHX (usuario de drogas por va parenteral); sta segunda era una variable con tres categoras (nunca, previa y reciente), por lo que se crearon dos variables ficticias: IVHX(1) e IVHX(2); el resultado es una estimacin de los con sus errores estndar, la significacin para IVHX(1) e IVHX(2), y la significacin de IVHX considerada como la entrada frente a la salida en bloque del modelo de IVHX(1) e IVHX(2).
Figura 4 Una vez hemos estimado los coeficientes de regresin y sus correspondientes errores estndar debemos calcular los correspondientes intervalos de confianza para nuestras estimaciones. Cada intervalo de confianza se calcular bajo la hiptesis de que dichos coeficientes se distribuyen segn respectivas distribuciones normales, por lo que para un determinado coeficiente su intervalo de confianza al 95% vendr dado por la Ecuacin 7. IC95% de = [ - 1.96 EE), + 1.96 EE] IC95% de OR=[e(-1.96EE), e(+1.96EE)] Ecuacin 7 Junto a la significacin del estadstico que hayamos empleado para contrastar la significacin de los coeficientes de regresin, la inclusin de la unidad en el intervalo de confianza es, lgicamente, indicativa de la ausencia de significacin. En ocasiones nos encontraremos con modelos que nos llaman la atencin por la falta de sentido de sus estimaciones. Esta sorpresa suele venir dada por la presencia de estimaciones de grandes errores estndar, con frecuencia asociadas a estimaciones de coeficientes de regresin tambin anormalmente elevados. Las posibles causas de este hecho pueden ser: 1. Presencia de una frecuencia de 0 en una tabla de contingencia. Se refiere a la presencia de 0 en una de las celdas de la tabla de contingencia de Y x X. Cuando esto ocurre provoca en el clculo de la correspondiente odds la presencia de un 0 en el denominador (y por tanto no es calculable). Si esta covariable se intenta
introducir en el modelo de regresin que estemos diseando, nuestro software puede comportarse de forma incorrecta: desde excluirla por entender que predice perfectamente la variable dependiente, a incluirla y comunicar un error (porque la rutina de iteracin para el clculo de estimaciones de mxima verosimilitud o bien no llega a converger o bien llega al mximo de iteraciones prefijadas). Esta circunstancia puede y debe ser detectada durante el anlisis univariado. En el caso de tratarse de una variable cualitativa con ms de dos categoras, una solucin es colapsar dos de esas categoras. Tambin puede ocurrirnos que incluyamos interacciones que impliquen una excesiva estratificacin para la muestra que tenemos. El resultado puede ser una estimacin elevada del correspondiente coeficiente de regresin y de su error estndar. En el anlisis univariado, al realizar efectivamente las dos tablas de contingencia de la estratificacin, observaremos que alguna de las 8 celdas contiene el 0. Si no puede recurrir al colapso de categoras, puede decidirse disear una nueva variable que sea la combinacin de las dos covariables con sus correspondientes categoras, e incluirla como tal en el modelo. 2. Presencia de una o ms covariables que discriminan perfectamente las dos categoras de la variable dependiente. Algunos ejemplos servirn para explicar esta circunstancia: Si siempre que se administran antimicrobianos los sujetos con una determinada enfermedad infecciosa viven y siempre que no se administran mueren, la covariable antimicrobianos discrimina perfectamente a la variable muerte; o si siempre que se tienen ms de 65 aos se padece de cardiopata isqumica y por debajo no, la covariable edad discrimina perfectamente a la variable cardiopata isqumica. En la prctica esta circunstancia impide que se puedan realizar estimaciones de coeficientes por mxima verosimilitud, lo que no quiere decir que nuestro paquete estadstico necesariamente no de falsas estimaciones, como en el punto anterior. Este problema est en estrecha relacin con el tamao muestral y el nmero de covariables que se desean introducir en el modelo: la probabilidad de discriminacin completa es elevada en los modelos con muestras con tamaos muestrales pequeos, sobre todo
cuando una de las categoras de la variable dependiente est poco representada, y tanto ms cuanto mayor es el nmero de covariables introducidas en el modelo. 3. Multicolinealidad. Si bien existen pruebas que permiten comprobar la existencia de colinealidad entre covariables (que veremos ms adelante), cabe resear aqu que al igual que en los casos anteriores, los modelos con multicolinealidad entre las covariables introducidas llamarn nuestra atencin por la presencia de grandes errores estndar, y frecuentemente, estimaciones de coeficientes anormalmente elevadas. Sin embargo la multicolinealidad no afecta al sentido de las estimaciones (la multicolinealidad no har que aparezca significacin donde no la hay, y viceversa).
Introduccin a la seleccin de variables

Pero, del conjunto de variables que podemos tener en un estudio, que variables deben introducirse en el modelo? El modelo debe ser aqul ms reducido que explique los datos (principio de parsimonia), y que adems sea clnicamente congruente e interpretable. Hay que tener en cuenta que un mayor nmero de variables en el modelo implicar mayores errores estndar. Deben incluirse todas aquellas variables que se consideren clnicamente importantes para el modelo, con independencia de si un anlisis univariado previo se demostr o no su significacin estadstica. Por otro lado, no debera dejarse de incluir toda variable que en un anlisis univariado previo demostrara una relacin "suficiente" con la variable dependiente. Como puede verse no se habla de significacin estadstica (p<0.05), que sera un criterio excesivamente restrictivo, sino de un cierto grado de relacin (por ejemplo p<0.25). La laxitud de esta recomendacin se debe a que un criterio tan restrictivo como una p<0.05 puede llevarnos a dejar de incluir en el modelo covariables con una dbil asociacin a la variable dependiente en solitario pero que podran demostrar ser fuertes predictores de la misma al tomarlas en conjunto con el resto de covariables. Una cuestin importante a tener en cuenta es el correcto manejo de las variables cualitativas transformadas en varias variables ficticias.
Siempre que decidamos incluir (o excluir) una de estas variables, todas sus correspondientes variables ficticias deben ser incluidas (o excluidas) en bloque. No hacerlo as implicara que habramos recodificado la variable, y por tanto la interpretacin de la misma no sera igual. En el ejemplo del color de los ojos empleado ms arriba, incluir slo la variable F1 implicara recodificar la variable incial "color de ojos" (con tres categoras) en "color verde de ojos" (con dos categoras, "ojos verdes" y "ojos no verdes"). Otro aspecto de inters es la significacin que pudiera tener cada variable ficticia. No siempre nos encontraremos con que todas las variables ficticias de una covariable son significativas, o todas no significativas. En el ejemplo del color de los ojos podra ser significativa F1 y no ser significativa F2. Qu hacer? En estos casos es recomendable contrastar el modelo completo frente al modelo sin la covariable mediante la prueba de razn de verosimilitud (es decir, se sacaran del modelo en bloque todas las variables ficticias de la covariable de inters). La decisin se tomara dependiendo del resultado de la prueba y del inters clnico de la covariable: Si se obtiene significacin en este contraste, la variable permanece en el modelo; si no se obtiene significacin y la covariable es de inters clnico a criterio del investigador, habra que valorar la magnitud en la que se distancia de la significacin para decidir si la covariable debe permanecer o no en el modelo.
Una vez tenemos nuestro modelo inicial debemos recurrir a su reduccin hasta el modelo ms reducido que siga explicando nuestros datos. Para ello podemos recurrir a mtodos de seleccin paso a paso, bien mediante inclusin "hacia adelante" o por eliminacin "hacia atrs", o a la seleccin de variables por mejores subconjuntos de covariables. Estos mtodos se encuentran implementados en numerosos paquetes estadsticos, por lo que son muy populares. Dado que para la comprensin de los mtodos de seleccin paso a paso se requiere un conocimiento previo acerca del ajuste del modelo, ste es un aspecto que debe ser tratado en otro momento; sugiero al lector que se introduzca en este aspecto una vez tenga conocimientos sobre el anlisis del ajuste del modelo. No obstante hay que advertir que su uso nunca puede sustituir a la valoracin juiciosa de los modelos que van surgiendo de forma seriada en cada paso y del modelo final. No hacerlo as puede llevarnos a dar por bueno un modelo surgido de forma automtica (por
criterios prestablecidos por el paquete estadstico muchas veces mal conocidos por el usuario del software), con escaso valor clnico. Cada vez que nos encontremos ante un modelo de regresin logstica (el inicial, cualquiera de los intermedios o el final), tendremos que contrastar su significacin global. Esto se hace mediante las pruebas de ajuste global del modelo. Una vez tenemos un modelo preliminar, podramos incluir factores de interaccin, es decir, estudiar cmo la asociacin de dos o ms covariables puede influir en la variable dependiente. Existen estrategias de desarrollo de modelos de regresin por las que se recomienda la inclusin en el modelo inicial de todas las covariables necesarias ms las interacciones de las mismas, o por lo menos, las interacciones de primer orden (tomadas las covariables dos a dos), a los que se les llama modelos saturados. Interacciones de mayor orden suelen ser de difcil interpretacin. En cualquier caso siempre hay que tener presente las limitaciones de tamao muestral (que luego veremos), y de interpretacin desde el punto de vista clnico (no se deberan incluir interacciones de significado incierto). Otra estrategia en el desarrollo del modelo final es el diseo y ajuste de un modelo final preliminar sin interacciones, con el que luego ensayaramos la inclusin, uno por uno, de trminos de interaccin que pudieran tener traduccin clnica [Hosmer y Lemeshow], y valorar su significacin respecto del modelo previo sin interacciones. Una vez decidido que incluiremos un factor de interaccin, tendremos en cuenta que siempre debern estar incluidas tambin de forma aislada en el modelo las covariables que componen la interaccin (principio jerrquico): si nuestra interaccin es "HTA-diabetes", en el modelo se encontrarn como covariables HTA y diabetes: logit = 0 + 1 HTA + 2 DM + 3 HTA DM + ... Ecuacin 8 Por otra parte, y en relacin con la inclusin de interacciones, hay que tener en cuenta que la inclusin de las mismas puede generar multicolinealidad, tanto ms probable cuanto mayor sea el nmero de interacciones.
Siempre debe considerarse la suficiencia del tamao muestral para el nmero de covariables que se desea incluir en el modelo: modelos excesivamente grandes para muestras con tamaos muestrales relativamente pequeos implicarn errores estndar grandes o coeficientes estimados falsamente muy elevados (sobreajuste). En general se recomienda que por cada covariable se cuente con un mnimo de 10 individuos por cada evento de la variable dependiente con menor representacin [Peduzzi]. Un ejemplo: si la variable dependiente Y es muerte y en nuestros datos hay 120 sujetos vivos y 36 sujetos muertos, el evento de Y menos representado es muerte, con 36 sujetos; de esta forma nuestro modelo no debera contener ms de 36/10 ~ 3 covariables. Lo anterior es vlido siempre que se trate de covariables cuantitativas o cualitativas con distribuciones bien equilibradas. La situacin se complica si una o ms de las covariables cualitativas no tiene una distribucin equilibrada (uno de sus dos valores tiene una mnima representacin); en ese caso se recomienda que en su tabla de contingencia respecto a la variable dependiente, en cada celda haya un mnimo de 10 observaciones. Con un ejemplo lo entenderemos: En el siguiente ejemplo se debera disponer de suficiente tamao muestral como para que en cada celda haya 10 ms sujetos (es decir, que tanto a, b, c como d sean mayores de 10).
Y|X y=0 y=1 x=0 a c x=1 b d
Multicolinealidad
Se dice que existe multicolinealidad cuando dos o ms de las covariables del modelo mantienen una relacin lineal. Cuando la colinealidad es perfecta, es decir, cuando una covariable puede determinarse segn una ecuacin lineal de una o ms de las restantes covariables, es posible estimar un nico coeficiente de todas las covariables implicadas. En estos casos debe eliminarse la covariable que actua como dependiente.
Normalmente lo que encontraremos ser una multicolinealidad moderada, es decir, encontraremos una mnima correlacin entre covariables. Si esta correlacin fuera de mayor importancia, su efecto sera, como ya vimos anteriormente, el incremento exagerado de los errores estndar, y en ocasiones, del valor estimado para los coeficientes de regresin, lo que hace las estimaciones poco creibles. Un primer paso para analizar este aspecto puede ser examinar la matriz de coeficientes de correlacin entre las covariables. Coeficientes de correlacin muy elevados nos llevarn a investigar en mayor profundidad. Sin embargo este mtodo, bueno para detectar colinealidad entre dos covariables, puede llevarnos a no poder detectar multicolinealidad entre ms de dos de ellas. Existen otros procedimientos analticos para detectar multicolinealidad. Podemos desentendernos por el momento de la variable dependiente y realizar sendos modelos en los que una de las covariables actuar como variable dependiente y las restantes covariables como variables independientes de quella. A cada uno de estos modelos podemos calcularle su R2 (o dispersin total, medida de ajuste que veremos ms adelante). Se denomina tolerancia al complementario de R2 (1-R2), y factor de inflacin de la varianza (FIV) al inverso de la tolerancia (1/(1R2)). Cuando existe estrecha relacin entre covariables la tolerancia tiende a ser 0, y por tanto FIV tiende al infinito. Como regla general nos deberan preocupar tolerancias menores de 0.1 y FIV mayores de 10. SPSS nos ofrece la matriz de correlaciones, pero no aporta ndices de multicolinealidad para la regresin logstica. La solucin a la multicolinealidad no es fcil:

Puede intentarse eliminar la variable menos necesaria implicada en la colinealidad, a riesgo de obtener un modelo menos vlido. Podemos intentar cambiar la escala de medida de la variable en conflicto (es decir, transformarla), para evitar sacarla del modelo, si bien no siempre encontraremos una transformacin de forma directa. Algunas transformaciones frecuentes son el centrado respecto de la media, la estandarizacin o la creacin de variables sintticas mediante un anlisis previo de componentes principales (que es otro tipo de anlisi multivariado). Estas transformaciones por el contrario hacen al modelo muy dependiente de los datos actuales, invalidando su capacidad predictiva.
Tambin podemos recurrir a aumentar la muestra para as aumentar la informacin en el modelo, cosa que no siempre nos ser posible.
Anexos:
Funcin de verosimilitud: Sabemos que cualquier variable dependiente de otra u otras variables, toma valores segn los valores de las variables de las que depende. Por otra parte, esa variable dependiente ir tomando valores siguiendo o describiendo una determinada distribucin de frecuencias; es decir, tomen los valores que tomen las variables independientes, si el experimento se repite mltiples veces, la variable dependiente tomar para esos valores de las independientes un determinado valor, y la probabilidad de ocurrencia de dicho valor vendr dado por una distribucin de frecuencias concreta: una distribucin normal, una distribucin binomial, una distribucin hipergeotrica, etc. En el caso de una variable dependiente dicotmica (como el caso que nos ocupa), la distribucin de frecuencias que seguir ser la binomial, que depende de la tasa de xitos (X sujetos de un total de N, que sera el elemento variable), para un determinado tamao muestral (N) y probabilidad (p) de ocurrencia del evento valorado por la variable dependiente (parmetros constantes). La funcin de densidad de esta distribucin de frecuencias vendr dada por la siguiente expresin
Si en la expresin anterior introducimos los datos concretos de nuestra muestra de N sujetos (es decir, convertimos el elemento variable X en parmetro), y hacemos depender el resultado de la funcin de densidad del parmetro "probabilidad de ocurrencia" (p, que de esta forma lo convertimos en variable), estamos generando su funcin de verosimilitud, (p|x) (funcin dependiente de p dado el valor muestral de x) o L(p) (L del trmino likelihood), que nos ofrece como resultados las probabilidades de la funcin de densidad ajustada a nuestros datos.
Se deduce que, para una muestra concreta, esa probabilidad ser diferente segn qu valores tome el parmetro "probabilidad de ocurrencia".
Se demuestra que la mejor estimacin de dicho parmetro () es aquel valor que maximice esta funcin de verosimilitud, ya que son estimadores consistentes (conforme crece el tamao muestral, la estimacin se aproxima al parmetro desconocido), suficientes (aprovechan la informacin de toda la muestra), asintticamente normales y asintticamente eficientes (con mnima varianza), si bien no siempre son insesgados (no siempre la media de las estimaciones para diferentes muestras tender hacia el parmetro desconocido). Mtodo de Newton-Raphson: Se trata de un mtodo iterativo, empleado en diversos problemas matemticos, como en la determinacin de las races de ecuaciones, y en nuestro caso, en la estimacin de los coeficientes de regresin por el procedimiento de mxima verosimilitud. Por facilidad de clculo toda la formulacin la expresaremos en forma de matrices. Las particularidades del clculo matricial escapan del mbito de este documento. Tengamos en mente nuestra base de datos (una tabla con filas y columnas). Contaremos con:
Una variable Y, que es la variable dependiente. Expresada como matriz ser una matriz de N filas y 1 columna, cuyo contenido ser de ceros y unos (ya que se trata de una variable dicotmica).
Un conjunto de M covariables, que podemos expresar como una matriz de N filas y M columnas. Sin embargo, dado que el modelo contiene una constante, sta la podemos expresar como una columna adicional en la que todos sus elementos son 1. Por tanto la matriz X queda como una matriz con N filas y (M+1) columnas, de la forma
Y por ltimo un conjunto de coeficientes de regresin , uno para cada covariable, incluida la covariable creada para la constante, con 1 fila y (M+1) columnas
El proceso se inicia construyendo la funcin de verosimilitud (likelihood function) de la ecuacin de regresin logstica,
... o mejor, su transformacin logartmica (LL, log likelihood):
Donde pi es la probabilidad de ocurrencia de y=1 con los valores muestrales de las covariables X {x1, ... , xm+1} , para el sujeto i {1, ... ,
N}. Llamamos devianza al valor -2LL(), y mide en qu grado el modelo se ajusta a los datos; cuanto menor sea su valor, mejor es el ajuste. Se trata de conocer aquellos valores de que hacen mxima la funcin de verosimilitud (o su logaritmo). Se sabe que si igualamos a 0 la derivada parcial de una funcin respecto a un parmetro, el resultado es unos valores de dicho parmetro que hacen llevar a la funcin a un valor mximo o un valor mnimo (un punto de inflexin de la curva). Para confirmar que se trata de un mximo y no de un mnimo, la segunda derivada de la funcin respecto a dicho parmetro debe ser menor de 0. La primera derivada de LL() respecto de (llamada funcin score) en su forma matricial es
siendo p una matriz de N filas y 1 columna que contiene las probabilidades de cada individuo de que tengan su correspondiente evento yi. La segunda derivada, llamada matriz informativa o hessiana, es
siendo W una matriz diagonal (una matriz cuadrada en la que todos sus elementos son 0 excepto su diagonal) de N filas y N columnas, en la que los elementos de su diagonal vienen dados por los respectivos productos
de manera que W queda de la forma siguiente
y para cada fila su pi es
Una vez tenemos todos los elementos necesarios, pasamos a explicar como tal el mtodo iterativo para la determinacin de los coeficientes de regresin. 1. Se le asigna un valor inicial emprico a los coeficientes de regresin, en general 0 a todos ellos 2. En cada iteracin t la matriz de nuevos coeficientes de regresin experimentales resulta de sumar matricialmente un gradiente a la matriz de coeficientes experimentales del paso anterior. Este gradiente es el resultado del cociente entre la primera derivada y la segunda derivada de la funcin de verosimilitud de la ecuacin de regresin.
3. El segundo paso se repite tantas veces como sea necesario hasta que la diferencia entre la matriz de coeficientes de regresin en dicha iteracin y la matriz de la iteracin previa, sea 0 o prcticamente 0 (por ejemplo <10-6). Los paquetes estadsticos suelen tener un lmite de iteraciones que podemos modificar si no obtuviramos convergencia inicialmente. SPSStiene adems otras condiciones de parada: 1. LL() muy cercana a 0 2. Diferencia entre LL() de dos iteraciones consecutivas muy cercana a 0
4. Una vez finalizadas las iteraciones, la inversa de la matriz informativa de la ltima iteracin, nos ofrece los valores de varianzas y covarianzas de las estimaciones de los coeficientes de regresin estimados. En concreto, el error estndar de cada coeficiente de regresin coincide con la raz cuadrada del elemento respectivo de la diagonal principal (es decir el elemento (1,1) sera el cuadrado del error estndar del coeficiente 1, el elemento (2,2) el cuadrado del error estndar del coeficiente 2, y as sucesivamente). Por debajo de esta diagonal quedan las covarianzas de cada pareja de covariables (es decir, el elemento (2,1) es la covarianza de 1 y 2, el elemento (3,2) es la covarianza de 2 y 3, etc). Hay programas estadsticos que nos ofrecen esta matriz de varianzas y covarianzas; SPSS no lo hace, sino que nos ofrece la matriz de correlaciones. En ese caso podemos calcular la matriz de varianzas y covarianzas sabiendo que la covarianza de dos variables es igual al producto del coeficiente de correlacin de ambas (r) y los dos respectivos errores estndar. Cov(1,2) = r(1,2) EE(1) EE(2) Entender esta formulacin y el algoritmo de las iteraciones puede ser de gran utilidad, pues con conocimientos bsicos de programacin nos facilita el desarrollo de rutinas propias, por ejemplo en VisualBasic dentro de una base de datos de Access, que pueden librarnos de la dependencia de costosos paquetes estadsticos. Odds ratio: Es un cociente de proporciones de enfermos por cada sano entre el grupo con un factor de riesgo y el grupo sin dicho factor de riesgo. Supongamos el siguiente ejemplo:
Enfermedad s Factor de riesgo s no 20 30 50 no 80 270 350
100
300
400
En este caso, entre los que tienen el factor de riesgo hay 20 enfermos por cada 80 sanos (0.25), y entre los que no tienen el factor de riesgo hay 30 enfermos por cada 270 sanos (0.11), por lo que las personas con
el factor de riesgo tienen un riesgo de enfermar 2.25 veces superior (0.25/0.11) que las personas sin el factor de riesgo. Principio jerrquico: Siempre que se incluya en el modelo un trmino de interaccin, el modelo debe incluir tambin todos los trminos de orden inferior, y si el trmino de interaccin resultase significativo y permaneciese en el modelo, tambin deberan permanecer lor trminos de orden inferior, aunque no se lograra demostrar significacin para ellos.
Modelo con interaccin de primer orden: y=a+b1x1+b2x2+b3x1x2 Modelo con interaccin de segundo orden: y=a+b1x1+b2x2+b3x3+b4x1x2+b5x1x3+b6x2x3+b7x1x2x3 Principio de parsimonia: En igualdad de condiciones la solucin ms sencilla que explique completamente un problema es probablemente la correcta [Guillermo de Ockham]. Segn este principio, cuando ms de un modelo se ajuste a nuestras observaciones, siempre deberamos quedarnos con el modelo ms simple que explique nuestras observaciones con un grado adecuado de precisin. Tabla de contingencia: Una tabla de contingencia es una tabla de doble entrada para la comparacin de variables cualitativas. En el texto, al tratarse de variables dicotmicas, se refiere a una tabla 2 x 2 como en la figura.
Y|X y=0 y=1 x=0 a c x=1 b d
Fco. Javier Caballero Granado Servicio de Medicina Interna Hospital Punta de Europa Algeciras, Cdiz

Modelos de Regresión Logística Incondicional

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Modelos de Regresión Logística Incondicional

Hochgeladen von

Copyright:

Verfügbare Formate

Modelos de regresin logstica incondicional (I)

Introduccin al modelo de regresin logstica

Introduccin a la seleccin de variables

... o mejor, su transformacin logartmica (LL, log likelihood):

de manera que W queda de la forma siguiente

y para cada fila su pi es

Das könnte Ihnen auch gefallen