Bayes@pucp Una Herramienta para El Modelamiento

BAYES@PUCP UNA HERRAMIENTA PARA EL MODELAMIENTO
DE RESPUESTA BINARIA
Jorge Luis Bazan

jlbazan@pucp.edu.pe
Pontificia Universidad Católica del Perú
Proyecto DAI-PUCP 3412
1
A Classification of Binary Asymmetric Regression Models: The Use Of
Brmuw in an application to the decision to eradicate illegal crops of coca
leaf
Jorge Luis Bazan
jlbazan@pucp.edu.pe
Oscar Millones
omillones@pucp.edu.pe
Pontificia Universidad Católica del Perú
Proyecto DAI-PUCP 3412
05/08/2008
2
Resumen
Los modelos de respuesta binaria son frecuentes en diversas áreas de

aplicación como Ciencias Medicas, sociales, económicas y humanas.
Ejemplos de tales modelos son la regresión binaria y la teoría de respuesta al
ítem. En el primer caso, a partir de un conjunto de predictores se desea
determinar la probabilidad de suceso de una determinada respuesta
dicotomica. En el segundo caso se intenta determinar la respuesta correcta o
no de un conjunto de ítems de una prueba.
3
Algunos de estos modelos se encuentran disponibles en programas
estadísticos comerciales desde la perspectiva clásica o frecuentista.
Bayes@PUCP es una herramienta para generar sintaxis para diversos
modelos de respuesta binaria basado en la perspectiva bayesiana. Es un
esfuerzo por hacer disponible para usuarios aplicados diversos modelos. Las
sintaxis generadas pueden ser usadas fácilmente en el programa
OPENBUGS.
En esta conferencia se ilustra el uso de este programa para el caso de

regresión binaria usando datos del área socioeconómica considerando el
caso de predecir la probabilidad de erradicar el cultivo de coca en función de
diversas características entre agricultores que participan de un programa
alternativo..
4
1. INTRODUCION
1.1 Regresión Binaria

- La regresión logística es el modelo mas usado en regresión binaria
especialmente en Epidemiología.
- Se obtiene por la formación de odds ratio (razón de chances) de éxitos vs

fracasos
- Las respuestas categorías, discretas y continuas pueden ser

transformadas en dicotomicas
- Es una técnica ponderosa, bastante desarrollada desde el punto de vista

estadístico con muchas contribuciones científicas y aplicaciones.
5
Considere: v.a dependiente con n observaciones,
covariables, y coeficientes de regresión.
Asuma que con probabilidad y con

probabilidad . En el modelamiento de datos binarios se asume que
(3.1)
Donde denota la función de distribución acumulada (fda), es llamada

la función de enlace es el i-ésimo predictor lineal.
En la regresión Logística tenemos que en que es la

acumulada de la distribución logística. En este caso es llamada enlace
LOGIT.
6
Cuando corresponde a la acumulada de la normal estandar, es decir
, se tiene la regresión Probit y en este caso se llama
enlace PROBIT.
Cuando corresponde a la acumulada de la distribución Gumbel se tiene la

regresión de valor extremo. En este caso se llama enlace
COMPLEMENTO LOG-LOG.
7
1.2 Un caso social
Investigación referida a los factores asociados a la erradicación de hoja de

coca e de las percepciones sobre el Programa de desarrollo alternativo en el
Perú (Millones, 2005)
1947 agricultores que cultivan coca fueron preguntados con relación a si son
favorables a o no a erradicar el cultivo adicional al que necesitan (sierr),
considerando,
a) Su percepción al respecto del impacto de la coca en el medio ambiente,

(permedyc).
b) un indicador de participación comunal (partco)
8
c) su percepción al respecto del consume de coca, (concoca)
d) un indicador de pobreza, considerando sus necesidades básicas

insatisfechas (pobrez)
La proporción observada favorable a erradicar es 0,58. El modelo de regresión
binaria a ser formulado es
9
1.3 Enlaces asimétricos
En datos binarios:
- Enlaces simétricos (en torno de ): probit y logit.
- Enlaces simétricos pueden ser inadecuados y mal especificados.
- Enlaces asimétricos: Prentice (1976), Aranda-Ordaz (1981), Guerrero y

Johnson (1982), Stukel (1988), Czado y Santner (1992a,b), Chen et al.,
(1999), Basu and Mukhopadhyay (2000), Haro-López, et al. (2000).
- Enlaces probito asimétricos: Czado (1994), Chen et al. (1999) y Bazán et

al. (2005).
1
2. OBJETIVO DE LA INVESTIGACION
- Presentar diferentes estrategias para la construcción de enlaces.
- Proponer diferentes formas de obtener enlaces asimétricos
- Proponer una clasificación de modelos de regresión binaria asimétrica.
- Desarrollar una aproximación de inferencia MCMC fácil de implementar

para los modelos clasificados
- Comparar los diferentes modelos según diferentes criterios de una

aplicación económico social
1
3. CARACTERIZACION DE LOS ENLACES ASIMETRICOS
3.1 Estrategias para la construcción de enlaces
Considerando en (1)
- Transformación de : Ejemplo
- Usando la acumulada de la función de densidad:
- Introduciendo una variable aleatoria
- vía una función indicadora:
- vía una función de utilidad aleatoria:

- Modificando el predictor linear por en que es una función
no lineal y continua, usualmente particionada y dependiente del intervalo
de variación de
1
3.2 Formas de obtener enlaces asimétricos
Considerando en (1)
(a) correspondiente a fda de una distribución asimétrica: complemento log-
log (Gumbel), Weibull y LogNormal (Greene, 2003). BBB skew-probit (Skew-
normal) (Bazan, Branco, Bolfarine, 2006). Scobito (Scobit) y logito potencia
(Burr tipo II) Prentice (1976), Aranda-Ordaz (1981), Nagler (1994) y Achen
(2002)
(b) Modificando el predictor linear por donde es una función no

lineal es continua, generalmente particionada y dependiente del intervalo de
variacion de :
Guerrero e Johnson (1982) y Stukel (1988) usan la Logística y Czado
(1994) la Normal. Tambien cae la regresion polinomial (Collet, 2003):
(c) en la clase general de lasdistribuciones de probabilidad. Por ejemplo

en la clase de mezclas de distribuciones simetricas y asimetricas:
Basu e Mukhopadhyay, 2000, Haro-López, et al., 2000), CDS skew-probit
(Chen Dey y Shao, 1999)
1
INFERENCIA BAYESIANA
Verosimilitud
La funcion de verosimilitud para los modelos de regresion binaria asimétrica y
dada por
Donde denota la fda de una distribucion, con vector de

parametros asociados al enlace y vector de parametros asociados a la
transformacion del predictor linear .
Pueden ser considerados los siguientes sistemas de prioris independientes
1
En la inferencia Bayesiana a diferencia de la inferencia clásica, los
parámetros de interés , , se suponen variables aleatorias e por lo tanto se
considera una distribución de probabilidades a priori para ellos que
corresponde a nuestro conocimiento al respecto de la conducta aleatoria de
dichos parámetros.
Estos parámetros tienen significados diferentes. Los parámetros y están
asociados con el enlace, y el parámetro corresponde a los datos observados
y no depende del modelo escogido.
En nuestro trabajo, consideramos prioris vagas (prioris propias con
distribuciones conocidas con varianza grande)
Asumimos independencia entre las prioris, esto es:

θβ
λ
π
= π (β , θ , λ ) = π ( β )π (θ )π (λ )
1
Usamos prioris para β comunes en la literatura incluyendo prioris normales.
Especificaciones para π (θ ) y π (λ ) dependen de la elección particular del
modelo considerando un intervalo de variación. En muchas situaciones esos
intervalos son determinados de acuerdo a la literatura.
También es posible obtener versiones aumentadas introduciendo variables
auxiliares.
La inferencia (Bayesiana) para los modelos de regresión binaria, es
especialmente para los modelos citados antes, y puede ser facilitada por la
simulacion MCMC implementada en el programa WinBUGS. Usando una
programación mínima es posible implementar todos los modelos presentados.
1
5. APLICACION
Nosotros implementamos varios modelos asimétricos como parte del proyecto
bayes@pucp. Las sintaxis de estos modelos se pueden obtener usando
BRMUW (Binary Regression Model using WinBUGS) y luego llevadas al
programa WinBUGS.
Ver
http://videos.pucp.edu.pe/videos/ver/b55ab3b7633c6dab0cad8eec47066e40
http://videos.pucp.edu.pe/videos/ver/db8373ad4703990c51fd196ef2500c9f
Para comparar los diferentes modelos usamos la Deviance Information Criteria

(DIC) y los desvíos medios a posteriori (Dbar), que indica que el mejor modelo
ajustado es aquel con menor valor en estos indicadores.
1
Graph 1. Syntax for the binary regression model using logito link
obtained in BRMUW
BRMUW is a program developed by the authors, which contains a
set of syntaxes in WinBugs code, for the models (symmetric and
asymmetric models) referred in this work. The BRMUW program can
be obtained sending an e-mail to the first author. It is of free use with
proper reference of the source. The models implemented in BRMUW
are: Symmetric: probit, logit, Asymmetric: cloglog, scobit, power
logit, skew logit, skew probit (CDS, BBB and standard).
This program implements models of binary regression that are not
implemented in other commercial programs.
An illustration of how BRMUW can be used to generate syntax of the
mentioned models as well as to generate the syntax to read the data
can be seen at
http://videos.pucp.edu.pe/videos/ver/b55ab3b7633c6dab0cad8eec47066e40
1
Tabla 1 Comparación de modelos de regresión binaria para la preferencia
de agricultores a erradicar el cultivo de coca
Note: Based on a
Links Models Bur in Thin Dbar DIC chain size of 2000,
obtained after
Symmetrical removing
Probito 4000 5 2451.5 2456.8 generated initial
values (Bur in)
Logito 4000 5 2450.9 2455.8 and after using a
systematic
Asymmetric sampling with
Cloglog 4000 5 2451.6 2457.0 jumps (thin). The
model CDS
Scobit 4000 25 2462.1 2441.2 asymmetrized
probito presented
convergence
Power Logit 54000 100 2458.5 1794.1 problems and it
was not
considered.
Skew logit 4000 25 2458.1 1708.4
BBB sp 4000 35 2345.2 2252.5
Standard sp 4000 15 1538.1 1751.7
1
6. FUTURO
PROYECTO BAYES@PUCP
a) Proyecto BRMUW
Sintaxis para inferencia bayesiana
b) Proyecto GRSM
Documentación de soporte para inferencia bayesiana
http://ceos.pucp.edu.pe/dia/proyectos/bayes/
c) Proyecto Legion
Simulación intensiva con grid computacional
2
d) Proyectos personales
Paginas personales
http://www.ime.usp.br/~jbazan/
http://argos.pucp.edu.pe/~jlbazan/
Blog
http://blog.pucp.edu.pe/index.php?blogid=757
2
REFERENCIAS
BARDALES A. (2004). Esquemas de comportamiento para el análisis de las

percepciones sobre el PDA y el cultivo ilícito de Coca. Informe presentado
al Programa de Desarrollo Alternativo (PDA), Diciembre 2004. Chemonics
International INC.
BASU, S. AND MUKHOPADHYAY, S. (2000) Binary response regression
with normal scale mixes links, in Generalized to Line Models: A Bayesian
Perspective, eds. D.K. Dey, S.K. Ghosh, and B.K: Mallick, New York:
Marcel Dekker.
BAZÁN, J. L., BOLFARINE, H. AND BRANCO, M. D. (2006) A generalized
skew probit class link for binary regression. Technical report (RT-MAE-
2006-05). Department of Statistics. University of São Paulo
BEDOYA E. (2003) Las estrategias productivas y el riesgo entre los cocaleros
del valle de los ríos Apurímac y Ene.. En C. Aramburú, E. Bedoya (eds.)
Amazonía: Procesos demográficos y ambientales. Lima: Consorcio de
Investigación Económica y Social CIES.
2
CHEN, M. H., DEY, D. K., y SHAO, Q-M.
1999 A new skewed link model for dichotomous quantal response data.
Journal of the American Statistical Association, 94, 448, 1172-1186.
NAGLER J. (1994) Scobit: an alternative estimator to logit and probit.
American Journal Political Science, 38, 230-255.
MILLONES O. (2005) La decisión de erradicar el cultivo ilegal de hoja de
coca: Explorando asociaciones con el modelo logístico. Informe presentado
al Programa de Desarrollo Alternativo (PDA), Agosto, 2005. Chemonics
International INC.
PRENTICE, R. L. (1976). To Generalization of the probit and logit methods
for dose-response you curve. Biometrika, 32,761-768.
STUKEL, T. (1988). Generalized logistic models. Journal of the American
Statistical Association, 83,426-431.

Bayes@pucp Una Herramienta para El Modelamiento

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Bayes@pucp Una Herramienta para El Modelamiento

Hochgeladen von

Copyright:

Verfügbare Formate

BAYES@PUCP UNA HERRAMIENTA PARA EL MODELAMIENTO

Jorge Luis Bazan

Los modelos de respuesta binaria son frecuentes en diversas áreas de

En esta conferencia se ilustra el uso de este programa para el caso de

1.1 Regresión Binaria

- Se obtiene por la formación de odds ratio (razón de chances) de éxitos vs

- Las respuestas categorías, discretas y continuas pueden ser

- Es una técnica ponderosa, bastante desarrollada desde el punto de vista

Asuma que con probabilidad y con

Donde denota la función de distribución acumulada (fda), es llamada

En la regresión Logística tenemos que en que es la

Cuando corresponde a la acumulada de la distribución Gumbel se tiene la

Investigación referida a los factores asociados a la erradicación de hoja de

a) Su percepción al respecto del impacto de la coca en el medio ambiente,

b) un indicador de participación comunal (partco)

d) un indicador de pobreza, considerando sus necesidades básicas

- Enlaces simétricos (en torno de ): probit y logit.

- Enlaces simétricos pueden ser inadecuados y mal especificados.

- Enlaces asimétricos: Prentice (1976), Aranda-Ordaz (1981), Guerrero y

- Enlaces probito asimétricos: Czado (1994), Chen et al. (1999) y Bazán et

- Presentar diferentes estrategias para la construcción de enlaces.

- Proponer diferentes formas de obtener enlaces asimétricos

- Proponer una clasificación de modelos de regresión binaria asimétrica.

- Desarrollar una aproximación de inferencia MCMC fácil de implementar

- Comparar los diferentes modelos según diferentes criterios de una

3.1 Estrategias para la construcción de enlaces

- vía una función de utilidad aleatoria:

(b) Modificando el predictor linear por donde es una función no

(c) en la clase general de lasdistribuciones de probabilidad. Por ejemplo

Donde denota la fda de una distribucion, con vector de

Pueden ser considerados los siguientes sistemas de prioris independientes

Asumimos independencia entre las prioris, esto es:

Para comparar los diferentes modelos usamos la Deviance Information Criteria

BBB sp 4000 35 2345.2 2252.5

Standard sp 4000 15 1538.1 1751.7

BARDALES A. (2004). Esquemas de comportamiento para el análisis de las

Das könnte Ihnen auch gefallen