Beruflich Dokumente
Kultur Dokumente
14.1 Introducción
El análisis de regresión de una variable binaria o dicotómica
cualitativa es un problema común en las estadísticas aplicadas.
Los modelos para resultados binarios mutuamente excluyentes se
enfocan en los determinantes de la probabilidad p de la
ocurrencia de un resultado en lugar de un resultado alternativo
que ocurre con una probabilidad de 1− p . Un ejemplo donde la
variable binaria es de interés directo está modelando si un
individuo tiene seguro. En el análisis de regresión, queremos
medir cómo la probabilidad p varía entre los individuos en
función de los regresores. Un tipo diferente de ejemplo es predecir
el puntaje de propensión p , la probabilidad condicional de
participación (en lugar de no participación) de un individuo en un
programa de tratamiento. En la literatura de efectos de
tratamiento, esta predicción dadas las variables observables es un
paso intermedio importante, a pesar de que el interés final radica
en los resultados de ese tratamiento.
Los dos modelos estándar de resultados binarios son el modelo
logit y el modelo probit. Estos especifican diferentes formas
funcionales para p como una función de regresores, y los
modelos se ajustan por máxima verosimilitud (ML) . Un modelo
de probabilidad lineal (LPM), ajustado por mínimos cuadrados
ordinarios (OLS), también se usa a veces.
Este capítulo trata de la estimación e interpretación de los
modelos de resultados binarios de sección transversal utilizando
un conjunto de comandos estándar que son similares a los de la
regresión lineal. Varias extensiones también se consideran.
Y= {0 con
1 con probabilidad p
probabilidad 1− p
Dado nuestro interés en modelar p en función de los regresores
x , no hay pérdida de generalidad al establecer los valores de
resultado en 1 y 0. La función de masa de probabilidad para el
resultado observado, Y , es pY ( 1− p )1−Y , con E ( Y )= p y
Var (Y )= p ( 1− p ) .
Se forma un modelo de regresión parametrizando p para
que dependa de una función de índice x ' β , donde x es un
K ×1 vector regresor y β es un vector de parámetros
desconocidos. En los modelos de resultados binarios estándar, la
probabilidad condicional tiene la forma
pi ≡ Pr ( Y i=1| x ¿=F ( x 'i β )(14.1)
14.3 Estimación
Para modelos paramétricos con covariables exógenas, el estimador
de máxima verosimilitud (MLE) es el estimador natural, porque la
densidad es inequívocamente el Bernoulli. Stata proporciona
procedimientos ML para los modelos logit, probit y clog-log, y
para varias variantes de estos modelos. Para los modelos con
covariables endógenas, los métodos de variables instrumentales
(Γ ⋁) pueden utilizarse; ver la sección 14.8 .
14.3.1 Interpretación e identificación de variables
latentes
Los modelos de resultados binarios pueden tener una
interpretación de variables latentes. Esto proporciona un enlace
con el modelo de registro lineal, explica más profundamente la
diferencia entre los modelos logit y probit, y proporciona la base
para la extensión de algunos modelos multinomiales presentados
en el capítulo 15.
Distinguimos entre el resultado binario observado, Y , y una
variable subyacente no observable (o latente) subyacente, Y ¿ ,
que satisface el modelo de índice único
Y ¿ =x' β+u (14.2)
¿
Aunque Y no se observa, sí observamos
Y= {
1 si Y ¿ >0
¿
0 siY ≤ 0
(14.3)
¿ F( x ' β)
donde F(·) es el c.d.f. de −u . Esto produce el modelo probit si
u tiene el estándar normalmente distribuido y el modelo logit si
u está distribuido logísticamente.
La identificación del modelo de variable latente requiere que
fijemos su escala al colocar una restricción en la varianza de u ,
porque el modelo de índice único solo puede identificar β hasta
la escala. Una explicación para esto es que observamos solo si
+¿>0
' ¿
Y =x β+u >0 . Pero esto no se distingue del resultado +¿+u ,
¿
x' β ¿
+¿=aβ +¿=au
donde y para cualquier a> 0 . Ve solo puede
β¿ u¿
identificar β / σ , donde σ es la desviación estándar (parámetro
de escala) de u .
Para definir de forma única la escala de β , la convención es
establecer σ =1 en el modelo probit y π / √3 en el modelo logit.
Como consecuencia, β tiene una escala diferente en los dos
modelos; ver la sección 14.4 .3 .
14.3.2 Estimación de ML
Para los modelos binarios distintos del LPM , la estimación es
por ML . Esta estimación de ML es directa. La densidad para
una sola observación se puede escribir de forma compacta como
Y 1−Y
pi (1−p i)
i
, donde
i
pi=F ( x'i β ) . Para una muestra de N
^
observaciones independientes, el MLE , β , maximiza la función
log-probabilidad asociada
14.4 Ejemplo
Analizamos datos sobre la cobertura de seguro de salud
complementario. El análisis inicial estima los parámetros de los
modelos de la sección 14.2.
14.4.1 Descripción de los datos
Los datos provienen de la ola 5 (2002) del Estudio de Salud y
Retiro (HRS), una encuesta de panel patrocinada por el Instituto
Nacional de Envejecimiento. La muestra está restringida a los
beneficiarios de Medicare. El HRS contiene información sobre
una variedad de usos de servicios médicos. Los ancianos pueden
obtener cobertura de seguro complementaria ya sea comprándola
ellos mismos o uniéndose a planes patrocinados por el empleador.
Usamos los datos para analizar la compra de seguros privados
(ins) de cualquier fuente, incluidos los mercados privados o
asociaciones. La cobertura de seguro mide, en general, tanto el
seguro suplementario privado comprado individualmente como el
auspiciado por el empleador, e incluye planes Medigap y otras
políticas.
Las variables explicativas incluyen el estado de salud, las
características socioeconómicas y la información relacionada con
el cónyuge. La información autoevaluada del estado de salud se
usa para generar una variable ficticia (hstatusg) que mide si el
estado de salud es bueno, muy bueno o excelente. Otras medidas
up
de estado de salud son el número de limitaciones en las
(¿ five)
actividades de la vida diaria (adl) y el número total de
condiciones crónicas (chronic ) . Las variables socioeconómicas
utilizadas son edad, sexo, raza, etnia, estado civil, años de
respectively , age , female,
educación y estado de jubilación ;
(¿, hisp , married , educyear , retire)
ingreso familiar (hhincome) ; y registrar el ingreso familiar si es
positivo (linc) . El estado de jubilación del cónyuge (sretire ) es
una variable indicativa igual a 1 si un cónyuge jubilado está
presente.
451 Capítulo 14 Modelos de resultados
binarios
*Logit regression
Logit ins retire $xlist
Iteration 0: log likelihood = -2139.7712
Iteration 1: log likelihood = -1998.8563
Iteration 2: log likelihood = -1994.9129
Iteration 3: log likelihood = -1994.8784
Iteration 4: log likelihood = -1994.8784
* Likelihood-ratio test
quietly logit ins retire $xlist $intlist
estimates store B
quietly logit ins retire $xlist
Modelo aditivo de utilidad aleatoria
456
Lrtest B
Likelihood-ratio test LR chi2(4) = 7.57
(Assumptios: . nested in B) Prob > chi2 = 0.1088
' eh (x β )
α
Λα ( x β )= '(14.4)
1+e h (x β)
α
∑¿
g=1
subíndice del grupo. Los grupos se basan en q uantiles de las
probabilidades pronosticadas ordenadas. Por ejemplo, si G=10 ,
cada grupo corresponde a un decil del ordenado ^pi . Hosmer y
Lemeshow estableció la distribución nula por simulación. Bajo el
nulo de la especificación correcta, la estadística se distribuye
como X 2 (G−2) . Sin embargo, se deben tener en cuenta dos
advertencias: Primero, el resultado de la prueba es sensible al
número de grupos utilizados en la especificación. En segundo
lugar, mucho de lo que se sabe sobre las propiedades de la
prueba se basa en la evidencia de Monte Carlo sobre el
rendimiento de la prueba. Ver Hosmer y Lemeshow (1980, 2000).
La evidencia de simulación sugiere que un tamaño de muestra
fijo que especifique un gran número de grupos en la prueba
provoca una divergencia entre los valores empíricos c.d.f. y el
c.d.f. de la distribución X 2 (G−2) .
Modelo aditivo de utilidad aleatoria
462
14.8.1 Ejemplo
Nuevamente modelamos los resultados binarios, aunque
utilizamos un conjunto diferente de regTessors. Los regresores
incluye la línea continua variable (el logaritmo del ingreso
familiar) que es potencialmente endógena, ya que la compra de
seguro de salud complementario y el ingreso familiar pueden
estar sujetos a choques no observados correlacionados, incluso
después de controlar una variedad de variables exógenas. Es
decir, para la muestra de HRS que se está considerando, la
elección del seguro complementario (ins), así como del ingreso
del hogar (línea), se puede considerar como determinada
conjuntamente.
Regresión probit regular que no controla para este rendimiento
potencial de endogeneidad.
*Endogenous probit using inconsistent probit MLE
Generate linc = log(hhincome)
(9 missing values generated)
global xlist2 female age age2 educyear married hisp White
chronic ad1 hstatusg
probit ins linc $xlist2, vce(robust) nolog
Probit regression Number of obs = 3197
Wald chi2(11) = 366.94
Prob > chi2 = 0.0000
Log pseudolikelihood = -1933.4275 Pseudo R2 = 0.0946
Instrumented: linc
Instruments: female age age2 educyear married hisp White chronic ad1
hstatusg retire sretire
estat overid
Test of overigentifying restrictions:
Score chi2(1) = .521843 (p = 0.4701)
14.10 Ejercicios
1. Considere el ejemplo de la sección 14.4 con variables
dependientes ins y el regresor único educyear. Estime los
parámetros de los modelos logit, probit y OLS utilizando
errores estándar tanto estándar como robustos. Para el
educyear del regresor, compare su coeficiente entre los
modelos, compare errores estándar predeterminados y
robustos de este coeficiente, y compare las estadísticas t
483 Capítulo 14 Modelos de resultados
binarios
15.1 Introducción
Los datos categóricos son datos sobre una variable
dependiente que puede caer en una de varias categorías
mutuamente excluyentes. Los ejemplos incluyen diferentes
formas de viajar al trabajo (en automóvil, autobús, a pie) y
diferentes categorías de estado de salud autoevaluado
(excelente, bueno, regular o deficiente).
La literatura de econometría se centra en modelar un
solo resultado de categorías que son mutuamente excluyentes,
donde el resultado de la variable dependiente debe ser
multinomial distribuido, así como los datos binarios deben ser
Bernoulli o distribuidos binomialmente. El análisis no es
directo, sin embargo, porque hay muchos modelos diferentes
para las probabilidades de la distribución multinomial. Estos
modelos varían según si las categorías están ordenadas o
desordenadas, si algunos de los regresores específicos
individuales varían según las categorías alternativas, y en
algunos entornos, si el modelo es consistente con la
maximización de la utilidad. Además, los coeficientes de los
parámetros para cualquier modelo dado pueden ser difíciles de
interpretar directamente. Los efectos marginales (ME) de
interés miden el impacto en la probabilidad de observar cada
uno de varios resultados en lugar del impacto en una sola
media condicional.
Comenzamos con modelos para resultados desordenados,
en particular, logit multinomial, logit condicional, logit anidado
y modelos probit multinomiales. Luego pasamos a modelos
para resultados ordenados, como medidas del estado de salud y
modelos para resultados multinomiales.
j=1
∑
j =1
¿
N
lnL ( θ )=∑ ¿
i=1
' −1
θ^ N (θ , [−E {δ lnL(θ)/δθδ θ }] ) .
2
y, como siempre,
i=1
15.5.8 MEs
El MEM y MER se calculan utilizando el comando postestimation
estat mfx, en lugar del comando mfx usual. Las opciones para
este comando incluyen varlist () para calcular los efectos
marginales para un subconjunto de los regresores.
Calculamos el MEM solo por el precio del regresor. Obtenemos
*Marginal effect at mean of change in price
estat mfx, varlist(p)
Pr(choice = beach|1 selected) = .05248806
501 Capítulo 15 Modelos
multinomiales
restore
Solo se genera una variable, pero esto proporciona cuatro AME
correspondientes a cada una de las alternativas, similar a la
discusión anterior de las probabilidades predichas. Como se
esperaba, al aumentar el precio de la pesca en la playa disminuye
la probabilidad de que la pesca en la playa aumente.
La probabilidad de usar cualquiera de los otros modos de pesca.
Los valores AME se comparan con los valores MEM de,
respectivamente, -0.001249, 0.000609, 0.000087 y 0.000558, por
lo que las estimaciones ME difieren sustancialmente para la
probabilidad de pesca en la playa y la probabilidad de pesca en
muelle.
∑ exp ( ¿ x'jι β j / τ j )
t=1
{ }
kj
x 'jl β j
Donde I j=ln ∑ ¿ exp ( ) se llama el valor inclusivo o la
i=1 ґj
suma de registro. La probabilidad de NL son el producto de
probabilidades pi y pk∨ j que son esencialmente de forma
CL. El modelo produce probabilidades positivas que suman a
uno para cualquier valor de τ j , llamados parámetros de
desemejanza. Pero el ARUM restringe 0 ≤ ґ j ≤1, y los valores
fuera de este rango significan que el modelo, mientras que
matemáticamente no es consecuente, es inconsistente con la
teoría de la utilidad aleatoria.
Tenemos
*Nested logit model estimate
nlogit d p q || type:, base (shore) || fishmode: income, case(id) no
tree nolog
RUM-consistent nested logit regression Number of obs = 4728
Case variable: id Number of cases = 1182
Alternative variable: fishmode Alts per case: min = 4
Avg = 4.0
Max = 4
Wald chi2(5) = 212.37
Log likelihood = -1192.4236 Prob > chi2 = 0.0000
15.6.6 MEs
Ni el comando mfx ni el comando margeff escrito por el usuario
están disponibles después de nlogit.
restore
15.7.1 MNP
(output omitted)
~
en estos parámetros pueden dar lugar a ningún cambio en F j ( x i ,θ )
. En su lugar, se usa el simulador Geweke-Hajivassiliou-Keane
(GHK), descrito, por ejemplo, en Train (2003) .
estat covariance
517 Capítulo 15 Modelos
multinomiales
β i=β+ v i , v i N 0, ∑ . γ ji =γ j+ w ji , v i N 0, ∑ .
Dónde ( β ) y ( γj ) . El error
combinado ( x 'ij v i+ z 'i w ji + ε ij ) ahora se correlaciona entre alternativas,
mientras que los errores ε ij solo no lo fueron.
bueno o excelente. Los dos modelos estándar para tales datos son el
logit ordenado y los modelos probit ordenados.
15.9.5 MEs
El ME sobre la probabilidad de elegir la alternativa j cuando el
regresor x r cambia viene dado por
∂ Pr ( y i= j )
={ F ' ( α j−1−x 'i β ) −F ' ( α j−x 'i β ) } β r
∂ x ri
{ {
¿ ¿
y 1= 1if y 1¿ >0 and y 2= 1if y 2¿ >0
0 if y 1 ≤ 0 0 if y 2 ≤ 0
El modelo colapsa a dos modelos probit separados para y1 y y2
si p=0 .
Esta versión supone que se usan los mismos regresores para ambos
resultados. Una versión general no permite que la lista de regresores
difiera para los dos resultados.
* Predicted probabilities
predict biprob1, pmarg1
predict biprob2, pmarg2
predict biprob11, p11
predict biprob10, p10
predict biprob01, p01
predict biprobOO, pOO
summarize hlthe dmdu biprob1 biprob2 biprob11 biprob10 biprob01 biprobOO
* Uncentered R-sq
Los modelos clave para la comprensión inicial son los modelos MNL
y CL. En la práctica, estos modelos a menudo son demasiado
restrictivos. Los comandos Stata cubren la mayoría de los modelos
multinomiales, la excepción más notable es el logit de parámetros
aleatorios o el modelo logit mixto, que se puede estimar con el
comando mixlogit escrito por el usuario. Train (2003) es una
excelente fuente, especialmente para los modelos que necesitan ser
ajustados por MSL o métodos bayesianos.
15.12 Ejercicios