Capitulo 14 y 15

14 Modelos de resultados binarios
14.1 Introducción
El análisis de regresión de una variable binaria o dicotómica
cualitativa es un problema común en las estadísticas aplicadas.
Los modelos para resultados binarios mutuamente excluyentes se
enfocan en los determinantes de la probabilidad p de la
ocurrencia de un resultado en lugar de un resultado alternativo
que ocurre con una probabilidad de 1− p . Un ejemplo donde la
variable binaria es de interés directo está modelando si un
individuo tiene seguro. En el análisis de regresión, queremos
medir cómo la probabilidad p varía entre los individuos en
función de los regresores. Un tipo diferente de ejemplo es predecir
el puntaje de propensión p , la probabilidad condicional de
participación (en lugar de no participación) de un individuo en un
programa de tratamiento. En la literatura de efectos de
tratamiento, esta predicción dadas las variables observables es un
paso intermedio importante, a pesar de que el interés final radica
en los resultados de ese tratamiento.
Los dos modelos estándar de resultados binarios son el modelo
logit y el modelo probit. Estos especifican diferentes formas
funcionales para p como una función de regresores, y los
modelos se ajustan por máxima verosimilitud (ML) . Un modelo
de probabilidad lineal (LPM), ajustado por mínimos cuadrados
ordinarios (OLS), también se usa a veces.
Este capítulo trata de la estimación e interpretación de los
modelos de resultados binarios de sección transversal utilizando
un conjunto de comandos estándar que son similares a los de la
regresión lineal. Varias extensiones también se consideran.
14.2 Algunos modelos paramétricos

Diferentes modelos de resultados binarios tienen una estructura
común. La variable dependiente, Y i toma solo dos valores, por lo
que su distribución es inequívocamente Bernoulli, o binomial con
una cola, con una probabilidad de pi . Los modelos logit y probit
corresponden a diferentes modelos de regresión para pi .
1 4.2.1 Modelo básico
Modelo aditivo de utilidad aleatoria
446
Supongamos que la variable de resultado, Y , toma uno de dos

valores:
Y= {0 con
1 con probabilidad p
probabilidad 1− p
Dado nuestro interés en modelar p en función de los regresores
x , no hay pérdida de generalidad al establecer los valores de
resultado en 1 y 0. La función de masa de probabilidad para el
resultado observado, Y , es pY ( 1− p )1−Y , con E ( Y )= p y
Var (Y )= p ( 1− p ) .
Se forma un modelo de regresión parametrizando p para
que dependa de una función de índice x ' β , donde x es un
K ×1 vector regresor y β es un vector de parámetros
desconocidos. En los modelos de resultados binarios estándar, la
probabilidad condicional tiene la forma
pi ≡ Pr ( Y i=1| x ¿=F ( x 'i β )(14.1)
donde F(·) es una función paramétrica especificada de x ' β ,

generalmente una función de distribución acumulativa (c.d.f.) en
(−∞ ,∞) porque esto asegura que los límites 0 ≤ p ≤ 1 están
satisfechos.
14.2.2 Logit, probit, probabilidad lineal y modelos de

registro de registros
Los modelos difieren en la elección de la función, F(·) .Cuatro
formas funcionales comúnmente usadas para F( x ' β) , que se
muestran en la tabla 14.1 , son las formas logit, probit,
probabilidad lineal y log-log complementario (clog -log).
Tabla14.1 . Cuatromodelos de resultados binarios comúnmente utilizados
El modelo logit específica que F ( . )= Λ(.) , El c.d.f. de la

distribución logística. El modelo probit específica que F(·)=Φ (·) ,
el estándar normal c.d.f. Las funciones logit y probit son simétricas
en torno a cero y se utilizan ampliamente en microeconometría. El
447 Capítulo 14 Modelos de resultados
binarios
LPM corresponde a la regresión lineal y no impone la restricción

de que 0 ≤ p ≤ 1 . El modelo log-log complementario es asimétrico
en torno a cero. Su uso a veces se recomienda cuando la
distribución de Y está sesgada de tal manera que hay una alta
proporción de ceros o unos en el conjunto de datos. La última
columna en la tabla da expresiones para los efectos marginales
correspondientes, usados en la sección 14.7 , donde ϕ (·)
denota la densidad normal estándar.
14.3 Estimación
Para modelos paramétricos con covariables exógenas, el estimador
de máxima verosimilitud (MLE) es el estimador natural, porque la
densidad es inequívocamente el Bernoulli. Stata proporciona
procedimientos ML para los modelos logit, probit y clog-log, y
para varias variantes de estos modelos. Para los modelos con
covariables endógenas, los métodos de variables instrumentales
(Γ ⋁) pueden utilizarse; ver la sección 14.8 .
14.3.1 Interpretación e identificación de variables
latentes
Los modelos de resultados binarios pueden tener una
interpretación de variables latentes. Esto proporciona un enlace
con el modelo de registro lineal, explica más profundamente la
diferencia entre los modelos logit y probit, y proporciona la base
para la extensión de algunos modelos multinomiales presentados
en el capítulo 15.
Distinguimos entre el resultado binario observado, Y , y una
variable subyacente no observable (o latente) subyacente, Y ¿ ,
que satisface el modelo de índice único
Y ¿ =x' β+u (14.2)
¿
Aunque Y no se observa, sí observamos
Y= {
1 si Y ¿ >0
¿
0 siY ≤ 0
(14.3)
donde el umbral cero es una normalización que no tiene

importancia si x incluye una intersección.
Dados los modelos de variables latentes (14.2) y (14.3) ,
tenemos
Pr ( Y =1 )=Pr (x ' β+ u>0)
'
¿ Pr ⁡(−u< x β)
448
¿ F( x ' β)
donde F(·) es el c.d.f. de −u . Esto produce el modelo probit si
u tiene el estándar normalmente distribuido y el modelo logit si
u está distribuido logísticamente.
La identificación del modelo de variable latente requiere que
fijemos su escala al colocar una restricción en la varianza de u ,
porque el modelo de índice único solo puede identificar β hasta
la escala. Una explicación para esto es que observamos solo si
+¿>0
' ¿
Y =x β+u >0 . Pero esto no se distingue del resultado +¿+u ,
¿
x' β ¿
+¿=aβ +¿=au
donde y para cualquier a> 0 . Ve solo puede
β¿ u¿
identificar β / σ , donde σ es la desviación estándar (parámetro
de escala) de u .
Para definir de forma única la escala de β , la convención es
establecer σ =1 en el modelo probit y π / √3 en el modelo logit.
Como consecuencia, β tiene una escala diferente en los dos
modelos; ver la sección 14.4 .3 .
14.3.2 Estimación de ML
Para los modelos binarios distintos del LPM , la estimación es
por ML . Esta estimación de ML es directa. La densidad para
una sola observación se puede escribir de forma compacta como
Y 1−Y
pi (1−p i)
i
, donde
i
pi=F ( x'i β ) . Para una muestra de N
^
observaciones independientes, el MLE , β , maximiza la función
log-probabilidad asociada
F ( x 'i β ) +(¿ 1−Y i) ln {1−F (x 'i β) }

Y i ln¿
¿
¿
N
Q ( β ) =∑ ¿
i=1
El MLE se obtiene por métodos iterativos y se distribuye de manera

asintótica normalmente.
Se obtienen estimaciones consistentes si F(·) está
correctamente especificado. Cuando, en cambio, la forma
funcional F(·) está mal especificada, se aplica la teoría de la
pseudo verisimilitud.
14.3.3 Los comandos logit y probit
binarios
La sintaxis para el comando logit es

Logit depvar [ indepvars ] [ if ] [ ¿ ] [ weight ] [ , options ]
La sintaxis para los comandos probit y cloglog es similar.

Al igual que el comando de regresión, las opciones disponibles
incluyen vce (cluster dustvaT ) y vce (robusto) para la estimación de
la varianza. La constante está incluida por defecto, pero se puede
suprimir utilizando la opción no constante.
La opción de logit presenta coeficientes exponenciales. El
razonamiento es que para el modelo logit, el logaritmo del odds
ratio ln { p/(1− p)} puede mostrarse lineal en x y β . Se
'
deduce que la razón de posibilidades p/(1−p)=exp(x β ) , de modo
que e β , mide el efecto multiplicativo de un cambio de unidad en
el regresor xj en el odds ratio. Por este motivo, muchos
investigadores prefieren que los coeficientes logit se informen
después de la exponenciación, es decir, como e β en lugar de β
. Alternativamente, el comando logístico estima los parámetros del
modelo logit e informa directamente los coeficientes
exponenciales.
14.3.4 Estimación robusta del VCE
Los modelos de resultado binarios son inusuales ya que no hay
ninguna ventaja en el uso de la forma de sándwich robusta para la
matriz de varianza-covarianza del estimador (VCE) del MLE si
'
los datos son independientes sobre i y F( x β) está
correctamente especificado. La razón es que los errores estándar
por defecto de ML se obtienen al imponer la restricción
' '
Var (Y ∨x )=F ( x β){1−F ( x β )} , y esto necesariamente debe
mantenerse porque la varianza de un binario la variable siempre
es p(1− p) ; ver Cameron y Trivedi (2005) para una explicación
más detallada. Si F( x ' β) está especificado correctamente, la
opción vce (robusta) no es necesaria. Por lo tanto, podemos inferir
una forma funcional mal especificada F( x ' β) si el uso de la
opción vce (robusto) produce variaciones sustancialmente
diferentes de las predeterminadas.
Al mismo tiempo, la dependencia entre observaciones puede
surgir debido al muestreo por conglomerados. En ese caso, la
opción apropiada es usar vce (cluster clustvaT ) .
14.3.5 Estimación MCO de LPM
Si se supone que F(·) es lineal, es decir, p=x ' β , entonces la
función media condicional lineal define el LPM . El LPM puede
450
estimarse consistentemente mediante la regresión MCO de Y

sobre x utilizando regresión. Una gran limitación del método,
sin embargo, es que los valores fijados x ' ^β no necesariamente
estarán en el intervalo [0,1] . Y, debido a que
' '
Var (Y ∨x )=( x β)(1−x β) para el LPM , la regresión es
intrínsecamente heteroscedástica, por lo que se debe usar una
estimación robusta del VCE .
14.4 Ejemplo
Analizamos datos sobre la cobertura de seguro de salud
complementario. El análisis inicial estima los parámetros de los
modelos de la sección 14.2.
14.4.1 Descripción de los datos
Los datos provienen de la ola 5 (2002) del Estudio de Salud y
Retiro (HRS), una encuesta de panel patrocinada por el Instituto
Nacional de Envejecimiento. La muestra está restringida a los
beneficiarios de Medicare. El HRS contiene información sobre
una variedad de usos de servicios médicos. Los ancianos pueden
obtener cobertura de seguro complementaria ya sea comprándola
ellos mismos o uniéndose a planes patrocinados por el empleador.
Usamos los datos para analizar la compra de seguros privados
(ins) de cualquier fuente, incluidos los mercados privados o
asociaciones. La cobertura de seguro mide, en general, tanto el
seguro suplementario privado comprado individualmente como el
auspiciado por el empleador, e incluye planes Medigap y otras
políticas.
Las variables explicativas incluyen el estado de salud, las
características socioeconómicas y la información relacionada con
el cónyuge. La información autoevaluada del estado de salud se
usa para generar una variable ficticia (hstatusg) que mide si el
estado de salud es bueno, muy bueno o excelente. Otras medidas
up
de estado de salud son el número de limitaciones en las
(¿ five)
actividades de la vida diaria (adl) y el número total de
condiciones crónicas (chronic ) . Las variables socioeconómicas
utilizadas son edad, sexo, raza, etnia, estado civil, años de
respectively , age , female,
educación y estado de jubilación ;
(¿, hisp , married , educyear , retire)
ingreso familiar (hhincome) ; y registrar el ingreso familiar si es
positivo (linc) . El estado de jubilación del cónyuge (sretire ) es
una variable indicativa igual a 1 si un cónyuge jubilado está
presente.
binarios
Para mayor concisión, utilizamos macros globales para crear

listas de variables, presentando las variables utilizadas en las
secciones 14.4-14.7 seguidas de las variables adicionales
utilizadas en la sección 14.8. Tenemos
 * Load data
 use mus14data.dta
 * Interaction variables
 drop age2 agefem agecbr agewhi
 * Summary statistics of variables
 global xlist age hstatusg bhincome educyear married hisp
 generate linc = ln(bhinc)
(9 missing values generated)
 global extralist linc female white chronic adl sretire
 summarize ins retire $xlist $extralist
(Continúa en la siguiente página)
14.4.2 Regresión logit

Comenzamos con la estimación de ML del modelo logit.
452
 *Logit regression
 Logit ins retire $xlist
Iteration 0: log likelihood = -2139.7712
Logistic regression Number of obs = 3206

LR chi2(7) = 289.79
Prob > chi2 = 0.0000
Log likelihood = -1994.8784 Pseudo R2 = 0.0677
Todos los regresores que no sean la edad son estadísticamente

significativamente diferentes de cero en el nivel de 0.05. Para el
modelo logit, el signo del coeficiente es también el signo del
efecto marginal. Discusión adicional de estos resultados se
difieren a la próxima sección, donde comparamos las
estimaciones de los parámetros logit con los de otros modelos.
El registro de iteraciones muestra una convergencia rápida en
cuatro iteraciones. La salida posterior suprime el registro de
iteraciones para ahorrar espacio. En el trabajo empírico real, es
mejor mantener el registro. Por ejemplo, una gran cantidad de
iteraciones puede indicar un alto grado de multicolinealidad.
14.4.3 Comparación de modelos binarios y estimaciones
de parámetros
Es bien sabido que los modelos logit y probit tienen formas
similares para los valores centrales de F(.) pero difieren en las
colas cuando F(·) se aproxima a 0 o 1. Al mismo tiempo, las
estimaciones de los coeficientes correspondientes de los dos
modelos se escalan bastante diferente. Es un error elemental
suponer que los diferentes modelos tienen implicaciones
diferentes simplemente porque los coeficientes estimados entre
los modelos son diferentes. Sin embargo, esta diferencia es
principalmente una consecuencia de diferentes formas
funcionales para las probabilidades. Los efectos marginales y las
binarios
probabilidades predichas, presentadas en las secciones 14.6 y 14.

7, son mucho más similares en todos los modelos.
Los coeficientes se pueden comparar entre los modelos,
utilizando los siguientes factores de conversión aproximada
(Amemiya 1981, 1,488):
^β Logit ≃ 4 β^ OLS
^β Logit ≃2.5 β^ OLS
^β Logit ≃ 1.6 ^β Probit
La motivación es que es mejor comparar el efecto marginal,

∂ p / ∂ x j , entre los modelos, y se puede demostrar que
∂ p / ∂ x j ≤ 0.25 ^β j para logit, ∂ p /∂ x j ≤ 0.4 β^ j para probit y
∂ p/∂ x j≤ β j^ para OLS. Las mayores desviaciones entre los
modelos ocurren en las colas.
Estimamos los parámetros de los modelos logit y probit por ML
y el LPM por OLS, calculando los errores estándar y las
estadísticas z basadas en estimaciones tanto predeterminadas
como sólidas del VCE. El siguiente código guarda resultados para
cada modelo con el comando de estimación de almacenamiento.
 *Estimation of several models
 quietly logit ins retire $xlist
 estimates store blogit
 quietly probit ins retire $xlist
 estimates store bprobit
 quietly regress ins retire $xlist
 estimates store bols
 quietly logit ins retire $xlist, .vce(robust)
 estimates store blogitr
 quietly probit ins retire $xlist, vce(robust)
 estimates store bolsr
Esto lleva a la siguiente tabla de salida de estimaciones de

parámetros en todos los modelos:
 * Table for comparing models
 estimates table blogit blogitr bprobit bprobitr bolsr,t stats (N11)
 b(%7.3f) stfmt(%8.2f)
454
Los coeficientes a través de los modelos cuentan una historia

cualitativamente similar sobre el impacto del regresor en
Pr (ins=1) . Las reglas aproximadas para la conversión de
parámetros también se sostienen razonablemente bien, porque
las estimaciones logit son aproximadamente cinco veces las
estimaciones OLS, y las estimaciones probit son
aproximadamente tres veces los coeficientes OLS. Los errores
estándar se vuelven a escalar de forma similar, de modo que las
estadísticas z informadas para los coeficientes son similares en
los tres modelos. Para los coeficientes logit y probit, las
estadísticas z robusta y predeterminada son bastante similares,
aparte de las de la variable hhincome . Para OLS, hay una gran
diferencia.
En la sección 14.6, veremos que las probabilidades probables
ajustadas son similares para las especificaciones logit y probit.
Sin embargo, la forma funcional lineal no restringe los valores
ajustados al intervalo [0,1] , y encontramos diferencias en los
valores de la cola ajustada entre los modelos LPM y logit y probit.
14.5 Pruebas de hipótesis y especificación

A continuación, consideramos varias pruebas de la especificación
mantenida frente a otras alternativas. Algunas de estas pruebas
se repiten y demuestran muchos de los métodos presentados en
más detalle en el capítulo 12, utilizando comandos para el modelo
binarios
logit no lineal que son similares a los presentados en el capítulo 3

para el modelo de regresión lineal.
14.5.1 Pruebas de Wald
Las pruebas sobre los coeficientes de las variables se realizan
más fácilmente mediante el uso del comando de prueba, que
implementa una prueba de Wald. Por ejemplo, podemos evaluar
la presencia de efectos de interacción con la edad. Se crean
cuatro variables de interacción (age 2, agefem , agechr y agewhi) , por
ejemplo, agefem es igual a la age por female , y luego se
incluyen en la regresión de logit. La hipótesis nula es que los
coeficientes de estos cuatro regresores son todos cero, porque
entonces no hay efectos de interacción. Obtenemos
 * Wald test for zero interactions
 generate age2 = age*age
 generate agefem = age*female
 generate agech = age*chronic
 generate agewhi = age*White
 global intlist age2 agefem agechr agewhi
 quietly logit ins retire $xlist $intlist
 test $intlist
(1)age2 = 0
(2)agefem = 0
(3)agechr = 0
(4)agewhi = 0
chi2(4) = 7.45
Prob > chi2 = 0.1141
El valor p es 0.114, por lo que la hipótesis nula no se rechaza

en el nivel 0.05 o incluso en el nivel 0.10.
14.5.2 Pruebas de razón de verosimilitud
Una prueba de razón de verosimilitud (LR) (ver sección 12.4)
proporciona un método alternativo para probar hipótesis. Es
asintóticamente equivalente a la prueba de Wald si el modelo está
especificado correctamente. Para implementar la prueba LR de la
hipótesis anterior, estimamos los parámetros de los modelos
general y restringido y luego usamos el comando lrtest .
Obtenemosrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
 * Likelihood-ratio test
 quietly logit ins retire $xlist $intlist
 estimates store B
456
 Lrtest B
Likelihood-ratio test LR chi2(4) = 7.57
(Assumptios: . nested in B) Prob > chi2 = 0.1088
Esta prueba tiene un valor p de 0.109, bastante similar al de la

prueba de Wald.
En algunas situaciones, el foco principal está en la probabilidad
pronosticada del modelo y el signo y el tamaño de los coeficientes
no son el foco de la investigación. Un ejemplo es la estimación de
los puntajes de propensión, en cuyo caso, a menudo, se hace una
recomendación para saturar el modelo y luego elegir el mejor
modelo utilizando el criterio de información Bayesian ( BIC) . El
criterio de información Akaike ( AIC) o el BIC también son
útiles para comparar modelos que no están cursados y tienen
diferentes números de parámetros; ver la sección 10.7.2.
14.5.3 Pruebas adicionales de especificación del modelo
Para modelos específicos, a menudo hay pruebas específicas de la
especificación específica. Aquí consideramos dos variantes de los
modelos logit y probit.
Prueba multiplicadora de LaGrange de logit generalizado

Stukel (1988) consideró, como alternativa al modelo logit, el
modelo de logit familiar h generalizado
'
' eh (x β )
α
Λα ( x β )= '(14.4)
1+e h (x β)
α
Donde hα ( x ' β ) es una función no lineal estrictamente creciente

de x ' β indexados por los parámetros de forma α 1 y α 2 que
gobiernan, respectivamente, la pesadez de las colas y la simetría
de la función Λ (.).
Stukel propuso probar si (14.4) es un mejor modelo al usar un
multiplicador de LaGrange (LM ) , o puntaje, prueba; ver la
sección 12.5. Esta prueba tiene la ventaja de que solo requiere la
estimación del modelo logit de hipótesis nula en lugar del modelo
más complicado (14.4). Además, la prueba de LM puede
implementarse complementando los regresores del modelo logit
con regresores generados que son funciones de x ' β y probando
el significado de estos regresores aumentados.
binarios
Por ejemplo, para probar la salida del logit en la dirección de

una familia h asimétrica, agregamos el regresor generado
( x 'i ^β )2 a la lista de regresores, volvemos a estimar el modelo
logit y probamos si la variable añadida es significativa mejora el
ajuste del modelo. Tenemos
 * Stukel score or LM test for asymetric h-family logit
 predict xbhat, xb
 generate xbhatsq = xbhat-2
 quietly logit ins retire $xlist xbhatsq
 test xbhatsq
(1)xbhatsq = 0
chi2(1) = 37.91
Prob > chi2 = 0.0000
La hipótesis nula de la especificación correcta del modelo se ve

fuertemente afectada porque la prueba de Wald de coeficiente
cero para el regresor agregado (x 'i ^β )2 arroja una estadística
χ 2 (1) de 38 con p=0,000 .
Esta prueba es fácil de aplicar y también lo son otras pruebas
de puntaje sugeridas por Stukel que usan el enfoque de aumento
variable. Al mismo tiempo, recuerde de la sección 3. 5.5 que las
pruebas tienen poder en más de un rechazo. Por lo tanto, el
rechazo en el ejemplo anterior puede deberse a razones distintas
a la necesidad de un modelo de logit h familiar asimétrico. Por
ejemplo, tal vez sea suficiente utilizar un modelo logit con
inclusión adicional de polinomios en los regresores continuos o la
inclusión de variables adicionales como regresores.
Regresión Probit Heteroscástico
Los modelos estándar bit bit y logit suponen homoscedasticidad
de los errores, u , en el modelo de variable latente (14.2). Esta
restricción puede ser probada. Una estrategia es tener como
modelo de hipótesis nula
Pr ( Y i =1| x ) =ϕ (x 'i β /σ )
2
con la normalización σ =1 , y como la hipótesis alternativa
Pr ( Y i =1| x ) =ϕ( x 'i β / σ i )(14.5)
donde ahora ui en (14.2) es heteroscedástico con una varianza

de
σ 2i =exp ( z 'i δ ) (14.6)

458
donde las variables exógenas (z 1 , ... , z m ) no contienen una

constante, porque la restricción δ=0 produce σ 2i =1 como en
el modelo nulo. Incluir una constante en z haría que el modelo
no sea identificado.
La estimación de ML puede basarse en (14.5) y (14.6). Los
parámetros del modelo probit con heterocedasticidad se pueden
estimar con ML utilizando el comando hetprob de Stata. La
sintaxis para hetprob es
Hetprob depvar [indepvars] [if] [in] [weight], het (varlist)
[options]
Los dos modelos se pueden comparar utilizando una prueba LR
de δ=0 que se implementa automáticamente cuando se utiliza
el comando. Alternativamente, se podría usar una prueba de
Wald.
Como ilustración, reconsideramos el modelo probit utilizado en
el análisis anterior. Al especificar las variables en z , parece
deseable excluir las variables ya incluidas en x , porque en un
modelo binomial, una variable que afecta a Pr (Y =1)
necesariamente debe afectar la varianza de Y . Para ingresar
una variable en la especificación de ambos, la media y la varianza
causan problemas de interpretación. En nuestra aplicación,
elegimos la única variable crónica como nuestra z , donde
crónica denota el número de condiciones crónicas que
experimenta un individuo. Obtenemos

 * Heteroskedastic probit model
 Hetprob ins retire $xlist, het(chronic) nolog//Heteroskedastic Probit
Heteroskedastic probit mode Number of obs = 3206
Zero outcomes = 1965
Nonzero outcomes = 1241
Wald chi2(7) = 90.34
Log likelihood = -1992.904 Prob > chi2 = 0.0000
binarios
Likelihood-ratio test of lnsigma2=0:chi2(1)=1.44 Prob > chi2 = 0.2303
La prueba LR indica que en el nivel de 0.05, no hay una mejora

estadísticamente significativa en el modelo resultante de la
generalización del modelo homoscedástico, porque p=0.23 .
Sin embargo, como una cuestión de estrategia de modelado, es
mejor probar primero si las variables z son variables
explicativas omitidas del modelo de media condicional porque
dicha especificación inversa también es consistente con la
varianza que depende de z . Es decir, el hallazgo de que z
ingrese a la función de varianza también es consistente con que
se haya omitido incorrectamente de la función media condicional.
En consecuencia, también se aplicó una prueba de adición
variable al agregar crónica los regresores en el modelo probit, y
se encontró que el valor p de la prueba era 0.23. Por lo tanto, la
evidencia está en contra de la inclusión de crónica en el modelo
probit.
14.5.4 Comparación de modelos

A menudo surge una pregunta: ¿qué modelo es mejor, logit o
probit? Como se verá en la siguiente sección, en muchos casos la
probabilidad ajustada es muy similar en una gran parte del rango
de x ' β . Las diferencias más grandes pueden ser evidentes en
las colas de la distribución, pero se requiere una muestra grande
para diferenciar confiablemente entre modelos sobre la base del
comportamiento de la cola.
Debido a que los modelos logit y probit no están cursados, un
criterio de verosimilitud penalizado como AIC o BIC (ver
sección 10.7.2) es atractivo para la selección del modelo. Sin
embargo, estos dos modelos tienen el mismo número de
460
parámetros, por lo que se reduce a elegir el modelo con mayor

probabilidad de registro. El modelo de bit pro tiene una
probabilidad logarítmica de -1,993.62 (vea la tabla en la página
452), que es 1.26 más alta que la -1,994.88 para logit. Esto
favorece el modelo probit, pero la diferencia no es grande. Por
ejemplo, una prueba LR de una única restricción rechaza al
nivel 0.05 si la estadística LR excede 3.84 o equivalentemente
si el cambio en la probabilidad logarítmica es 3.84 /2=1.92 .
14.6 Bondad de ajuste y predicción

El resultado de Stata para las regresiones logit y probit tiene un
formato similar. Se da la probabilidad de registro y la prueba de
LR de la significación conjunta de los regresores y su valor p
. Sin embargo, algunas medidas de bondad de ajuste general son
deseables, incluidas las que son específicas para el modelo de
resultado binario.
Tres enfoques para evaluar el ajuste del modelo son las
2
medidas de pseudo R , las comparaciones de las
probabilidades pronosticadas promedio por grupo con las
frecuencias de muestra y las comparaciones basadas en la
clasificación ( Y^ es igual a cero o uno). Ninguno de estos es la
medida más preferida a priori. A continuación discutimos las
comparaciones del ajuste del modelo usando las probabilidades
pronosticadas.
14.6.1 Medida Pseudo- R2
En la regresión lineal, la suma total de las desviaciones
cuadradas de la media puede descomponerse en sumas de
cuadrados explicadas y residuales, y R2 mide la relación de la
suma de cuadrados explicada a la suma total de cuadrados, con 0
y 1 como límites inferior y superior, respectivamente. Estas
propiedades no se transfieren a la regresión no lineal. Sin
embargo, hay algunas medidas de ajuste que intentan imitar la
medida R2 de regresión lineal. Hay varias medidas R2 , una
de las cuales se incluye en la salida de Stata.
El R2 de McFadden se calcula como 1−L N ( ^β )/L N (Ý ) , donde
LN ( ^β) denota el valor de verosimilitud log maximizado o
ajustado, y LN ( Ý ) indica el valor de la probabilidad logarítmica
en el intercepto only modeL Cuando se aplica a modelos con
resultados binarios y multinomiales, los límites inferior y superior
de la medida pseudo R2 son 0 y 1 (ver sección 10.7 .1), aunque
el ~ R
2
de McFadden no es una medida de la proporción de
binarios
varianza del dependiente variable explicada por el modelo. Para

el modelo logit ajustado ~
R 2=0.068 .
14.6.2 Comparación de probabilidades predichas con
frecuencias de muestra
La comparación en la muestra de las probabilidades
N ∑ ^pi , con la frecuencia de la
−1
pronosticadas promedio,
muestra, Ý , no es útil para evaluar el ajuste de los modelos de
resultados binarios. En particular, los dos son necesariamente
iguales para los modelos logit que incluyen una intersección,
porque las condiciones logit MLE de primer orden se pueden
mostrar para imponer esta condición.
Sin embargo, esta comparación puede ser útil para los
subgrupos de observaciones. La prueba de especificación de
Hosmer-Lemeshow evalúa la bondad del ajuste al comparar la
frecuencia de muestreo de la variable dependiente con la
probabilidad ajustada dentro de subgrupos de observaciones, con
el número de subgrupos especificado por el investigador. La
hipótesis nula es que los dos son iguales. La prueba es similar a
la prueba de bondad de ajuste de chi cuadrado de Pearson.
Deje ^pg y Y^ g denotan, respectivamente, la probabilidad
pronosticada promedio y la frecuencia de muestreo en el grupo
^p g
¿
−Y^ g
g . La estadística de prueba es ¿ , donde g es el
¿
G
∑¿
g=1
subíndice del grupo. Los grupos se basan en q uantiles de las
probabilidades pronosticadas ordenadas. Por ejemplo, si G=10 ,
cada grupo corresponde a un decil del ordenado ^pi . Hosmer y
Lemeshow estableció la distribución nula por simulación. Bajo el
nulo de la especificación correcta, la estadística se distribuye
como X 2 (G−2) . Sin embargo, se deben tener en cuenta dos
advertencias: Primero, el resultado de la prueba es sensible al
número de grupos utilizados en la especificación. En segundo
lugar, mucho de lo que se sabe sobre las propiedades de la
prueba se basa en la evidencia de Monte Carlo sobre el
rendimiento de la prueba. Ver Hosmer y Lemeshow (1980, 2000).
La evidencia de simulación sugiere que un tamaño de muestra
fijo que especifique un gran número de grupos en la prueba
provoca una divergencia entre los valores empíricos c.d.f. y el
c.d.f. de la distribución X 2 (G−2) .
462
La prueba de bondad de ajuste se realiza mediante el comando

post estimación estat gof , que tiene la sintaxis
estat gof [if] [in] [weight] [, options]
donde la opción de grupo (#) especifica la cantidad de cuantíeles
que se usarán para agrupar los datos, siendo 10 el valor
predeterminado.
Después de estimar los parámetros del modelo logit, realizamos
esta prueba, estableciendo el número de grupos en cuatro.
Obtenemos
 * Hosmer-Lemeshow gof test with groups
 wstat gof, group(4) // Hosmer-Lemeshow gof test
Logistic model for ins, goodness-of-fit test
(Table collapsed on quantiles of estimated probabilities)
number of observations = 3206
number of groups = 4
Hosmer-Lemeshow chi2(2) = 14.04
Prob > chi2 = 0.0009
El resultado indica una especificación incorrecta, porque el valor

p es 0.001.
Para verificar si se produce el mismo resultado si usamos una
mayor cantidad de grupos para realizar la prueba, repetimos la
prueba para diez grupos.
 * quietly logit ins retire $xlist
 Hosmer-Lemeshow gof test with 10 groups
 estat gof, group(10) // Hosmer-Lemeshow gof test
Logistic model for ins, goodness-of-fit test
(Table collapsed on quantiles of estimated probabilities)
number of observations = 3206
number of groups = 10
Hosmer-Lemeshow chi2(8) = 31.48
Prob > chi2 = 0.0001
De nuevo, la prueba rechaza la especificación mantenida, esta

vez con un valor de p aún menor.
14.6.3 Comparación de los resultados previstos con los
resultados reales
La medida anterior se basa en la probabilidad ajustada de tener
seguro privado. En su lugar, podemos querer predecir el
resultado en sí, es decir, si un individuo tiene seguro privado
( Y^ =1) o no tiene seguro ( Y^ =0) . Estrictamente hablando, esto
binarios
depende de una función de pérdida. Si asumimos una función de

pérdida simétrica, entonces es natural establecer Y^ =1 si
' ^ '
F( x β)>0.5 y Y =0 si F( x β) ≤0.5 . Una medida de bondad es
el porcentaje de observaciones correctamente clasificadas.
Las medidas de bondad de ajuste basadas en la clasificación se
pueden obtener utilizando el comando de clasificación de
postestimation estat.
Para el modelo logit ajustado, obtenemos
 *Comparing fitted probability and dichotomous outcome
 estat classification
Logistic model por ins
La tabla compara valores ajustados y reales. El porcentaje de

valores correctamente especificados en este caso es 62.45. En
este ejemplo, 308 observaciones se clasifican erróneamente como
1 cuando la clasificación correcta es 0, y 896 valores se clasifican
erróneamente como 0 cuando el valor correcto es 1. Las
restantes 345 + 16,57 observaciones se especifican
correctamente.
El comando de clasificación de estat también produce
resultados detallados sobre los errores de clasificación, utilizando
terminología que se usa comúnmente en bioestadística y se
detalla en [R ] postestimation logístico. La relación
345/1241, llamada medida de sensibilidad, da la fracción de
464
observaciones con Y =1 que están especificadas correctamente.

La relación 1657/1965, llamada medida de especificidad, da la
fracción de observaciones con Y =0 que están especificadas
correctamente. Las proporciones 308/1965 y 896/1241 se
conocen como índices de error de clasificación falsa positiva y
falsos negativos.
14.6.4 El comando de predicción para probabilidades
ajustadas
Las probabilidades ajustadas se pueden calcular utilizando el
comando de predicción posterior a la detección, definido en la
sección 10.5.1. La diferencia entre los modelos logit y probit
puede ser pequeña, especialmente en la parte media de la
distribución. Por otro lado, las probabilidades ajustadas del LPM
estimado por OLS pueden ser sustancialmente diferentes.
Primero resumimos la probabilidad ajustada de los tres
modelos que incluyen solo la variable hhincome como regresor.
 *Calculate and summarize fitted probabilities
 quietly logit ins hhincome
 predict plogit, pr
 quietly probit ins hhincome
 predict pprobit, pr
 quietly regress ins hhincome
 predict pols, xb
 summarize ins plogit pprobit pols
La media y la desviación estándar son esencialmente las mismas

en los tres casos, pero el rango de los valores ajustados del LPM
incluye seis valores inadmisibles fuera del intervalo [0,1] . Este
hecho debe tenerse en cuenta al evaluar el gráfico que se
muestra a continuación que compara la probabilidad ajustada de
los tres modelos. Las observaciones desviadas de OLS se
destacan en los extremos del rango de distribución, pero los
resultados para logit y probit se combinan bien.
Para las regresiones con un único regresor, trazar las
probabilidades pronosticadas contra esa variable puede ser
informativo, especialmente si esa variable toma un rango de
valores. Tal gráfico ilustra las diferencias en los valores ajustados
binarios
generados por diferentes estimadores. El ejemplo que se

presenta a continuación traza los valores ajustados de logit,
probit y LPM frente a los ingresos del hogar (hhincome). Para la
legibilidad del gráfico, la opción jitter () se usa para oscilar los
valores cero y uno observados, lo que lleva a una banda de
valores de resultado que están alrededor de 0 y 1 en lugar de
exactamente 0 o 1. Se destaca la divergencia entre las
estimaciones de los dos primeros y los LPM (MCO) con altos
valores de ingresos, aunque esto no es necesariamente grave
porque el número de observaciones en el rango superior de
ingresos es bastante pequeño. Los valores ajustados están cerca
para la mayoría de la muestra.
 *Following gives Figure mus14fig1.eps

 Sort hhincome
 Graph twoway(scatter ins hhincome, msize(vsmall) jitter(3)) /*
> */ (line plogit hhincome, clstyle(p1))/*
> */ (line pprobit hhincome, cltyle(p2))/*
> */ (line pols hhicome, clstyle(p3)),/*
> */ scale (1.2) plotregion(style(none))/*
> */ title(“Predicted Probabilities Across Models”)/*
> */ xtitle(“HHINCOME (hhincome)”, size(medlarge))
xscale(titlegap(*5))/*
> */ ytitle(“Predicted probability”, size(medlarge))
yscale(titlegap(*5))/*
> */ legend(pos(1) ring(0) col(1)) egend(size(small))/*
> */ legend(label(1 “Actual Dara (jittered)”) label(2 “Logit”)/*
> */ label(3 “Probit”) label(4 “OLS”))
Figura 14.1. Predicted probabilities versus hhincome

466
14.6.5 El comando prvalue para probabilidades ajustadas

El comando de predicción proporciona probabilidades ajustadas
para cada individuo, evaluando en x=x i . . En ocasiones, es útil
obtener probabilidades pronosticadas en un valor representativo,
x=x ¿ . Esto se puede hacer utilizando el comando nlcom,
presentado en la sección 10.5.5. En su lugar, es más simple usar
el comando prvalue pos estimación escrito por el usuario (Long y
Freese 2006).

La sintaxis de prvalue es
prvalue [if] [in] [, x(conditions) rest(mean) ]
donde enumeramos dos opciones clave. La opción x
(condiciones) especifica los valores de acondicionamiento de los
regresores, y la opción de rest( mean) predeterminada especifica
que las variables no condicionadas deben establecerse en sus
promedios de muestra. Omitir x (condiciones) significa que las
predicciones se evalúan en x=x́ .
El comando genera un valor predicho (ajustado) para cada
observación, aquí para una persona casada, jubilada, no hispana,
de 65 años de edad con buen estado de salud, 17 años de
educación y un ingreso igual a $ 50,000 (por lo que la variable de
ingreso es igual 50).
 *Fitted probabilities for selected baseline
 prvalue, x(age=65 retire=0 hstatusg=1 hhincome=50 eduyear=17
married=1 hisp=0)
logit: Predictions for ins
Confidence instervals by delta method
La probabilidad de tener un seguro privado es de 0,57 con el

intervalo de confianza del 95% [0,52,0,62] . Este intervalo de
binarios
confianza razonablemente ajustado es para la probabilidad de

que Y =1 dado x=x ¿ . Hay mucha más incertidumbre en el
resultado que Y =1 dado x=x ¿ . Por ejemplo, esta dificultad en
~
la predicción de valores reales conduce al R2 bajo para el
modelo logit. Esta distinción es similar a la predicción de
E ( Y | x ¿ y Y ∨x discutida en las secciones 3.6.1 y 10.5.2.
14.7 Efectos marginales

Tres variantes de los efectos marginales, discutidos previamente
en la sección 10.6, son el efecto marginal promedio (AME), los
efectos marginales en un valor representativo (MER) y los efectos
marginales en la media (MEM). En un modelo no lineal, los
efectos marginales son más informativos que los coeficientes.
Las fórmulas analíticas para los efectos marginales para los
modelos binarios de resultados estándar se dieron en la tabla
14.1. Por ejemplo, para el modelo logit, el efecto marginal con
respecto a un cambio en un regresor continuo, x j , evaluado en
x=x́ :, se estima por Λ( x́ ' β^ ) {1− Λ( x́' ^β) } ^β j . Un intervalo de
confianza asociado se puede calcular utilizando el método delta.
14.7.1 Efecto marginal a un valor representativo (MER)
El comando postestimation mfx proporciona una estimación del
efecto marginal en un valor particular de x=x ¿ , con el valor
predeterminado x=x́ ; ver la sección 10.6. El valor
predeterminado no es necesariamente la mejor opción. Por
ejemplo, si el modelo tiene varios regresores binarios, luego estos
se igualan a sus promedios de muestra, lo cual no es
particularmente significativo. Puede ser mejor para el usuario
crear un valor de referencia y un caso índice para el cual se
calculan los efectos marginales.
Usamos como punto de referencia a un hispano de 75 años,
jubilado, casado y con un buen estado de salud, 12 años de
educación y un ingreso igual a 35. Luego
 *Marginal effects (MER) after logit
 fx, at(1 75 1 35 12 1 1) // (MER)
Marginal effects after logit
y = pr(ins) (predict)
= .25332793
468
(*)dy/dx is for discrete change of dummy variable from 0 to 1
El orden de los valores en la opción at (numlist ) es el mismo que

el de las variables en el comando de estimación anterior. Los
valores de acondicionamiento de x aparecen en la última
columna. Se puede hacer un cálculo similar en la mediana de x
.
14.7.2 Efecto marginal en la media (MEM)
A modo de comparación, reproducimos el cálculo predeterminado
del comando mfx en el medio. Obtenemos
 *Marginal effects (MEM) after logit
 mfx // (MEM)
Marginal effects after logit
y = Pr(ins) (predict)
= .37283542
(*)dy/dx is for discrete change of dummy variable from 0 to 1
En este caso particular, la MEM es un 20-30% mayor que la

MER, a pesar de que la probabilidad predicha en x=x́ del
0,373 en comparación con 0,253 en el concreto precedente valor
de x.
14.7.3 Efecto marginal Promedio
(AME)ffffffffffffffffffffffffffffffffffffffffffffffffffffffff
binarios
El efecto marginal promedio (AME) se puede obtener utilizando

la postestimación escrita por el usuario comando margeff (Bartus
2005) que está disponible para un número de serie modelos,
incluyendo modelos Logit y Probit. Los errores estándar
asociados y el intervalo de confianza para el AME se obtienen
utilizando el método delta. Para una variable ficticia, AME se
calcula como un cambio discreto en la variable dependiente a
medida que la variable ficticia cambia de 0 a 1). Los AME
también se pueden calcular en cualquier otro punto especificando
la opción at (atlist).
Para el modelo logit ajustado, obtenemos
 *Marginal effects (AME)after logit
 margeff // (AME)
Average marginal effects on Prob(ins=1) after logit
En este ejemplo AME es 5-10% menos que el MEM. La diferencia

puede ser mayor en otras muestras.
14.7.4 El comando prchange
El cambio marginal en la probabilidad debido a un cambio de

unidad en un regresor especificado, condicional a valores
especificados de otros regresores, se pueden calcular utilizando
el escrito por el usuario comando prchangmi (Long and Freese
2006). La sintaxis es similar a la de prvalue, discutida en la
sección 14.6.5:
, x ( conditions ) rest (mean)
]
prc h ange varname [ if ] [ ¿ ] ¿
Donde Varname es la variable que cambia. El valor
predeterminado para las variables de acondicionamiento.
A continuación se presenta el efecto marginal de un cambio en
el ingreso (bhincome) evaluado a la media de los regresores
evaluados en x=x́ .
 *Computing change in probability after logit
470

 prchange hhincome
logit: Changes in Probablities for ins
El resultado complementa el cálculo del efecto marginal al

informar también los cambios en la probabilidad inducidos por
varios tipos de cambio en el ingreso. La salida min-> máx. da el
cambio · en la probabilidad debido a que el ingreso cambia del
valor mínimo al máximo observado. La salida 0-> 1 da el cambio
debido a resultados cambiando de 0 a 1. La salida - + 1/2 da el
impacto del cambio de una unidad de medio a continuación a una
media unidad por encima del valor base de ingresos. Y el
resultado - + sd / 2 da el impacto del cambio de ingresos de la
mitad de una desviación estándar por debajo de la mitad de una
desviación estándar por encima del valor base. Agregar la opción
de ayuda a este comando genera notas explicativas para la salida
de la computadora.
14.8 Regresores Endógenos

El probit y logit ML estimadores son incompatibles si cualquier
regresor es endógeno. Se utilizan dos enfoques amplios para
corregir la endogeneidad.
El enfoque estructural específica un modelo completo que
explícitamente modelos tanto no linealidad y endógeno. El
modelo estructural específico utilizado difiere según si el
regresor endógeno es discreto o continuo. La estimación de ML
es más eficiente, pero a menudo se usan estimadores de dos
pasos más simples (aunque menos eficientes).
El modelo parcial alternativo o enfoque semiparamétrico define
un residuo para la ecuación de interés y utiliza el estimador IV
basado en la ortogonalidad de los instrumentos y este residual.
Como en el caso lineal, un requisito clave es la existencia de
uno o más instrumentos válidos que no explican directamente la
variable dependiente binaria, sino que están correlacionados con
el regresor endógeno. A diferencia del caso lineal, los diferentes
enfoques para controlar la endogeneidad pueden llevar a
binarios
estimadores diferentes incluso en el límite, ya que se están

estimando los parámetros de diferentes modelos.
14.8.1 Ejemplo
Nuevamente modelamos los resultados binarios, aunque
utilizamos un conjunto diferente de regTessors. Los regresores
incluye la línea continua variable (el logaritmo del ingreso
familiar) que es potencialmente endógena, ya que la compra de
seguro de salud complementario y el ingreso familiar pueden
estar sujetos a choques no observados correlacionados, incluso
después de controlar una variedad de variables exógenas. Es
decir, para la muestra de HRS que se está considerando, la
elección del seguro complementario (ins), así como del ingreso
del hogar (línea), se puede considerar como determinada
conjuntamente.
Regresión probit regular que no controla para este rendimiento
potencial de endogeneidad.
 *Endogenous probit using inconsistent probit MLE
 Generate linc = log(hhincome)
 global xlist2 female age age2 educyear married hisp White
chronic ad1 hstatusg
 probit ins linc $xlist2, vce(robust) nolog
Probit regression Number of obs = 3197
Wald chi2(11) = 366.94
Prob > chi2 = 0.0000
Log pseudolikelihood = -1933.4275 Pseudo R2 = 0.0946
La línea regresora tiene un coeficiente de 0,35 y se estima con

bastante precisión con un error estándar de 0,04. El efecto
marginal asociado en x=x́ , calculado usando el comando mfx,
es 0.13. Esto implica que un aumento del 10% en el ingreso del
472
hogar (un cambio de 0.1 en la línea) se asocia con un aumento de

0.013 en la probabilidad de tener un seguro de salud
suplementario.
14.8.2 Supuestos del modelo
Restringimos la atención sobre el caso de un único regresor
endógeno continuo en un modelo de resultado binario. Para un
regresor endógeno discreta se deben utilizar otros métodos.
Consideramos el siguiente modelo latente variable lineal, en el
¿
que y 1 es la variable dependiente en la ecuación estructural y
y 2 es un regresor endógeno en esta ecuación. Estos dos
variables endógeno se modelan como lineal en las variables
exógenas x1 y x2. Es decir:
y ¿1 i=β y + x '1 i γ +ui (14.7)

2i
¿ ' '
y 2 i=x 1i π 1+ x 2 i π 2 + vi (14.8)
Dónde i=1, … N ; x 1 es un K 1 x 1 vector de regresores

exógenos; y x 2 es un K 2 x 1 vector de IV adicional que afecta a
y2 pero se puede excluir de (14.7) ya que no afectan
directamente a y 1 . La identificación requiere que K 2 ≥ 1 .
¿
La variable y 1 es latente y por lo tanto no se observa
directamente. En cambio, el resultado binario y 1 esobservado,
¿ ¿
con y 1=1 Si y 1> 0 , y y 1=0 o Si y 1 ≤ 0 .
La ecuación (14.7) podría ser referido como “estructural”. Esta
ecuación estructural es de interés principal y la segunda
ecuación, llamada primera etapa de ecuación o de forma reducida
ecuación, solo sirve como fuente de identificación de
instrumentos. Proporciona un control sobre la fuerza de los
instrumentos y sobre la bondad del ajuste de la forma reducida.
La ecuación de forma reducida (14.8) explica la variación en la
variable endógena en términos de variables estrictamente
exógenas, incluidas las IV x 2 que se excluyen de la ecuación
estructural. Estos instrumentos excluidos, previamente discutidos
en el capítulo 6 dentro del contexto de modelos lineales, son
esenciales para identificar los parámetros de la ecuación
estructural. Dada la especificación de las ecuaciones
estructurales y de forma reducida, la estimación puede ser
simultánea (es decir, conjunta) o secuencial.
14.8.3 Enfoque Modelo-Estructural

binarios
El enfoque del modelo estructural específico completamente las

¿
distribuciones de y 1 e y 2 en (14.7) y (14.8). Se supone que
(ui , v i) están distribuidos normalmente de forma conjunta, es
ui , v i
decir, ) N (O ,∑), donde: ∑=(σ ij ) · En el modelo de probit
¿
binario, los coeficientes se identifican solo hasta un factor de
escala, por lo tanto, mediante la normalización de escala, σ 11 =1
. Los supuestos implican que ui∨v i=ρ v i + ε i donde E( ε i∨vi )=0
Una prueba de la hipótesis nula de exogeneidad de y 2 es
equivalente a la prueba de H 0 : ρ=0 , porque entonces ui , y
v i son independientes.
Este enfoque depende en gran medida de los supuestos de
distribución. La estimación constante requiere tanto la
normalidad como la homoscedasticidad de los errores ui , v i .
El comando ivprobit
La sintaxis de ivprobit es similar a la de ivregress, discutida en el
capítulo 6:
Ivprobit depvar [varlist1] (varlist2=varlist_iv) [if] [in]

[weight] [, mle_options]
Donde varlist 2 se refiere a la variable endógena y2 y

varlis_iv se refiere a los instrumentos x 2 que están excluidos de
¿
la ecuación para y 1 . La version predeterminada de ivprobit
proporciona estimaciones de ML, y la opción de dos pasos genera
estimaciones en dos pasos.
Máxima verosimilitud estimada

Para este ejemplo, usamos como instrumentos dos variables
excluidas, retire y sretire. Estos se refieren, respectivamente, al
estado de jubilación individual y al estado de jubilación del
cónyuge. Es probable que se correlacionen con la línea, porque la
jubilación reducirá los ingresos del hogar. La suposición clave
para la validez del instrumento es que el estado de jubilación no
afecta directamente la elección del seguro complementario. Esta
suposición es discutible, y este ejemplo se ve mejor como
meramente ilustrativo.
474
Aplicamos ivprobit, obteniendo estimaciones de ML:
 *Endogenous probit usinf ivprobit ML estimator

 global ivlist2 retire sretire
 ivprobit ins $xlist2 (linc 0 $ivlist2), vce(robust) nolog
Probit model with endogenous regressors Number of obs = 3197
Wald chi2(11) = 382.34
Log pseudolikelihood = -5407.7151 Prob > chi2 = 0.0000
Wald test of exogeneity (/athrho = 0):chi2(1)=3.51 Prob > chi2=0.0610
La salida incluye una prueba de la hipótesis nula de exogeneidad,

i.e., H 0 : ρ=0 . El valor p es 0,061, por lo H0 no es rechazada
en el nivel de 0,05, aunque es rechazado en el nivel 0.10. El
hecho de que el coeficiente estimado sea positivo indica una
correlación positiva entre u y v . Esos factores no medidos
que hacen más probable que un individuo tenga un ingreso
familiar más alto también hacen que sea más probable que el
individuo tenga un seguro de salud complementario,
condicionado a otros regresores incluido en la ecuación.
binarios
Dado el gran valor estimado para ρ( ρ^ =0.59) , deberíamos

esperar que los coeficientes de los modelos probit e ivprobit
estimados difieran. Este es realmente el caso, tanto para la línea
regresora endógena como para los otros regresores. El
coeficiente de línea realmente cambia los signos (de 0.35 a
-0.53), por lo que se estima que un aumento en el ingreso del
hogar reduce la probabilidad de tener un seguro
complementario. Una posible explicación es que las personas
más ricas están dispuestas a auto asegurarse para servicios
médicos no cubiertos por Medicare. Al mismo tiempo, la
estimación IV ha conducido a una imprecisión mucho mayor, con
un error estándar que aumenta de 0.04 a 0.39, por lo que el
coeficiente negativo no es estadísticamente significativamente
diferente de cero en el nivel 0.05. Sin embargo, tomado en su
valor nominal, el resultado sugiere que el comando probitivo que
descuida la endogeneidad conduce a una sobreestimación del
efecto del ingreso del hogar. Los coeficientes restantes muestran
el mismo patrón de sigrr que en el modelo probit ordinario, y las
diferencias en las estimaciones puntuales están dentro del rango
de los errores estándar estimados.
Estimaciones secuenciales de dos pasos
Un procedimiento de estimación alternativo para (14.7) y (14.8)

con errores normales (Newey 1987) usa un estimador de chi-
cuadrado mínimo. Este estimador también asume la normalidad
multivariada y la homoscedasticidad y, por lo tanto, es similar al
estimador de ML. Sin embargo, los detalles del algoritmo son
diferentes. La ventaja del estimador secuencial de dos pasos
sobre el estimador de ML es principalmente computacional
porque ambos métodos hacen los mismos supuestos de
distribución.
El estimador se implementa utilizando ivprobit con la opción de
dos pasos.
Lo hacemos para nuestros datos, usando la primera opción,
que también proporciona las estimaciones de mínimos cuadrados
(LPM) de la primera etapa.
476
(Continua en la página siguiente)
 *Endogenous probit using ivprobit 2-step estimator

 ivprobit ins $xlist2 (linc = $ivlist2), twostep first
Checking reduced-form model…
First-stage regression
Two-step probit with endogenous regressors Number of obs = 3197

Wald chi2(11) = 222.51
Prob > chi2 = 0.0000
binarios
Wald test of exogeneity chi2(1) = 3.57 Prob > chi2 = 0.0588
Los resultados del estimador de dos pasos son similares a los de

la estimación ivprobit ML. Las estimaciones de los coeficientes
están dentro del 20% de cada uno. Los errores estándar se
incrementan aproximadamente en un 50%, lo que indica una
pérdida de precisión en la estimación en dos pasos en
comparación con la estimación de ML. El estadístico de prueba
para la exogeneidad de la línea tiene un valor de p de 0.059
comparado con 0.061 usando ML. Los resultados para la primera
etapa indican que uno de los dos excluidos IV tiene un fuerte
valor predictivo para la línea. Debido a que esta es una ecuación
de forma reducida, no intentamos una interpretación de los
resultados.
14.8.4 Enfoque IVS
Un enfoque alternativo menos estructural es usar los métodos de

estimación IV para el modelo de regresión lineal, presentado en
el capítulo 6. Esto requiere menos supuestos de distribución,
aunque si se usa IV lineal, entonces la naturaleza binaria de la
variable dependiente y 1 (ins) es ser ignorado.
Tenemos la formulación lineal estándar para las variables
observadas ( y 1 , y 2 )
' ' '
y 1 i=β y 2 i + x 1 i γ + ui y 2 i=x 1 i π 1 + x 2i π 2+ v i
Donde y 2 es endógeno y las covariables x 2 son los regresores

exógenos excluidos (instrumentos). Este es el modelo (14.7) y
¿
(14.8) excepto que la variable latente y 1 es reemplazada por la
variable binaria y 1 . Una diferencia importante es que mientras
478
que (u , v ) son de media cero y dependen conjuntamente, no

necesitan ser multivariados normales y homoscedásticos.
La estimación es por mínimos cuadrados de dos etapas (2SLS),
usando el comando ivregress. Como y 1 es binario, el error u
es heteroscástico. El estimador 2SLS sigue siendo consistente
para ( β , γ ) , pero los errores estándar robustos de
heterocedasticidad deben usarse para la inferencia. En el
capítulo 6, consideramos varios problemas, especialmente el de
los instrumentos débiles, al aplicar el estimador IV. Estos
problemas siguen siendo relevantes aquí también, y el lector
vuelve al Capítulo 6 para un tratamiento más detallado del tema.
El comando ivregress con la opción vce (robust) produce:
 * Endogenous probit using ivregress to get 2SLS estimator
 ivregress 2sls ins $xlist2 (linc=$ivlist2), vce(robust) noheader
Instrumented: linc
Instruments: female age age2 educyear married hisp White chronic ad1
hstatusg retire sretire
 estat overid
Test of overigentifying restrictions:
Score chi2(1) = .521843 (p = 0.4701)
Este método arroja una estimación del coeficiente de -0.17 de la

línea que es estadísticamente insignificante en el nivel 0.05, en
cuanto a ivprobit. Para comparar las estimaciones de ivregress
con las estimaciones de IVprobit, debemos volver a escalar los
parámetros como en la sección 14.4.3. Entonces la estimación del
parámetro 2SLS re escalado es -0.17 x 2.5 = -0.42, comparable a
las estimaciones de -0.53 y -0.61 del comando ivprobit.
Las ventajas del estimador 2SLS son su implícita computación
y la capacidad de utilizar pruebas de validez de instrumentos de
binarios
sobre identificación y diagnósticos para instrumentos débiles que

se presentaron en el capítulo 6. Al mismo tiempo, las pruebas e
inferencias formales que requieren errores homoscedástico
normales pueden ser inapropiadas. Debido a la
heterocedasticidad intrínseca cuando la variable dependiente es
binaria. Aquí la restricción de sobre identificación única no es
rechazada por la prueba Hansen J, que arroja un valor de χ 2 (1)
de 0,522. Si los resultados son sensibles a la elección de los
instrumentos se puede seguir adelante mediante la estimación de
especificaciones adicionales, un enfoque aconsejable si algunos
instrumentos son débiles.
El estimador lineal 2SLS en el ejemplo actual se basa únicamente
en la condición de momento E(u∨x 1 , x 2)=0 , donde
'
u= y1 −(β y + x 1 γ ) ; ver la sección 6.2.2. Para un resultado binario
2
y1 modelado usando el modelo probit, es mejor usar el

estimador 2SLS no lineal basado en la condición de momento
E(u∨x 1 , x 2)=0 , donde el término de error, la diferencia entre
y1 y su función media condicional, se define como
u= y1 −(β y + x '1 γ ) . Esta condición de momento no está implícita en
2
(14.7) y (1 4.8), por lo que las estimaciones diferirán de las

siguientes: n el comando ivprobit. No hay ningún comando Stata
para implementar el estimador 2SLS no lineal, pero el ejemplo
2SLS no lineal en la sección ll.8 puede adaptarse adecuadamente.
14.9 Datos agrupados

En algunas aplicaciones, solo pueden estar disponibles los datos
agrupados o agregados, pero se considera que el
comportamiento individual se modela mejor mediante un modelo
de elección binaria. Por ejemplo, podemos tener un promedio de
frecuencia tomado a través de una población muestreada como
la variable dependiente y promedios de variables explicativas
para los regresores, que asumiremos que son exógenos. Nos
referimos a estos como datos agrupados.
Tal agrupación no plantea problemas cuando la agrupación se
basa en valores únicos de los regresores y hay muchas
observaciones por valor único de los regresores. Por ejemplo, en
el conjunto de datos de este capítulo, la edad podría ser la
variable de agrupación. Esto generaría 33 grupos, uno para cada
edad entre 52 y 86; no hay observaciones para las edades 84 u
85. El número de casos en los 33 grupos es el siguiente
480
Las observaciones sin variación dentro del grupo se eliminarán, y

es probable que esto ocurra cuando el tamaño del grupo es
pequeño. En la muestra actual, hay dos grupos con dos
observaciones cada uno y dos con una sola observación. Estos
grupos pequeños se descartan, lo que reduce el tamaño de la
muestra a 29.
Si el tamaño del grupo es relativamente grande y la variable de
agrupamiento es distinta, el estimador de chi-cuadrado mínimo
de Berkson es un método para estimar los parámetros del
modelo. Como ejemplo, supongamos que el vector regresor x i ,
i=1,. .. , N , toma solo T valores distintos, donde T es mucho más
pequeño que N. Entonces, para cada valor de los regresores,
tenemos múltiples observaciones en y . Este tipo de
agrupamiento implica muchas observaciones por celda. El
estimador de Berkson (ver Cameron y Trivedi [2005, 480]) se
puede calcular fácilmente por mínimos cuadrados ponderados
(WLS).
Este método no es adecuado para nuestros datos porque el
vector regresor x i toma una gran cantidad de valores dados
muchos regresores, algunos de los cuales son continuos. Sin
embargo, agrupamos por edad para ilustrar los métodos de datos
agrupados.
14.9.1 Estimación con datos agregados
Dejemos que ṕ g denote la frecuencia promedio en el grupo
g( g=1,... , G, G> K ) , y que x́ g denote el promedio de x en
N g , donde este último es el número de observaciones en el
grupo g . Un posible modelo es la regresión MCO de ṕ g en
x́ g. Debido a 0 < ṕ g <1, es común usar la transformación
logística para definir la variable dependiente que ahora no está
limitada y para estimar los parámetros del modelo
ṕg
ln ( 1− ṕ g)= x́' g γ +u g (14.9)
Donde ug es un error. Es esencial estimar los errores estándar

de los coeficientes OLS en el modo anterior robusto porque el
ṕ g promedio es heteroscedástico, ya que se da que Ng
variará con g . La transformación logística puede, hasta cierto
punto, reducir la heterocedasticidad.
El modelo de datos agregados presentado anteriormente
potencialmente generará estimaciones sesgadas; es decir, en
general, el estimador MCO de γ no es un estimador consistente
binarios
de β en un modelo no lineal. Sin embargo, podemos interpretar

el γ como un parámetro agregado interesante sin ninguna
conexión necesaria con el β .
14.9.2 Aplicación de datos agrupados
El conjunto de datos individual completo de 3,206 observaciones
se puede convertir en un conjunto de datos agregado mediante el
uso de los siguientes comandos de Stata para generar promedios
grupales y luego guardar los datos agregados en un archivo
separado.
 *Using mus14data.dta to generate grouped data
 Sort age
 Collapse av_ret=retire av_hhinc=hhincome av_educyear=educyear
av_mar=married
> av_ad1=ad1 av_hisp=hisp av_hstatusg=hstatusg av_ins=ins, by(age)
 generate logins = log(av_ins/(1-av_ins))
 save mus14gdata.dta, replace

File mus14gdata.dta saved
Aquí, el comando de colapso se usa para formar promedios por

edad. Por ejemplo, colapso av_hhincome = hhincome, by (age)
crea 29 observaciones para la variable av_hhincome igual al
promedio de la variable hhincome para cada uno de los 29
valores distintos tomados por la variable de edad. De manera
más general, el colapso puede calcular otras estadísticas, como
la mediana que especifica la estadística mediana, y si no se
utilizó la opción por 0, se produciría una sola observación. Se
pierden cuatro observaciones porque la variable de inicio de
sesión no se puede calcular en grupos con av_ins igual a 0 o 1.
La regresión total se estima de la siguiente manera:
 *Regressions with grouped data
 regress logins av_ret av_hstatusg av_hhinc av_educyear av_mar av_hisp,
> vce(robust)
Linear regression Number of obs = 29
F(6, 22) = 5. 26
Prob > F = 0. 0017
R-squared = 0. 4124
Root MSE = . 44351
482
Los resultados anteriores se basan en 29 observaciones

agrupadas. Cada coeficiente estimado refleja el impacto de un
regresor en el logaritmo de la odds ratio. Para convertir la
estimación para reflejar el efecto en el odds ratio, su coeficiente
debe ser exponencial. El patrón de signo de los coeficientes en la
regresión agregada es similar pero no idéntico al del modelo
logit desagregado en la sección 14.4.2. Tenga en cuenta que el
ajuste del modelo, como medido por R2 , ha mejorado mientras
que los errores estándar de las estimaciones de los parámetros
se han deteriorado. Los datos promediados son menos ruidosos,
por lo que el R2 mejora. Pero la reducción en la varianza de los
regresores y el tamaño de muestra más pequeño aumentan los
errores estándar.
Como se señaló anteriormente, los parámetros en el modelo
agrupado no se pueden relacionar fácilmente con los del modelo
logit desagregado. Por ejemplo, hsta tusg tiene un coeficiente
positivo significativo en la ecuación de logit, pero av_hsta tusg
tiene un coeficiente negativo.
14.10 Recursos Stata

La principal referencia para el caso regresor endógeno es [R]
ivprobit. El comando margeff (Bartus 2005) se puede usar como
un comando postestimación después probit Logit ACD (y
también después un número de otros comandos de estimación),
pero no después de ivprobi t. Para datos agrupados o
bloqueados, Stata proporciona los comandos de blog y t bprobit
para ML logit y estimación de bit pro; las variantes glogit y
gprobit se pueden usar para realizar la estimación de WLS. Para
la estimación de ecuaciones simultáneas, el comando cdsimeq
(Keshk 2003) escrito por el usuario implementa un método de
estimación de dos etapas para el caso en el que una de las
variables endógenas es continua y la otra endógena la variable
es dicotómica
14.10 Ejercicios
1. Considere el ejemplo de la sección 14.4 con variables
dependientes ins y el regresor único educyear. Estime los
parámetros de los modelos logit, probit y OLS utilizando
errores estándar tanto estándar como robustos. Para el
educyear del regresor, compare su coeficiente entre los
modelos, compare errores estándar predeterminados y
robustos de este coeficiente, y compare las estadísticas t
binarios
basadas en errores estándar robustos. Para cada modelo,

calcule el efecto marginal de un año más de educación para
alguien con una muestra de años medios de educación, así
como AME. ¿Qué modelo se ajusta mejor a los datos logit o pro
bit?
2. Utilice el comando de registro de obstrucción para estimar los
parámetros del modelo de probabilidad binario para ins con las
mismas variables explicativas utilizadas en el modelo de logit
en este capítulo. Estime los efectos marginales promedio para
los regresores. Calcule los odds ratios de ins = 1 para los
siguientes valores de las covariables: edad = 50, retire = 0,
hstatusg = 1, hhiricome = 45, educyear = 12, casado = 1 e
hisp = 0.
3. Genere un gráfico de probabilidades ajustadas contra años de
educación (educyear) o edad (edad) usando como plantilla los
comandos usados para generar la figura 14.1 en este capítulo.
4. Estime los parámetros del modelo logit de la sección 14.4.2.
Ahora estime los parámetros del modelo pro bit utilizando el
comando probit. Use las probabilidades de registro informadas
para comparar los modelos por AIC y BIC.
5. Estime la regresión probit de la sección 14.4.3. Usando los
valores de condicionamiento (edad = 65, retirar = 1, hstatusg
= 1, hhincome = 60, educyear = 17, casado = 1, hisp = 0),
estimar y comparar el efecto marginal de la edad sobre el Pr
(ins = 1∨x ), usando los comandos mfx y prchange. Deberían
dar el mismo resultado.
6. Usando el comando hetprob, estime los parámetros del modelo
de la sección 14.4, usando bhincome a s la variable que
determina la varianza. Use el LR como una prueba del nulo del
probit homoscedástico.
7. Usando el ejemplo en la sección 14.9 como una placa temporal,
calcule una regresión logística agrupada utilizando educyear
como la variable de agrupación. Comente sobre lo que
considera como características insatisfactorias de la variable
de agrupación y los resultados.
15 Modelos multinomiales
15.1 Introducción
Los datos categóricos son datos sobre una variable
dependiente que puede caer en una de varias categorías
mutuamente excluyentes. Los ejemplos incluyen diferentes
formas de viajar al trabajo (en automóvil, autobús, a pie) y
diferentes categorías de estado de salud autoevaluado
(excelente, bueno, regular o deficiente).
La literatura de econometría se centra en modelar un
solo resultado de categorías que son mutuamente excluyentes,
donde el resultado de la variable dependiente debe ser
multinomial distribuido, así como los datos binarios deben ser
Bernoulli o distribuidos binomialmente. El análisis no es
directo, sin embargo, porque hay muchos modelos diferentes
para las probabilidades de la distribución multinomial. Estos
modelos varían según si las categorías están ordenadas o
desordenadas, si algunos de los regresores específicos
individuales varían según las categorías alternativas, y en
algunos entornos, si el modelo es consistente con la
maximización de la utilidad. Además, los coeficientes de los
parámetros para cualquier modelo dado pueden ser difíciles de
interpretar directamente. Los efectos marginales (ME) de
interés miden el impacto en la probabilidad de observar cada
uno de varios resultados en lugar del impacto en una sola
media condicional.
Comenzamos con modelos para resultados desordenados,
en particular, logit multinomial, logit condicional, logit anidado
y modelos probit multinomiales. Luego pasamos a modelos
para resultados ordenados, como medidas del estado de salud y
modelos para resultados multinomiales.
15.2 Visión general de los modelos multinomiales

Proporcionamos una discusión general de los modelos de
registro multinomial. Las secciones posteriores detallan los
modelos de regresión multinomial más comúnmente utilizados
479 Capítulo 15 Modelos
multinomiales
que corresponden a formas funcionales particulares para las

probabilidades de cada alternativa.
15.2.1 Probabilidades y MEs
El resultado, Y i , para el individuo i es una de las m
alternativas. Establecemos Y i= j si el resultado es la j -
ésima alternativa, j=1,2,. . ., m . Los valores 1,2,. . . , m son
arbitrarios, y los mismos resultados de regresión se obtienen
si, por ejemplo, usamos los valores 3,5, 8,. . .. El orden de los
valores tampoco importa, a menos que se use un modelo
ordenado (presentado en la sección 15 .9).
La probabilidad de que el resultado para el individuo i
sea la alternativa j , condicional a los regresores x i , es
pij =Pr ( Y i = j ) =F j ( x i ,θ ) , j=1, … , mi=1, … , N (15.1)
donde diferentes formas funcionales, F j (·) , corresponden a

diferentes modelos multinomiales. Solo m−1 de las
probabilidades se puede especificar libremente porque las
probabilidades suman uno. Por ejemplo,
m−1
Fm ( x i ,θ )=1− ∑ F m ( x i ,θ ) . Por lo tanto, los modelos
j=1
multinomiales requieren una normalización. Algunos comandos
multinomiales de Stata, incluido el de asclogit, permiten que
diferentes individuos se enfrenten a diferentes conjuntos de
opciones para que, por ejemplo, un individuo solo elija entre
las alternativas 1, 3 y 4.
Los parámetros de los modelos multinomiales
generalmente no son directamente interpretables. En
particular, un coeficiente positivo no necesariamente significa
que un aumento en el regresor conduce a un aumento en la
probabilidad de que se seleccione un resultado. En cambio,
calculamos ME. Para el individuo i , el ME de un cambio en
el k esimo regresor en la probabilidad de que la alternativa
j sea el resultado es
∂ Pr ⁡(Y i= j) ∂ F j ( x i ,θ )
MEijk = =
∂ x ik ∂ x ik
Para cada regresor, habrá m ME correspondientes a las
probabilidades m , y estas m ME suman cero porque las
probabilidades suman uno. En cuanto a otros modelos no
lineales, estos efectos marginales varían con el punto de
evaluación x .
15.2.2 Estimación de máxima verosimilitud
480
La estimación es por máxima verosimilitud (ML). Usamos una

forma conveniente para la densidad que generaliza el método
utilizado para los modelos de resultados binarios. La densidad
para el i -ésimo individuo se escribe como
m
Yℑ
f ( Y i ) = p × … × p =∏ pYij
Yi 1
i1 ℑ
ij
j=1
donde Y i 1 , … Y ℑ , son m variables de indicador con Y ij =1

si Y i= j e Y ij =0 de lo contrario. Para cada individuo,
exactamente uno de Y 1 ,Y 2 , … ,Y m será distinto de cero. Por
ejemplo, si Y i=3 , luego Y i 3=1 , la otra Y ij =0 , y luego de la
Y
simplificación, f (¿¿ i)= p i3 a lo esperado.
¿
La función de verosimilitud para una muestra de N
observaciones independientes es el producto de las densidades
N m
de N , entonces L=∏ ∏ pYij 1j
. El estimador de máxima
i =1 j=1
verosimilitud (MLE), θ^ , maximiza la función verosimilitud
¿
Y ij ln F j (¿ x i ,θ )(15.2)
m
∑
j =1
¿
N
lnL ( θ )=∑ ¿
i=1
' −1
θ^ N (θ , [−E {δ lnL(θ)/δθδ θ }] ) .
2
y, como siempre,
Para los datos categóricos, la distribución es

necesariamente multinomial. En general, no hay razón para
usar errores estándar distintos al predeterminado, a menos
que exista algún agrupamiento, como por ejemplo, a partir de
observaciones repetidas en el mismo individuo, en cuyo caso la
opción vce (cluster clustvar ) debería ser usada. Las pruebas de
hipótesis se pueden realizar utilizando el comando lrtest ,
aunque generalmente es más conveniente realizar pruebas de
Wald con el comando de prueba.
Para los modelos multinomiales, el pseudo R2 tiene una
interpretación significativa; ver la sección 10.7. Los modelos
sin par pueden ser comparados usando el criterio de
información Akaike (AIC) y medidas relacionadas.
multinomiales
Para datos multinomiales, la única posible especificación

incorrecta es la de F j ( x i , θ ) . Existe una amplia gama de
modelos para F j (.) , con la idoneidad de un modelo particular
que depende de la aplicación en cuestión.
15.2.3 Regresores específicos de caso y específicos de
caso
Algunos regresores, como el género, no varían según las
alternativas y se denominan regresores invariantes alternativos
o alternativos a casos específicos. Otros regresores, como el
precio, pueden variar según las alternativas y se llaman
regresores específicos de la alternativa o variables de caso.
Los comandos utilizados para la estimación del modelo
multinomial pueden variar según la forma de los regresores.
En el caso más simple, todos los regresores son específicos de
cada caso y, por ejemplo, usamos el comando mlogit . En
aplicaciones más complicadas, algunos o todos los regresores
son alternativos específicos, y por ejemplo, usamos el comando
asclogit . Estos comandos pueden requerir que los datos se
organicen de diferentes maneras; ver la sección 15.5.1.
15.2.4 Modelo aditivo de utilidad aleatoria
Para los resultados multinomiales desordenados que surgen de
la elección individual, los econometristas favorecen los
modelos que provienen de la maximización de la utilidad. Esto
conduce a modelos multinomiales que se usan mucho menos en
otras ramas de estadísticas aplicadas.
Para el individuo i y la alternativa j , suponemos que
la utilidad U ij es la suma de un componente determinista,
V ij , que depende de regresores y parámetros desconocidos, y
un componente aleatorio no observado ε ij :
U ij =V ij + ε ij (15.3)
Esto se llama modelo aditivo de utilidad aleatoria (ARUM).
Observamos el resultado Y i= j si la alternativa j tiene la
mayor utilidad de las alternativas. Resulta que
Pr ( Y i = j )=Pr ⁡( U ij ≥ U ik ) , para todo k
¿ Pr ⁡( U ik −U ij ≤0) , todo k (15.4 )

¿ Pr ( ε ik −ε ij ≤ V ij −V ik ) , todo k
Los modelos multinomiales estándar especifican que
' '
V ij =x ij β+ z i Y i donde x i los regresores específicos de la
482
alternativa y z i son regresores específicos de cada caso.

Diferentes suposiciones sobre la distribución conjunta de
ε i 1 , … , ε ℑ conduce a diferentes modelos multinomiales con
diferentes especificaciones para F j ( x i , θ ) en (1 5. 1). Debido a
que las probabilidades de resultado dependen de la diferencia
en los errores, solo m−1 de los errores son libres de variar, y
de manera similar, solo m−1 de Y i son libres de variar.
15.2.5 Comandos de modelo multinomial Stata

La tabla 15.1 resume los comandos de Stata para la estimación
de modelos multinomiales.
Tabla 15. 1. Stata manda para la estimación de modelos

multinomiales
MEs en las probabilidades de elección evaluadas en la media

de la muestra o en valores específicos de los regresores se
calculan usando el comando de mezcla después de la mayoría
de los comandos o el comando de mezcla de estat mfx de
asclogit , asmoderbit y asroprobit . Los ME medios (AME) se
pueden calcular utilizando el comando marge ff escrito por el
usuario después de mlogit, ologit, oprobit, y biprobit.
15.3 Ejemplo multinomial: Elección del modo de

pesca
Analizamos los datos sobre la elección individual de pescar
utilizando uno de los cuatro modos posibles: la playa, el muelle,
un bote privado o un bote. Una variable explicativa es
multinomiales
específica de un caso (income) y las otras [ price y crate (

catch rate )] son alternativas específicas.
15.3.1 Descripción de los datos
Los datos de Herriges y Kling (1999) también se analizan en
Cameron y Trivedi (2005). El mus15data.dta dataset tiene los
siguientes datos:
 *Read in dataset and describe dependet variable and regressors

 use mus15data.dta, clear
 describe
Contains data from mus15data.dta
Obs: 1,182
Vars: 16 12 May 2008 20:46
Size: 80,376 (99.2% of memory free)
Hay 1,182 observaciones, una por individuo. Las primeras tres

variables son para el modo de pesca elegido con las variables
modo, precio y caja, respectivamente, el modo de pesca elegido
y el precio y la tasa de captura para ese modo. Las siguientes
cuatro variables son variables ficticias mutuamente
excluyentes para el modo elegido, tomando un valor de 1 si se
elige esa alternativa y un valor de 0 en caso contrario. Las
siguientes ocho variables son variables específicas de la
alternativa que contienen el precio y la tasa de captura para
cada uno de los cuatro modos de pesca posibles (el prefijo q
representa calidad, una tasa de captura mayor implica una
484
mayor calidad de la pesca). Estas variables se construyen a

partir de encuestas individuales que solicitan no solo los
atributos del modo de pesca elegido sino también los atributos
de los modos de pesca alternativos, como la ubicación, que
permiten determinar el precio y la tasa de captura. La variable
final, el ingreso, es una variable específica de un caso: a
continuación se resumen las estadísticas:
 *Summarize dependet variable and regressors

 Summarize, separator(0)
El modo variable toma los valores que van de 1 a 4. En

promedio, la pesca en bote privada y de alquiler es menos
costosa que la pesca en la playa y en el muelle. La pesca en la
playa y en el muelle, ambas cercanas a la costa con costos
similares, tienen precios idénticos. La tasa de captura para la
pesca en bote es sustancialmente más alta que para los otros
modos.
El comando tabular proporciona los diversos valores y
frecuencias de la variable de modo. Tenemos
multinomiales
 *Tabulate the dependent variable

 tabulate mode
Las partes son aproximadamente un tercio de los peces de la

costa (ya sea playa o muelle), un tercio de un barco privado y
un tercio de un bote. Estas acciones son las mismas que las de
dbeach , . .. , dcharter dado en la tabla resumida. La variable de
modo toma un valor de 1 a 4 (vea las estadísticas de resumen),
pero la salida de describe tiene una etiqueta, tipo de modo, que
etiqueta 1 como playa , . .. , 4 como charter. Esta etiqueta se
puede verificar utilizando el comando de la lista de etiquetas.
No existe una ordenación obvia de los modos de pesca, por lo
que los modelos multinomiales no ordenados deberían usarse
para explicar la elección del modo de pesca.
15.3.2 Regresores específicos de caso
Antes del modelado formal, es útil resumir la relación entre la
variable dependiente y los regresores. Esto es más difícil
cuando la variable dependiente es una variable dependiente
desordenada.
Para la variable de ingreso de casos específicos, podríamos
usar el modo bysort : resumir el comando de ingresos. Se
obtiene una salida más compacta al usar el comando de tabla.
Obtenemos
 *Table of income by fishing mode
 Table mode, contents (N income mean income sd income)
En promedio, aquellos que pescan desde el muelle tienen los

ingresos más bajos y aquellos que pescan desde un barco
privado tienen los más altos.
486
15.3.3 Regresores específicos de la alternativa

La relación entre el modo de pesca elegido y el precio del
regresor específico alternativo se resume mejor de la siguiente
manera:
 *Table of fishing Price by fishing mode
 Table mode, contents(mean pbeach mean ppier mean pprivate mean
pcharter) form >at(%6.Of)
En promedio, las personas tienden a elegir el modo de pesca

que es la alternativa más barata o la segunda más barata
disponible para ellos. Por ejemplo, para aquellos que escogen
lo privado, en promedio, el precio del alquiler de botes
privados es de 42, en comparación con 71 para la pesca en
bote y 138 para la pesca en la playa o en el muelle.
Del mismo modo, para la tasa de captura, tenemos

 *Table of fishing catch rate by fishing mde
 Table mode, contents (mean qbeach mean qpier mean qprivate mean
qcharter) form > at(%6.2f)
El modo de pesca elegido no es, en promedio, el que tiene la

tasa de captura más alta. En particular, la tasa de captura es
siempre más alta en promedio para la pesca chárter,
independientemente del modo elegido. El análisis de regresión
puede medir el efecto de la tasa de captura después de
controlar el precio del modo de pesca.
multinomiales
15.4 Modelo logit multinomial

Muchos estudios multinomiales se basan en conjuntos de datos
que tienen solo variables específicas de cada caso, porque las
variables explicativas se observan típicamente solo para la
alternativa elegida y no para las otras alternativas. El modelo
más simple es el modelo logit multinomial porque el cálculo es
simple y las estimaciones de parámetros son más fáciles de
interpretar que en otros modelos multinomiales.
15.4.1 El comando mlogit

El modelo logit multinomial (MNL) se puede usar cuando todos
los regresores son específicos de cada caso. El modelo MNL
específica que
exp ⁡( x 'i β j )
pij = m
, j=1, … , m(15.5)
∑ exp ⁡( x i β j)
'
i=1
Donde x i son regresores específicos de cada caso, aquí un

intercepto e ingreso. Claramente, este modelo asegura que
m
0< pij <1 y ∑ pij =1 Para asegurar la identificación del
j=1
modelo, β j se establece en cero para una de las categorías, y
los coeficientes se interpretan luego con respecto a esa
categoría, llamada la categoría base.
El comando mlogit tiene la sintaxis
mlogit depvar [indepvars] [if] [in] [weight]
[, options]
donde indepvars son los regresores específicos de cada caso, y
el valor predeterminado es incluir automáticamente un
intercepto. La opción base outcome (#) especifica el valor de
depvar que se utilizará como la categoría base, anulando el
valor predeterminado de Stata de la configuración más
frecuente categoría elegida como la categoría base. Otras
opciones incluyen rrr para informar coeficientes
^β
exponenciales ( e en vez de ^β ).
El comando mlogit requiere que los datos b e sean de gran
formato, con una observación por individuo. Este es el caso
aquí.
488
15.4.2 Aplicación del comando mlogit

Hacemos una regresión del modo de pesca en un intercepto e
ingreso, el único regresor específico de cada caso en nuestro
conjunto de datos. No hay una categoría base natural. La
primera categoría, la pesca en la playa, se establece
arbitrariamente como la categoría base. Obtenemos
 *Multinomial logit with base outcome alternative 1
 mlogit mode income, baseoutcome(1) nolog
Multinomial logistic regression Number of obs = 1182
LR chi2(3) = 41.14
Prob > chi2 = 0.0000
(mode==beach is the base outcome)
El ajuste del modelo es pobre con pseudo- R2 , definido en la

sección 10.7 .1, igual a 0.014. No obstante, los regresores son
estadísticamente significativos en conjunto en el nivel 0.05,
porque LRchi 2 (3 )=41.14 . Se dan tres conjuntos de
estimaciones de regresión, que corresponden a ^β 2 , ^β 3 y
^β 4 porque usamos la normalización β 1=0 .
Dos de las tres estimaciones de coeficientes de ingresos

son estadísticamente significativas en el nivel de 0.0.5, pero los
resultados de dichas pruebas individuales variarán con la
categoría de omisión. En cambio, debemos realizar una prueba
conjunta. Usando una prueba de Wald, obtenemos
 *Wald test of the joint significance of income
 Test income
(1) [pier] income = 0
(2) [private] income = 0
(3) [charter] income = 0
chi2(3) = 37.70
Prob > chi2 = 0.0000
multinomiales
El ingreso es claramente altamente estadísticamente

significativo. Un procedimiento de prueba alternativo
asintóticamente equivalente es usar el comando lrtest
(consulte la sección 12.4.2), que requiere ajustar
adicionalmente el modelo de hipótesis nula que excluye el
ingreso como regresor. En este caso, con solo un regresor, esto
coincide con la prueba global LRchi 2(3)=41.14 informado en
el encabezado de salida.
15.4.3 Interpretación del coeficiente
Los coeficientes en un modelo multinomial se pueden
interpretar de la misma manera que se interpretan los
parámetros del modelo logit binario, siendo la comparación la
categoría base.
Esto es el resultado de que el modelo logit multinomial es
equivalente a una serie de modelos logit por pares. Para
simplificar, establecemos que la categoría base sea la primera
categoría. Entonces el modelo MNL definido en (15.5) implica
que
'
Pr ⁡( Y i= j) exp ⁡( x i β j)
Pr ( Y i = j|Y i= j o 1 )= =
Pr ( Y i= j ) + Pr ⁡( Y i =1) 1+ exp ⁡( x'i β j )
m
usando, β 1=0 y cancelación de ∑ exp ⁡( x 'i β i ) en el numerador
i=1
y el denominador.
Así, ^β j se puede ver como parámetros de un modelo
logit binario entre la alternativa j y la alternativa 1. Por lo
tanto, un coeficiente positivo de mlogit significa que a medida
que aumenta el regresor, es más probable que elijamos la
alternativa j que la alternativa 1. Esta interpretación varía
con la categoría base y es claramente más útil cuando hay una
categoría de base natural.
Algunos investigadores consideran que es útil
transformarse en odds ratios o proporciones de riesgo relativo,
como en el caso del logit binario. La razón de posibilidades o la
relación de riesgo relativo de elegir la alternativa j en lugar
de la alternativa 1 está dada por
Pr ⁡( Y i= j)
=exp ( x 'i β j ) (15.6)
Pr ⁡( Y i=1)
490
así que e β da el cambio proporcional en el riesgo relativo de

jr
elegir la alternativa j en lugar de la alternativa 1 cuando

x ir cambia en una unidad.
La opción rrr de mlogit proporciona estimaciones de
coeficientes transformadas a razones de riesgo relativo.
Tenemos
 *Relative-risk option reports exp(b) rather than b

 mlogit mode income, rr baseoutcome(1) nolog
Multinomial logistic regression Number of obs = 1182
LR chi2(3) = 41.14
Prob > chi2 = 0.0000
(mode==beach is the base outcome)
Por lo tanto, un aumento de una unidad en el ingreso, que

corresponde a un aumento mensual de $ 1,000, conduce a
probabilidades relativas de elegir pescar desde un muelle en
lugar de la playa que son 0.866 veces más de lo que eran antes
del cambio; por lo que las probabilidades relativas han
disminuido. El coeficiente de ingreso original para la
alternativa pier fue -0. 1434 y e−0.1434 =0.8664 .
15.4.4 Probabilidades pronosticadas

multinomiales
Después de la mayoría de los comandos de estimación, el

comando de predicción crea una variable. Después de mlogit,
sin embargo, se crean m variables, donde m es el número
de alternativas. Las probabilidades pronosticadas para cada
alternativa se obtienen usando la opción pr de predicción.
Aquí obtenemos cuatro probabilidades predichas porque hay
cuatro alternativas. Tenemos
 *Predict probabilities of choice of each mode and compare to
actual freqs
 predict pmlogit1 pmlogit2 pmlogit3 pmlogit4, pr
 cummarize pmlogit*dbeach dpier dprivate dcharter, separator(4)
Tenga en cuenta que las probabilidades promedio

pronosticadas de la muestra son iguales a las frecuencias de
muestra observadas. Este es siempre el caso para los modelos
MNL que incluyen una intercepción, generalizando el resultado
similar para los modelos logit binario.
El modelo multinomial ideal predecirá perfectamente. Por
ejemplo, pi idealmente tomaría un valor de 1 para las 134
observaciones con Y =1 y tomaría un valor de 0 para las
observaciones restantes. Aquí p1 varía solo de 0.0947 a
0.1154, por lo que el modelo con ingresos como la única
variable explicativa pronostica muy mal la pesca en la playa.
Existe una variación considerablemente mayor en las
probabilidades predichas para las otras tres alternativas.
15.4.5 MEs
Para un modelo multinomial no ordenado, no existe un único
medio condicional de la variable dependiente, Y . En cambio,
hay m alternativa y modelamos las probabilidades de estas
alternativas. El interés radica en cómo estas probabilidades
cambian a medida que cambian los regresores.
Para el modelo MNL, las ME pueden mostrarse como
∂ pij
= pij ( β j− β́ i )
∂ xi
492
donde β́ i=∑ pij β j es un promedio ponderado de probabilidad

del β j . Los efectos marginales va1y con el punto de
evaluación, x i , porque pij j varía con x i . Los signos de los
coeficientes de regresión hacen no da los signos de las ME.
Para una variable x , la ME es positiva si β j > β́ i .
El comando mfx calcula el ME en la media (MEM) y el
ME en valores representativos (MER), con un cálculo separado
para cada alternativa. Por ejemplo, para obtener el ME en
Pr (Y =3) de un cambio en el ingreso evaluado a la media
muestral de regresores, usamos
 *Marginal effect at mean of income change for outcome 3
 mfx, predict(pr outcome (3))
Marginal effects after mlogit
y = Pr(mode==3) (predict, pr outcome(3))
= .35220366
Un cambio en el ingreso de una unidad, equivalente a un

aumento de $ 1 000 en el ingreso mensual, aumenta en 0,033
la probabilidad de pescar desde un bote privado en lugar de
desde una playa, un muelle o un barco alquilado.
El comando marge ff escrito por el usuario se puede usar
después de mlogit para calcular el AME. El comando margef f
trata el resultado ( j) como el resultado j-ésimo después de la
categoría base, a diferencia de mfx, que trata el resultado ( j)
como el resultado j -ésimo. Aquí obtenemos el AME en
Pr (Y =3) . Debido a que esta es la segunda alternativa
después de la categoría base Y =1 , usamos la opción de
resultado (2). Tenemos
 *Average marginal effect of income change for outcome 3
 margeff, outcome(2) //Use 2 as outcome: 3 is 2nd after
baseoutcome(1)
Average marginal effects on Prob(mode) after mlogit
El AME y el MEM son similares a quita en este ejemplo. Por lo

general, mlogit conduce a diferencias mucho mayores.
15.5 Modelo de logit condicional

multinomiales
Algunos estudios multinomiales utilizan conjuntos de datos más

ricos que incluyen variables alternativas específicas, como
precios y medidas de calidad para todas las alternativas, no
solo la alternativa elegida. Luego se usa el modelo logit
condicional.
15.5.1 Creación de datos largos a partir de datos de
formato ancho
Los parámetros de los modelos logit condicional se estiman con
comandos que requiere que los datos estén en forma larga, con
una observación que proporciona los datos para una sola
alternativa para un individuo.
Algunos conjuntos de datos ya estarán en formato largo, pero
ese no es el caso aquí. En cambio, el mus 15 data. dta conjunto
de datos está en forma amplia, con una observación que
contiene datos para las cuatro alternativas para un individuo.
Por ejemplo,
 *Data are in wide form
 List mode price pbeach ppier pprivate pcharter in 1, clean
Mode price pbeach ppier pprivate pcharter
1. Charter 182.93 157.93 157.93 157.93 182.93
La primera observación tiene datos del precio de las cuatro

alternativas. El modo elegido era charter, por lo que price se
estableció en igual pcharter.
Para convertir datos de forma amplia a larga, usamos el
comando de remodelación, presentado en la sección 8. 1 1.
Aquí, la forma larga tendrá cuatro observaciones para cada
individuo según si el sufijo es beach, pier, private o charter.
Estos sufijos son cadenas, en lugar de los números
predeterminados del comando de remodelación, por lo que
usamos la forma con la opción de cadena. Para completar, en
realidad proveemos los cuatro sufijos. Tenemos

 *Convert data from wide form to long form
 generate id = _n
 reshape long d p q, i(id) j(fishmode beach pier private
charter) string
Data wide -> long
494
, sabe mus15datalong.dta, replace

file mus15datalong.dta saved
Ahora hay cuatro observaciones para el primer individuo o

caso. Si no hubiéramos proporcionado los cuatro sufijos, el
comando de remodelación habría creado erróneamente una
quinta alternativa, arroz, del precio que, como pbeach, ppier,
pprivate y pcharter, también comienza con la letra p. Para ver
los resultados largos, forma de datos para el primer caso
individual, enumeramos las primeras cuatro observaciones.
 *List data for the first case after reshape
 List in 1/4, clean noobs
El pedido ya no es muelle, playa, barco privado y luego barco

de alquiler. En cambio, ahora es playa, barco fletado, muelle y
luego barco privado, porque las observaciones se ordenan en el
orden alfabético de fishmode. Para esta primera observación, la
variable de resultado, d , es igual a 1 para la pesca en bote,
como se esperaba. Las cuatro observaciones separadas sobre
las variables alternativas específicas, p y q , son los
diferentes valores de precio y calidad para las cuatro
alternativas.
Todas las variables específicas de cada caso aparecen como
una sola variable que toma el mismo valor para los cuatro
resultados. Para obtener ingresos, esto no es problema. Pero el
modo, el precio y la época son engañosos aquí. La variable de
modo indica que, para el caso 1, el modo fishing era mode = 4,
porque en formato ancho original esto correspondía a la pesca
en bote. Pero d=1 para la segunda observación del primer
caso porque esto corresponde a la pesca en barco fletado en la
forma larga reordenada. Lo mejor sería simplemente descartar
multinomiales
las variables engañosas escribiendo la era del precio del modo

drop , porque estas variables no son necesarias.
15.5.2 El comando asclogit

Cuando algunos o todos los regresores son alternativos
específicos, se utiliza el modelo de logit condicional (CL). El
modelo CL específica que
exp ⁡( x 'ij β + z'i γ j )
pij = m
, j=1, … , m(15.7)
∑ exp ⁡( x '
ij
'
β +z γ j)
i
i=1
donde x ij son regresores específicos de la alternativa y z i

son regresores específicos de cada caso. Para garantizar la
identificación del modelo, uno de los γ j se establece en cero,
como para el modelo MNL. Algunos autores llaman al modelo
por encima de un modelo logit mixto, con logit condicional
utilizado para referirse a un modelo más restrictivo que tiene
solo regresores específicos de la alternativa.
El comando asclogit, un acrónimo de logit condicional
alternativo-específico, tiene la sintaxis.
asclogit depvar [indepvars] [if] [in] [weight] , case
(varname) alternatives (varname) [options]
donde indepvars son los reguladores alternativos-específicos,
case ( varname) proporciona el identificador para cada caso o
individuo, y alternativas ( varname ) proporciona las
alternativas posibles.
La opción casevars( varlist) se usa para proporcionar los
nombres de los regresores específicos de cada caso. La opción
de alternativa () base especifica la alternativa que se utilizará
como categoría de base, que afecta solo a los coeficientes de
los regresores específicos de cada caso. La opción altwise
elimina solo los datos de una alternativa, en lugar de la
observación completa, si faltan datos.
La opción no constante anula el valor predeterminado de Stata,
que incluye intercepciones específicas de cada caso. A
continuación, los atributos de cada alternativa se explican
únicamente por regresores alternativos específicos si no se
utiliza constantes. Las interceptaciones específicas de cada
caso proporcionadas por el estimador predeterminado se
interpretan como que reflejan la conveniencia de cada
alternativa debido a los atributos no medidos de la alternativa.
496
El comando asclogit permite que el conjunto de opciones varíe

entre individuos y se seleccione más de una alternativa.
15.5.3 El comando clogit
El modelo logit condicional también se puede ajustar utilizando
el comando clogit, produciendo los mismos resultados. El
comando clogit se designa para los datos agrupados utilizados
en los estudios de grupos de casos y controles coincidentes y
es similar al comando xtlogit utilizado para los datos del panel
agrupados en el tiempo para un individuo.
El comando clogit no tiene una opción para variables
específicas de un caso. En cambio, una variable específica de
un caso se interactúa con variables ficticias para alternativas
m−1 , y las variables m−1 se ingresan como regresores.
Esto se ilustra en la sección 15.8.3, donde se necesitan las
mismas transformaciones de datos para el comando mixlogit
escrito por el usuario. Para aplicaciones como la estudiada en
este capítulo, un asclogit es más fácil de usar que el clogit.
15.5.4 Aplicación del comando asclogit
Estimamos los parámetros del modelo CL para explicar la
elección del modo de pesca dados los regresores específicos de
la alternativa sobre el precio y la calidad; el regresor específico
del caso, el ingreso; y interceptaciones de casos específicos. En
cuanto al modelo MNL, la pesca en la playa se establecerá
como la categoría base. Tenemos:
 *Conditionall logit with alternative-specific and case-specific
regressors
 asclogit d p q, case(id) alternatives(fishmode) casevars(income)
> basealternative(beach) nolog
Alternative-specific conditional logit Number of obs = 4728
Case variable: id Number of cases = 1182
Alternative variable: fishmode Alts per case: min = 4
avg = 4.0
max = 4
Wald chi2(5) = 252.98
multinomiales
El primer conjunto de estimaciones son los coeficientes ^β

para el precio y la calidad de los regresores específicos
alternativos. Los siguientes tres conjuntos de estimaciones son
para interceptos y regresores específicos de cada caso. Los
coeficientes son, respectivamente ^y c h arter > ^y pier > y
^y private , porque usamos la normalización γ beach=0 .
El encabezado de salida no da el pseudo R2 , pero esto se

puede calcular usando la fórmula dada en la sección 10.7.1.
Aquí ln Lfit = - 1215.1, y la estimación de un modelo de solo
intercepciones arroja ln L0 = - 1497.7, entonces R2 = 1-(-
1215.1) / (-1497.7) =0.189, mucho más alto que el 0.014 para
el modelo MNL en la sección 15.4.2. Los regresores p, q, y los
ingresos son altamente estadísticamente significativos en
conjunto con Waldchi2 (5)=253 . El comando de prueba se
puede usar para pruebas individuales de Wald, o el comando
lrtest se puede usar para pruebas de razón de verosimilitud
(LR).
El modelo CL en esta sección se reduce al modelo MNL en la
sección 15.4.2 si β p=0 y β q=0 . Usando una prueba de Wald
o una prueba de LR, esta hipótesis es rechazada con fuerza, y
el modelo CL es el preferido modelo.
15.5.5 Relación con el modelo logit multinomial
Los modelos MNL y CL son esencialmente equivalentes. El
comando mlogit está diseñado para regresores específicos de
casos y datos en forma amplia. El comando asclogit está
498
diseñado para regresores específicos de alternativa y datos en

forma larga.
Los parámetros del modelo MNL pueden estimarse utilizando
asclogía como el caso especial sin regresores específicos de la
alternativa. Así:
 *XNL is CL with no alternative-specific regressors
 asclogit d, case(id) alternatives(fishmode) casevars(income)
> basealternative(beach)
(output omitted)
Produce las mismas estimaciones que el comando anterior de

mlogit. Cuando todos los regresores son específicos de cada
caso, es más fácil usar mlogit con datos en forma amplia.
Yendo para otro lado, es posible estimar los parámetros de un
modelo CL usando mlogit. Esto es más difícil porque requiere
transformar los regresores específicos alternativos a las
desviaciones de la categoría base y luego imponer restricciones
de igualdad de parámetros. Para los modelos CL, asclogi es
mucho más fácil de usar que mlogit.
15.5.6 Interpretación del coeficiente

Los coeficientes de los regresores específicos de la alternativa
se interpretan fácilmente. El regresor específico de la
alternativa se puede denotar por x r con el coeficiente β r .
El efecto de un cambio en x rik , que es el valor de x r para el
individuo i y la alternativa k , es:
δ pij
δ x rik {
= p ij ( 1− pij ) β r j=k
− pij pik β r j ≠ k
(15.8)
Si β r >0 , entonces el propio efecto es positivo porque

pij (1− pij ) β r >0 , y el efecto cruzado es negativo porque -
pij pik β r <0 . Entonces, un coeficiente positivo significa que si el
regresor aumenta para una categoría, luego esa categoría se
elige más y otras categorías se eligen menos; viceversa para un
coeficiente negativo. Aquí el coeficiente de precio negativo de
-0.025 significa que si el precio de un modo de pesca aumenta,
entonces la demanda de ese modo disminuye y la demanda de
otros modos aumenta, como se esperaba. Para la tasa de
captura, el coeficiente positivo de 0.36 significa una tasa de
captura más alta para un modo de pesca. La subida aumenta la
demanda de ese modo y disminuye la demanda de los otros
modos.
multinomiales
Los coeficientes de regresores específicos de caso se interpretan

como parámetros de un modelo logit binario frente a la categoría
base; ver la sección 15.4.3 para el modelo MNL. Los coeficientes
de ingresos de -0.033, -0.128 y 0.089 significan que, en relación
con la probabilidad de pesca en la playa, un aumento en los
ingresos conduce a una disminución en la probabilidad de pesca
en embarcaciones charter y embarcaciones, y un aumento en la
probabilidad de embarcación privada pescar.
15.5.7 Probabilidades Predichas
Las probabilidades pronosticadas se pueden obtener usando el
comando de predicción con la opción pr. Esto proporciona una
probabilidad pronosticada para cada observación, donde una
observación es una alternativa para un individuo porque los datos
están en forma larga.
Para obtener probabilidades pronosticadas para cada una de las
cuatro alternativas, necesitamos resumir por fishmode. Usamos
el comando table porque esto da salida condensada.
Se obtiene un resultado mucho más largo utilizando en su lugar
el comando fishmode: summarize command. Tenemos:
 *Predicted probabilities of choice of each mode and compare to
actual freqs
 predict pasclogit, pr
 table fishmode, constents(mean d mean paclogit sd pasclogit)
cellwidth(15)
En cuanto a MNL, las probabilidades promedio pronosticadas de

la muestra son iguales a las probabilidades de la muestra. Las
desviaciones estándar de las probabilidades predichas del
modelo CL (todas en exceso de 0.10) son mucho mayores que las
del modelo MNL, por lo que el modelo CL predice mejor. Un
resumen también es provisto por el comando estat alternatives.
Una probabilidad pronosticada bastante diferente es la de una
nueva alternativa. Esto es posible para el modelo logit
condicional si los parámetros de ese modelo se estiman
utilizando solo regresores específicos de alternativa, lo que
requiere el uso de la opción no constante para que las
interceptaciones específicas de cada caso no estén incluidas y se
conozcan los valores de estos regresores para la nueva categoría
500
Por ejemplo, es posible que deseemos predecir el uso de un

nuevo modo de pesca que tenga una tasa de captura mucho más
alta que los modos actualmente disponibles pero que al mismo
tiempo tenga un precio considerablemente más alto. Los
parámetros, β , en (15.7) se estiman con m alternativas, y luego
las probabilidades predichas se calculan usando (15. 7) con
m+ 1 alternativas.
15.5.8 MEs
El MEM y MER se calculan utilizando el comando postestimation
estat mfx, en lugar del comando mfx usual. Las opciones para
este comando incluyen varlist () para calcular los efectos
marginales para un subconjunto de los regresores.
Calculamos el MEM solo por el precio del regresor. Obtenemos
 *Marginal effect at mean of change in price
 estat mfx, varlist(p)
Pr(choice = beach|1 selected) = .05248806
multinomiales
Hay 16 MEs en total, que corresponden a probabilidades de cuatro

alternativas por precio para cada una de las cuatro alternativas.
Todos los efectos propios son negativos y todos los efectos cruzados
son positivos, como se explica en la sección 15.5.6. El encabezado de
la primera sección de la salida de mfx da
p11=Pr ( choice=beach∨se selecciona laopción de playa solitaria)=0 .0525 .
Usando (15.8) y el coeficiente estimado de -0.02.51, podemos
estimar el propio efecto como 0.0525 x 0.9475 x (-0.02.51) =
-0.001249, que es el primer ME dado en la salida. Esto significa que
un aumento de $ 1 en el precio de la pesca en la playa disminuye la
probabilidad de pesca en la playa en 0.001249, para una observación
ficticia con p , q , y el ingreso establecido para los valores
medios de la muestra. El segundo valor de 0.000609 significa que un
aumento de $ 1 en el precio de la pesca en barco fletado aumenta la
probabilidad de pesca en la playa en 0.000609, y así sucesivamente.
502
El AME no se puede calcular con el comando margeff escrito por el

usuario, porque este comando no se aplica a asclogit. En cambio,
podemos calcular AME manualmente, como en la sección 10.6.9. Lo
hacemos solo para un cambio de precio de la playa. Obtenemos:
 *Alternative-specific example: AME of beach price change computed
manually
 preserve
 uietly summarize p
 generate delta = r(sd)/1000
 quietly replace p = p + delta if fishmode == “beach”
 predict pnow, pr
 generate dpdbeach = (pnew – pasclogit)/delta
 tabulate fishmode, summarize(dpdbeach)
 restore
Solo se genera una variable, pero esto proporciona cuatro AME
correspondientes a cada una de las alternativas, similar a la
discusión anterior de las probabilidades predichas. Como se
esperaba, al aumentar el precio de la pesca en la playa disminuye
la probabilidad de que la pesca en la playa aumente.
La probabilidad de usar cualquiera de los otros modos de pesca.
Los valores AME se comparan con los valores MEM de,
respectivamente, -0.001249, 0.000609, 0.000087 y 0.000558, por
lo que las estimaciones ME difieren sustancialmente para la
probabilidad de pesca en la playa y la probabilidad de pesca en
muelle.
15.6Modelo logit anidado

Los modelos MNL y CL son los modelos multinomiales más
comúnmente utilizados, especialmente en otras ramas de
estadísticas aplicadas. Sin embargo, en las aplicaciones de
microeconometría que implican la elección individual, se
considera que los modelos imponen restricciones a la toma de
decisiones individuales que no son realistas, como se explica a
continuación.
La generalización más simple es un modelo logit anidado (NL). Se
usan dos variantes del modelo NL. La variante preferida es una
multinomiales
basada en ARUM. Este es el modelo que presentamos y es el

modelo predeterminado para Stata 10. Una segunda variante fue
utilizada por la mayoría de los paquetes en el pasado, incluyendo
Stata 9. Ambas variantes tienen MNL y CL como casos
especiales, y ambos aseguran que las probabilidades
multinomiales se encuentran entre 0 y 1 y suma a 1. Pero se
prefiere la variante basada en ARUM porque es consistente con
la maximización de la utilidad.
15.6.1 Relajar la independencia de la suposición de
alternativas irrelevantes
Los modelos MNL y CL imponen la restricción de que la elección
entre dos pares de alternativas es simplemente un modelo logit
binario; ver (15.6). Esta suposición, llamada suposición de
independencia de alternativas irrelevantes (IIA), puede ser
demasiado restrictiva, como lo ilustra el problema del "autobús
rojo / autobús azul." Supongamos que las alternativas en modo
conmutar son auto, autobús azul o autobús rojo. La suposición es
que la probabilidad de viajar en automóvil, dado el viaje en coche
o autobús rojo, es independiente de si el trayecto en autobús azul
es una opción. Pero la introducción de un autobús azul, igual que
un autobús rojo en todos los aspectos, excepto el color, debe
tener poco impacto en el uso del automóvil y debe reducir a la
mitad el uso del autobús rojo, lo que lleva a un aumento en la
probabilidad condicional de uso del automóvil dado el viaje en
automóvil o autobús rojo.
Esta limitación ha llevado a modelos alternativos más ricos para
la elección desordenada basada en el ARUM introducido en la
sección 15.2.4. Se puede demostrar que los modelos MNL y CL
surgen del ARUM si los errores, ε ij , en (15.3) son
independientes e idénticamente distribuidos como tipo I valor
extremo. En cambio, en el ejemplo del bus rojo / bus azul,
esperamos que el error del bus azul, ε i 2 , esté altamente
correlacionado con el error del bus rojo, ε i 3 , porque si sobre
preciamos la utilidad del bus rojo dados los regresores, entonces
también haremos una sobre-asignación de la utilidad del bus azul.
Los modelos multinomiales más generales, presentados en esta y
las siguientes secciones, permiten errores correlacionados. El NL
es el más manejable de estos modelos.
15.6.2 Modelo NL
El modelo de NL requiere que se especifique una estructura de
anidamiento que divide las alternativas en grupos, donde los
errores en el ARUM se correlacionan dentro del grupo pero no
están correlacionados en grupos. Especificamos un modelo NL
de dos niveles, aunque se pueden acomodar niveles adicionales
504
de anidación, y suponemos una distinción fundamental entre la

pesca en tierra y en barco. El árbol es
El contraste costa / barco se llama Nivel 1 (o una extremidad), y

el siguiente nivel se llama nivel 2 (o una rama). El árbol se puede
ver como un árbol de decisión: primero decida si pescar desde la
orilla o en un bote, y luego decida entre la playa y el muelle (si es
la costa) o entre chárter y privado (si es un barco). Pero esta
interpretación del árbol no es necesaria. La clave es que el
modelo NL permite la correlación de errores dentro de cada una
de las agrupaciones de nivel 2.
Aquí ( ԑ i , beach , ԑ i , pier ) son un par correlacionado bivariante, (
ԑ i , private , ԑ i , charter ) son un par bivariante correlacionado dos
pares son independientes. El modelo L es el caso especial donde
todos los errores son independientes.
De manera más general, denotan alternativas por subíndices
( j , k ) , donde j. denota la rama (nivel 1) y k denota la rama
(nivel 2) dentro de la rama, y diferentes ramas pueden tener
diferentes números de ramas, incluyendo solo una Por ejemplo,
(2,3) denota la tercera alternativa en la segunda extremidad. La
utilidad aleatoria de dos niveles se define como:
' '
U jk +ε jk =z j α + x jk β j +ε jk 1 j=1,… , J k =1,… , K j
Donde Zj varía solo en las extremidades y X jk varía en ambos
miembros y ramas. Para facilitar la exposición, hemos suprimido
el subíndice individual i, y consideramos únicamente los
regresores específicos de la alternativa. (Si todos los regidores
son específicos de caso, entonces tenemos z 'j α + x 'jk β j +ԑ jk 1 con
uno de los β jk . = 0.) El modelo de NL asume que ( ԑ j1 ,.., ԑ jk )
se distribuyen como la distribución de valores extremos
multivariante de Gumbel. Entonces la probabilidad de que la
alternativa (j,k) sea elegida es igual
Kj
∑ exp ⁡( ¿ x'jι β j / τ j )
t=1
exp ⁡( z'j α + τ j I j) exp ⁡( x 'jk β j /τ j )

p jk = p j × p k∨ j= ×
J ¿
∑ exp ⁡( z 'm α + τ m I m )
m=1
multinomiales
{ }
kj
x 'jl β j
Donde I j=ln ∑ ¿ exp ⁡( ) se llama el valor inclusivo o la
i=1 ґj
suma de registro. La probabilidad de NL son el producto de
probabilidades pi y pk∨ j que son esencialmente de forma
CL. El modelo produce probabilidades positivas que suman a
uno para cualquier valor de τ j , llamados parámetros de
desemejanza. Pero el ARUM restringe 0 ≤ ґ j ≤1, y los valores
fuera de este rango significan que el modelo, mientras que
matemáticamente no es consecuente, es inconsistente con la
teoría de la utilidad aleatoria.
15.6.3 El Comando Nlogit

Los comandos Stata para NL tienen una sintaxis complicada que
resumimos brevemente. Es más simple ver la aplicación
específica en esta sección, y ver [R] nlogit para más detalles.
El primer paso es especificar la estructura del árbol. El comando
nlogitgen tiene la sintaxis
nlogitgen newaltvar = altvar (branchlist) [, nolog]
La variable altvar es la variable original que define las
alternativas posibles, y newaltvar es una variable creada
necesaria para que nlogit sepa qué estructura de anidamiento se
debe utilizar. Aquí es una lista de sucursales
branch, branch [, branch …]
[label: ] alternative [|alternatvive [| alternative …]]
Debe haber al menos dos ramas, y cada rama tiene una o más
alternativas.
La estructura de anidamiento se puede mostrar utilizando el
comando nlogitree con la sintaxis
nlogittree altvarlist [if] [in] [weight] [, options]
Una opción útil es la elección (depvar), que enumera las frecuencias de
muestra para cada alternativa.
La estimación de los parámetros del modelo utiliza el comando nlogit
con la sintaxis
nlogit depvar [indepvars] [if] [in] [weight] [|| lev1.equation [||
lev2.equiation… ] ] || altvar: [byaltvarlist] case(varname) ,
[options]
506
Donde los indepvars son los regresores específicos de la alternativa y

los regresores específicos de cada caso se introducen en lev #
_equation. La sintaxis de lev # _equation es:
altvar: [byaltvarlist] [, base(#|lbl) est const]
Case (varname) proporciona el identificador para cada caso
(individual).
Los comandos NL usan datos en forma larga, al igual que asclogit.
15.6.4 Estimaciones del modelo

Primero definimos la estructura de anidamiento mediante el uso del
comando nlogitgen. Aquí definimos una variable, tipo, que se
denomina shore para las alternativas de muelle y playa y se
denomina barco para las alternativas privadas y generales.
 *Define the tree for nested logit
 nlogitgen type = fishmode(shore: pier | beach, boat: private | charter)
New variable type is generated with 2 groups
Label lis 1b_type
Lb_type:
1 shore
2 boat
El árbol se puede verificar utilizando el comando nlogittree. Tenemos

 *Check the tree
 Nlogittree fishmode type, choice(d)
Tree structure specified for the nested logit model
k = number of times alternative is chosem

N= number of observations at each level
El árbol es como se desea, por lo que ahora estamos listos para

estimar con nlogit. Primero, enumere la variable dependiente y los
regresores específicos de la alternativa. Luego defina la ecuación
Ievel-l para el tipo, que aquí no incluye regresores. Finalmente,
defina las ecuaciones de nivel 2 que aquí tienen los ingresos de los
regresores y una intersección. Usamos la opción notree, que suprime
el árbol, porque ya salió con el comando nlogittree.
multinomiales
Tenemos
 *Nested logit model estimate
 nlogit d p q || type:, base (shore) || fishmode: income, case(id) no
tree nolog
RUM-consistent nested logit regression Number of obs = 4728
Case variable: id Number of cases = 1182
Alternative variable: fishmode Alts per case: min = 4
Avg = 4.0
Max = 4
Wald chi2(5) = 212.37
El coeficiente de la variable p tiene pocos cambios en comparación

con el modelo CL, pero los otros coeficientes cambiaron
considerablemente.
El modelo NL se reduce al modelo CL si los dos parámetros de
diferencia son ambos iguales a 1. La parte inferior de la salida
incluye una estadística de prueba LR de esta restricción que conduce
a un fuerte rechazo de CL en favor de NL. Sin embargo, los
parámetros tienen semejanza
son mucho mayores que 1. Este no es un hallazgo inusual para los
modelos NL; significa que mientras el modelo es matemáticamente
508
correcto, con probabilidades entre 0 y 1 que suman 1, el modelo

ajustado no es consistente con el ARUM.
15.6.5 Probabilidades predichas
El comando de predicción con la opción pr proporciona

probabilidades pronosticadas para el nivel 1, el nivel 2, y así
sucesivamente. Aquí hay dos niveles. Las probabilidades de primer
nivel son para tierra o barco. Las probabilidades de segundo nivel
son para cada una de las cuatro alternativas. Tenemos
 Predict level 1 and level 2 probabilities from NL model

 predict plevel1 plevel2, pr
 tabulate fishmode, summarize(plevel2)
Las probabilidades pronosticadas promedio para NL ya no son

iguales a las probabilidades de muestra, pero son bastante cercanas.
La variación en las probabilidades predichas, medida por la
desviación estándar, es esencialmente la misma que para las
predicciones del modelo CL, dada en la sección 15.5 .7 .
15.6.6 MEs
Ni el comando mfx ni el comando margeff escrito por el usuario
están disponibles después de nlogit.
En cambio, calculamos los AME manualmente, de forma similar a la

sección 15.5.8 para el modelo CL. Obtenemos
 AME of beach price change computed manually

 preserve
 quietly summarize p
 generate delta = r(sd)/1000
 quietly replace p = p + delta if fishmode == "beach"
 predict pneY1 pneY2, pr
 generate dpdbeach = (pneY2 - pleval2)/delta
multinomiales
 tabulate fishmode, summarize(dpdbeach)
 restore
En comparación con el modelo de CL, hay pocos cambios en el ME

del cambio del precio de la playa sobre la probabilidad de pesca en
embarcaciones charter y privadas. Pero ahora, sorprendentemente,
la probabilidad de pesca en el muelle se suma a la probabilidad de
pesca en la playa.
15.6.7 Comparación de modelos logit
La siguiente tabla resume el resultado clave de la adaptación de los

modelos MNL, CL y NL anteriores. Tienes
 * Summary statistics for the legit models

 estimates table MNL CL NL, keep(p q) stats(N 11 aic bic) equation(1)
b(%7.30
 > stfmt (%7 .Of)
Los criterios de información, AIC y BIC, se presentan en la sección

10.7 .2 ; los valores más bajos son preferidos. MNL es menos
preferido, y NL es el más preferido.
510
En este ejemplo, los tres modelos multinomiales están realmente

anidados, por lo que podemos elegir entre ellos mediante el uso de
pruebas LR. A partir de la discusión de los
modelos CL y NL, NL se prefiere de nuevo a CL, que a su vez se

prefiere a MNL. Los tres modelos usan la misma cantidad de datos.
Las entradas del modelo CL y NL tienen una N que es cuatro veces

mayor que la de MNL porque usan datos en forma larga, lo que lleva
a cuatro "observaciones" por individuo.
15.7.2 El comando mprobit
503
15.7 Modelo probit multinomial
El modelo multinomial probit (MNP), al igual que el modelo NL,

permite relajar la suposición de IIA. Tiene la ventaja de permitir un
patrón mucho más flexible de correlación de error y no requiere la
especificación de una estructura de nebulización.
15.7.1 MNP
El MNP se obtiene del ARUM de la sección 15.2.4 asumiendo

errores distribuidos normalmente.
Para ARUM, la utilidad de la alternativa j es

' '
U ij =x ij β + z i γ j + ε ij
donde se asume que los errores se distribuyen normalmente, con

ε N ( 0, ) dónde ε =( ε il , … , ε ℑ ) .
Luego, de (15.4) , la probabilidad de que la alternativa j sea elegida

es igual a
ρij =Pr ( yi = j ) =Pr { ε ik −ε ij ≤ ( x ij −x ik ) β + z 'i ( γ j−γ k ) } , para todo k ( 15.9 )

multinomiales
Esta es una integral (m−Ι ) -dimensional para la cual no existe una

solución cerrada y el cálculo es difícil. Este problema no surgió para
los modelos logit precedentes porque para esos modelos la
distribución de e es tal que (15.9) tiene una solución cerrada.
Cuando hay pocas alternativas, digamos tres o cuatro, o cuando

∑ ¿ σ 2 Ι , los métodos de cuadratura se pueden usar para calcular
numéricamente la integral. De lo contrario, se usa la máxima
probabilidad simulada, discutida a continuación.
Independientemente del método utilizado, no se identifican todas las

entradas distintas (m+1)m/2 en la matriz de varianza de error,
∑ , partir de (15.9) , el modelo se define para m−1 diferencias
de error ( ε ik −ε ij ) con una matriz de varianza (m−1)×(m−1) que
tiene m(m−1)/2 términos únicos. Debido a que un término de
varianza también necesita ser normalizado, solo hay {m(m−1)/2 }−1
términos únicos en: ∑ . En la
práctica, a menudo se imponen restricciones adicionales a ∑ ,

porque de lo contrario: E se estima imprecisamente, lo que puede
conducir a una estimación imprecisa de β y γ .
15.7.2 El comando mprobit
El comando mprobit es el análogo de mlogit . Se aplica a modelos

con solo regresores específicos de casos y supone que los errores
alternativos son normales estándar independientes de modo que
∑ ¿ Ι . Aquí la integral (m−1) dimensional en (15.9) se puede
mostrar para reducir a una integral unidimensional que puede ·
aproximarse mediante el uso de métodos de cuadratura.
504 Capítulo 15 Modelo

multinomial
Hay pocas razones para usar el comando mprobit porque el modelo

es cualitativamente similar a MNL; mprobit supone que los errores
de especificación alternativa en el ARUM no están correlacionados,
pero es mucho más computacionalmente oneroso. La sintaxis para
mprobit es similar a la de mlogit . Para una regresión con el
ingreso del regresor invariante alternativo, el comando es
 * Multinomial probit Yith independent errors and alternative-invariant

regressors
 mprobit mode income, baseoutcome(l)
512
 (output omitted)
La salida es cualitativamente similar a la de mlogit , aunque las

estimaciones de los parámetros en scaled differently, como en el caso
del modelo binario. La probabilidad de registro ajustado es de
−1,477.8 , muy cerca de −1,477.2 para MNL (ver sección15.4 .2) .
15.7.3 Máxima probabilidad simulada
La probabilidad de registro multinomial se da en (15.2) , donde

ρij =F j ( xi , θ ) y los parámetros θ y β son, γ 1 , … , γ m (con una
γ normalizada a cero) y cualquier entrada no especificada en
∑.
Debido a que no existe una solución cerrada para F j ( x i , θ ) en
(15.9) , la probabilidad logarítmica se aproxima mediante un
~
simulador, F j ( x i ,θ ) ,eso se basa en sorteos S . Un ejemplo simple
es un simulador de frecuencia que, dada la estimación actual θ^ ,
^ ~
toma S sorteos de ε i N ( 0, ∑ . ) y permite que F j ( x i ,θ ) sea la
proporción de sorteos de S para el que ε ik −ε ij ≤ ( x ij−x ik ) β^ +z i ( γ^ j− γ^ k )
' '
para todo k . Este simulador es inadecuado, sin embargo, porque

es muy ruidoso para eventos de baja probabilidad, y para el modelo
MNP, el simulador de frecuencia no es liso en β y γ 1 , … , γ m por lo
que los cambios muy pequeños
~
en estos parámetros pueden dar lugar a ningún cambio en F j ( x i ,θ )
. En su lugar, se usa el simulador Geweke-Hajivassiliou-Keane
(GHK), descrito, por ejemplo, en Train (2003) .
El estimador de probabilidad máxima simulada (MSL) maximiza

N m
ln L (θ )=∑ ∑ y ij ln ~
F j ( x i ,θ ) ( 15.10 )
i=1 j=1
Se aplica la teoría asintótica ML habitual, siempre que S →∞ y

N → ∞ , y √ N /S → 0 de modo que el número de simulaciones
aumente a una velocidad más rápida que √ N . Aunque los errores
estándar por defecto son adecuados para un modelo multinomial, los
multinomiales
errores estándar robustos son numéricamente mejores cuando se usa

MSL.
El estimador MSL puede, en principio, aplicarse a cualquier

problema de estimación que implique una integral desconocida.
Algunos resultados generales son los siguientes: Se deben usar
simuladores suaves. Incluso entonces, algunos simuladores son
mucho mejores que otros, pero esto es específico del modelo.
Cuando se usan sorteos al azar, deben basarse en la misma semilla
uniforme subyacente en cada iteración, porque de lo contrario el
método
del gradiente puede no converger simplemente debido a diferentes
sorteos aleatorios (llamados parloteo). El número de simulaciones
puede reducirse en gran medida para un
nivel dado de precisión mediante el uso de sorteos antitéticos, en
lugar de sorteos independientes, y mediante el uso de secuencias de
números cuasialeatorios, como secuencias de Halton en lugar de
extracciones pseudoaleatorias-aniformes para generar números
uniformes. Los beneficios de usar Halton y Hammersley en lugar de
sorteos uniformes se exponen en Drukker y Gates (2006) . Y para
reducir la carga computacional de los métodos de gradiente, es
mejor al menos usar los primeros derivados analíticos. Para obtener
más información, consulte, por ejemplo, Train (2003) o Cameron
and Trivedi (2005) . El comando asmprobi t incorpora todas estas
consideraciones para obtener el estimador MSL para el modelo MNP.
15.7.4 El comando asmprobit
El comando asmprobit requiere que los datos estén en forma larga,

como el comando asclogit , y tiene una sintaxis similar:
Asmprobit depvar [indepvars][if][in][weight], case (varname)

alternatives(vamame) [options]
La estimación lleva mucho tiempo porque la estimación es por MSL.
Varias de las opciones del comando se usan para especificar la

matriz de varianza del error: ∑ . Como ya se indicó, a lo sumo
{m(m−1)/2 }−¿ 1 se identifican términos únicos en ∑ . El método
514
de identificación por defecto es soltar la fila y columna de: E

correspondiente a la primera alternativa
(excepto que ∑ se normaliza a 1) y establecer ∑ ¿ 1 . Estos valores
11 22
predeterminados se pueden cambiar utilizando el término
basealternative () y scalealternative ( ) opciones. Las opciones
correlation() y stddev () se utilizan para colocar más estructura las
entradas restantes fuera de diagonal y diagonal de ∑ . La opción
de correlation ( unstructured ) no coloca ninguna estructura, la opción de
correlation ( exchangeable ) impone equicorrelación, la opción de
correlation ( independent ) establece: ∑ ¿ 0 para todos j ≠ k , y las
jk
opciones de correlation ( pattern ) y correlation ( ¿ ) permiten la
especificación manual de la estructura. La opción
stddev (homoskedastic ) impone ∑ ¿1 , la opción
jj
stddev (heteroskedastic) permite ∑≠1 , y las opciones

jj
stddev ( pattern) y stddev (¿) permiten la especificación manual de
cualquier estructura.
Otras opciones permiten variaciones en los cálculos de MSL. La

opción intpoints ( S ) establece el número de sorteos S , donde el
valor predeterminado de S es 50 mo 100 m , según intmethod () . La
opción intmethod () especifica si los números uniformes son de
sorteos pseudoaleatorios (intmethod (random)) , son de una secuencia
de Halton (intmethod (halton)) , o provienen de una secuencia de
Hammersley (intmethod (hammersley)) , que es la defecto. La opción
antitética especifica los sorteos antitéticos que se utilizarán. La
opción intseed ( ) establece la semilla del generador de números
aleatorios si se usan sorteos aleatorios uniformes.
Para simplificar, restringimos la atención a una elección entre tres
alternativas: pescar desde un muelle, un bote privado o un bote. Se
utiliza el modelo más general con correlación no estructurada y
errores heteroscedásticos. "Usamos la opción estructural porque
luego se informan las estimaciones de los parámetros de varianza
para la matriz de varianza de error m× m ∑ en lugar de la matriz
de varianza (m -1) x (m - 1) de la diferencia en errores. Tenemos
 *Multinomial probit yuth unstructured errors Yhen charter is dropped

 use mus15da talong.d ta, clear drop if fisbmode=="chart:er" I mode == 4
(2533 observations deleted)
 asmprobit d p q, case(id) alternatives(fishmode) casevars(income)
> correlation(unstructured) structural vce(robust)
multinomiales
note: variable p has 106 cases that are not alternative-specific: there is
no
within-case variability
516
Como se esperaba, la utilidad está disminuyendo en precio y

aumentando en calidad (tasa de captura).
El modo base se estableció automáticamente en la primera

alternativa, playa, de modo que la primera fila y la columna de ∑ ,
se ponen a 0, excepto ∑ ¿ 1 . Se necesita una restricción de
11
varianza adicional, y aquí está la varianza del error de la segunda
alternativa, muelle, con ∑ ¿ 1 (laescala de normalización alternativa).
22
Con m=3 , hay ( 3 ×2 ) ∕ 2−1=2 entradas libres en ∑ : un
parámetro de varianza de error, ∑ , y una correlación,
33
p32=Cor ( ε i 3 , ε i3 ) . La salida sigma3 es √∑ ,

33
y la salida rho 32 es
p32 .
Los comandos estat covariance y estat correlation enumeran la matriz

de varianza estimada completa, ∑ ^ y la matriz de correlación
,
asociada. Tenemos
 * Show correlationz and covariance

 estat correlation
 estat covariance
multinomiales
Si, en cambio, los parámetros del modelo se estiman sin la opción

estructural, el mismo parámetro. se obtienen estimaciones, aparte
del error de estimación, pero las covarianzas y la correlación se dan
para la matriz de varianza de la distribución bivariada de ε i 2−ε il y
ε i 3−ε il .
15.7.6 Probabilidades predichas y MEs
El comando de predicción postestimación con la opción pr

predeterminada predicts pij , y las MEs evaluadas en la media o en
un valor representativo se obtienen utilizando el comando estat mfx .
Los comandos son similares a aquellos después de asclogit ; ver
secciones 15.5.7 y 15.5 .8 .
15.8 Parámetros aleatorios logit
El logit de parámetros aleatorios, o el modelo logit mixto, relaja la

suposición Ι A al permitir que los parámetros en el modelo OL se
distribuyan con normalidad o log, normalmente distribuidos. Aquí
estimamos los parámetros de los modelos mediante el uso de datos
de nivel individual. Se utilizan procedimientos de estimación
bastante diferentes si los datos están agrupados, como los datos de
cuota de mercado; ver Berry (1994).
15.8.1 Parámetros aleatorios logit
El modelo logit (RPL) de parámetros aleatorios, o modelo logit mixto,

se obtiene del ARUM de la sección 15.2.4 asumiendo que los
errores ε ij son de distribución extrema de tipo II, como para el
modelo OL, y los parámetros β y γ j , j=2, … , m , se distribuyen
normalmente. Entonces la utilidad de la alternativa j es
' '
U ij =x ij β i+ zi γ ji +ε ij
' ' ' '
¿ x ij β+ z i γ ji + xij V i+ zi w ji + ε ij
β i=β+ v i , v i N 0, ∑ . γ ji =γ j+ w ji , v i N 0, ∑ .
Dónde ( β ) y ( γj ) . El error
combinado ( x 'ij v i+ z 'i w ji + ε ij ) ahora se correlaciona entre alternativas,
mientras que los errores ε ij solo no lo fueron.
Entonces condicional en lo no observables vi y w ji ;, tenemos un

modelo OL con
518
exp ( x'ij β+ z 'i γ j + x 'ij β+ z'i w ji )

p ij| vi , w ji = m ,
∑ exp ( x 'il β + z 'i γl + x 'ij vi + z 'i w ji)
l=1
j=1,… , m
El MLE se basa en pij , que también requiere la integración de vi

y w ji , una integral alta dimensional.
~
En su lugar, el estimador MSL maximiza (15.10) , donde F j ( x i ,θ )
es un simulador para pij . Aquí el simulador de frecuencia que
realiza muchos sorteos de v i y w ji a partir de las estimaciones
actuales dadas normales de ∑ y ∑ . es un simulador suave.
β γj
15.8.2 El comando mixlogit
El comando mixlogit escrito por el usuario Hole 2007 ) calcula el

¿
estimador MSL. El syntax es
 Mixlogit depvar[indepva-rs][if] [in] [weight], group(vamame)


 rand( varlist) [ options]
que es similar al de clogit, con group ( ¿ ) usado para identificar

cada caso o individuo. Los regresores con coeficientes aleatorios se
enumeran en rand ( ¿ ) , y los regresores con coeficientes no
aleatorios se enumeran como indepvars.
La opción ln ( ¿ ) permite que las últimas ¿ variables en rand () se

distribuyan lognormalmente en lugar de distribuirse normalmente.
La opción corr permite que los parámetros se correlacionen; el valor
predeterminado es que no lo son. El estimador usa la secuencia de
Halton con 50 sorteos después de abandonar los primeros 15
sorteos. Las opciones nrep ( ¿ ) y burn ( ¿ ) cambian estos valores
predeterminados, y los resultados publicados deberían usar · muchos
más de 50 sorteos.
15.8.3 Preparación de datos para mixlogit
El comando mixlogi t es similar a clogit. A diferencia de asclogit y

asmprobit, no hay opción para regresores específicos de caso.
multinomiales
En cambio, necesitamos crear regresores manualmente para las

intersecciones y los ingresos. Para los regresores específicos de
casos, se necesita una normalización. Configuramos γ pier =0 y
construimos tres intersecciones e interacciones con los ingresos.
Tenemos
 *Data set up to include case-invariant regressors

 use mus15datalong.dta, clear
 generate dbeach = fishmode=="pier"
 generate dprivate = ficllmode=="private"
 generate dcharter = fishmode=="charter"
 generate ybeach = dbeach*income
 generate yprivate = dprivate*income
 generate ycharter = dcharter*income
Seguidamente usamos mixlogit. Si, en cambio, usamos clogit con las

mismas variables dependientes y regresores, entonces los resultados
serían los mismos que los de asclogit en la sección 15.5.4 .
15.8.4 Aplicación del comando mixlogit
Estimamos que el mismo modelo de tres opciones que el utilizado en

la sección 15.7 .5 para el modelo MNP, con la pesca chárter cayó.
Los parámetros para p se especifican para ser al azar, usando la

opción rand ( ) . Todos los demás parámetros se especifican para ser
fijos y aparecen como indepvars, aunque podríamos, por ejemplo,
especificar que los parámetros de las tres variables de ingresos
también sean aleatorios. Tenemos
 *Mixed legit or randox parameters legit estimation

 drop if fisbmode=="charter" I mode c=4
(2538 observations deleted)
 mixlogit d q dbeach dprivate ybeach yprivate, group(id) rand(p)
520
Existe una variación considerable entre los individuos en el efecto

del precio. Los coeficientes aleatorios tienen una media de −0.107
y una desviación estándar de 0.060 , ambas estadísticamente
significativas en el nivel de 0.05 . El modelo logit de parámetros
aleatorios tiene una probabilidad logarítmica de −435 ,
sustancialmente más alta que −467 para el
modelo CL. Los resultados del modelo CL no se muestran, pero se
pueden obtener utilizando el comando asclogit o clogit. Se prefiere el
modelo de parámetros aleatorios.
Si queremos restringir el efecto para que sea negativo, entonces

debemos definir una variable, negp, igual al negativo de la variable p
y usar ln ( 1 ) para lognormal. Los resultados posteriores son para la
media y la desviación estándar de ln β negp en lugar de β negp o β p .
Estos se pueden convertir utilizando el resultado de que
ln β N ( μ , σ 2 ) , entonces β { e μ+ σ ∕ 2 , e2 μ +σ ( eσ −1 ) } .
2 2 2
15.9 Modelos de resultados ordenados
En algunos casos, los datos categóricos se ordenan naturalmente. Un

ejemplo es el estado de salud que se autoevalúa como pobre, regular,
multinomiales
bueno o excelente. Los dos modelos estándar para tales datos son el
logit ordenado y los modelos probit ordenados.
15.9.1 Resumen de datos
Usamos datos del Experimento de seguro médico de Rand, que se

describe con más detalle en la sección 18.3 . Use un año de este
panel, por lo que los datos son datos de sección transversal.
El resultado ordenado que consideramos es el estado de salud que

es, respectivamente, pobre o justo ( y=1) , bueno (Y =2) o
excelente ( y=3) . Esta variable debe construirse a partir de varios
resultados binarios para cada uno de los estados de salud. Las
categorías pobres y justas se combinan porque solo el 1.5 de la
muestra informa una mala salud. Los datos se construyen de la
siguiente manera:
 * Create multinomial ordered outcome variables takes values y = 1, 2, 3

 use mus18data.dta, clear
 quietly keep if year==2 generate hlthpf = hlthp + hlthf
 generate hlthe = (1 -hlthpf - hlthg)
 quietly generate hlthstat = 1 if hlthpf
 quietly replace hlthstat = 2 if hlthg == 1
 quietly replace hlthstat = 3 if hlthe == 1
 label variable hlthstat "health status"
 label define hsvaluo 1 poor_or_fair 2 good 3 excellent
 label values hlthstat hsvalue
 tabulate hlthstat
El estado de salud es pobre o justo para aproximadamente el 10

de la muestra, bueno para el 35 y excelente para el 5,5 .
Los regresores considerados son la edad en años (age) , el ingreso

familiar anual (linc) y el número de enfermedades crónicas
(n disease) . Las estadísticas de resumen son
 * Summarize dependent and explanatory variables

522
 summarize hlthstat age line ndisease Variable
La muestra es de niños y adultos, pero no de ancianos.
15.9.2 Resultados ordenados
Los resultados ordenados se modelan para surgir secuencialmente

como una variable latente, y ¿ , cruza progresivamente los umbrales
más altos. En el ejemplo actual, y ¿ es una medida de salubridad no
observada. Para el individuo i , especificamos
¿ '
y i =xi β+ μ i
Dónde una normalización es que los regresores x no incluyen una

intersección. Por muy bajo y ¿ , el estado de salud es pobre; para
¿ ¿
y >∝1 , el estado de salud mejora a regular; para y >∝2 , mejora
aún más el bien; y así sucesivamente si hubiera categorías
adicionales.
Para un modelo ordenado m-alternativo, definimos

¿
y i= jif ∝ j −1 < y i ≤ ∝ j , j=1, … , m
Dónde ∝0=∞ y α m=∞ . Entonces
Pr ( y i= j )=Pr ( ∝ j−1 < y ¿i ≤ ∝ j )

¿ Pr ( ∝ j−1< x 'i β+ μ i ≤ ∝ j )
¿ Pr ( ∝ j−1−x 'i β <μi ≤ ∝ j −x'i β )
¿ F ( ∝ j−x 'i β ) −F ( ∝ j −1−x 'i β )
donde F es la función de distribución acumulativa (c.d.f.) de μi .

Los parámetros de regresión, β , y los parámetros del umbral
m−1 , ∝1 , … , ∝m−1 ,se obtienen maximizando la probabilidad
logarítmica con p ij =Pr ( y i = j ) cómo se definió anteriormente. Stata
excluye una intersección de los regresores. Si, en cambio, se calcula
multinomiales
una intercepción, entonces solo se identifican los parámetros de

umbral m−2 .
Para el modelo logit ordenado, u se distribuye logísticamente con

F ( z )=e z ∕ ( 1+e z ) . Para el modelo probit ordenado, u es estándar
distribuido normalmente con F ( ⋅ )=Φ ( ⋅ ) , el estándar c.d.f normal.
El signo de los parámetros de regresión, β , puede interpretarse de

inmediato como que determina si la variable latente, y ¿ , aumenta
con el regresor. Si β j es positivo, entonces un aumento en x ij
necesariamente disminuye la probabilidad de estar en la categoría
más baja ( y i=1) y aumenta la probabilidad de estar en la categoría
más alta ( y i=m) .
15.9.3 Aplicación del comando ologit
Los parámetros del modelo logit ordenado se estiman utilizando el

comando ologit, que tiene una sintaxis esencialmente igual a mlogit:
 ologit depvar [ indepvars] [if] [in] [weight] [, options]
La aplicación de este comando produce
 * Ordered legit estimates

ologit hlthstat age line ndisease, nolog
La variable de estado de salud latente está aumentando en ingresos

y disminuyendo con la edad y el número de enfermedades crónicas,
como se esperaba. Los regresores son estadísticamente
significativos. Los parámetros de umbral parecen ser
estadísticamente significativamente diferentes entre sí, por lo que
las tres categorías no deben colapsarse en dos categorías.
15.9.4 Probabilidades predichas

524
Las probabilidades pronosticadas para cada uno de los tres

resultados se pueden obtener utilizando la opción pr . Para
comparación, también calculamos las frecuencias de muestra de
cada resultado.
 * Calculate predicted probability that y=1, 2, or 3 for each person

 predict p1ologit p2ologit p3ologit, pr
 summarize hlthpf ·hlthg hlthe p1ologit p2ologit p3ologi t, separa tor(O)
Las probabilidades pronosticadas promedio están dentro de 0.01

de las frecuencias de muestra para cada resultado.
15.9.5 MEs
El ME sobre la probabilidad de elegir la alternativa j cuando el
regresor x r cambia viene dado por
∂ Pr ( y i= j )
={ F ' ( α j−1−x 'i β ) −F ' ( α j−x 'i β ) } β r
∂ x ri
Si un coeficiente es dos veces más grande que otro, también lo es el

tamaño del ME.
Usamos el comando mfx para obtener el ME evaluado en la media,
para el tercer resultado (estado de salud excelente). Obtenemos
 * Marginal effect at mean for 3rd outcome (health status excellent)

 mfx, predict(outcome(3))
La probabilidad de una excelente salud disminuye a medida que las

personas envejecen o tienen más enfermedades y aumenta a medida
que aumenta el ingreso.
multinomiales
El comando margeff escrito por el usuario se puede usar para

calcular el AME, usando syntax similar a eso después del comando
mlogit .
15.9.6 Otros modelos ordenados
Los parámetros del modelo probit ordenado se estiman utilizando el

comando oprobit. La sintaxis y el resultado del comando son
esencialmente los mismos que para el logit ordenado, excepto que
las estimaciones de los coeficientes tienen una escala diferente. La
aplicación a los datos aquí arroja t estadísticas y probabilidades de
registro bastante cercanas a las del logit ordenado.
El comando gologit escrito por el usuario (Williams 2006) estima una

generalización del modelo logit ordenado que permite que los
parámetros de umbral ∝1 , … , ∝m−1 dependan de los regresores.
Un modelo alternativo es el modo MNL. Aunque el modelo MNL

tiene más parámetros, el modelo logit ordenado no está anidado
dentro del MNL. La eficiencia del estimador es otra forma de
comparar los dos enfoques. Un estimador ordenado hace más como
suposiciones que un estimador MNL. Si estas suposiciones
adicionales son verdaderas, el estimador ordenado es más eficiente
que el estimador MNL.
15.10 Resultados multivariables
Consideramos el análogo multinomial del modelo de regresión

aparentemente no relacionado (SUR ) (ver sección5.4 ) , donde se
están modelando dos o más resultados categóricos.
En el caso más simple, los resultados no dependen directamente el

uno del otro; no hay simultaneidad, pero los errores para los
resultados pueden estar correlacionados. Cuando los errores están
correlacionados, hay disponible un estimador más eficiente que
modela la distribución conjunta de los errores.
En casos más complicados, los resultados dependen directamente el

uno del otro, por lo que hay simultaneidad. No cubrimos este caso,
pero el análisis es mucho más simple si la simultaneidad está en
variables latentes continuas en lugar de variables de resultado
discretas.
15.10.1 Probit bivariado

526
El modelo probit bivariante considera dos resultados binarios. Los

resultados se relacionan potencialmente después del
condicionamiento con los regresores. La relación se produce a través
de la correlación de los errores que aparecen en la formulación del
modelo de función de índice del modelo de resultado binario.
Específicamente, los dos resultados están determinados por dos

variables latentes no observadas,
¿ '
y 1=x 1 β i +ε 1
y ¿2=x '2 β 2 +ε 2
donde los errores ε 1 y ε 2 se distribuyen normalmente de forma
conjunta con medias de 0 , varianzas de 1 y correlaciones de p ,
y observamos los dos resultados binarios.
{ {
¿ ¿
y 1= 1if y 1¿ >0 and y 2= 1if y 2¿ >0
0 if y 1 ≤ 0 0 if y 2 ≤ 0
El modelo colapsa a dos modelos probit separados para y1 y y2
si p=0 .
Hay cuatro resultados mutuamente excluyentes que podemos

denotar por y 10 (cuando y 1=1 e y 2 =0) , y 01 , y 02 , y y 00 . La
función logaritmo-verosimilitud se deriva usando las expresiones
para estas probabilidades y los parámetros son estimados por ML.
Hay dos complicaciones. En primer lugar, no existe una expresión
analítica para las probabilidades, ya que dependen de una integral
unidimensional sin solución de forma cerrada, pero esto se resuelve
fácilmente con métodos de cuadratura numérica para la integración.
Segundo, las expresiones resultantes para Pr ( y 1=1|x ) y
Pr ( y 2=1|x ) difieren de las de probit binario y probit.
La forma más simple del comando bivariado tiene la sintaxis
 biprobit depvarl depvar2[varlist][if][in][weight][,options]
Esta versión supone que se usan los mismos regresores para ambos
resultados. Una versión general no permite que la lista de regresores
difiera para los dos resultados.
Consideramos dos resultados binarios usando el. mismo conjunto de

datos que para los modelos de resultados ordenados analizados en la
sección 15.9 . El primer resultado es la variable hlthe, que tiene un
valor de 1 si la salud autoevaluada es excelente y 0 de lo
contrario.
multinomiales
El segundo resultado es la variable dmdu , que equivale a 1 si "el

individuo ha visitado al médico el año pasado y 0 en caso
contrario".
 * Two binary dependent variables: hlthe and dmdu

 tabulate hlthe dmdu
 correlate hlthe dmdu (obs=5574)
Los resultados están muy débilmente correlacionados

negativamente, por lo que, en este caso, puede haber poca necesidad
de modelar los dos conjuntamente.
La estimación del modelo probit bivariado arroja las siguientes
estimaciones:
 * Bivariate probit estimates

 biprobit hlthe dmdu age line ndisease, nolog
La hipótesis de que p=0 no se rechaza, por lo que, en este caso, el

probit bivariante no era necesario. Como podría esperarse, la
528
estimación probit por separado para cada resultado (producción no

dada) produce coeficientes muy similares a los dados anteriormente.
Se pueden obtener probabilidades pronosticadas. Por ejemplo, la

probabilidad marginal de que y 1=1 pueda obtenerse con la opción
pmargl, mientras que la probabilidad conjunta de que ( y 1 , y 2 ) =( 1,1 )
se obtenga con la opción p11 . Obtenemos
 * Predicted probabilities
 predict biprob1, pmarg1
 predict biprob2, pmarg2
 predict biprob11, p11
 predict biprobOO, pOO
 summarize hlthe dmdu biprob1 biprob2 biprob11 biprob10 biprob01 biprobOO
Las probabilidades marginales de que y 1=1 y y 2=1 son,

respectivamente, 0.541 y 0.671 , muy cercanas a las frecuencias
de muestreo.
15.10.2 SUR no lineal
Un modelo alternativo es usar el comando nlsur para SUR no

lineal, donde la media condicional de y 1 es Φ ( x '1 β1 ) y de y 2 es
Φ ( x '2 β2 ) . Este estimador no controla la heterocedasticidad
intrínseca de los datos de resultado binarios, por lo que usamos la
opción vce (robust ) para obtener errores estándar que controlan
tanto la heterocedasticidad como la correlación. Tenemos
 Nonlinear seemingly unrelated regressions estimator

 Nlsur(hlthe=normal({a1}*age+{a2}*1inc+{a3}*ndisease+{a4}))
> (dmdu =normal({bl}*age+{b2}*linc+{b3}*ndisease+{b4})), vce(robust) nolog
(obs = 5574)
multinomiales
 * Uncentered R-sq
Para este ejemplo, los coeficientes de regresión y los errores

estándar son bastante similares a los de biprobit.
15.11 Recursos de Stata
Los modelos clave para la comprensión inicial son los modelos MNL
y CL. En la práctica, estos modelos a menudo son demasiado
restrictivos. Los comandos Stata cubren la mayoría de los modelos
multinomiales, la excepción más notable es el logit de parámetros
aleatorios o el modelo logit mixto, que se puede estimar con el
comando mixlogit escrito por el usuario. Train (2003) es una
excelente fuente, especialmente para los modelos que necesitan ser
ajustados por MSL o métodos bayesianos.
15.12 Ejercicios
1. Considere el ejemplo multinomial del estado de salud de la

sección 15.9 . Vuelva a colocar esto como un modelo logit
multinomial usando el comando mlogi t. Comente sobre la
importancia estadística de los regresores. Obtenga los efectos
marginales de los cambios en los regresores en la probabilidad
de una salud excelente para el modelo MNL, y compárelos con
los de la sección 15.9.5 para el modo logit ordenado. Usando
BIC, qué modelo prefiere para estos datos: logit multinomial ¿o
Logit ordenado?
2. Considere el ejemplo de logit condicional de la sección 15.5 .

Utilice mus15datalong.dta, si es necesario para crear este
archivo como en la sección 15.5.1. Descarte la opción del barco
530
charter como en la sección 15.7 .5 , usando el comando

drop if fisbmode=¿ charter I mode=¿ 4 , de modo que tenemos un
modo de tres opciones. Estimar los parámetros de un modelo
logit condicional con regresores p y q y ingreso, usando el
comando asclogit. ¿Cuáles son los MES sobre la probabilidad
de pesca en bote privado de un aumento de $ 10 en el precio
de la pesca en bote privado, un cambio de una unidad en la
tasa de captura de la pesca en bote privado y un aumento de
$ 1,000 en el ingreso mensual? ¿Qué modelo se ajusta mejor a
estos datos: el modelo logit condicional de esta pregunta o el
modelo probit multinomial de la sección 15.7 ?
3. Continúa la pregunta anterior, un modelo de tres opciones para

el modo de pesca. Estimar los parámetros o. f el modelo por
logit anidado, con errores para la utilidad de la pesca en el
muelle y la playa correlacionados entre sí y no correlacionados
con el error de la utilidad de la pesca en bote privado. Obtener
el ME dé un cambio en el precio de la pesca en bote privado,
adaptando el ejemplo de la sección 15.6 .6 .
4. Considere el ejemplo multinomial del estado de salud de la

sección 15.9 . Estime los parámetros de este modelo como un
modelo de bits pro ordenado que utiliza el condominio oprobit.
Comente sobre la importancia estadística de los regresores.
Obtenga los ME para la probabilidad pronosticada de una
salud excelente para el modelo MNL y compárelos con los
dados en la sección 15.9.5 para el modelo logit ordenado.
¿Qué modelo prefieres para estos logit ordenados por orden o
ordenados por datos?

Capitulo 14 y 15

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Capitulo 14 y 15

Hochgeladen von

Copyright:

Verfügbare Formate

14 Modelos de resultados binarios

14.2 Algunos modelos paramétricos

Supongamos que la variable de resultado, Y , toma uno de dos

donde F(·) es una función paramétrica especificada de x ' β ,

14.2.2 Logit, probit, probabilidad lineal y modelos de

El modelo logit específica que F ( . )= Λ(.) , El c.d.f. de la

LPM corresponde a la regresión lineal y no impone la restricción

donde el umbral cero es una normalización que no tiene

F ( x 'i β ) +(¿ 1−Y i) ln {1−F (x 'i β) }

El MLE se obtiene por métodos iterativos y se distribuye de manera

La sintaxis para el comando logit es

La sintaxis para los comandos probit y cloglog es similar.

estimarse consistentemente mediante la regresión MCO de Y

Para mayor concisión, utilizamos macros globales para crear

(Continúa en la siguiente página)

14.4.2 Regresión logit

Logistic regression Number of obs = 3206

Todos los regresores que no sean la edad son estadísticamente

probabilidades predichas, presentadas en las secciones 14.6 y 14.

^β Logit ≃2.5 β^ OLS

^β Logit ≃ 1.6 ^β Probit

La motivación es que es mejor comparar el efecto marginal,

Esto lleva a la siguiente tabla de salida de estimaciones de

Los coeficientes a través de los modelos cuentan una historia

14.5 Pruebas de hipótesis y especificación

logit no lineal que son similares a los presentados en el capítulo 3

El valor p es 0.114, por lo que la hipótesis nula no se rechaza

Esta prueba tiene un valor p de 0.109, bastante similar al de la

Prueba multiplicadora de LaGrange de logit generalizado

Donde hα ( x ' β ) es una función no lineal estrictamente creciente

Por ejemplo, para probar la salida del logit en la dirección de

La hipótesis nula de la especificación correcta del modelo se ve

donde ahora ui en (14.2) es heteroscedástico con una varianza

σ 2i =exp ( z 'i δ ) (14.6)

donde las variables exógenas (z 1 , ... , z m ) no contienen una

(Continúa en la siguiente página)

Likelihood-ratio test of lnsigma2=0:chi2(1)=1.44 Prob > chi2 = 0.2303

La prueba LR indica que en el nivel de 0.05, no hay una mejora

14.5.4 Comparación de modelos

parámetros, por lo que se reduce a elegir el modelo con mayor

14.6 Bondad de ajuste y predicción

varianza del dependiente variable explicada por el modelo. Para

La prueba de bondad de ajuste se realiza mediante el comando

El resultado indica una especificación incorrecta, porque el valor

De nuevo, la prueba rechaza la especificación mantenida, esta

depende de una función de pérdida. Si asumimos una función de

La tabla compara valores ajustados y reales. El porcentaje de

observaciones con Y =1 que están especificadas correctamente.

La media y la desviación estándar son esencialmente las mismas

generados por diferentes estimadores. El ejemplo que se

 *Following gives Figure mus14fig1.eps

Figura 14.1. Predicted probabilities versus hhincome

14.6.5 El comando prvalue para probabilidades ajustadas

(Continúa en la siguiente página)

La probabilidad de tener un seguro privado es de 0,57 con el

confianza razonablemente ajustado es para la probabilidad de

14.7 Efectos marginales

(*)dy/dx is for discrete change of dummy variable from 0 to 1

El orden de los valores en la opción at (numlist ) es el mismo que

(*)dy/dx is for discrete change of dummy variable from 0 to 1

En este caso particular, la MEM es un 20-30% mayor que la

El efecto marginal promedio (AME) se puede obtener utilizando