Beruflich Dokumente
Kultur Dokumente
18
Recuerde que el supuesto de linealidad de MCO no requiere que la variable X sea necesariamente lineal.
Así, podemos tener X 2, X 3, etc., como regresoras en el modelo. Para nuestro propósito, lo crucial es la linea-
lidad en los parámetros.
19
Mediante cálculo, se demuestra que dP/dX = β2P (1 − P), lo cual muestra que la tasa de cambio de la pro-
babilidad respecto de X contiene no sólo a β2, sino también al nivel de probabilidad a partir del cual se mide
el cambio (véase más al respecto en la sección 15.7). A propósito, observe que el efecto de un cambio uni-
tario en Xi sobre P es máximo cuando P = 0.5 y mínimo cuando P está cercano a 0 o a 1.
20
Esta observación la hizo David Garson.
Para estimar (15.6.1), además de Xi, necesitamos los valores de la regresada, o del logit, Li.
Esto depende del tipo de datos que se analicen. Éstos se clasifican en dos categorías: 1) datos de
nivel individual, o micro, y 2) datos agrupados o duplicados.
TABLA 15.4 X
Datos hipotéticos sobre (miles de dólares) Ni ni
Xi (ingreso), Ni (número
de familias con ingreso 6 40 8
Xi) y ni (número de fa- 8 50 12
milias que tienen casa 10 60 18
propia) 13 80 28
15 100 45
20 70 36
25 65 39
30 50 33
35 40 30
40 25 20
21
Para un análisis de máxima verosimilitud comparativamente sencillo en el contexto del modelo logit,
véase John Aldrich y Forrest Nelson, op. cit., pp. 49-54. Véase también Alfred Demaris, Logit Modeling: Practi-
cal Applications, Sage, Newbury Park, California, 1992.
es decir, frecuencia relativa, podemos utilizarla como una estimación de la verdadera Pi corres-
pondiente a cada Xi. Si Ni es relativamente grande, P̂i será una estimación razonablemente buena
de Pi.22 Con la Pi estimada, podemos obtener el logit estimado como
P̂i
L̂ i = ln = β̂1 + β̂2 X i (15.6.3)
1 − P̂i
lo cual será una estimación relativamente buena del verdadero logit Li, si el número de observa-
ciones Ni en cada nivel Xi es razonablemente grande.
En resumen, con la información agrupada o replicada (observaciones repetidas), como la de
la tabla 15.4, podemos obtener información sobre la variable dependiente, los logit, para estimar
el modelo (15.6.1). ¿Podemos entonces aplicar MCO a (15.6.3) y estimar los parámetros en la
forma usual? La respuesta es: aún no, pues hasta el momento no hemos dicho nada sobre las pro-
piedades del término de perturbación estocástico. Puede demostrarse que si Ni es relativamente
grande, y si cada observación en una clase de ingreso dado Xi está distribuida en forma indepen-
diente como una variable binomial, entonces
1
u i ∼ N 0, (15.6.4)
Ni Pi (1 − Pi )
es decir, ui sigue una distribución normal con media cero y varianza igual a 1/[Ni Pi (1 − Pi)].23
Por consiguiente, como en el caso del MLP, el término de perturbación en el modelo logit
es heteroscedástico. Así, en lugar de MCO, debemos utilizar mínimos cuadrados ponderados
(MCP). Para fines empíricos; sin embargo, reemplazaremos la Pi desconocida por P̂i y utilizare-
mos
1
σ̂ 2 = (15.6.5)
Ni P̂i (1 − P̂i )
como estimador de σ 2.
Ahora describiremos los diversos pasos en la estimación de la regresión logit (15.6.1):
1. Para cada nivel de ingreso X, calcule la probabilidad estimada de tener una casa propia como
P̂i = n i /Ni .
2. Por cada Xi, obtenga el logit mediante24
22
De la estadística elemental recuerde que la probabilidad de un evento es el límite de la frecuencia relativa
a medida que el tamaño de la muestra se hace infinitamente grande.
23
Como se demuestra en la teoría de probabilidad elemental, P̂i , la proporción de éxitos (en este caso, la
propiedad de una casa), sigue la distribución binomial con media igual a la verdadera Pi y varianza igual a
Pi (1 − Pi)/Ni ; y a medida que Ni aumenta indefinidamente, la distribución binomial se aproxima a la distri-
bución normal. Las propiedades distributivas de ui dadas en (15.6.4) se desprenden de esta teoría básica.
Hay mayores detalles en Henry Theil, “On the Relationships Involving Qualitative Variables”, American Jour-
nal of Sociology, vol. 76, julio de 1970, pp. 103-154.
24
Como P̂i = ni /Ni , Li se expresa alternativamente como L̂ i = ln ni /(Ni − ni ). A propósito, debe resaltarse que
para evitar que P̂i tome el valor de 0 o de 1, en la práctica L̂ i se mide como L̂ i = ln (ni + 12 )/(Ni − ni + 12 ) =
ln ( P̂i + 1/2Ni )/(1 − P̂i + 1/2Ni ). Se recomienda, como regla práctica, que Ni sea por lo menos 5 para cada
valor de Xi. Hay mayores detalles en D.R. Cox, Analysis of Binary Data, Methuen, Londres, 1970, p. 33.
25
Si estimamos (15.6.1) sin tener en cuenta la heteroscedasticidad, los estimadores, aunque sean insesga-
dos, no serán eficientes, como sabemos por el capítulo 11.
Interpretación Logit
Como lo muestra (15.7.1), el coeficiente de pendiente estimado indica que para un incremento
unitario ($1 000) en el ingreso ponderado, el logaritmo ponderado de las posibilidades en favor
de tener casa propia aumenta en alrededor de 0.08. Esta interpretación mecánica no resulta muy
atractiva.
12/19/09 11:16:26 PM
560 Parte Tres Temas de econometría
P̂i √
wi +0.07862X i∗
= e−1.59474
1 − P̂i (15.7.2)
√
−1.59474 wi 0.07862X i∗
=e ·e
Mediante una calculadora se verifica con facilidad que e0.07862 1.0817. Lo cual significa que,
para un incremento unitario en el ingreso ponderado, las posibilidades (ponderadas) en favor de
ser propietario de una casa aumentan en 1.0817, o alrededor de 8.17%. En general, si se toma
el antilogaritmo del coeficiente de la j-ésima pendiente (en caso de que haya más de una regre-
sada en el modelo), se resta uno de este valor y se multiplica el resultado por 100, se obtendrá
el cambio porcentual en las posibilidades en favor por una unidad de incremento en la j-ésima
regresora.
Por cierto, si desea llevar a cabo el análisis en términos del logit no ponderado, sólo necesita
√
dividir el L i∗ estimado entre wi . La tabla 15.6 proporciona el logit ponderado estimado y el no
ponderado para cada observación, así como algunos otros datos que analizaremos en breve.
Cálculo de probabilidades
Como el lenguaje del logit y de la razón de probabilidades puede ser extraño para algunos, siem-
pre podemos calcular la probabilidad de que una familia con cierto nivel de ingreso posea una
casa propia. Suponga que deseamos calcular esta probabilidad para X 20 (20 000). Al insertar
√
este valor en (15.7.1), obtenemos L̂ i∗ −0.09311, y al dividir lo anterior entre wi 4.1816
(véase la tabla 15.5), obtenemos L̂ i −0.02226. En consecuencia, con un nivel de ingreso de
$20 000, tenemos
P̂i
−0.02199 = ln
1 − P̂i
Por tanto,
P̂
= e−0.02199 = 0.97825
1 − P̂i
Al resolver para
e−0.02199
P̂i =
1 + e−0.02199
Cambio en la probabilidad
0.018
0.017
0.016
0.015
0.014
0.013
0.012
0.011
5 10 15 20 25 30 35 40 45
X, ingreso, miles de dólares
el lector puede percatarse de que la probabilidad estimada es 0.4945. Es decir, con el ingreso de
$20 000, la probabilidad de que una familia sea dueña de una casa es de casi 49%. La tabla 15.6
muestra las probabilidades así calculadas para diversos niveles de ingreso. Como se ve en dicha
tabla, la probabilidad de que una familia tenga casa propia se incrementa, pero no de manera
lineal como en el modelo MLP.
TABLA 15.7 Datos sobre el efecto del Sistema de Enseñanza Personalizada (PSI, por sus sigas en inglés) sobre las
calificaciones
Como vimos en la sección 15.6, no podemos poner simplemente Pi 1 si una familia es pro-
pietaria de una casa y cero si no lo es. En esta situación, no resultan útiles los MCO ni los MCP.
Tenemos que recurrir a procedimientos de cálculo no lineales con el método de máxima verosi-
militud. Los detalles de tal método se proporcionan en el apéndice 15A, sección 15A.1. En vista
de que el software estadístico más moderno cuenta con rutinas para estimar los modelos logit
con base en datos no agrupados, presentaremos los resultados del modelo (15.8.1), que utiliza los
datos de la tabla 15.7, y mostraremos la manera de interpretar dichos resultados, mismos que se
presentan en la tabla 15.8 en forma tabular. Obtuvimos estos resultados con EViews 6. Antes de
interpretarlos debemos tener en cuenta las siguientes observaciones generales:
1. Como empleamos el método de máxima verosimilitud, que en general es para muestras
grandes, los errores estándar estimados son asintóticos.
2. Como resultado, en vez del estadístico t para evaluar la importancia estadística de un co-
eficiente, empleamos el estadístico (normal estandarizado) Z, por lo que las inferencias se basan
en la tabla normal. Recuerde que si el tamaño de la muestra es razonablemente grande, la distri-
bución t converge a la distribución normal.
3. Como ya mencionamos, la medida convencional de la bondad de ajuste, R2, no es particu-
larmente significativa para los modelos con regresada binaria. Existen diversas medidas similares
TABLA 15.8
Resultados de la re- Variable dependiente: Calificación
gresión de la ecuación Método: Logit binario MV
(15.8.1) Convergencia lograda después de 5 iteraciones
a R2, llamadas pseudo R2.26 EViews presenta una de esas medidas, la R2 McFadden, denotada
como R2McF, cuyo valor para el ejemplo presente es de 0.3740.27 Al igual que R2, R2McF también
varía entre 0 y 1. Otra medida de ajuste comparativamente simple es la cuenta R2, que se define
como:
número de predicciones correctas
Cuenta R2 = (15.8.2)
número total de observaciones
Como la regresada en el modelo logit toma el valor de 1 o de 0, si la probabilidad pronosticada
es mayor que 0.5, se clasifica como si fuese 1, pero si es menor que dicho valor, se considera 0.
Así, se cuenta el número de predicciones correctas y se calcula R2 como la dada en (15.8.2). En
breve ilustraremos esto.
Debe notarse que, sin embargo, en los modelos con regresada binaria, la bondad del ajuste
tiene una importancia secundaria. Lo que interesa son los signos esperados de los coeficientes de
la regresión y su importancia práctica y/o estadística.
4. A fin de probar la hipótesis nula respecto de que todos los coeficientes de pendiente son
simultáneamente iguales a cero, el equivalente de la prueba F en el modelo de regresión lineal es
el estadístico de la razón de verosimilitud (RV). Con la hipótesis nula, el estadístico RV sigue
la distribución χ2 con gl igual al número de variables explicativas, tres para el presente ejemplo.
(Nota: Excluya el término del intercepto para el cálculo de los gl.)
Ahora interpretemos los resultados de la regresión dados en (15.8.1). En esta ecuación, cada
coeficiente de pendiente es un coeficiente de pendiente parcial y mide el cambio en el logit esti-
mado correspondiente a una unidad de cambio del valor de la regresada dada (con las demás re-
gresoras constantes). Por tanto, el coeficiente del GPA igual a 2.8261 significa que, mientras las
demás variables se mantengan constantes, si el GPA se incrementa en una unidad, en promedio
el logit estimado aumenta casi 2.83 unidades, lo cual indica una relación positiva entre ambos.
Como se aprecia, todas las demás regresoras tienen un efecto positivo en el logit, a pesar de que
en términos estadísticos el efecto de TUCE no es importante. No obstante, todas las regresoras
en conjunto tienen un impacto importante en la calificación final, pues el estadístico RV es igual
a 15.40, cuyo valor p es de casi 0.0015, el cual resulta muy pequeño.
Como dijimos antes, una interpretación más significativa se da en términos de las posibili-
dades en favor, las cuales se obtienen al tomar el antilogaritmo de los diversos coeficientes de
pendiente. En consecuencia, si tomamos el antilogaritmo del coeficiente de PSI, igual a 2.3786,
26
Para un análisis comprensible, véase J. Scout Long, Regression Models for Categorical and Limited Dependent
Variables, Sage, Newbury Park, California, 1997, pp. 102-113.
27
Técnicamente, esto se define como: 1 − (FLVir/FLVr ), donde FLVir es la función logaritmo de verosimilitud
irrestricta, para la cual se incluyen en el modelo todas las regresoras, y FLVr es la función logaritmo de ve-
rosimilitud restringida para la cual sólo se incluye el intercepto en el modelo. Conceptualmente, FLVir es el
equivalente de la SCR y FLVr es el equivalente de la SCT del modelo de regresión lineal.
obtendremos 10.7897 (≈ e2.3786). Esto indica que los estudiantes expuestos al nuevo método de
enseñanza son por encima de 10 veces más propensos a obtener una A que quienes no están ex-
puestos al nuevo método, en tanto no cambien los demás factores.
Suponga que deseamos calcular la probabilidad real de que un estudiante obtenga una cali-
ficación de A. Considere al estudiante 10 de la tabla 15.7. Al introducir los datos reales de este
estudiante en el modelo logit estimado, dado en la tabla 15.8, puede verificar que el valor logit
estimado para dicho estudiante es igual a 0.8178. Con la ecuación (15.5.2) puede verificar con
facilidad que la probabilidad estimada es 0.69351. Como la calificación final real del estudiante
fue A y el modelo logit asigna una probabilidad de 1 a un estudiante que obtiene una A, la proba-
bilidad estimada de 0.69351 no es exactamente 1, pero se le aproxima.
Recuerde la cuenta R2 ya definida. La tabla 15.9 proporciona los valores reales y pronostica-
dos de la regresada para el ejemplo ilustrativo. En esta tabla se observa que, de las 32 observa-
ciones, hubo 6 pronósticos incorrectos (estudiantes 14, 19, 24, 26, 31 y 32). Por tanto, el valor
de la cuenta R2 es 26/32 0.8125, en tanto que el valor R2 McFadden es 0.3740. Aunque estos
dos valores no se pueden comparar de manera directa, dan una idea de los órdenes de magnitud.
Además, no se debe sobrevalorar la importancia de la bondad de ajuste en modelos para los que
la regresada es dicótoma.
EJEMPLO 15.5 Ya estudiamos los resultados del modelo lineal de probabilidad (MLP) aplicado a los datos de
¿Quién tiene tarjeta tarjetas de débito bancarias, por lo que ahora aplicaremos el modelo logit. Los resultados son
como sigue:
de débito? Análisis
logit Variable dependiente: DÉBITO
Método: Logit binario MV (ascenso de colina cuadrático)
Muestra: 1-60
Observaciones incluidas: 60
Convergencia lograda después de 4 iteraciones
Matriz de covarianza calculada con segundas derivadas
El signo positivo de Saldo y los signos negativos de Cajero automático e Interés se asemejan a
los del MLP, aunque no podemos establecer una comparación directa entre los dos. La inter-
pretación de los coeficientes en el modelo logit difiere de la del MLP. En este caso, por ejemplo,
si la tasa de interés aumenta un punto porcentual, el logit disminuye alrededor de 1.35, si las
demás variables permanecen constantes. Si tomamos el antilogaritmo de −1.352086, obtene-
mos casi 0.2587. Esto significa que si se paga una tasa de interés sobre los saldos de las cuentas,
es probable que, en promedio, sólo alrededor de uno de cada cuatro clientes tenga una tarjeta
de débito.
Con base en el estadístico RV estimado, observamos que, en conjunto, las tres variables son
estadísticamente significativas en el nivel aproximado de 8.5%. Si usamos el nivel convencional
de significancia de 5%, estas variables son sólo marginalmente significativas.
El valor R2 McFadden es muy bajo. Con los datos, el lector podrá averiguar el valor de la
cuenta R2.
Como ya señalamos, a diferencia del MLP, los coeficientes de pendiente no dan la tasa de
cambio de la probabilidad por cada unidad de cambio en la regresora. Es necesario calcularlos
como se muestra en la tabla 15.6. Por fortuna, esta tarea manual no es necesaria, pues hay
programas estadísticos, como el STATA, que lo hacen de forma rutinaria. En este ejemplo los
resultados son los siguientes:
Efectos marginales después de logit:
Y Pr(débito)(pronóstico)
.42512423