Stata Enaho

1.
Modelo de elecci
on Cualitativa
Los modelos de elecci
on cualitativa son muy u
tiles porque pueden ser usadas a partir de
simples respuestas como un si o un no. Podemos mencionar por ejemplo la decision de una
empresa de si va a distribuir sus utilidades a sus accionistas o no, o votar por un candidato
poltico o no, o si un individuo viene a trabajar o no. Estos son distintos de los modelos
tradicionales. El objetivo de los modelos de eleccion cualitativa es encontrar la probabilidad
de que algo ocurra.Por ello los modelos de eleccion cualitativa son conocidos tambien como
modelos de probabilidad.
2.
Modelo Logit
Logit se ajusta a un modelo logit para una respuesta binaria por maxima verosimilitud ;
modela la probabilidad de un resultado positivo dado un conjunto de regresores.La variable

dependiente puede salir uno o cero,generalmente sale 1 si es el resultado es positivo y 0 si
es resultado es negativo. Cuando ejecutamos el comando Logistico nos estima la razon de
oportunidad.Muchos usuarios prefieren el comando logistic que el logit.Los resultados son
los mismos independientemente de quien se utilice, ambos dan la maxima probabilidad de
estimaci
on.
Modelo logit de y con x1 x2

logit
2.1.
x1
x2
Uso B
asico
Logit arregla la m
axima probabilidad con un modelo de variable dependiente dicotomica
entre 0 y 1. Para los datos agrupados o datos en forma binomial.
2.1.1.
Ejemplo
Vamos a realizar un ejemplo practico. Tenemos datos sobre la composicion(make) , el

peso(weight) y el kilometraje(mpg), clasificados en 22 extranjeros y 52 automoviles nacionales.
1
Asi se ve una muestra de la data:
He aqu un resumen de nuestros datos:
Vamos a estimar la probabilidad de que los coches sean extranjeros sobre la base de su
peso, y el kilometraje, para eso partimos del modelo logit:
La variable foreign toma dos valores u
nicos , 0 y 1. El valor 0 significa coche es nacional , y
1 denota un coche extranjero . El modelo que se desea es encajar
P rob(f oreign = 1) = F (B0 + B1 weight + B2 mpg)
2
donde: F (z) =
ez
1 + ez
es la distribucion acumulativa logistica
Para arreglar el modelo,escribimos:
Nos encontramos con que los coches mas pesados son menos propensos a ser extranjeros y
que los coches que producen mejor rendimiento de combustible son tambien menos probable
que sea extranjera , al menos manteniendo el peso del carro constante.
Ajuste del Modelo:

En total fueron realizadas cinco iteraciones para estimar el modelo.
La funci
on LR chi2, el valor indica que los coeficiente son significativos para explicar
la probabilidad de que los choches pueden ser extranjeros.

El valor del estadstico P rob > chi2 indica que podemos rechazar en 0 por ciento que
todos los coeficientes sean iguales a cero.
La interpretaci
on del seudo R2, se acerca a la explicacion del R2 tradicional, indica
indica que aproximadamente 39.66 por ciento de la variacion de la variable dependiente
puede ser explicada por la variacion de las variables independientes del modelo.
Existen otras medidas para analizar la calidad del ajustamiento del modelo, por ejemplo:
Digitando estat class prestamos atencion a los datos de valores correctamente clasificados, podemos afirmar que en general el modelo provee 79.73 por ciento de las
observaciones correctamente.
Analisis de variables:
Individualmente en el test Z la variable peso no es un factor que explica la probabilidad

de que el coche sea extranjero.
En el caso de logit los coeficiente miden la variacion en el Logit estimado, para una
variaci
on unitaria de la variable explicativa dada. En el caso de la variable kilometraje es
0,168 unidades, lo que sugiere una relacion negativa entre el kilometraje y que el coche sea
extranjero.
2.1.2.
Nota t
ecnica
Stata interpreta un valor de 0 como un resultado negativo (fallo) y trata a todos los
dem
as valores (excepto desaparecidos ) como resultados positivos (exitos ). As, si la variable
dependiente toma los valores 0 y 1 , a continuacion, 0 se interpreta como el fracaso y el 1
como el exito . Si la variable dependiente toma los valores 0 , 1 , 2 y , a continuacion, 0 se
sigue interpretarse como falta , pero ambos 1 y 2 son tratados como exitos . Si se prefiere
una formulaci
on matem
atica m
as formal , cuando se tipea logit y x , Stata ajusta el modelo:
P rob(yj 6=| xj ) =
3.
eXj B
1 + eXj B
COEFICIENTE DE GINI
3.1.
Definiciones previas
CURVA DE LORENZ
Curva que relaciona el porcentaje acumulado de la poblacion, con el porcentaje acumulado del ingreso que posee esa poblacion. Esta curva permite representar graficamente la
concentraci
on del ingreso de una region en un perodo determinado.
Se calcula ordenando la informacion de los individuos en cuanto a ingreso de forma ascendente, posteriormente se establece el porcentaje del ingreso que le corresponde al X
porcentaje con ingreso m
as bajo de la poblacion. El porcentaje acumulado de la poblacion
se gr
afica en el eje horizontal y el porcentaje de ingreso acumulado para esa poblacion se
gr
afica en el eje vertical.
Si dos curvas de Lorenz (cada una para una poblacion diferente o para un periodo diferente) se cruzan, no es posible determinar cual de las dos poblaciones tiene una distribucion
menos o m
as concentrada del ingreso.
Con base en esta curva, es posible calcular el coeficiente de Gini para medir la concentraci
on del ingreso.
3.2.
COEFICIENTE DE GINI
El coeficiente de Gini es un indicador de la desigualdad de ingreso entre los individuos de

una regi
on, en un determinado periodo. Normalmente se utiliza para medir la desigualdad
de los ingresos, dentro de un pas. El coeficiente de Gini es un n
umero entre 0 y 1, en donde
0 corresponde con la perfecta igualdad (todos tienen los mismos ingresos) y donde el valor 1
se corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y los demas
ninguno).
Debemos tomar en cuenta que el coeficiente de Gini no mide el bienestar de una sociedad.
Tampoco permite, solo por s solo, determinar determinar la forma como esta concentrado
el ingreso; ni indica la diferencia en mejores condiciones de vida en un pas u otro.
El ndice de Gini es el coeficiente de Gini expresado en referencia a 100 como maximo, en
vez de como 1, y es igual al coeficiente de Gini multiplicado por 100. Una variacion de dos
centesimas del coeficiente de Gini (o dos unidades del ndice) equivale a una distribucion de
un 7 por ciento de riqueza del sector mas pobre de la poblacion (por debajo de la mediana)
al m
as rico (por encima de la mediana).
Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los
ingresos, tambien puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere
que nadie disponga de una riqueza neta negativa.
3.3.
M
etodo de c
alculo
El coeficiente de Gini, se calcula como el cociente entre el area comprendida entre la

diagonal y la curva de Lorenz (
area A en el grafico) sobre el area bajo la diagonal (area
A+B). Si existiera perfecta igualdad, la curva de Lorenz coincidira con la diagonal, el area
A desaparecera y el coeficiente de Gini sera cero, indicando ausencia de desigualdad.
En el otro caso extremo, si existiera desigualdad total (es decir, una situacion donde todo
el ingreso sea propiedad de una sola persona) la curva de Lorenz coincidira con los ejes, el
area B desaparecera y el Gini se hara 1, indicando desigualdad total.
En la pr
actica una f
ormula usual para calcular el coeficiente de Gini (G) es la siguiente:
Donde:
i: indexa a las personas o grupos de personas.
n: es el n
umero de personas o estratos de ingreso
u: indica el ingreso medio
Yi: el ingreso de la persona o estrato i.
3.4.
Importancia
Dado que el Coeficiente de Gini es de facil interpretacion, es el indicador de desigualdad

m
as utilizado. Permite conocer las condiciones de desigualdad de un pas y compararlo con
otros pases.
El coeficiente de Gini tambien puede ser utilizado para realizar comparaciones entre pases.
3.5.
Consideraciones
El coeficiente es insensible ante cambios en la distribucion de ingreso que no generen cambios en el

area A. Es m
as sensible a aumentos en el ingreso de los individuos mas pobres.
Adicionalmente, no tiene sentido sumar o promediar varios coeficientes de Gini. Com
unmente, se calcula a partir de la encuestas de Hogares. As mismo, es posible encontrar medidas
como: Coeficiente de Gini de los pobres: Corresponde al coeficiente Gini calculado solamente
para este grupo de poblaci
on. Coeficiente de Gini per capita del hogar: Es el Gini calculado con el ingreso per c
apita de cada miembro del hogar. Coeficiente de Gini del ingreso
total del perceptor: Es el Gini calculado con el ingreso laboral y no laboral del perceptor.
Coeficiente de Gini del ingreso laboral del perceptor: Es el Gini calculado solamente con el
ingreso laboral del p
4.
R2 DE MCFADENN
Los modelos de regresi
on logstica se ajustaron utilizando el metodo de maxima vero-
similitud, es decir, las estimaciones de los parametros son los valores que maximizan la
probabilidad de que los datos que se han observado. R al cuadrado de McFadden se define
como:
faden 1.png
Donde Lc denota el valor de probabilidad (maximizado) desde el modelo ajustado actual,

y Lnull indica el valor correspondiente pero para el modelo nulo - el modelo con solamente
una intersecci
on y no hay covariables -(variables explicativas).
Para tratar de comprender si esta definicion tiene sentido, supongamos en primer lugar que
las covariables en nuestro modelo actual, de hecho, no dan ninguna informacion predictiva sobre el resultado. Para los datos binarios individuales, la contribucion probabilidad de
cada observaci
on es entre 0 y 1 (una probabilidad), y as la contribucion de probabilidad
log es negativo. Si el modelo no tiene ninguna capacidad de prediccion, aunque el valor de
probabilidad para el modelo actual sera (es siempre) es mayor que la probabilidad de que
el modelo nulo, no ser
a mucho mayor. Por tanto, la relacion de las dos verosimilitudes log
ser
a cercano a 1, y R2 McFadden sera cercano a cero, como esperaramos.
A continuaci
on, supongamos que nuestro actual modelo explica la casi totalidad de la variaci
on en el resultado, que vamos a denotamos Y. Como podra suceder esto? Recordando
que el prop
osito del modelo de regresion logstica es dar una prediccion para P (Y = 1) para
cada sujeto, necesitaramos P (Y = 1) ?1 para aquellos sujetos que tienen Y = 1, y P (Y =
1 ) ?0 para aquellos sujetos que tenan Y = 0. Si este es el caso, la probabilidad de ver Y =
1 cuando P (Y = 1) ?1 es casi 1, y de manera similar la probabilidad de ver y = 0 cuando
P (Y = 1) ?0 es casi 1. Esto significa que el valor de probabilidad para cada observacion es
cercano a 1. El log de 1 es 0, por lo que la probabilidad logartmica (Lc) sera cercano a 0.
R2 McFadden ser
a cercano a 1.
Por supuesto, en la investigaci
on emprica mas tpicamente uno no poda esperar para encontrar predictores que son lo suficientemente fuertes como para dar probabilidades predichas
tan cerca de 0 o 1, y as uno no debe sorprenderse si se obtiene un valor de R2 McFadden,
que no es muy grande.
5.
PRUEBA DE KOLGOMOROV SMIRLOV

En general, la prueba de Kolmogorov - Smirnov no es muy potente contra las diferencias
en las colas de las distribuciones. En cambio de esto, es bastante potente para hipotesis
alternativas que implican bultos o agrupacion en los datos. Las hipotesis direccionales se
eval
uan con las estadsticas
1.png
D
onde F(x) y G(x) son las funciones de distribucion empricas para la muestra que se estan
comparando. El estadstico combinado es:
El valor de p para este estadstico se puede obtener mediante la evaluacion de la distribucion

lmite asint
otico. Sea m el tama
no de la muestra para la primera muestra, y sea n el tama
no
de la muestra para la segunda muestra. Smirnov (1933) muestra que:
Los primeros cinco terminos forman la aproximacion Pa utilizado por Stata. El valor exacto
de p se calcula mediante un algoritmo de conteo.
5.1.
Prueba de Kolgomorov Smirlov en Stata
Sintaxis:
? Prueba de una sola muestra de Kolmogorov- Smirnov:

ksmirnov varname = exp [if] [in]
? Prueba de dos muestras de Kolmogorov - Smirnov
ksmirnov varname = exp [if] [in] , by(groupvar)
En la primera sintaxis, varname es la variable cuya distribucion esta siendo probado, y exp
debe evaluar en el correspondiente (teorico) acumulada. En la segunda sintaxis, groupvar
10
debe asumir dos valores distintos. La distribucion de varname para el primer valor de groupvar se compara con la de la segunda valor.
Ejemplos:
Ejemplo 1: Prueba de dos muestras
Decimos que tenemos datos de x que resulto de dos experimentos diferentes, etiquetados
como grupo = 1 y el grupo = 2. Nuestros datos contienen
Deseamos utilizar el test de dos muestras de Kolmogorov - Smirnov para determinar si hay
diferencias en la distribuci
on de x para estos dos grupos:
ksmirnov X, by(group) Two-sample Kolgomorov Smirnov test for equality of
distribution functions
La primera lnea pone a prueba la hipotesis de que x para el grupo 1 contiene valores
menores que para el grupo 2. La mayor diferencia entre las funciones de distribucion es de
0,5. El p - valor asint
otico aproximado de esto es 0,424, lo cual no es significativo.
La segunda lnea a prueba la hipotesis de que x para el grupo 1 contiene valores mayores
que en el grupo 2. La mayor diferencia entre las funciones de distribucion en esta direccion
es 0,1667. El p - valor asint
otico aproximado para esta peque
na diferencia es 0.909.
Por u
ltimo, el valor de p asint
otica aproximado para la prueba combinada es de 0.785. El
p- valores aproximados ksmirnov calcula se basan en la aproximacion de cinco plazo de las
distribuciones asint
oticas derivados por Smirnov (1933). Estas aproximaciones no son buenas para muestras peque
nas (n 50). Son demasiado conservador.
11

Stata Enaho

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Stata Enaho

Hochgeladen von

Copyright:

Verfügbare Formate

1.

modela la probabilidad de un resultado positivo dado un conjunto de regresores.La variable

Modelo logit de y con x1 x2

Vamos a realizar un ejemplo practico. Tenemos datos sobre la composicion(make) , el

Asi se ve una muestra de la data:

He aqu un resumen de nuestros datos:

es la distribucion acumulativa logistica

Para arreglar el modelo,escribimos:

Ajuste del Modelo:

la probabilidad de que los choches pueden ser extranjeros.

Individualmente en el test Z la variable peso no es un factor que explica la probabilidad

El coeficiente de Gini es un indicador de la desigualdad de ingreso entre los individuos de

El coeficiente de Gini, se calcula como el cociente entre el area comprendida entre la

Dado que el Coeficiente de Gini es de facil interpretacion, es el indicador de desigualdad

El coeficiente es insensible ante cambios en la distribucion de ingreso que no generen cambios en el

Donde Lc denota el valor de probabilidad (maximizado) desde el modelo ajustado actual,

PRUEBA DE KOLGOMOROV SMIRLOV

El valor de p para este estadstico se puede obtener mediante la evaluacion de la distribucion

Prueba de Kolgomorov Smirlov en Stata

? Prueba de una sola muestra de Kolmogorov- Smirnov:

Das könnte Ihnen auch gefallen