Sie sind auf Seite 1von 14

Universidad Autnoma de

Yucatn.
FACULTAD DE MATEMATICAS.

Estudio para verificar si las tasas de desempleo en Mxico,


desde 1999-2015, tienen una distribucin normal, utilizando
mtodos de prueba no paramtrica (Kolmogorov-Smirnov,
Shapiro-Wilk y Lilliefors).

Daniela Kooh Cocom.


Benito Rodrguez Camejo.
Melissa Troyo Hernndez.
31 de Octubre del 2016.

Pgina |1

Contenido
Resumen..................................................................................................................................2
Introduccin.........................................................................................................................2
1.

Planteamiento del problema............................................................................................3

2.

Metodologa.....................................................................................................................3

3.

Datos y fuentes de medida...............................................................................................4

4.

Anlisis de resultados......................................................................................................5
4.1 Pruebas..........................................................................................................................5
4.2 Supuestos a considerar...................................................................................................6
4.3 Hiptesis........................................................................................................................6
4.4 Estimacin de parmetros.............................................................................................7

4.5 Estadsticos de prueba.......................................................................................................7


4.6 Intervalos de confianza..................................................................................................8
5.

Resultado de las pruebas..................................................................................................8


5.1 Kolmogorov-Smirnov....................................................................................................8
5.2 Shapiro-Wilk.................................................................................................................8
5.3 Lilliefors........................................................................................................................9

6.

Conclusiones y sugerencias.............................................................................................9

7.

Referencias....................................................................................................................10

8.

Apndices:.....................................................................................................................10

Pgina |2

Estudio para verificar si las tasas de desempleo en Mxico,


desde 1999-2015, tienen una distribucin normal, utilizando
mtodos de prueba no paramtrica (Kolmogorov-Smirnov,
Shapiro-Wilk y Lilliefors).

Resumen.
La falta de empleo ha sido, por muchos aos, el problema social ms grave de Mxico. La
carencia de empleo es una de las expresiones ms agudas de la pobreza. Este fenmeno de
escasez de empleo, aunado a las diferencias salariales de Mxico con Estados Unidos
explica, en gran medida, el fenmeno migratorio de mano de obra mexicana a ese pas. La
oleada migratoria, aunque no puede considerarse un fenmeno nuevo, ha adquirido
mayores proporciones y algunas caractersticas diferentes a las de las anteriores (vase
Conapo, 2005).
En efecto, en la primera dcada del siglo XXI, adems del incremento de los niveles de
desempleo, creci significativamente la informalidad en la economa y los ocupados sin
proteccin social. Se observa, asimismo, un amplio vaco para generar puestos de trabajo en
sectores industriales.
Dado que desde el error de diciembre de 1998, la economa mexicana se ha mantenido
relativamente estable, y no han ocurrido crisis internas, se puede suponer que las tasas de
desempleo anual se distribuyen con cierta distribucin desconocida pero equivalente, por lo
que para realizar predicciones y estimaciones sera enormemente til hallar esta
distribucin, nosotros tras correr anlisis descriptivos en los datos de tasas de desempleo
anual de la OCDE sospechamos que estos datos se distribuyen de manera normal, por lo
tanto correremos pruebas para refutar o verificar este supuesto; en caso de serlo esto
resultara enormemente til para predecir el comportamiento del desempleo en el pas
durante los siguientes aos.

Introduccin.
El desempleo puede considerarse como una situacin en la que se encuentran las personas
que teniendo edad, capacidad y deseo de trabajar no pueden conseguir un puesto de trabajo
vindose sometidos a una situacin de paro forzoso.
El creciente desempleo, es una manifestacin de las irregularidades de la poltica
econmica aplicada, al no responder a la demanda de mayores fuentes de trabajo, con
salarios, sueldos y prestaciones, que garanticen mejores niveles de vida para los
trabajadores y sus familias.
Tasa de desempleo: Es el porcentaje de la poblacin laboral que no tiene empleo, que busca
trabajo activamente y que no han sido despedidos temporalmente, con la esperanza de ser
contratados rpidamente de nuevo.

Pgina |3

Las tasas de desempleo varan considerablemente por cambios del volumen de movimiento
del mercado de trabajo, resultado del cambio tecnolgico, lo que conduce al cambio de
empleo de una empresa a otra, de un sector a otro y de una regin a otra; adems tambin
segn la edad, sexo y raza. La tasa global de desempleo es uno de los indicadores ms
frecuentemente utilizados para medir el bienestar econmico global, pero dada la dispersin
del desempleo, debera considerarse que es un indicador imperfecto de dicho bienestar.

1. Planteamiento del problema.


Nos interesa estudiar el tipo de distribucin de presentan las tasas de inters, ya que de esta
forma nosotros podemos determinar en base a los resultados si es posible aplicar mtodos
estadsticos para el estudio detallado de nuestros datos.
As al comprobar o en otro caso negar la posibilidad de tener una distribucin, encontramos
ventajas y desventajas. Por ejemplo la verificacin de la hiptesis de normalidad resulta
esencial para poder aplicar muchos de los procedimientos estadsticos que habitualmente se
manejan. Tal y como ya se apuntaba antes, la simple exploracin visual de los datos
observados mediante, por ejemplo, un histograma o un diagrama de cajas, podr ayudarnos
a decidir si es razonable o no el considerar que proceden de una caracterstica de
distribucin normal.
Sin embargo existen distintas pruebas estadsticas que podemos utilizar para este propsito.
El test de Kolmogorov-Smirnov es el ms extendido en la prctica. Se basa en la idea de
comparar la funcin de distribucin acumulada de los datos observados con la de una
distribucin normal, midiendo la mxima distancia entre ambas curvas. Como en cualquier
test de hiptesis, la hiptesis nula se rechaza cuando el valor del estadstico supera un cierto
valor crtico que se obtiene de una tabla de probabilidad.
De esta forma nosotros a travs del estudio de diferentes tcnicas para verificar que estas
muestras de datos son normales o no, decidimos aplicar 3 de ellas, siendo KolmogorovSmirnov, Shapiro-Wilk y Lilliefors.
Tenemos una muestra de tasas de desempleo a lo largo de un periodo comprendido entre
1999 y 2015, nuestras tasas son extradas de un documento oficial que nos indica las tasas
que fueron aproximadas en Mxico por cada ao del periodo.
Por lo tanto buscamos concluir si estas tasas pueden ser usadas suponiendo una distribucin
normal, as de esta forma pueden ser usados diversos mtodos estadsticos para su estudio,
siempre y cuando cumpla con los criterios y la prueba de normalidad no sea rechazada.

2. Metodologa.
El objetivo del presente trabajo es determinar la distribucin que tiene la tasa de desempleo
y otras caractersticas de normalidad, es decir, la verificacin de supuestos. Se utiliza el
Mtodo de Kolmogorov-Smirnov de dos colas, Lilliefors y Shapiro-Wilk para estimar la
distribucin de las tasas de inters en Mxico en un periodo determinado. En un escenario
ideal, el mtodo para estimar la distribucin normal a un nivel individual debe basarse en

Pgina |4

una base de datos tipo panel porque de esta forma se puede seguir la evolucin individual a
lo largo del tiempo y, dependiendo del problema, se pueden declarar supuestos necesarios
para las pruebas. Hay que tener en cuenta que no tenemos una media ni una desviacin
estndar, por lo que hace ms factible trabajar con estos mtodos, ya que es posible estimar
los posibles valores, incluso la prueba de Shapiro-Wilk es trabajada sin la estimacin de

Ao

Tasas de Desempleo Anual


Tasas

1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015

2.505
2.506
2.757
2.978
3.406
3.916
3.596
3.597
3.722
3.975
5.479
5.381
5.234
4.953
4.929
4.829
4.353

estos parmetros lo que la hace idnea para como prueba de normalidad.


Hay que tener en cuenta que buscamos solo comprobar si se distribuye normal, para que los
datos puedan ser usados con otro tipo de pruebas que requieran una distribucin normal,
por lo que una prueba adicional no cae dentro del marco de estudio.

3. Datos y fuentes de medida.

Pgina |5

http://stats.oecd.org/index.aspx?queryid=36324#
Oct 2016 14:04 UTC (GMT) from OECD.Stat

Data extracted on 26

Las tasas de desempleo anuales de 1999-2015 fueron obtenidas de la pgina oficial de la


Organizacin para la Cooperacin y el Desarrollo Econmicos, organizacin internacional
de 34 pases cuya principal misin es promover polticas que mejoren el bienestar
econmico y social de las personas alrededor del mundo, la cual recauda informacin sobre
sus miembros, incluyendo a Mxico. Las unidades de medida fueron tasas de desempleo
estas son el resultado de dividir a todos los habitantes actualmente desempleados sobre el
total de habitantes de edad suficiente para trabajar en un pas. A continuacin se presentan
los datos de la OCDE sobre el desempleo en Mxico desde 1999-2015.
En este caso, la muestra son las tasas anuales proporcionadas por la OCDE acerca del
desempleo en Mxico de 1999-2015. Con nuestra muestra definida realizamos un anlisis
descriptivo con el software STATGRAPHICS para observar como encajan los datos con
una distribucin normal. Vase Apndice 1. En el cual se observ una buena posibilidad de
que sean normal entonces ya tenemos nuestra hiptesis.

4. Anlisis de resultados.
4.1 Pruebas.
Como hemos mencionado antes, las pruebas que emplearemos para la verificacin
de normalidad son 3, dentro de las cuales se encuentra como las ms comunes:
Kolmogorov-Smirnov: La prueba de Kolmogorov-Smirnov para una muestra es
un procedimiento de "bondad de ajuste", que permite medir el grado de
concordancia existente entre la distribucin de un conjunto de datos y una
distribucin terica especfica. Su objetivo es sealar si los datos provienen de una
poblacin que tiene la distribucin terica especificada, es decir, contrasta si las
observaciones podran razonablemente proceder de la distribucin especificada.
Cuando la prueba Kolmogorov-Smirnov se aplica para contrastar la hiptesis de
normalidad de la poblacin (en este caso tasas de desempleo), el estadstico de
prueba es la mxima diferencia:
Siendo Fn(x) la funcin de distribucin muestral y Fo(x) la funcin terica o
correspondiente a la poblacin normal especificada en la hiptesis nula.
La distribucin del estadstico de Kolmogorov-Smirnov es independiente de la
distribucin poblacional especificada en la hiptesis nula y los valores crticos de
este estadstico estn tabulados.
Prueba de Lilliefors: El test de Kolmogorov-Smirnov (con la correccin
Lilliefors) se utiliza para contrastar si un conjunto de datos se ajustan o no a
una distribucin normal. Es similar en este caso al test de Shapiro Wilk, pero la
principal diferencia con ste radica en el nmero de muestras. Mientras que el test
de Shapiro Wilk se puede utilizar con hasta 50 datos, el test de Kolmogorov-

Pgina |6

Smirnov es recomendable utilizarlo con ms de 50 observaciones. Antes de realizar


el test de Kolmogorov-Smirnov en R (con la correccin Lilliefors), es necesario
conocer cul es el contraste de hiptesis que se va a realizar. A pesar de que
continuamente se alude al test Kolmogorov-Smirnov como un test vlido para
contrastar la normalidad, en verdad esto no es del todo cierto. El KolmogorovSmirnov asume conocida la media y varianza poblacional, lo que, en la mayora de
los casos, es imposible conocer. Esto hace que el test sea muy conservador y poco
potente. Para solventar este problema, se desarroll una modificacin del
Kolmogorov-Smirnov conocida como test Lilliefors. El test Lilliefors asume que
la media y varianza son desconocidas, estando espacialmente desarrollado
para testear la normalidad.
Nota: De aqu partimos que es indispensable hacer uso de las 2 pruebas para una
mayor seguridad en los resultados.
Shapiro Wilk: El test de Shapiro-Wilk es un contraste de ajuste que se utiliza
para comprobar si unos datos determinados (X1, X2,, Xn) han sido extrados de
una poblacin normal. Los parmetros de la distribucin no tienen por qu ser
conocidos y est adecuado para muestras pequeas (n<50).
Un contraste de ajuste tiene como objetivo comprobar si con base en la informacin
suministrada por una muestra se puede aceptar que la poblacin de origen sigue una
determinada distribucin de probabilidad, en nuestro caso, la distribucin normal.

4.2 Supuestos a considerar.


Kolmogorov-Smirnov y Lilliefors:
Suponemos que las tasas de desempleo son independientes para cada ao,
es decir, que no afecta una a otra. Estas tasas tienen un tamao de muestra
17 que provienen de alguna distribucin desconocida. La media y la
varianza muestral las obtenemos por medio de estimaciones.
Shapiro Wilk:

En el caso de la prueba de Shapiro Wilk tenemos que tener cuenta que


cumple los mismos supuestos que las pruebas de K-S y Lilliefors, con la
nica diferencia que tanto la media como la varianza muestral no son
especificadas.

4.3 Hiptesis.
Las hiptesis que consideramos para la verificacin de normalidad de nuestras tasas
de desempleo son las siguientes:
H0: La distribucin muestreada se distribuye normalmente.

Pgina |7

VS
H1: La distribucin muestreada no se distribuye normalmente.
As estas hiptesis son aplicadas para las 3 pruebas mencionadas anteriormente.

4.4 Estimacin de parmetros.


Resumen Estadstico para Tasas
Recuento
17
Promedio
4.0067
Mediana
3,91583
Varianza
1.00127
Desviacin Estndar 1.00063
Coeficiente de
24.974%
Variacin
Mnimo
2.505
Mximo
5.47907
Rango
2.97407
Sesgo Estandarizado -0.0385511
Curtosis
-1.2551
Curtosis
-1.05632
Estandarizada
Esta tabla muestra los estadsticos de resumen para Tasas. Incluye medidas de tendencia
central, medidas de variabilidad y medidas de forma. De particular inters aqu son el sesgo
estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra proviene de una distribucin normal. Valores de estos estadsticos fuera del rango
de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendera a invalidar
cualquier prueba estadstica con referencia a la desviacin estndar. En este caso, el valor
del sesgo estandarizado se encuentra dentro del rango esperado para datos provenientes una
distribucin normal. El valor de curtosis estandarizada se encuentra dentro del rango
esperado para datos provenientes de una distribucin normal.

4.5 Estadsticos de prueba.

K-S:

D= S ( x )F 0 ( x )

Pgina |8

Donde S ( x) es la funcin de distribucin emprica acumulativa de la


muestra y

F0 ( x ) es una distribucin normal de parmetros (4.0067,

1.00127)

Shapiro-Wilk:

X i X

i=1

W=
Donde

X i son las observaciones,

es la media muestral,

X ( y) es

l y-simo estadstico de orden, n es el nmero de observaciones, k es


aproximadamente n/2 y ai son coeficientes que obtenemos de la tabla
A16 de Practical Nonparametric Statistics de W. J. Conover.

Lilliefors:

D=|S ( x )F 0 ( x )|

Donde S ( x) es la funcin de distribucin emprica acumulativa de la


muestra y

F0 ( x ) es una distribucin normal con media y varianza

estimados.

4.6 Intervalos de confianza.


Intervalos de Confianza para Tasas
Intervalos de confianza del 95,0% para la media: 4,0067 +/- 0,51448 [3,49222;
4,52118]
Intervalos de confianza del 95,0% para la desviacin estndar: [0,745243; 1,52289]
Nota: Los intervalos de confianza fueron obtenidos por medio del software
Statgraphics.
Aqu se muestran los intervalos de confianza del 95,0% para la media y la desviacin
estndar de Tasas. La interpretacin clsica de estos intervalos es que, en muestreos
repetidos, estos intervalos contendrn la media verdadera la desviacin estndar
verdadera de la poblacin de la que fueron extradas las muestras, el 95,0% de las
veces. En trminos prcticos, puede establecerse con 95,0% de confianza, que la media
verdadera de Tasas se encuentra en algn lugar entre 3,49222 y 4,52118, en tanto que la
desviacin estndar verdadera est en algn lugar entre 0,745243 y 1,52289.

Pgina |9

5. Resultado de las pruebas.


El software utilizado fue R para la prueba K-S de dos colas y StatGraphics para ShapiroWilk y Lilliefors.
Nivel: =0.05
Pruebas:

5.1 Kolmogorov-Smirnov.
E.P.:
V.C.:

D ( obs ) =0.147328
D17 ,0 .05=0 .318

P-Valor: 0. 854269
R.R.: D 0.318
Resultado: Con un nivel de significancia 0.05 no se rechaza H0. No hay suficiente
evidencia estadstica para decir que la distribucin de las tasas de desempleo en
Mxico los ltimos 16 aos no son normales.

5.2 Shapiro-Wilk.
E.P.: W ( obs )=0 . 9362
V.C.: W 17 ,0 . 05=0 . 892
P-Valor: 0. 2758
R.R.: W <0.892
Resultado: Con un nivel de significancia 0.05 no se rechaza H0. No hay suficiente
evidencia estadstica para decir que la distribucin de las tasas de desempleo en
Mxico los ltimos 16 aos no son normales.

5.3 Lilliefors.
E.P.:
V.C.:

D ( obs ) =0 .14733
DL17 ,0 . 05 =0 . 22

P-Valor: 0. 4211
R.R.: D 0.22
Resultado: Con un nivel de significancia 0.05 no se rechaza H0. No hay suficiente
evidencia estadstica para decir que la distribucin de las tasas de desempleo en
Mxico los ltimos 16 aos no son normales.

P g i n a | 10

6. Conclusiones y sugerencias
Como resultado general hemos obtenido en las tres pruebas que con un nivel de
significancia 0.05 no se rechaza H0, por lo que no hay suficiente evidencia estadstica para
decir que la distribucin de las tasas de desempleo en Mxico de 1999-2015 no es normal.
Esto resulta enormemente til porque ahora podemos crear modelos con la suposicin de
normalidad, a su vez podemos crear predicciones e intervalos con este supuesto lo cual ser
increblemente til para ver el comportamiento del desempleo a travs de los aos,
suponiendo claro que no existan enormes cambios econmicos en el pas.
Por otra parte al concluir por las 3 pruebas que las tasas de desempleo se distribuyen
normal, de cierta forma afirmamos que se ha verificado la normalidad, por lo tanto adopta
alguna de las caractersticas de la normal como:
Tiene

una

nica

moda,

que

coincide

con

su

media

su

mediana.

Es simtrica con respecto a su media. Segn esto, para este tipo de variables existe una
probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un
dato menor. Podemos decir que las tasas de desempleo pueden ir variando, siempre y
cuando flucten alrededor de la media y como vimos en los intervalos de confianza hay un
rango
de
error.
La distancia entre la lnea trazada en la media y el punto de inflexin de la curva es igual a
una desviacin tpica. Cuanto mayor sea, ms aplanada ser la curva de la densidad.
El rea bajo la curva comprendida entre los valores situados aproximadamente a dos
desviaciones estndar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades
de
observar
un
valor
comprendido
en
el
intervalo.
La forma de la campana de Gauss depende de los parmetros. La media indica la posicin
de la campana, de modo que para diferentes valores de la grfica es desplazada a lo largo
del eje horizontal. Por otra parte, la desviacin estndar determina el grado de
apuntamiento de la curva. Cuanto mayor sea el valor de, ms se dispersarn los datos en
torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro indica, por
tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribucin.
Finalmente esta muestra sirve como base de datos para pruebas que impliquen como
supuestos distribucin normal, ya que claramente hemos visto como las propiedades de la
normal ayudan a una mejor manipulacin de datos.

7.

Referencias
1. OCDE. (2015). Unemployment rate in Mexico. octubre 26, 2016, de
OCDE. Sitio web: http://stats.oecd.org/index.aspx?queryid=36324#

P g i n a | 11

8. Apndices:
Anlisis descriptivo de datos en StatGraphics

Intervalos de confianza.

P g i n a | 12

Prueba K-S en StatGraphics

P g i n a | 13

Grfica Cuantil-Cuantil
6,2

Distribucin
Normal

Tasas

5,2

4,2

3,2

2,2
2,2

3,2

4,2
Distribucin Normal

5,2

6,2

Pruebas Shapiro-Wilk y Lilliefors en R

Das könnte Ihnen auch gefallen