Sie sind auf Seite 1von 7

Demostracin emp o rica del Teorema de Glivenko Cantelli para la funcin de distribucin de Zipf o o

Miguel Guevara A. miguel.guevara@postgrado.usm.cl 27 de septiembre de 2012


Resumen El presente documento detalla los aspectos bsicos referentes a la Ley a emp rica de Zipf, as como la distribucin de probabilidad asociada del o mismo nombre, para posteriormente elaborar una demostracin emp o rica del cumplimiento del teorema de Glivenco Cantelli.

1.

Introduccin o

George kingsley Zipf (1902-1950), fue un linguista de origen estadounidenu se, que se dedic al estudio de caracter o sticas estad sticas en diferentes lenguajes. Sus conslusiones ms relevantes han sido extrapoladas a caracter a sticas estad sticas de Internet y las redes sociales en l nea. Uno de sus libros ms premonitorios a constituye Human Behavior and the principle of least eort[5] en el que entrega una visin general, aplicada al comportamiento humano, de lo postulado o en su ley. Este trabajo toma como funcin de probabilidad, la Ley de Zipf, que o es aplicable a la mayor de corpus de textos. a

2.
2.1.

Marco terico o
Ley de Zipf

La Ley de Zipf es una ley emp rica formulada en la dcada de 1940 y en se e origin en base al estudio de diferentes lenguas, postulando que la frecuencia o de aparicin de las distintas palabras de un lenguaje, sigue una distribicin que o o puede aproximarse segn la siguiente expresin u o Pk 1/k s (1)

donde Pk representa la frecuencia de una palabra ordenada en la k-sima poe sicin (ranking) y el exponente s es prximo a 1. Esto implica que el segundo o o trmino de mayor frecuencia se repetir aproximadamente con frecuencia de e a

1/2 a la del primero y as sucesivamente. La ley de Zipf es considerada una de las principales contribuciones como herramienta de ranking, no slo de textos, o sino tambin de otras poblaciones de objetos, como las redes en l e nea, la red vial, la poblacin de ciudades de un pa el Internet entre otras. Tambin se la o s, e conoce como la distribucin discreta equivalente a la Ley de Pareto. Un anlisis o a detallado de estas dos leyes se puede encontrar en el trabajo de Neuman [3]. A continuacin se presenta una denicin formal de la Ley de Zipf. o o Denicin Sean N el nmero de elementos, k el ranking del elemento y s el o u valor del exponente que caracteriza la distribucin, entonces la funcin de o o masa de probabilidad (PMF) de Zipf, predice que dada una poblacin de o N elementos, la frecuencia de elementos de ranking k, f (k; s, N ), es: f (k; N, s) = 1/k s
N s i=1 (1/i )

(2)

Lo que tambin puede ser expresado en funcin de su nmero armnico e o u o generalizado HN,s , de la siguiente forma: f (k; N, s) = Donde
N

1/k s HN,s

(3)

HN,s =
i=1

(1/is )

(4)

2.2.

Funcin de Distribucin Acumulada o o

La funcin de distribucin acumulada (CDF) de la Ley de Zipf se obtiene de o o la siguiente ecuacin: o Hk,s HN,s (5)

Donde HN,s es el nmero armnico generalizado de orden N que se ha desu o k crito en la ecuacin 4 y HN,k es el numero armonico parcial hasta k, i=1 (1/is ). o La Figura 2.2 presenta la PMF para la Ley de Zipf para N = 50, con diferentes valores de s, tambin una grca log-log de la misma Ley en la que e a se puede apreciar que tiende a una l nea recta y la grca de la Distribucin a o Acumulada CMF.

2.3.

Ejemplo Emp rico de la Ley de Zipf

Un ejemplo emp rico se ha procesado para este informe, tomando como corpus de texto, el extraido de 171.991 mensajes de Twitter circunscritos a la zona de Chile, que se ha utilizado como dataset para trabajos en el rea de Stream a 2

Ley Zipf N =50 1 0.8 0.6 0.4 0.2 0 0 10 20 Ranking k Ley Zipf log-log N =50 0 -1 -2 -3 -4 -5 -6 0 0.5 1 1.5 2 log(k) CDF Zipf N =50 1 0.9 0.8 0.7 CDF 0.6 0.5 0.4 0.3 0.2 0 10 20 Ranking k 30 40 50 s=1 s=2 s=3 2.5 3 3.5 4 s=1 s=2 s=3 30 40 50

s=1 s=2 s=3

Figura 1: Ley de Zipf para diferentes valores de s, con N = 50. Ntese que o la distribucin es discreta, por lo que la l o nea que se ha ploteado, no indica continuidad y se ha utilizado solo con el n didctico de indicar el grco que a a describe.

log(PMF)

PMF

100 primeros terminos vocabulario Tweets 120000

100000

80000 Frecuencia

60000

40000

20000

0 0 20 40 60 80 100 Terminos del vocabulario, truncado a 100

Grafica log-log de todos los terminos 12

10

8 Frecuencia

0 0 2 4 6 8 10 12 14 Terminos del vocabulario

Figura 2: Ley de Zipf para corpus de Tweets N = 100 Volumen Prediction [1]. Procesado el dataset de este corpus se obtienen 200.653 trminos (N ) que se denen como el vocabulario del corpus. Se ha obtenido la e frecuencia, f y el ranking k para cada trmino y se ha ploteado el resultado e de los primeros 100 trminos, que se presenta en la Figura 2.3, donde se puede e apreciar que esta coleccin emp o rica es similar a la Ley propuesta por Zipf. En la misma Figura se han ploteado todos los trminos del vocabulario en una grca e a log-log, en la que se puede apreciar que tiende a una l nea recta.

2.4.

Distribucin de Zipf-Mandelbrot o

La distribucin de Zipf-Mandelbrot es una extensin a los trabajos iniciales o o de Zipf, mencionados en la seccin 2.1, y es una generalizacin realizada por el o o matemtico Beno Mandelbrot, padre de la matemtica de fractales. La funcin a t a o de masa de probabilidad viene dada por: f (k; N, q, s) = 1/(k + q)s HN,q,s (6)

Parmetros a N N f inito, q = 0 N , q = 0

Resultado (s, q) 1 k s HN,s 1 k s s

Funcin o Funcin Zeta de Hurwitz o Ley de Zipf Funcin Zeta o

Cuadro 1: Relacion de funcin Zipf-Mandelbort con otras funciones o donde HN,q,s est dado por: a
N

HN,q,s =
i=1

1 (i + q)s

(7)

lo que puede ser visto como una generalizacin de un nmero armnico. o u o En la ecuacin (6) k representa el ranking del dato, mientras que q y s, son o parmetros de la distribucin. a o 2.4.1. Relacin con otras funciones o

En la Tabla 1, se presenta la relacin de la distribucin de Zipf-Mandelbort, o o con otras leyes y funciones, cuando los parmetros tienden al l a mite.

2.5.

Toerema de Glivenko-Cantelli

El teorema de Glivenko-Cantelli, creado en 1.933 y que se debe a Valery Ivanovich Glivenko y Francesco Paolo Cantelli, quienes postularon el comportamiento asinttico de una funcin de distribucin emp o o o rica, a medida que crece el nmero de observaciones independientes e idnticamente distribuidas (iid)1 . u e Teorema Sean X1 , X2 , ..., Xn variables aleatorias independientes e idnticae mente distribuidas en R con funcin de distribucin acumulada F (x). Cuo o ya funcin de distribucin emp o o rica est dada por a 1 Fn (x) = n
n

I(,x] (Xi ),
i=1

(8)

donde IC es la funcin indicatriz del conjunto C. o Fn F casi seguramente.


implica que cada variable aleatoria tiene la misma distribucin y que todas son o mutuamente independientes.
1 Esto

= sup|Fn (x) F (x)| 0,


xR

(9)

3.

Metodolog a

Para la comprobacin emp o rica del teorema de Glivenko y Cantelli, se utilizar la ley de Zipf, como funcin de distribucin. Esta funcin ha sido descrita a o o o en la seccin 2.1 y para gracar la funcin de distribucin se ha utilizado la o o o frmula de la ecuacin 5. o o La implementacin se ha realizado con el software GNU-Octave. Para sio mulacin se utiliz el algoritmo estndar para variables aleatorias discretas [4], o o a el cual consiste en simular uniforme cero-uno (U ), comparar con las probabilidades de la variable distribuidas segn la ley de Zipf (pk ) y tomar X = k si u pk1 < U < pk . Se realizaron experimentos con varios valores para los nmeros u de simulaciones.

4.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0

Resultados
1 CDF Simulacion 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 10 20 30 40 50 0 10 20 30 40 50 CDF Simulacion

70

60 4 50 3

40

30

20 1 10

0 0 10 20 30 40 50

0 0 10 20 30 40 50

(a) 101 Simulaciones


1 CDF Simulacion 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0 10 20 30 40 50 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0 1

(b) 102 Simulaciones


CDF Simulacion

10

20

30

40

50

500

5000

400

4000

300

3000

200

2000

100

1000

0 0 10 20 30 40 50

0 0 10 20 30 40 50

(c) 103 Simulaciones

(d) 104 Simulaciones

Figura 3: Se presentan varias simulaciones comparadas con la Distribucin acuo mulada y un histograma con los valores simulados.

La Figura 3 presenta los grcos de los diferentes experimentos, comparando a la distribucin acumulada terica con distintas simulaciones en orden de diez, o o tambin presenta un histograma de los nmeros generados. e u Ntees que cuando el nmuero de simulaciones crece, los datos emp o ricos convergen a la informacin te rica, segn lo planteado por el teorema en estudio. o o u

5.

Conclusiones

Se ha conseguido elaborar una demostracin emp o rica del teorema de Glivenko y Cantelli de la distribucin de Zipf a travs de la generacin de datos o e o simulados. Se recomienda revisar tambin, otras demostraciones emp e ricas del teorema en cuestin para otras distribuciones como normal, uniforme y gama, las mismas o que se pueden visualizar de forma interactiva en [2].

Referencias
[1] Gabriela Dominguez, Juan Zamora, Miguel Guevara, Hector Allende, and Rodrigo Salas. Stream volume prediction in twitter with articial neural network. In Proceedings of the 1st International Conference on Pattern Recognition Applications and Methods, pages 488493, 2012. [2] Tomas Garza. Convergence of the empirical distribution function of a sample. Consultado 16 de junio de 2012. [3] Mark Newman. Power laws, Pareto distributions and Zipfs law. Contemporary Physics, 46:323351, September 2005. [4] Christian Robert and George Casella. Monte Carlo Statistical Methods. Springer, 2nd edition, July 2004. [5] George Kingsley Zipf. Human behavior and the principle of least eort. Addison-Wesley Press, 1949.

Das könnte Ihnen auch gefallen