Tarea 1 Funcion Prob 3

Demostracin emp o rica del Teorema de Glivenko Cantelli para la funcin de distribucin de Zipf o o
Miguel Guevara A. miguel.guevara@postgrado.usm.cl 27 de septiembre de 2012

Resumen El presente documento detalla los aspectos bsicos referentes a la Ley a emp rica de Zipf, as como la distribucin de probabilidad asociada del o mismo nombre, para posteriormente elaborar una demostracin emp o rica del cumplimiento del teorema de Glivenco Cantelli.
1.
Introduccin o
George kingsley Zipf (1902-1950), fue un linguista de origen estadounidenu se, que se dedic al estudio de caracter o sticas estad sticas en diferentes lenguajes. Sus conslusiones ms relevantes han sido extrapoladas a caracter a sticas estad sticas de Internet y las redes sociales en l nea. Uno de sus libros ms premonitorios a constituye Human Behavior and the principle of least eort[5] en el que entrega una visin general, aplicada al comportamiento humano, de lo postulado o en su ley. Este trabajo toma como funcin de probabilidad, la Ley de Zipf, que o es aplicable a la mayor de corpus de textos. a
2.
2.1.
Marco terico o
Ley de Zipf
La Ley de Zipf es una ley emp rica formulada en la dcada de 1940 y en se e origin en base al estudio de diferentes lenguas, postulando que la frecuencia o de aparicin de las distintas palabras de un lenguaje, sigue una distribicin que o o puede aproximarse segn la siguiente expresin u o Pk 1/k s (1)
donde Pk representa la frecuencia de una palabra ordenada en la k-sima poe sicin (ranking) y el exponente s es prximo a 1. Esto implica que el segundo o o trmino de mayor frecuencia se repetir aproximadamente con frecuencia de e a
1/2 a la del primero y as sucesivamente. La ley de Zipf es considerada una de las principales contribuciones como herramienta de ranking, no slo de textos, o sino tambin de otras poblaciones de objetos, como las redes en l e nea, la red vial, la poblacin de ciudades de un pa el Internet entre otras. Tambin se la o s, e conoce como la distribucin discreta equivalente a la Ley de Pareto. Un anlisis o a detallado de estas dos leyes se puede encontrar en el trabajo de Neuman [3]. A continuacin se presenta una denicin formal de la Ley de Zipf. o o Denicin Sean N el nmero de elementos, k el ranking del elemento y s el o u valor del exponente que caracteriza la distribucin, entonces la funcin de o o masa de probabilidad (PMF) de Zipf, predice que dada una poblacin de o N elementos, la frecuencia de elementos de ranking k, f (k; s, N ), es: f (k; N, s) = 1/k s
N s i=1 (1/i )
(2)
Lo que tambin puede ser expresado en funcin de su nmero armnico e o u o generalizado HN,s , de la siguiente forma: f (k; N, s) = Donde
N
1/k s HN,s
(3)
HN,s =
i=1
(1/is )
(4)
2.2.
Funcin de Distribucin Acumulada o o
La funcin de distribucin acumulada (CDF) de la Ley de Zipf se obtiene de o o la siguiente ecuacin: o Hk,s HN,s (5)
Donde HN,s es el nmero armnico generalizado de orden N que se ha desu o k crito en la ecuacin 4 y HN,k es el numero armonico parcial hasta k, i=1 (1/is ). o La Figura 2.2 presenta la PMF para la Ley de Zipf para N = 50, con diferentes valores de s, tambin una grca log-log de la misma Ley en la que e a se puede apreciar que tiende a una l nea recta y la grca de la Distribucin a o Acumulada CMF.
2.3.
Ejemplo Emp rico de la Ley de Zipf
Un ejemplo emp rico se ha procesado para este informe, tomando como corpus de texto, el extraido de 171.991 mensajes de Twitter circunscritos a la zona de Chile, que se ha utilizado como dataset para trabajos en el rea de Stream a 2
Ley Zipf N =50 1 0.8 0.6 0.4 0.2 0 0 10 20 Ranking k Ley Zipf log-log N =50 0 -1 -2 -3 -4 -5 -6 0 0.5 1 1.5 2 log(k) CDF Zipf N =50 1 0.9 0.8 0.7 CDF 0.6 0.5 0.4 0.3 0.2 0 10 20 Ranking k 30 40 50 s=1 s=2 s=3 2.5 3 3.5 4 s=1 s=2 s=3 30 40 50
s=1 s=2 s=3
Figura 1: Ley de Zipf para diferentes valores de s, con N = 50. Ntese que o la distribucin es discreta, por lo que la l o nea que se ha ploteado, no indica continuidad y se ha utilizado solo con el n didctico de indicar el grco que a a describe.
log(PMF)
PMF
100 primeros terminos vocabulario Tweets 120000
100000
80000 Frecuencia
60000
40000
20000
0 0 20 40 60 80 100 Terminos del vocabulario, truncado a 100
Grafica log-log de todos los terminos 12
10
8 Frecuencia
0 0 2 4 6 8 10 12 14 Terminos del vocabulario
Figura 2: Ley de Zipf para corpus de Tweets N = 100 Volumen Prediction [1]. Procesado el dataset de este corpus se obtienen 200.653 trminos (N ) que se denen como el vocabulario del corpus. Se ha obtenido la e frecuencia, f y el ranking k para cada trmino y se ha ploteado el resultado e de los primeros 100 trminos, que se presenta en la Figura 2.3, donde se puede e apreciar que esta coleccin emp o rica es similar a la Ley propuesta por Zipf. En la misma Figura se han ploteado todos los trminos del vocabulario en una grca e a log-log, en la que se puede apreciar que tiende a una l nea recta.
2.4.
Distribucin de Zipf-Mandelbrot o
La distribucin de Zipf-Mandelbrot es una extensin a los trabajos iniciales o o de Zipf, mencionados en la seccin 2.1, y es una generalizacin realizada por el o o matemtico Beno Mandelbrot, padre de la matemtica de fractales. La funcin a t a o de masa de probabilidad viene dada por: f (k; N, q, s) = 1/(k + q)s HN,q,s (6)
Parmetros a N N f inito, q = 0 N , q = 0
Resultado (s, q) 1 k s HN,s 1 k s s
Funcin o Funcin Zeta de Hurwitz o Ley de Zipf Funcin Zeta o
Cuadro 1: Relacion de funcin Zipf-Mandelbort con otras funciones o donde HN,q,s est dado por: a
N
HN,q,s =
i=1
1 (i + q)s
(7)
lo que puede ser visto como una generalizacin de un nmero armnico. o u o En la ecuacin (6) k representa el ranking del dato, mientras que q y s, son o parmetros de la distribucin. a o 2.4.1. Relacin con otras funciones o
En la Tabla 1, se presenta la relacin de la distribucin de Zipf-Mandelbort, o o con otras leyes y funciones, cuando los parmetros tienden al l a mite.
2.5.
Toerema de Glivenko-Cantelli
El teorema de Glivenko-Cantelli, creado en 1.933 y que se debe a Valery Ivanovich Glivenko y Francesco Paolo Cantelli, quienes postularon el comportamiento asinttico de una funcin de distribucin emp o o o rica, a medida que crece el nmero de observaciones independientes e idnticamente distribuidas (iid)1 . u e Teorema Sean X1 , X2 , ..., Xn variables aleatorias independientes e idnticae mente distribuidas en R con funcin de distribucin acumulada F (x). Cuo o ya funcin de distribucin emp o o rica est dada por a 1 Fn (x) = n
n
I(,x] (Xi ),
i=1
(8)
donde IC es la funcin indicatriz del conjunto C. o Fn F casi seguramente.

implica que cada variable aleatoria tiene la misma distribucin y que todas son o mutuamente independientes.
1 Esto
= sup|Fn (x) F (x)| 0,

xR
(9)
3.
Metodolog a
Para la comprobacin emp o rica del teorema de Glivenko y Cantelli, se utilizar la ley de Zipf, como funcin de distribucin. Esta funcin ha sido descrita a o o o en la seccin 2.1 y para gracar la funcin de distribucin se ha utilizado la o o o frmula de la ecuacin 5. o o La implementacin se ha realizado con el software GNU-Octave. Para sio mulacin se utiliz el algoritmo estndar para variables aleatorias discretas [4], o o a el cual consiste en simular uniforme cero-uno (U ), comparar con las probabilidades de la variable distribuidas segn la ley de Zipf (pk ) y tomar X = k si u pk1 < U < pk . Se realizaron experimentos con varios valores para los nmeros u de simulaciones.
4.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0
Resultados
1 CDF Simulacion 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 10 20 30 40 50 0 10 20 30 40 50 CDF Simulacion
70
60 4 50 3
40
30
20 1 10
0 0 10 20 30 40 50
0 0 10 20 30 40 50
(a) 101 Simulaciones

1 CDF Simulacion 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0 10 20 30 40 50 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0 1
(b) 102 Simulaciones

CDF Simulacion
10
20
30
40
50
500
5000
400
4000
300
3000
200
2000
100
1000
0 0 10 20 30 40 50
0 0 10 20 30 40 50
(c) 103 Simulaciones
(d) 104 Simulaciones
Figura 3: Se presentan varias simulaciones comparadas con la Distribucin acuo mulada y un histograma con los valores simulados.
La Figura 3 presenta los grcos de los diferentes experimentos, comparando a la distribucin acumulada terica con distintas simulaciones en orden de diez, o o tambin presenta un histograma de los nmeros generados. e u Ntees que cuando el nmuero de simulaciones crece, los datos emp o ricos convergen a la informacin te rica, segn lo planteado por el teorema en estudio. o o u
5.
Conclusiones
Se ha conseguido elaborar una demostracin emp o rica del teorema de Glivenko y Cantelli de la distribucin de Zipf a travs de la generacin de datos o e o simulados. Se recomienda revisar tambin, otras demostraciones emp e ricas del teorema en cuestin para otras distribuciones como normal, uniforme y gama, las mismas o que se pueden visualizar de forma interactiva en [2].
Referencias
[1] Gabriela Dominguez, Juan Zamora, Miguel Guevara, Hector Allende, and Rodrigo Salas. Stream volume prediction in twitter with articial neural network. In Proceedings of the 1st International Conference on Pattern Recognition Applications and Methods, pages 488493, 2012. [2] Tomas Garza. Convergence of the empirical distribution function of a sample. Consultado 16 de junio de 2012. [3] Mark Newman. Power laws, Pareto distributions and Zipfs law. Contemporary Physics, 46:323351, September 2005. [4] Christian Robert and George Casella. Monte Carlo Statistical Methods. Springer, 2nd edition, July 2004. [5] George Kingsley Zipf. Human behavior and the principle of least eort. Addison-Wesley Press, 1949.

Tarea 1 Funcion Prob 3

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tarea 1 Funcion Prob 3

Hochgeladen von

Copyright:

Verfügbare Formate

Demostracin emp o rica del Teorema de Glivenko Cantelli para la funcin de distribucin de Zipf o o

Miguel Guevara A. miguel.guevara@postgrado.usm.cl 27 de septiembre de 2012

Funcin de Distribucin Acumulada o o

Ejemplo Emp rico de la Ley de Zipf

s=1 s=2 s=3

100 primeros terminos vocabulario Tweets 120000

0 0 20 40 60 80 100 Terminos del vocabulario, truncado a 100

Grafica log-log de todos los terminos 12

0 0 2 4 6 8 10 12 14 Terminos del vocabulario

Resultado (s, q) 1 k s HN,s 1 k s s

Funcin o Funcin Zeta de Hurwitz o Ley de Zipf Funcin Zeta o

donde IC es la funcin indicatriz del conjunto C. o Fn F casi seguramente.

= sup|Fn (x) F (x)| 0,

(a) 101 Simulaciones

(b) 102 Simulaciones

(c) 103 Simulaciones

(d) 104 Simulaciones

Das könnte Ihnen auch gefallen