Sie sind auf Seite 1von 3

Simulao do nvel de atualizao de um repositrio de pginas Web, utilizando a mtrica Age.

Rodrigo Giro de Freitas1, Prof. Crston Pereira de Souza2 1,2 Universidade Federal do Cear Campus Quixad, Quixad, Cear, Brasil. rodrigogirao7@gmail.com, criston@ufc.br

Resumo. O projeto consiste em encontrar boas estratgias de atualizao de repositrios de pginas Web mantido por uma mquina de busca, como por exemplo, Google e Yahoo!. Neste artigo mostrada a parte do projeto em que feito o clculo do tempo mdio de desatualizao do repositrio, usando a mtrica age. Foram simuladas as modificaes e revisitaes das pginas do repositrio. No final foi calculado o age do repositrio e o total de revisitaes realizadas.

1 Introduo
Para manter um repositrio de pginas Web atualizado, necessrio fazer revisitaes (downloads) frequentes a estas pginas. Isto necessrio, pois as pginas Web esto sendo modificadas constantemente, e estas modificaes no so comunicadas s mquinas de busca. Para fazer essas revisitaes preciso respeitar uma taxa limite de revisitaes, seno os servidores Web podem tratar essas revisitaes como ataque. Para isso no acontecer, as revisitaes devem respeitar um tempo mnimo entre elas. Chamamos esse tempo mnimo de restrio de politeness. Ento preciso respeitar a restrio de politeness e ao mesmo tempo fazer com que o repositrio fique o mais atualizado possvel. A isso chamamos de poltica de revisitao. Para entender essas polticas de revisitaes, foi estudado o trabalho (Souza, 2010) no qual foi considerada a mtrica freshness (Cho & Garcia-Molina, 2003). Neste projeto levamos em conta outra mtrica chamada age que tambm aparece em (Cho & Garcia-Molina, 2003) e procuramos ver como ficaria o comportamento dessas polticas. A mtrica age consiste basicamente no tempo mdio que as pginas de um repositrio ficam desatualizadas. Este artigo relata as atividades realizadas at ento neste projeto, que est ainda em fase inicial. Temos at aqui um simulador do ambiente encontrado por uma poltica de revisitao, que consiste em um conjunto de pginas Web que se modificam segundo um processo de Poisson, conforme evidenciado na literatura (Walpole, 2009), e um escalonador de revisitaes que segue a poltica MERGE proposta em (Souza, 2010). Temos tambm uma rotina de clculo do age, que utiliza os instantes de modificao e revisitao de cada pgina. Apresentamos a seguir a metodologia empregada e resultados experimentais preliminares indicando o age do repositrio que est sendo simulado.

2 Metodologia
A simulao foi realizada utilizando a linguagem de programao C, e bibliotecas para gerao de nmeros aleatrios e manipulao da estrutura de dados heap (Cormen, 2002). As bibliotecas utilizadas foram GSL (GNU Scientific Library) (GSL, 2011) para a gerao dos nmeros aleatrios e GDSL (Generic Data Structures Library) (GDSL, 2006) para manipular a estrutura de dados heap.

Projeto financiado com recursos da FUNCAP

A heap utilizada pela poltica MERGE (Seo 3.1), onde o topo dessa estrutura consiste na prxima pgina que ser revisitada. Ela tambm garante que as revisitaes sejam igualmente espaadas no tempo. 3 Simulador Os principais mdulos do simulador desenvolvido so apresentados a seguir. 3.1 Gerao dos instantes de revisitao das pginas, de acordo com a poltica MERGE (igualmente espaadas) Na poltica MERGE, as revisitaes uma mesma pgina so igualmente espaadas no tempo. Portanto, quando revisitamos uma pgina, podemos determinar o instante em que ocorrer sua prxima revisitao. Para determinar de forma eficiente a prxima pgina a ser revisitada, mantemos uma heap de pginas, onde a chave de cada pgina seu prximo instante de revisitao. A pgina retirada do topo da heap revisitada, retornando logo em seguida para a heap com sua chave atualizada para o instante de sua prxima revisitao. 3.2 Gerao dos instantes de modificao das pginas Mantemos na estrutura de cada pgina o instante em que ocorrer a prxima modificao desta pgina. Se uma pgina est retornando para a heap, e o instante atual de simulao superior ao instante da prxima modificao da pgina, ento atualizamos o instante da prxima modificao da pgina com um nmero aleatrio com distribuio exponencial e parmetro igual ao tempo mdio entre modificaes da pgina. Note que esta forma de atualizar o instante da prxima modificao s est correta pelo fato da distribuio exponencial possuir a propriedade de ser sem memria (Walpole, 2009). 3.3 Clculo do age Considere uma pgina p retirada do topo da heap no instante t. Seja m o instante da prxima modificao de p, armazenado no instante em que a pgina p entrou na heap. Se m < t, podemos ento incrementar o tempo total de desatualizao de p com o valor da expresso t - m. O age da pgina p ento obtido no final da simulao atravs do tempo total de desatualizao de p, dividido pelo tempo total de simulao. 3.4 Clculo das frequncias de revisitaes A frequncia de revisitao de cada pgina determinada pela poltica MERGE, mas esta rotina ainda no foi implementada neste projeto. Portanto, para testar o clculo do age, foi fixado o valor da frequncia em 1. A motivao dessa escolha foi porque esse valor facilitava os clculos tericos, que so utilizados para comparar com os resultados experimentais.

4 Resultados experimentais
Para comparar os resultados experimentais com os tericos, usamos a frmula abaixo do age demonstrada em (Cho & Garcia-Molina, 2003), onde o taxa de modificao da pgina e t o tempo entre revisitaes consecutivas:

Como fixamos o valor de t em 1, empregamos a frmula simplificada abaixo: ( ) Para obter os resultados experimentais foram feitas 100 simulaes com cada uma tendo 1000 dias. Para cada simulao foi incrementado o valor de em , iniciando em e terminando em 10. Os resultados obtidos so mostrados na Figura 1, bem como o age terico esperado:

Age
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.61.21.82.4 3 3.64.24.85.4 6 6.67.27.88.4 9 9.6 Taxas de modificaes
Figura 1 age da pgina (experimental e terico), variando a taxa de modificaes.

Experimental Terico

5 Concluses
Foi visto que os resultados prticos convergiam para os tericos, isso mostra que o projeto est no caminho correto. Futuramente sero feitos testes com mais pginas, com frequncias calculadas a partir de uma frmula e com as taxas de modificaes coletadas de pginas reais.

6 Referncias
Cho, J., & Garcia-Molina, H. (2003). Effective Page Refresh Policies for Web Crawlers. Los Angeles, California;Stanford, California: University of California;Stanford University. Cormen, T. H. (2002). Algoritmos - Teoria e Prtica (2 ed.). Campus Editora. GDSL. (2006). Generic Data Structures Library. Fonte: http://home.gna.org/gdsl/ GSL. (2011). GNU Scientific Library. Fonte: http://www.gnu.org/s/gsl/ Souza, C. (2010). Polticas Eficientes para Revisitao de Pginas Web. Tese de Doutorado. PUC-Rio. Walpole, R. E. (2009). Probabilidade e estatstica : para engenharia e cincias (8 ed.). So Paulo, SP: Pearson/ Prentice Hall.

Das könnte Ihnen auch gefallen