Sie sind auf Seite 1von 42

Trabalho

A Internet vista como um grafo

Algoritmos e Estruturas de Dados

Equipe
Anthony Vieira
(anthony_vieira@yahoo.com.br) Emerson Assis de Carvalho (assis.emerson@gmail.com) Lnio Oliveira Prado Jnior (lenio.junior@gmail.com) Vinicius Paes (viniciuspaes@gmail.com) Professor: Larcio Baldochi
Algoritmos e Estruturas de Dados 2

Roteiro
Introduo Fundamentao Terica A Internet como um Grafo Tcnicas Aplicveis a Grafos da Web Concluses Referncias Bibliogrficas
3

Algoritmos e Estruturas de Dados

Introduo
Objetivo
Exemplificar o estudo da internet com analogia da teoria de grafos. Caracterizao da topologia de sinergia entre as diversas pginas web.

Algoritmos e Estruturas de Dados

Introduo
Contexto
Internet em constante crescimento, utilizao da teoria de grafos relevante perante sua robustez e aplicaes e estudos previamente elaborados.

Algoritmos e Estruturas de Dados

Introduo
Justificativa
A internet com certeza a grande aposta no presente e no futuro. totalmente relevante realizar estudos na rea afim de verificar suas caractersticas, verificar modelos de comportamento e at prever tendncias.

Algoritmos e Estruturas de Dados

Fundamentao
O que um grafo?
Representao Vrtices/Arestas

Como o grafo Web?


Necessrio abstrao da teoria dos grafos na internet. Como e quem so os Vrtices? Como feita a ligao das arestas? Importncia em definir direo das arestas (dgrafo)? Como montado (Base de Dados)?

Algoritmos e Estruturas de Dados

Fundamentao
Estrutura dos Grafos da Web
Ncleo Bipartido

Algoritmos e Estruturas de Dados

Fundamentao
Componentes Fortemente Conectados Componentes Fracamente Conectados

Algoritmos e Estruturas de Dados

Fundamentao
Caractersticas Relevantes aos Grafos Web
Arestas direcionadas so relevantes para estudo de qualidade de contedo Grafo em constante crescimento Necessidade de algoritmos auxiliares para manejar a base de dados: algoritmo de memria secundria (HD).

Algoritmos e Estruturas de Dados

10

A web como um grafo


Viso Geral;
Estudos experimentais dos webgraphs; Anlise de Propriedades;
PageRank; Componentes conexas; Graus de distribuio;

Algoritmos e Estruturas de Dados

11

A web como um grafo


Importncia
Ranqueamento de documentos web; Estratgias de crawler; Compreenso da criao de contedo; Comportamento de algoritmos (links).

Algoritmos e Estruturas de Dados

12

A web como um grafo


Pesquisas
Amostras (crawls); Representao como grafo; Informaes estatsticas e topolgicas; Modelos de evoluo;

Algoritmos e Estruturas de Dados

13

A web como um grafo


Dimenso dos experimentos
Amostra (crawl)
Datada de 2001; 200 milhes de pginas; Aproximadamente 1.4 bilhes de arestas;

Web
Aproximadamente 2.1 bilhes de pginas;

Algoritmos e Estruturas de Dados

14

A web como um grafo


Estrutura da web
Cinco regies; Dimenses.

Algoritmos e Estruturas de Dados

15

A web como um grafo


Anlise da Estrutura
Lei de potncia (Power Low)
Relao de potncia entre duas variveis;
m = ank

Usada na distribuio de probabilidades;

Redes livres de escala (Scale-free)


Distribuio de ns segue uma lei de potncia;

Algoritmos e Estruturas de Dados

16

A web como um grafo


Anlise da Estrutura (cont.)

Algoritmos e Estruturas de Dados

17

A web como um grafo


In-Degree (grau de entrada)
O grau de entrada de um site (vrtice) refere-se ao nmero de links (arestas) que apontam para ele; Lei de Potncia.

Algoritmos e Estruturas de Dados

18

A web como um grafo


Out-Degree (grau de sada)
O grau de sada de um site (vrtice) refere-se ao nmero de links (arestas) que ele possui apontando para outros sites.

Algoritmos e Estruturas de Dados

19

A web como um grafo


PageRank
Facilidade na busca de resultados; Ranking por apontamentos; Qualidade de links; Relao PageRank e In-Degree.

Algoritmos e Estruturas de Dados

20

A web como um grafo


PageRank (cont.)
Lei de Potncia; Relao PageRank e In-Degree.

Algoritmos e Estruturas de Dados

21

A web como um grafo


Regies do Grafo Como encontrar?
SCC; IN; OUT; TENDRIL; TUBES.

Algoritmos e Estruturas de Dados

22

A web como um grafo


SCC
A partir do n U realiza busca direcionada e forma um conjunto X; Nova busca no direcionada feita, formando-se outro conjunto Y; SCC a interseo dos dois conjuntos X e Y encontrados.

Maior SCC
O procedimento repetido para um conjunto S de ns escolhidos aleatoriamente.
Algoritmos e Estruturas de Dados 23

A web como um grafo


IN
Travessia no direcionada a partir de SCC; SCC + IN; Retira-se SCC.

OUT
Travessia direcionada a partir de SCC; SCC + OUT; Retira-se SCC.

Algoritmos e Estruturas de Dados

24

A web como um grafo


TENDRIL - TENDRIL_IN U TENDRIL_OUT
TENDRIL_IN
Travessia direcionada a partir de IN; Retira-se SCC, IN e OUT.

TENDRIL_OUT
Travessia no direcionada a partir de OUT; Retira-se SCC, IN e OUT.

TUBES = TENDRIL_IN TENDRIL_OUT DISCONNECTED: Conjunto restante.


Algoritmos e Estruturas de Dados 25

A web como um grafo


Modelos Estocsticos
Finalidade; Evolving; Copying; Multicamadas.

Algoritmos e Estruturas de Dados

26

A web como um grafo


Finalidade
Reproduzir propriedades topolgicas; Crescimento; Evoluo.

Algoritmos e Estruturas de Dados

27

A web como um grafo


Evolving
Insero em intervalos aleatrios; Nmero constante de vrtices; Regra de anexao preferencial.

Algoritmos e Estruturas de Dados

28

A web como um grafo


Copying
Insero em intervalos aleatrios; Nmero constante de vrtices; Escolha randmica de prottipo; Fator de cpia (prottipo x randmico).

Algoritmos e Estruturas de Dados

29

A web como um grafo


Multicamadas
Particionamento em vises; Regras de atribuio camadas; Tpicos.

Algoritmos e Estruturas de Dados

30

A web como um grafo


Atribuio camadas:
Extra-Layer:
Nmero fixo de camadas; Probabilidade proporcional ao nmero de elementos j existentes.

Intra-Layer:
Links entre camadas usa o modelo Evolving, Copying ou hbrido.
Algoritmos e Estruturas de Dados 31

A web como um grafo


Simulao dos modelos

Algoritmos e Estruturas de Dados

32

Tcnicas Aplicveis a Grafos na Web


A Internet o maior repositrio pblico de dados da atualidade.

Algoritmos e Estruturas de Dados

33

Tcnicas Aplicveis a Grafos na Web


Necessidade de busca da informao!
Indexao de informao; Atualmente - Minerao de dados nos grafos.

Algoritmos e Estruturas de Dados

34

Tcnicas Aplicveis a Grafos na Web


Pesquisa na internet
Diretrio de Pesquisa
Navegao dentro de pastas

Mecanismos de Busca por grafos


Pgina = n Link = aresta Lista de caminhos fechados e abertos

Meta Busca
Termos muito especficos e difcil de encontrar
Algoritmos e Estruturas de Dados 35

Tcnicas Aplicveis a Grafos na Web


Data Mining
Preditiva e descritiva Minerao de Contedo Minerao de Estrutura Minerao de Uso

Algoritmos e Estruturas de Dados

36

Tcnicas Aplicveis a Grafos na Web


Minerao de Grafos
Baseados em medidas de distncia para clculo de similaridade ou dissimilaridade.
Distncia de edio Localizao do maior sub-grafo

Algoritmos e Estruturas de Dados

37

Concluso
Importncia do Estudo:
Futuro a web.

Estudo de um universo amostral reflete no universo real.


Antecipar desenvolvimento de aplicativos de suporte, estudo de crescimento, etc.

Utilizao da estrutura de grafo super pertinente na abstrao da web.

Algoritmos e Estruturas de Dados

38

Referncias Bibliogrficas
BRODER et. al. 00. A. BRODER, R. KUMAR, F. MAGHOUL, P. RAGHAVAN, S. RAJAGOPALAN, S. STATA, A. TOMKINS e J. WIENER. Graph structure in the web. In Proceedings of the 9th WWW conference 2000.

DONATO et. al. 07. DONATO D.; LAURA L.; LEONARDI S.; MILLOZZI S. The Web as a Graph: How Far We Are. Universisty of Rome, Italy, 2007. ACM Transactions on Internet Technology (TOIT), Volume 7 Issue 1, February 2007. KLEINBERG et. al. 99. J. KLEINBERG, R. KUMAR, P. RAGHAVAN, S. RAJAGOPALAN, e A. TOMKINS. The web as a graph: measurements, models and methods, In Proc. Intl.Conf. on Combinatorics and Computing, 118 em 1999. DILL et. al. 01. S. DILL, R. KUMAR, K. MCCURLEY, S. RAJAGOPALAN, D. SIVAKUMAR e A. TOMKINS. Selfsimilarity in the web, In Proceedings of the 27th VLDB Conference 2001.

NAJORK, M.; ZARAGOZA, H.; TAYLOR, M.; Article Mining the Web Graph. Microsoft Research SIGIR, 2007.
KANTARDZIC, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons, 2003. WITTEN, Ian H. and FRANK, Eibe. Data Mining - Practical Machine Learning Tools and Techniques with Java Implementations, 2nd edition. Morgan Kaufmann Publishers, 2005.

Algoritmos e Estruturas de Dados

39

Referncias Bibliogrficas
GONZAGA, C. (1973). Estudo de Algoritmos de Busca em Grafos e Sua Aplicao a Problemas de Planejamento. Tese de Doutorado, COPPEUFRJ, Rio de Janeiro.

HART, P.; NILSSON, N. & Raphael, B. (1968). A Formal Basis for the Heuristic Determination of Minimum Cost Paths. IEEE Transactions on Systems Science and Cybernetics, 4(2).
HAY, Birgit, WETS, Geert, VANHOOF, Koen. Web usage mining by means of multidimensional sequence alignment methods. In Osmar R. Zaane, Jaideep Srivastava, Myra Spiliopoulou, and Brij Masand, editors, WEBKDD 2002 Mining Web Data for Discovering Usage Patterns and Profiles, 4th International Workshop, Edmonton, Canada, July 23, 2002, Revised Papers (LNAI 2703), 2003. PERNER, Petra. Data Mining on Multimedia Data, volume 2558. 2002. LINSTEAD, Erik, BAJRACHARYA, Sushil, NGO, Trung, RIGOR, Paul, LOPES, Cristina, BALDI, Pierre. Sourcerer: mining and searching internet-scale software repositories. Data Mining and Knowledge Discovery, 2009. BRIN e PAGE 98. S. BRIN, L. PAGE. The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 1998.

Algoritmos e Estruturas de Dados

40

Dvidas

Perguntas?

Algoritmos e Estruturas de Dados

41

Fim

Obrigado!

Algoritmos e Estruturas de Dados

42

Das könnte Ihnen auch gefallen