Sie sind auf Seite 1von 23

UNIVERSIDADE SALGADO DE OLIVEIRA CURSO: ANLISE DE SISTEMAS DISCIPLINA: INTERNET E RECUPERAO DA INFORMAO

LEANDRO CALDAS SIQUEIRA

ESTRATGIAS DE BUSCA: RELEVNCIA E EFICINCIA APLICADAS A PESQUISAS

Niteri 2010

LEANDRO CALDAS SIQUEIRA

ESTRATGIAS DE BUSCA: RELEVNCIA E EFICINCIA APLICADAS A PESQUISAS

Projeto apresentado Disciplina de Internet e Recuperao da Informao do curso de Anlise de Sistemas da Universidade Salgado de Oliveira UNIVERSO, como parte dos requisitos para trabalhos acadmicos Orientador: Prof Andr Lcio de Oliveira Mestre em Educao

Niteri 2010

Sumrio

Lista de Figuras ............................................................................................................................... 5 Introduo ........................................................................................................................................ 6 Parte 1: Os quatro escolhidos ........................................................................................................ 7 Google .......................................................................................................................................... 7 Yahoo! .......................................................................................................................................... 8 Ask.com........................................................................................................................................ 9 Lycos ............................................................................................................................................ 9 Parte 2: Tcnicas de Busca Bsica ..............................................................................................10 Pesquisando em Ttulos ............................................................................................................10 Pesquisando em Textos ............................................................................................................10 Pesquisa em URLs.....................................................................................................................11 Pesquisa por ncora de Link ....................................................................................................11 Pesquisa por Sites .....................................................................................................................11 Pesquisa por Links .....................................................................................................................12 Pesquisa por Sinnimos ............................................................................................................13 Parte 3: Principais Aspectos da Lgica de Boole........................................................................13 OR ...............................................................................................................................................13 AND .............................................................................................................................................14 NOT .............................................................................................................................................15 NEAR...........................................................................................................................................15 Truncamento ...............................................................................................................................16 Parte 4: Principais Mtodos Avanados de Pesquisa ................................................................17 Buscas Relacionadas ................................................................................................................17 Documentos Aps Data Especfica ..........................................................................................17 Busca Segura .............................................................................................................................18

Busca na Cache .........................................................................................................................18 Busca Curinga ............................................................................................................................19 Curiosidades ...................................................................................................................................20 Concluso .......................................................................................................................................22 Bibliografia ......................................................................................................................................23

A presente obra encontra-se licenciada sob a licena Creative Commons Attribution-NonCommercialNoDerivs. Para visualizar uma cpia da licena, visite http://creativecommons.org/licenses/by-ncnd/3.0/br/ ou mande uma carta para: Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.

Lista de Figuras
Figura 1: Pgina inicial do Google ............................................................................... 7 Figura 2: Pgina inicial do Yahoo! ............................................................................... 8 Figura 3: Pgina inicial do Ask.com ............................................................................ 9 Figura 4: Pgina inicial do Lycos ................................................................................. 9 Tabela 5: Busca no Google utilizando OR................................................................. 14 Figura 6: Curiosidades do Google ............................................................................. 20

Introduo

engraado lembrar o saudoso tempo em que um grupinho de pessoas marcavam para ir juntos a Biblioteca mais prxima da cidade. Bons tempos aqueles sentia-se o cheiro de livro por todos os cantos. Hoje, vivemos outra realidade. No precisamos mais sair de casa para podermos consultar sobre determinado assunto, comprar um CD, um livro etc. Hoje temos a Internet, que, sem sombras de dvida, realizou um grande boom na sociedade. O mundo est distante de ns por um click. Porm, um inconveniente ainda permanece entre ns: a capacidade de realizar uma busca eficiente. Na verdade, a maioria das pessoas nunca ouviu falar sobre isso. Simplesmente, entram no site predileto de buscas, e digitam o que quer. Existe um universo de informaes alm disso! Na recuperao da informao, a estratgia de busca pode ser definida como um conjunto de protocolos que torna possvel o encontro entre a pergunta informada e sua respectiva informao armazenada em uma base de dados. Preparar uma estratgia de busca, bem como selecionar adequadamente um banco ou uma base de dados a ser consultada para responder a uma pergunta especfica, exige do usurio certos conhecimentos prvios (mecanismos de busca do banco de dados, lgica booleana e outros recursos oferecidos). Atualmente, o usurio comum ter de adquirir conhecimentos bsicos sobre os procedimentos de busca adequados a necessidades informacionais especficas.

Parte 1: Os quatro escolhidos


Para este trabalho acadmico, foram escolhidos quatro buscadores conceituados de pesquisa: Google, Yahoo!, Ask.com e Lycos.

Google
www.google.com.br

Figura 1: Pgina inicial do Google

quase impossvel algum nunca ter ouvido falar sobre o Google. Mesmo aquelas pessoas que ainda permanecem arredias quando se trata de tecnologia, ao menos j ouviram falar dele. O Google veio para ficar. H muito faz parte de nossas vidas. H quem diga que no conseguiria mais viver sem ele. Isso mostra o quanto a sua existncia no mundo moderno indispensvel. O mecanismo foi criado por Larry Page e Sergey Brin, dois ento estudantes da Universidade de Standford. Visando conseguir acesso ao curso de Doutorado em Cincias Informticas, criaram juntos um projeto de buscas conhecido como BackRub, que era restrito aos sites e bancos de dados da Biblioteca Digital da Universidade de Standford. O projeto era pouco para esta dupla de estudantes ambiciosa. Concluram que, para disponibilizar este mecanismo para fora dos portes de Standford, precisavam construir um novo motor de buscas.
7

O nome Google seria adotado em 1997, quando o projeto deixou de utilizar as mquinas de Standford, montando assim um Centro de Processamento de Dados (CPD) no quarto de Larry. No final de 1998, A Google Inc. foi fundada oficialmente e o resto histria. De acordo com estudos os Nielsen/NetRatings, em 2007, o Google utilizado por cerca de 53.6 % dos usurios de Internet nos Estados Unidos.

Yahoo!
br.yahoo.com

Figura 2: Pgina inicial do Yahoo!

O Yahoo! iniciou as suas atividades em 1994, criado pelos estudantes David Filo e Jerry Yang. Percebendo o crescimento das pginas na Web, a dupla desenvolveu uma coleo de sites, arranjados em categorias um diretrio Web e tornou-o disponvel para o usurio final. Aps o estrondoso sucesso, a empresa tornou-se pblica. O diretrio da dupla era chamado de Jerrys Guide To The World Wide Web. Pouco tempo depois, decidiram mudar o nome do projeto para Yahoo!, que, segundo a sua definio original, representa algo simples, rude e sem sofisticao. No entanto, alguns geeks1 afirmam que Yahoo! significa Yet Another Hierarchical Officious Oracle2.
1

Especialistas em informtica e indivduos super inteligentes. Mais um Orculo No-Oficial Categorizado

Ask.com
www.ask.com

Figura 3: Pgina inicial do Ask.com

O Ask.com, inicialmente conhecido como Ask Jeeves, possui uma histria interessante, que nos remete ao ano de 1996. Naquela poca, o Ask Jeeves ainda no era um mecanismo de busca, e sim, um site de perguntas e respostas. Seus criadores, Garrett Gruener e David Warthen, migraram para o sistema de buscas em 2001, aps terem adquirido o mecanismo de busca conhecido como Teoma. Nesta poca tambm alteraram o nome, mudando para Ask.com.

Lycos
www.lycos.com

Figura 4: Pgina inicial do Lycos

O Lycos fruto de um projeto de Michael Loren Mauldin. Michael desenvolveu o mecanismo enquanto trabalhava para o projeto Informedia Digital Library, na Universidade Carnegie Mellon. considerado o vov dos buscadores, j que considerado um dos primeiros buscadores de toda a histria.

Parte 2: Tcnicas de Busca Bsica


Todas as tcnicas aqui apresentadas funcionam nos selecionados para o estudo, exceto quando indicado. quatro buscadores

Pesquisando em Ttulos
Esta considerada uma das tcnicas bsicas que conseguem trazer mais pginas relevantes nos resultados da pesquisa. intitle: restringe a busca para os ttulos da pgina Web. Esta palavra-chave retorna documentos que possuam uma palavra especfica no ttulo do documento. Para, por exemplo, encontrar documentos contendo a palavra Marte no texto, utilizaremos a sintaxe intitle:marte. Poderemos tambm especificar na busca quando no queremos que determinado site no aparea nos resultados, bastando utilizar a sintaxe marte -site:nase.gov. allintitle: quando digitamos o prefixo intitle:, garantimos a recuperao de apenas uma palavra nos ttulos das pginas. No caso do allintitle:, ele garante que todas as palavras digitadas estaro no ttulo da pgina Web. Se quisermos que uma pgina Web possua o ttulo de sistemas operacionais, utilizamos a sintaxe allintitle:sistemas operacionais. Obs: O uso do prefixo allintitle: funciona da mesma forma que se digitssemos o intitle: na frente de cada palavra pretendida.

Pesquisando em Textos
O prefixo intext: ajuda a procurar somente por textos no corpo da pgina, ou seja, elimina URLs, ignora ttulos e links. Apesar do seu uso limitado, muito importante para encontrar palavras-chave que poderiam ser muito comuns em URLs 3 ou link de ttulos.

Uniform Resource Locator

10

Exemplo: intext:html intext:br.yahoo.com

Obs: podemos, da mesma forma, utilizar a sua variao: allintext:.

Pesquisa em URLs
Podemos restringir nossas pesquisas as URLs das pginas. Utilizando o prefixo inurl:, podemos encontrar sites que possuam uma palavra especfica dentro da URL. Para encontrar, por exemplo, sites que contenham a palavra Beatles na URL, podemos digitar inurl:beatles.

Obs: podemos tambm utilizar a variao allinurl:, que tambm encontra palavras listadas em URLs.

Pesquisa por ncora de Link


Uma ncora de link o texto descritivo de um determinado link. O prefixo inanchor: pesquisa por texto nestas ncoras. Para pesquisarmos por ncoras contendo a palavra Linux, utilizaremos a sintaxe inanchor:Linux.

Pesquisa por Sites


Utilizando a sintaxe site:, podemos limitar a pesquisa tanto por domnio de um site ou domnio de level elevado.

11

Exemplo: site:edu site:gov site: ar

Obs: podemos utilizar alguns recursos, principalmente no Yahoo! e no Lycos, que ajudam ainda mais a refinar a pesquisa. O prefixo hostname: limita os resultados a um especfico host4 em um site.

Pesquisa por Links


O prefixo link: retorna, como resultados, uma lista de pginas que realizam a ligao a uma URL especfica. Este um recurso interessante, pois permite-nos avaliar a popularidade de uma pgina especfica, encontrando sites que inseriram o link da pgina em particular.

Exemplo: link:www.mixculturainformacaoearte.com

Obs: O Yahoo! possui ainda o recurso linkdomain:. Ao invs de uma pgina especfica, este prefixo procura por qualquer link de um domnio especfico. Se estivssemos procurando por pginas que possuam link com o www.globo.com, por exemplo, poderamos digitar linkdomain:globo.com.

Busca por Extenso


Caso queiramos procurar por um arquivo em um formato especfico, utilizamos o operador filetype ou, simplesmente, ext:

Qualquer mquina ou computador conectado a uma rede.

12

Incluso Digital filetype:pdf Software Livre ext. ppt

Pesquisa por Sinnimos


Colocando, por exemplo, a palavra auto, juntamente com o caractere (~) na caixa de pesquisas, o Google recuperar pginas com o termo procurado e o seu sinnimo neste caso, carros, caminhes, automveis etc. Exemplo: ~auto

Parte 3: Principais Aspectos da Lgica de Boole

Lgica de Boole
Batizada em homenagem ao matemtico britnico George Boole, este tipo de busca estabelece a possibilidade de busca de palavras em um texto, condicionando a exibio de resultados a valores lgicos. Os operadores booleanos baseiam-se na lgebra de Boole e permitem efetuar operaes de carter lgico-matemtico. Estes operadores so: AND (E), OR (OU) e NOT (NO). A utilizao destes operadores pode tornar a busca da recuperao muito mais enfocada, produzindo resultados mais precisos.

OR
Ao utilizar o operador OR, amplia-se a busca, porque um nmero maior de documentos vai satisfazer este critrio; qualquer um dos termos ser suficiente para o documento recuperado. Quanto mais palavras entram conectadas por OR, mais documentos sero obtidos. Desta forma, conclumos que o operador OR desempenha uma funo aditiva, tendo como resultado uma soma lgica.

13

Termos de Busca Ces Gatos Ratos Ces OR Gatos OR Ratos

Resultados 6.460.000 12.900.000 6.880.000 26.100.000


5

Tabela 1: Busca no Google utilizando (OR)

No Lycos, por exemplo, o operador OR poder ser substitudo pelo caractere ( | ). No Yahoo! e Ask.com o operador OR dever ser digitado em caixa alta.

AND
Os volume de documentos recuperados pelo operador anterior, pode ser bastante excessivo. Assim, podemos estabelecer prioridades ou agrupar os termos em subconjuntos em diferentes aspectos. Quanto mais termos ou conceitos combinarmos em uma busca utilizando o operador AND, menos registros ir recuperar, ou seja, recuperamos apenas aqueles documentos que contenham ambos os termos informados. Conclumos desta forma, que o operador funciona de forma conjuntiva, culminando em um produto lgico. Interessante notar alguns pontos: No Google e Yahoo!, o AND j automaticamente inserido na pesquisa a cada espao entre as palavras que inserimos. J no Lycos e no Ask.com, o AND substitudo pelo operador (+). Termos de Busca Dogs Cats Resultados 12.400.000 11.900.000

Rats 3.500.000 Dogs + Cats + Rats 6.870.000


Tabela 2: Buscando no Lycos utilizando ( +)
6

5 6

Pesquisa realizada em 14/11/2010 Pesquisa realizada em 13/11/2010

14

NOT
O operador NOT exclui determinados registros dos seus resultados de busca. Conclumos assim que o operador NOT possui ao substitutiva, ou seja, este operador produz uma diferena lgica. No Yahoo e no Lycos, o NOT substitudo pelo operador (-).

Termos de Busca Ces Gatos Ratos Ces -Gatos -Ratos Ces -Ratos -Gatos Ratos -Ces -Gatos Ratos -Gatos -Ces Gatos -Ratos -Ces Gatos -Ces -Ratos

Resultados 130.000 722.000 194.000 16.300.000 16.300.000 15.900.000 15.900.000 70.400.000 70.400.000

Tabela 3: Buscando no Yahoo! utilizando (-) 7

NEAR
O NEAR um dos recursos desenvolvidos para tornar a busca booleana ainda mais eficaz e precisa. Quando utilizamos o AND, os termos no documento encontrado podem ocorrer em qualquer parte do mesmo. Porm, tratando-se de um documento grande, muitas palavras podero gerar alguns inconvenientes que realmente no so objeto do documento. Para ter certeza que os termos digitados para a pesquisa estaro prximos um do outro, podemos utilizar o operador NEAR, cuja tolerncia varia muito entre os sistemas de busca.
7

Pesquisa realizada em 10/11/2010

15

Exemplo: Cachorros near Gatos Linux near Windows

Truncamento
O truncamento , basicamente, a reduo da extenso de uma palavra, cujo o resultado pode ou no coincidir com o propsito desejado. Podemos definir o Truncamento em dois tipos distintos: aberto ( possvel substituir alguns caracteres e recuperar documentos que trazem termos com a mesma semntica) e fechado (substitui-se um nico caractere). Exemplo do tipo aberto: Music* No caso acima, o truncamento localizado a direita, sero recuperados: Msico, Msica, Musical, Musicista, Musicalidade etc. Caso o truncamento fosse localizado esquerda, como em *metria, o sistema ir recuperar: Simetria, Audiometria, Trigonometria etc. Exemplo do tipo fechado: Planejamento (forma brasileira) e Planeamento (forma portuguesa) Para ter a certeza de recuperar todos os documentos que contem esse contexto na forma brasileira ou portuguesa, faz-se um truncamento fechado: plane?amento, normalmente, assinalando a lacuna por meio de um ponto de interrogao.

16

Parte 4: Principais Mtodos Avanados de Pesquisa

Buscas Relacionadas
Em ambos os sites de busca aqui estudados, ao utilizarmos o operador related, a busca retornar pginas que so relacionadas ou semelhantes a que estamos pesquisando. Exemplo: related:google.com related:football

Documentos Aps Data Especfica


O Ask.com oferece um recurso muito interessante. Caso pretendamos pesquisar por documentos publicados aps a data especfica que tenhamos digitado, utilizamos o prefixo afterdate: Exemplo: Judo afterdate:20100110 No exemplo acima, o Ask.com ir nos retornar todos os documentos publicados sobre jud aps a data 10 de Janeiro de 2010.

Busca por Sinnimos


O Google disponibiliza um operador de sinnimos (~) para ajudar ainda mais em nossas buscas.

17

Exemplo: ~macaquear O Google ir retornar documentos que possuam alguma ligao com a palavra digitada, como Chipanz, Gorila, Macaco, etc.

Busca por Informao


Para termos uma pequena informao do site, ou seja, a sua definio, podemos utilizar o info, ou simplesmente, id. A pesquisa ficaria assim: info:globo.com id:globo.com

Busca Segura
O Google tambm preocupa-se com a qualidade dos resultados obtidos em uma busca. muito comum, ao pesquisarmos sobre algum assunto, aparecer nos resultados contedos adultos. Isso pode ser extremamente prejudicial em tratandose de crianas. Que tal ensinarmos algo para elas? No Google, basta digitarmos o prefixo safesearch:, antes da palavra desejada. Exemplo: safesearch:romance safesearch:namoro

Busca na Cache
A busca utilizando cache aquela na qual procuramos por algum site que j tenha sido visitado por ns e o Google j indexou no seu banco de dados.

18

Exemplo: cache:blogspot.com

Busca Curinga
A busca curinga aquela onde substitumos determinadas palavras, letras ou at mesmo extenses pelo asterisco (*). Se quisermos procurar por uma frase, mas no sabemos o sujeito desta, utilizamos este operador. Exemplo: *fez curso de Java *gritou com Madonna

Busca por horrio


Voc j teve a curiosidade de saber quantas horas so em um determinado pas? O Google te ajuda nessa. Basta, digitar uma pergunta, como no exemplo abaixo: Exemplo: What time is it in Argentina? What time is it in Bangladesh?

Conversor de Unidades
O Google tambm pode converter unidades monetrias, mtricas, bytes e muito mais. Exemplo: 10 GB in bits
19

Curiosidades

Figura 5: Curiosidades do Google

Nem tudo flores em tratando-se Google. Segundo o site IDG Now!, uma pesquisa foi feita recentemente pela empresa Barracuda Networks e mesma constatou que o Google o buscador mais utilizado
20

atualmente para a distribuio de cdigos maliciosos. Segundo consta, em 69% das pginas recuperadas era encontrado algum tipo de cdigo suspeito, contra apenas 18% do Yahoo!.

Curiosidades sobre o Yahoo!

Segundo o site Reporter Net, o Yahoo! poderia ser hoje a maior potncia da Internet. Segundo o site, em 2001,surgiu a possibilidade do Yahoo! estar comprando o Google por uma quantia de cerca de US$ 5 bilhes. Segundo consta, o Yahoo! no topou e, atualmente, o Google avaliado em mais de 100 bilhes de dlares.

Curiosidade sobre o Ask.com

De acordo com o site Digital & Midia, o Ask.com voltar a ser um site de perguntas e respostas e ir abandonar de vez o projeto de buscas. Apesar de altos investimentos terem sido feitos, o trfego no site no inflou e tudo no passou de um sonho. Com a sada do Ask.com do mercado de buscas, segue a deciso do Yahoo! de terceirizar suas buscas para a Microsoft. Os Ask.com tem apenas 2% das buscas efetuadas nos Estados Unidos, enquanto o poderoso Google segue disparado, com o esmagador 65%.

21

Concluso

atravs destas e de muitas outras tcnicas que podemos aproveitar de forma eficiente os vrios buscadores que temos disponveis na Web. H tambm a necessidade de estar antenado com as novas tcnicas de busca. O aprendizado no pra aqui. Enquanto escrevo este trabalho, profissionais SEO (Search Engine Optimation) escrevem novos algoritmos com novas possibilidades com o intuito de gerar mais e mais benefcios para o usurio final. As nossas buscas, a medida do tempo, se tornam cada vez mais inteligentes. Afinal, pesquisar na Web indispensvel para todos ns! Aliando tcnicas a estas pesquisas, a Internet torna-se ainda mais prazerosa, econmica e, alm disso: torna-se uma fonte inesgotvel de contedo, distantes de ns por apenas um click.

22

Bibliografia
Alfred Glossbrenner, E. G. (2001). Search Engines for the World Wide Web. California: Peachpit Press. Carmona, T. (2004). Segredos do Google. So Paulo: Digerati Books. _____________.Digital & Mdia. (s.d.). Acesso em 15 de 11 de 2010, disponvel em O Globo: http://oglobo.globo.com/tecnologia/mat/2010/11/10/ask-com-deixamercado-de-buscas-volta-sua-origem-922993040.asp Hock, R. (2004). The Extreme Searcher's Internet Handbook. New Jersey: CyberAge Books. Hock, R. (2005). Yahoo! To The Max - An Extreme Searcher Guide. New Jersey: CyberAge Books. Janaye M. Houghton, R. S. (1999). Decision Point: Boolean Logic for Computer Users and Beginning Online Searchers. Colorado: Libraries Unlimited. Now!, R. d. Google atrai mais vrus do que outros buscadores, diz pesquisa. Acesso em 15 de 11 de 2010, disponvel em IDG Now!: http://idgnow.uol.com.br/seguranca/2010/07/29/google-atrai-mais-virus-do-queoutros-buscadores-diz-pesquisa/ _____________. O Yahoo poderia ser dono do Google. Acesso em 01 de 11 de 2010, disponvel em Reporter Net: http://www.reporternet.jor.br/o-yahoo-poderia-serdono-do-google/ Tara Calishain, R. D. (2004). Google Hacks (2nd Edition ed.). USA: O'Reilly. _____________. Tcnicas curiosas para se digitar no Google. Acesso em 14 de 11 de 2010, disponvel em LeiAki: http://www.leiaki.com/tecnicas-curiosas-digitar-google Viana, J. (s.d.). KidRex - O motor de busca seguro para as crianas. Acesso em 15 de 11 de 2010, disponvel em Ionline: http://www.ionline.pt/conteudo/8521-kidrex---omotor-busca-seguro-as-criancas Vise, D. A. (2005). The Google Story: Inside the Hottest Business, Media and Technology Success of Our Time. Pan Books.

23

Das könnte Ihnen auch gefallen