Sie sind auf Seite 1von 150

UNIVERSIDAD VERACRUZANA

Facultad de Contadura y Administracin


Herramientas y mtodos para la bsqueda de
informacin en Internet

MONOGRAFA
Qu para obtener el Ttulo de:

Licenciado en Sistemas
Computacionales Administrativos
Presenta:

Gustavo Velzquez Soto

Asesor:

LSCA. Nancy Araceli Olivares Ruiz

Xalapa-Enrquez, Veracruz

Septiembre 2007

AGRADECIMIENTOS
A Dios:
Por ser m gua en el camino, por estar siempre junto a m, por darme todo
lo que tengo y por concederme el logro de uno de mis grandes sueos. Gracias
A mis padres:
Quienes con su confianza, cario y apoyo me han convertido en una
persona de provecho, ayudndome al logro de una meta ms y la cual es mi mejor
herencia: mi carrera profesional.
Gracias por hacer de mi lo que soy, recuerden que sus sacrificios no sern
en vano y que este xito tambin es de ustedes.
Gracias Magdalena Soto Gmez y Pedro Velzquez Herrera.
A mis hermanas:
Gracias por estar siempre a mi lado apoyndome, por compartir tristezas y
alegras, xitos y fracasos, por todos los detalles que me han brindado durante mi
vida como estudiante.
Gracias Adali por darme una alegra ms en la vida, mi sobrina Michelle, y a
ti Maria del Carmen por tu apoyo en todo momento.
A mis abuelitos, tos y primos:
A ustedes que siempre han estado presentes cuando ms los necesito, por
sus consejos, por su gran amor y afecto. Gracias, especialmente familia Soto.
A mis amigos:
Por estar con migo en los mejores y peores momentos, por su confianza y
apoyo gracias. Espero seguir contando con ustedes.
A los maestros:
Nancy A. Olivares R. por brindarme el apoyo para realizar este trabajo,
Mayra M. Mndez A. y Hctor J. Vargas R. por dedicar parte de su tiempo para
corregirlo y especialmente al maestro Enrique Romero P. por su apoyo
incondicional para llevarlo acabo.

II

NDICE
INTRODUCCION ................................................................................................ 1

Capitulo I. La informacin en Internet y las herramietas de bsqueda ........ 5


1.1. Qu es Internet? ........................................................................................ 6
1.1.1. Caractersticas de Internet.............................................................. 9
1.1.2. Cmo funciona? ........................................................................... 9
1.1.3. Qu servicos ofrece?.................................................................. 10
1.1.4. Qu tipo de informacin puedo encontrar en Internet? .............. 12
1.1.5. Cmo puedo buscar informacin en Internet?............................ 13
1.2. Herramientas de bsqueda ........................................................................ 14
1.2.1. Concepto ...................................................................................... 14
1.2.2. Funcionamiento ............................................................................ 15
1.2.2.1. ndices............................................................................. 15
1.2.2.2. Motores de bsqueda ..................................................... 16
1.2.3. Evolucin histrica de los buscadores.......................................... 16
1.3. Elementos bsicos de un buscador............................................................ 18
1.3.1. Interfaz de portada........................................................................ 19
1.3.2. Listado de resultados.................................................................... 20
1.4. Diferencias entre buscadores, directorios y portales .................................. 24
1.5. Ventajas e inconvenientes de ndices y motores........................................ 27

Capitulo II. Modelos, metodologa y estrategias de busqueda .................. 28


2.1. Modelos de recuperacin de informacin................................................... 29
2.2. Clasificacin ............................................................................................... 29
2.2.1. Modelos clsicos .......................................................................... 30
2.2.2. Modelos alternativos..................................................................... 31
2.2.3. Modelos lgicos ............................................................................ 31
2.2.4. Modelos basados en la interactividad........................................... 31
2.2.5. Modelos basados en la inteligencia artificial................................. 31
III

2.3. Metodologa para utilizar las herramientas de bsqueda en Internet ......... 32


2.4. Operadores de bsqueda........................................................................... 36
2.4.1. Operadores de exactitud .............................................................. 36
2.4.2. Operadores de existencia............................................................. 37
2.4.3. Operadores lgicos....................................................................... 38
2.4.4. Operadores de proximidad ........................................................... 40
2.4.5. Otros operadores.......................................................................... 41
2.5. Estrategias de bsqueda............................................................................ 43
2.5.1. Concepto de estrategia................................................................. 43
2.5.2. Bsqueda de informacin ............................................................ 43
2.5.3. Concepto de estrategia de bsqueda ........................................... 44
2.5.3.1. Pasos para llegar a lo que se busca ............................... 45
2.5.4. La estrategia en la bsqueda de informacin ............................... 46
2.5.4.1. Delimitacin de la bsqueda ........................................... 48
2.5.5. Estrategias de bsqueda en Internet ............................................ 50
2.5.6. Estrategias recomendadas segn la herramienta......................... 53
2.5.7. La seleccin de la informacin...................................................... 54
2.5.7.1. Criterios para seleccionar el material .............................. 57
2.5.8. El ruido y el silencio en la recuperacin de informacin ............... 58
2.6. Bsqueda de informacin y el lenguaje natural......................................... 59
2.6.1. Problemtica del procesamiento del lenguaje natural: la variacin
y la ambigedad lingsticas................................................................... 61
2.6.2. El procesamiento del lenguaje natural en la recuperacin de
informacin textual.................................................................................. 63

Capitulo III. Tipologa de herramientas de bsqueda y recuperacin


de informacin................................................................................................. 66
3.1. Buscadores automticos ............................................................................ 67
3.1.1. Definicin ...................................................................................... 67
3.1.2. Objetivo ........................................................................................ 68
3.1.3. Componentes ............................................................................... 69

IV

3.1.4. Funcionamiento ............................................................................ 70


3.1.5. Caractersticas importantes .......................................................... 70
3.1.6. Deficiencias .................................................................................. 71
3.1.7. Ejemplos....................................................................................... 71
3.2. Buscadores temticos ................................................................................ 81
3.2.1. Definicin ...................................................................................... 81
3.2.2. Objetivo ........................................................................................ 81
3.2.3. Componentes ............................................................................... 81
3.2.4. Funcionamiento ............................................................................ 82
3.2.5. Deficiencias .................................................................................. 82
3.2.6. Ejemplo......................................................................................... 82
3.3. Buscadores especializados ........................................................................ 85
3.4. Multibuscadores ......................................................................................... 85
3.4.1. Funcionamiento ............................................................................ 86
3.4.2. Ejemplo......................................................................................... 86
3.5. Metabuscadores......................................................................................... 87
3.5.1. Funcionamiento ............................................................................ 88
3.5.2. Caractersticas.............................................................................. 88
3.5.3. Ejemplos....................................................................................... 89
3.6. Caso de estudio Google ............................................................................. 92
3.7. Agentes inteligentes de bsqueda ........................................................... 102
3.7.1. Qu es un agente ....................................................................... 103
3.7.2. Que es un agente inteligente ...................................................... 103
3.7.3. Agentes inteligentes de informacin ........................................... 104
3.7.4. Tipologa de agentes y el problema de la distribucin de
la informacin ....................................................................................... 105
3.7.4.1. Agentes cooperativos.................................................... 106
3.7.4.2. Agentes mviles............................................................ 107
3.7.4.3. Interfaces inteligentes de usuario ................................. 107
3.7.4.4. Agentes de bsqueda inteligentes ................................ 108
3.7.4.5. Agentes de bsqueda inteligentes para la Web............ 111

3.8. Otras tecnologas de bsqueda................................................................ 114


3.8.1. Bases de datos ........................................................................... 115
3.8.1.1. Bases de datos de texto completo ................................ 115
3.8.1.1.1. Bases de datos en texto completo de
la Biblioteca Virtual de la Universidad Veracruzana........ 116

Capitulo IV. El futuro de los buscadores .................................................... 119


4.1. Cambios en los buscadores ..................................................................... 120
4.2. Bsquedas futuras ................................................................................... 120
4.2.1. Resaltar las palabras .................................................................. 121
4.2.2. Buscadores en pginas XML ...................................................... 121
4.2.3. Buscadores de imgenes ........................................................... 123
4.2.4. Redes neuronales....................................................................... 123
4.2.5. Agrupacin de conceptos ........................................................... 124
4.2.6. Bsqueda nacionalista, multilinge y multicultural...................... 126
4.2.7. Bsquedas en lenguaje natural .................................................. 126
4.2.8. Motores de reconocimiento y concordancia ............................... 127
4.2.9. Motores de bsqueda y el E-Commerce .................................... 128

CONCLUSIONES .......................................................................................... 130

BIBLIOGRAFA Y REFERENCIAS ................................................................ 134

VI

NDICE DE FIGURAS
Figura 1.1. Caja de bsqueda y botn de buscar de Google,
Yahoo! y Altavista ........................................................................................... 19
Figura 2.1. Operaciones de la investigacin documental .................................. 44
Figura 2.2. Arquitectura de un sistema de recuperacin de informacin........... 64
Figura 3.1. Pgina principal de AltaVista........................................................... 73
Figura 3.2. Pgina de bsqueda avanzada de Google ..................................... 77
Figura 3.3. Pgina de bsqueda de Lycos ........................................................ 79
Figura 3.4. Pgina de bsqueda de HotBot ...................................................... 82
Figura 3.5. Pgina de bsqueda de Yahoo! Mxico.......................................... 84
Figura 3.6. Pgina de bsqueda de All4One..................................................... 87
Figura 3.7. Pgina de bsqueda de Buscopio................................................... 90
Figura 3.8. Pgina de bsqueda de Ciber411 ................................................... 91
Figura 3.9. Pgina de bsqueda de metacrawler .............................................. 92
Figura 3.10. Duracin de una consulta de Google ............................................ 93
Figura 3.11. Pgina de recursos de la Biblioteca Virtual de la UV .................. 116

VII

NDICE DE TABLAS
Tabla 1.1. Caractersticas de directorios y motores de bsqueda..................... 26
Tabla 2.1. Decisiones relavantes en la bsqueda de informacin..................... 49
Tabla 2.2. Estrategias recomendadas segn la herramienta ............................ 54
Tabla 2.3. Criterios relevantes en la seleccin de informacin.......................... 56
Tabla 3.1. Productos de Google...................................................................... 102

VIII

INTRODUCCIN

Aunque la interaccin informtica todava est en pleno crecimiento, ha


cambiado espectacularmente el mundo en que vivimos, eliminando las barreras
del tiempo y la distancia, permitiendo a las personas compartir informacin y
trabajar en colaboracin para cumplir sus objetivos personales u organizacionales.
El avance hacia una sociedad en la cual la informacin es capital, contina a un
ritmo cada vez ms rpido. El contenido de informacin disponible en Internet
crece rpidamente, lo que hace ms fcil que se pueda encontrar cualquier
informacin.

As, en un mundo de informacin donde los sistemas se vuelven cada vez


ms complejos, se deben usar los nuevos recursos tecnolgicos y humanos con
ms eficiencia, y para lograrlo, se necesita la ayuda que ofrece Internet como
medio de intercambio de informacin entre usuarios de redes informticas de
organismos oficiales, educativos y empresariales a nivel mundial y de manera
pblica, donde los usuarios tienen acceso a la informacin electrnica.

Internet la red de redes como es llamada a la interconexin de


computadoras, a travs de diferentes infraestructuras tecnolgicas, oferta grandes
volmenes de informacin sobre temas muy diversos pero de una forma compleja
y catica, es decir, falta de un orden para la recuperacin de informacin. Sin
embargo, la gran cantidad de informacin vertida en la red ha dado lugar a la
aparicin de numerosas herramientas de bsqueda, no siempre bien conocidas
por el usuario, que le facilitaran localizar cualquier tipo de informacin.

Hoy en da el acceso a la informacin de Internet se convierte en una tarea


difcil y frustrante para los usuarios, puesto que existen grandes volmenes de
informacin y principalmente porque se desconocen las herramientas y
metodologas para buscar en Internet , esto ocasiona que los usuarios encuentren
resultados inexactos que no tienen nada que ver con lo que realmente estn
buscando, por lo que tiene que realizar una bsqueda manual entre las opciones
que le presente el buscador tardndose ms tiempo del que esperaban emplear.

Con la sobrecarga de informacin1 y la variedad de fuentes de diversos


temas en Internet, se vuelve una necesidad hoy en da conocer las herramientas y
tcnicas de bsqueda de informacin en Internet, con el fin de aprovechar los
medios electrnicos y el tiempo en la bsqueda de informacin que sea realmente
til para el usuario y le permita encontrar respuestas de manera rpida y sencilla a
sus preguntas. Es por esta razn que este trabajo recopila la informacin
necesaria para que los usuarios de las herramientas de bsqueda, conozcan sus
funcionalidades y las empleen de la mejor manera en la recuperacin de
informacin, se estudian las herramientas de bsqueda desde sus inicios, hasta
las ltimas innovaciones y nuevas tendencias que estn adoptando.

El presente trabajo se compone de cuatro captulos los cuales tienen como


objetivo y contenido lo siguiente:

Capitulo I. El capitulo I tiene como objetivo presentar un panorama del las


caractersticas y servicios que ofrece Internet as como definir las herramientas de
bsqueda que le van a permitir al usuario recuperar informacin de la Web.

En este capitulo se detallan las definiciones de Internet y de las


herramientas de bsqueda, se describe su funcionamiento, as como los
elementos bsicos de un buscador, las diferencias, ventajas e inconvenientes de
los buscadores, directorios y portales.

Capitulo II. El objetivo de este capitulo, es que el lector comprenda los


modelos bajo los cuales funcionan las herramientas de bsqueda, conozca y
aplique mtodos y estrategias para obtener los mejores resultados en el uso de las
herramientas de bsqueda y finalmente conozca la importancia de lenguaje
natural en la bsqueda de informacin.
1

Internet y las otras redes de telecomunicaciones incrementan la cantidad de informacin


disponible para las organizaciones y los individuos de manera exponencial, como si el mundo se
ahogara en un mar de informacin. (TURBAN, 2006).

En este capitulo se presenta una clasificacin de los modelos de


recuperacin, una metodologa para el uso de las herramientas de bsqueda, se
describen y ejemplifican los operadores, se abordan las estrategias de bsqueda y
para terminar se destaca el procesamiento del lenguaje natural en la recuperacin
informacin.

Capitulo III. Este capitulo tiene como objetivo presentar los tipos de
herramientas de bsqueda y recuperacin de informacin, para que el usuario
conozca y haga uso adecuado de las herramientas segn sus necesidades.

Para lograr el propsito antes mencionado, en este capitulo se detallan y


ejemplifican

los

buscadores

automticos,

temticos,

especializados,

multibuscadores, metabuscadores, as como los agentes inteligentes de bsqueda


y las bases de datos de texto completo.

Capitulo IV. Finalmente el objetivo del capitulo IV, es informar sobre las
tendencias que estn adoptando los buscadores segn las necesidades de
informacin de los usuarios.

En este capitulo se informacin sobre las nuevas tecnologas empleadas


para obtener informacin ms provechosa de Internet, se abordan los buscadores
en paginas XML, los buscadores de imgenes, las redes neuronales, las
bsquedas en lenguaje natural entre otras tecnologas.

CAPITULO I
LA INFORMACIN EN INTERNET Y LAS
HERRAMIENTAS DE BSQUEDA

Actualmente, nadie niega la importancia de Internet como poderoso


instrumento de comunicacin e informacin. En la red est disponible un gran
cmulo de informacin; su volumen crece a una gran velocidad. Paralelamente, su
impacto social se incrementa gradualmente, de manera que empieza a ser
indispensable tener la habilidad de encontrar determinados datos en Internet que,
por inmediatez o especificidad, no encontraramos en ningn otro lugar.

En este capitulo se abordara la definicin, caractersticas y servicios de


Internet, as como la definicin, funcionamiento, evolucin y elementos bsicos de
las herramientas de bsqueda. Tambin se resalta el tipo informacin contenida
en Internet y la manera de buscarla.

1.1. Qu es Internet?
Internet (interconnection networks) es un mtodo de interconexin de redes
de computadoras implementado en un conjunto de protocolos denominado TCP/IP
(Protocolo de Control de Transmisin y Protocolo de Internet) y garantiza que
redes fsicas heterogneas funcionen como una red (lgica) nica. De ah que
Internet se conozca comnmente con el nombre de "red de redes", pero es
importante destacar que Internet no es un nuevo tipo de red fsica, sino un mtodo
de interconexin. Aparece por primera vez en 1969, cuando ARPANET establece
su primera conexin entre tres universidades en California y una en Utah.

Al contrario de lo que se piensa comnmente, Internet no es sinnimo de


World Wide Web (WWW). sta es parte de Internet, siendo el World Wide Web
uno de los muchos servicios ofertados en la red Internet. La WWW utiliza Internet
como medio de transmisin. La Web es un sistema de informacin mucho ms
reciente, desarrollado inicialmente por Tim Berners Lee en 1989 (WIK, 2007a).

World Wide Web (WWW, Web o la "Web") es un sistema de documentos


de hipertexto enlazados y accesibles a travs de Internet. Con un navegador Web,

un usuario visualiza pginas Web que pueden contener texto, imgenes u otros
contenidos multimedia, y navega a travs de ellas usando hiperenlaces (WIK,
2007b)2.

Hoy en da la WWW es el servicio ms utilizado en Internet y se le


considera la causa y vehculo principal de la gran expansin del Internet privado y
comercial.

Retomando un poco de historia. En 1990 Tim Berners Lee trabajaba en


Ginebra,

en

el

Laboratorio

Europeo

de

Fsica

de

Partculas

(CERN).

Habitualmente se comunicaba con sus colegas de se u otros centros de


investigacin, envindoles artculos en los que se citaban otros artculos, que
contenan grficos. Para facilitar esa labor dise la primera versin del HTML
(Hiper Text Markup Language), un lenguaje para marcar textos que permita incluir
enlaces a otros documentos. En 1991, su programa se empez a distribuir
espontneamente y gratuitamente en el mundo acadmico. Todos lo encontraron
til y fcil de usar por lo que el nmero de usuarios creci rpidamente. Pronto se
hicieron nuevas versiones de HTML y programas comerciales. En 1994 lo usaban
ya 50 millones de personas en todo el mundo.

Para permitir a los autores de documentos establecer hiperenlaces en la


WWW, Tim Berners Lee usa por primera vez en 1991 las URL (Localizador
Uniforme de Recurso) que es una secuencia de caracteres, de acuerdo a un
formato estndar, que se usa para nombrar recursos, como documentos e
imgenes en Internet, por su localizacin. Existe un URL nico para cada pgina
de cada uno de los documentos en la WWW. El URL de un recurso de
informacin, es su direccin en Internet, la cual permite que el navegador la
encuentre y la muestre de forma adecuada. Por ello el URL combina el nombre del
ordenador que proporciona la informacin, el directorio donde se encuentra, el

World Wide Web, a lo largo del trabajo se emplearan como sinnimos World Wide Web, WWW ,
Web y la Web, http://es.wikipedia.org/wiki/World_Wide_Web. 09 de Julio de 2007, 10:20 hrs.

nombre del fichero y el protocolo a usar para recuperar los datos. Las URL fueron
una innovacin fundamental en la historia de Internet (WIK, 2007c).

Actualmente Tim Berners Lee trabaja en el Massachusetts Institute of


Technology (MIT). Es el fundador de 3WC, la corporacin que trabaja en el
desarrollo y normalizacin del WWW (EUM, 2007).

Internet es una red internacional de ordenadores que intercambia textos,


imgenes (en movimiento), msica, voces, as como todo lo que pueda guardarse
como un archivo. Cada miembro de Internet no es solo consumidor del flujo de
datos, sino tambin generador del mismo. Esto diferencia a Internet de todos los
otros sistemas de informacin que haba existido hasta ahora.

Se han utilizado diferentes formas para aclarar lo que es Internet realmente


y qu le diferencia de otros servicios de informacin. En las mismas se habla
mucho de autopista de informacin.

Cualquier comparacin de Internet con otros servicios de informacin


evidenciar que Internet es realmente algo diferente.

Internet es una coleccin de diferentes servicios de informacin, ya que


aqu se puede ampliar los conocimientos, comunicarse con otras personas, buscar
apoyo para las investigaciones, jugar con otros y muchas actividades ms
(SANCHEZ, 1996).

Los usuarios de Internet son ms numerosos cada da; miles de particulares


se estn incorporando por medio de conexiones domsticas, en la universidad, en
centros de investigacin y diversidad de empresas a travs de los proveedores de
Internet.

El xito y crecimiento de Internet se debe fundamentalmente a dos razones,


la primera e imprescindible es el espectacular desarrollo en los ltimos aos de las
capacidades de procesamiento y almacenamiento de los ordenadores, as como el
gran aumento en la capacidad de transmisin de las redes. La segunda se refiere
a factores sociolgicos relacionados con la denominada sociedad de la
informacin, la cual demanda da a da mayor cantidad de informacin de la forma
ms fiable, rpida y segura (RODRIGUEZ, 2003).

1.1.1. Caractersticas de Internet


Internet posee una serie de caractersticas que la diferencian de otras redes
convencionales, desde la manera en que un usuario accede y puede manejar la
informacin que contiene hasta el nmero tan enorme de temas que son tratados
en ella. Las ms importantes son (RODRIGUEZ, 2003):


El usuario puede manejar la red sin tener que conocer su funcionamiento


interno, ni la forma en que esta constituida.

Es posible el acceso a todo tipo de informacin, sea cual sea la materia que
se este buscando. Se trata de un gran almacn de datos

Permite compartir recursos entre varias personas, entidades o empresas.

Se puede aprovechar todas sus posibilidades sin tener en cuenta el lugar


con el que se este comunicando.

1.1.2. Cmo funciona?


Internet funciona gracias al protocolo TCP/IP que proporciona los recursos
bsicos de comunicacin y constituye la base en la que se sustentan todos los
servicios de Internet (DOUGLAS, 1998), adems, tiene la gran ventaja de ser
entendido por cualquier mquina (PC, Unix, Mac...). El xito de Internet radica en
su facilidad de uso, su flexibilidad y consulta.

1.1.3. Qu servicios ofrece?


Los servicios de Internet son las diferentes formas de aprovechar Internet
para establecer una comunicacin entre computadoras. Normalmente estos
servicios se clasifican dependiendo del tipo de comunicacin referida al tiempo de
ejecucin, por un lado estn las comunicaciones sncronas, dnde dos personas
estn compartiendo una informacin a tiempo real, es decir, en el mismo instante
de tiempo; y por otro lado estn las comunicaciones asncronas, dnde esa
comunicacin se realiza en diferido o en dos instantes de tiempo diferentes. Por lo
tanto, y segn esta clasificacin tenemos servicios (SLIDE, 2007):
a) Sncronos:


El Chat

Videoconferencia

Telnet

FTP

Correo electrnico (Listas de distribucin y Newsgroup)

Foros o Tablones de Anuncio

Web (WWW)

b) Asncronos:

Las aplicaciones y servicios de Internet no conocen lmite. Los usos ms comunes


son sorprendentes. Entre ellos los ms populares son (UDS, 2007):

Chat: son salas virtuales donde los usuarios se conectan con otros usuarios
para comunicarse en tiempo real.

Conferencias: Una de las mayores tentaciones de Internet desde el punto


de vista de los negocios puede muy bien ser, la habilidad de comunicarse sin
coste en tiempo real, desde una computadora de escritorio.

10

Telnet: es uno de los ms antiguos protocolos de comunicacin en Internet


que permite al usuario conectarse con otra computadora o redes de computadoras
distantes. Una vez en dicha computadora se pueden descargar archivos y realizar
las mismas funciones, que si se estuviese directamente conectado a la
computadora distante. Se necesita tener una cuenta de Internet para poder utilizar
este servicio.

FTP (File Tranfer Protocol): es la forma ms sencilla de transferir archivos


de una computadora a otra sin importar las distancias.

Correo electrnico (E-Mail): Uno de los servicios ms usados en Internet


es ste, que ofrece la posibilidad de enviar rpida y eficientemente mensajes
electrnicos a cualquier persona con una cuenta de correo electrnico.

Foros de discusin (USENET News o Newsgroup): Son Grupos de


Noticias o Foros de discusin sobre los ms variados temas y distribuidos a los
usuarios que se conectan a un servidor participante. Hay que suscribirse a un
grupo de discusin para poder participar en l o seguir los comentarios que en l
se hacen. La suscripcin es gratuita.

Lista de distribucin de correo electrnico (Mailing List): Una lista de


distribucin es una manera de tener una discusin de grupo por medio del correo
electrnico y distribuir anuncios a un gran nmero de personas. Cada vez que un
miembro de la lista enva una rplica a la conversacin, sta es distribuida por
correo electrnico a todos los dems miembros. Todo este trfico es administrado
por programas llamados Administradores de Listas de Distribucin (MLMs). Los
dos programas ms utilizados son Listserv y Majordomo.

World Wide Web: La aplicacin ms famosa de Internet y el mtodo ms


eficiente para difundir informacin grfica con su sistema de hipervnculos. Usa

11

http (Protocolo de Transferencia de Hiper Texto). Dentro de este servicio se


encuentra el sitio Web y los portales:

Un sitio Web (en ingls: Website) es un conjunto de pginas Web,


tpicamente comunes a un dominio de Internet o subdominio en la World Wide
Web en Internet (WIK, 2007d).

Un portal de Internet es un sitio Web cuyo objetivo es ofrecer al usuario,


de forma fcil e integrada, el acceso a una serie de recursos y de servicios, entre
los que suelen encontrarse buscadores, foros, documentos, aplicaciones, compra
electrnica, entre otros. Principalmente estn dirigidos a resolver necesidades
especficas de un grupo de personas o de acceso a la informacin y servicios de a
una institucin pblica o privada (WIK, 2007e).

1.1.4. Qu tipo de informacin puedo encontrar en Internet?


En Internet podemos encontrar informacin muy variada. Algunas de las
ms tiles, rpidas y fciles de encontrar son: informacin financiera actualizada,
actas de congresos, leyes, estadsticas, noticias de actualidad, bases de datos
referenciales, directorios e informes de empresas e instituciones, informacin
acadmica, entre otros.

Puesto que la informacin que se publica en Internet no est sometida a


ningn tipo de examen previo por parte de editores o profesionales del sector, ni a
normas de calidad de ningn tipo, la informacin obtenida de la red debe ser
sometida a un riguroso anlisis (autoridad, actualizacin de los contenidos,
propsito, funcionalidad, entre otros.) que asegure la fiabilidad de la informacin.

Libros, peridicos, bases de datos comerciales y otras publicaciones no


gratuitas no estn de libre acceso en Internet, por tanto la mayor parte de la
informacin existente en el mundo debe ser obtenida por los sistemas

12

tradicionales (fuentes impresas o electrnicas por suscripcin) por lo que es


importante tener claro, la necesidad de informacin y el tipo de fuente donde se
desea buscar.

1.1.5. Cmo puedo buscar informacin en Internet?


La gran cantidad y diversidad de informacin disponible en la red no est
organizada para facilitar de alguna manera su recuperacin. Por tanto, se tienen
que utilizar varios mtodos para buscar y recuperar informacin, dependiendo de
lo que se este buscando (UDS, 2007).

El tamao de Internet hace que sea imposible encontrar informacin


buscando informacin de computadora en computadora. De hecho, el continuo
crecimiento hace que tales bsquedas sean insignificantes: la aparicin de
pginas Web nuevas en Internet supera la rapidez con que una persona puede
navegar por la informacin que contiene.

Para mantenerse a la par del crecimiento, se requiere la bsqueda


automatizada. Es decir, se necesita un programa que sea capaz de ponerse en
contacto automticamente con otras computadoras de Internet, busque la
informacin especificada e informe de los resultados. Estos programas se
denominan herramientas de bsqueda, herramientas de indizacin o motores de
bsqueda, y el servicio que proporcionan es un servicio de bsqueda
automatizada o un ndice automatizado (DOUGLAS, 1998).

Desafortunadamente, determinar la informacin y los recursos disponibles


en Internet en una determinada rea de conocimiento, como paso previo a la
evaluacin de su calidad, no es un proceso tan sencillo. Debemos avanzar unos
pasos ms all de las bsquedas informales basadas en las ocurrencias de
trminos, explotando todas las posibilidades que ofrecen los instrumentos de
bsqueda en Internet, acercndonos as a los objetivos de la investigacin

13

cientfica. Se hace necesaria la utilizacin de una estrategia que afronte con las
mayores garantas posibles la bsqueda sistemtica de informacin en Internet
(MENESES, 2004).

1.2. Herramientas de bsqueda


1.2.1. Concepto
Un buscador es un sitio Web cuya funcin principal consiste en
proporcionar un medio para recolectar informacin acerca del contenido de otros
sitios de Internet. De una forma ms compleja, un buscador es una extensa base
de datos a la que se puede tener acceso mediante sus mtodos de bsqueda, lo
que permite localizar la informacin que se desea encontrar (RODRIGUEZ, 2003).

En informtica un buscador es una herramienta que permite al usuario


encontrar un documento que contenga una determinada palabra o frase.

Los motores de bsqueda son sistemas que buscan en Internet (algunos


buscan slo en la Web pero otros buscan adems en News, Gopher, FTP, entre
otros.) cuando se les pide informacin sobre algn tema. Las bsquedas se hacen
con palabras clave o con rboles jerrquicos por temas; el resultado de la
bsqueda es un listado de direcciones Web en los que se mencionan temas
relacionados con las palabras clave buscadas.

Se pueden clasificar en dos:




ndices temticos: Son sistemas de bsqueda por temas o categoras


jerarquizados (aunque tambin suelen incluir sistemas de bsqueda por
palabras clave). Se trata de bases de datos de direcciones Web elaboradas
"manualmente", es decir, hay personas que se encargan de asignar cada
pgina Web a una categora o tema determinado.

14

Motores de bsqueda: Son por palabras clave. Son bases de datos que
incorporan automticamente pginas Web mediante "robots" de bsqueda
por la red.

Como operan en forma automtica, los motores de bsqueda contienen


generalmente ms informacin que los directorios. Sin embargo, estos ltimos
tambin han de construirse a partir de bsquedas (no automatizadas) o bien a
partir de avisos dados por los creadores de pginas (lo cual puede ser muy
limitativo). Los buenos directorios combinan ambos sistemas (WIK, 2007f).

1.2.2. Funcionamiento
Los

buscadores

generan

bases

de

datos

mediante

dos

formas

(RODRIGUEZ, 2003): la primera es la creacin de la base de datos por ndices y


categoras, por ejemplo Yahoo! y la segunda forma es mediante el uso de motores
de bsqueda o robots denominados Spider (araas), como por ejemplo Google.

1.2.2.1 ndices
Las bases de datos de estos buscadores se disean para permitir que la
informacin pueda agruparse en distintos temas siguiendo un orden jerrquico,
dentro del cual las direcciones se disponen de ms general a ms concretas. Esto
es equivalente a crear un rbol cuyas ramas principales son los temas, y que se
ramifican en subtemas, o grupos de menor categora. En este caso, es el
administrador del buscador quien, mediante la inscripcin en el mismo de las
direcciones URL, forma la base de datos, que se actualiza permanentemente por
un equipo que visita las direcciones y por las altas de propios usuarios que desean
registrar su Web.

15

1.2.2.2 Motores de bsqueda


Los motores de bsqueda o robots, son programas que ejecutan
procedimientos de forma autnoma en la Red. Dentro de ellos, existe un tipo
especfico denominado araa, cuya funcin es explorar automticamente la Web,
reconociendo enlaces y saltando de unas paginas a otras. En sus navegaciones,
la araa se encarga de confeccionar relaciones de direcciones con los
documentos que encuentra, para lo cual visita las paginas, reconoce parcial o
totalmente los caracteres que las integran, y procede a incluirlas en la base de
datos. La base de datos generada se compone de caracteres que se
corresponden con palabras y de enlaces a las direcciones, donde esas palabras
estn presentes.

1.2.3. Evolucin histrica de los buscadores


El primer buscador fue "Wandex", un ndice (ahora desaparecido) realizado
por la World Wide Web Wanderer, un robot3 desarrollado por Mattew Gray en el
MIT, en 1993. Otro de los primeros buscadores, Aliweb, tambin apareci en 1993
y todava est en funcionamiento. El primer motor de bsqueda de texto completo
fue WebCrawler, que apareci en 1994. A diferencia de sus predecesores, ste
permita a sus usuarios una bsqueda por palabras en cualquier pgina Web, lo
que lleg a ser un estndar para la gran mayora de los buscadores. WebCrawler
fue tambin el primero en darse a conocer ampliamente por el pblico. Tambin
apareci en 1994 Lycos que comenz en la Carnegie Mellon University.

Muy pronto aparecieron muchos ms buscadores, como Excite, Infoseek,


Inktomi, Northern Light y Altavista. De algn modo, competan con directorios o

Un robot es un dispositivo electrnico y generalmente mecnico, que desempea tareas


automticamente, ya sea de acuerdo a supervisin humana directa, o a travs de un programa
predefinido o siguiendo un conjunto de reglas generales. http://es.wikipedia.org/wiki/Robot (WIK,
2007g)

16

ndices temticos populares tales como Yahoo!. Ms tarde, los directorios se


integraron o se aadieron a la tecnologa de los buscadores para aumentar su
funcionalidad.

Antes del advenimiento de la Web, haba motores de bsqueda para otros


protocolos o usos, como el buscador Archie, para sitios FTP annimos y el motor
de bsqueda Vernica, para el protocolo Gopher.

En la actualidad se aprecia una tendencia por parte de los principales


buscadores de Internet a dar el salto hacia entornos mviles creando una nueva
generacin de buscadores: los buscadores mviles4.

Alrededor de 2001, el buscador Google adquiri prominencia. Su xito


estaba basado en parte en el concepto de popularidad basado en PageRank, bajo
la premisa de que las pginas ms deseadas eran ms enlazadas por otras
pginas que el resto. Esta idea permiti a Google disponer las pginas de una
determinada bsqueda en funcin de su importancia, basada en este algoritmo,
esto es, las pginas ms enlazadas por otras pginas se mostraban en primer
lugar. La interfaz minimalista de Google se hizo muy popular entre los usuarios y
desde entonces ha tenido un gran nmero de imitadores.

Google y muchos otros buscadores no slo usaban PageRank, sino ms de


150 criterios para determinar la relevancia de una Web.

En 2004, Yahoo! lanz su propio buscador basado en una combinacin de


tecnologas de sus adquisiciones y proporcionando un servicio en el que ya
prevaleca la bsqueda en Webs sobre el directorio.

Los buscadores mviles sern tan importantes para la gestin de los contenidos mviles como los
buscadores lo han sido para Internet. Aunque hoy la mayora de los contenidos mviles estn
vinculados a los portales de los operadores, los contenidos fuera de los mismos, Off port. Obtenido
de "http://es.wikipedia.org/wiki/Buscadores_m%C3%B3viles" (WIK, 2007h)

17

El ms reciente de los grandes buscadores es Live (antes MSN Search), de


Microsoft, que previamente dependa de otros para listar sus bsquedas. En 2004
debut una versin beta con sus propios resultados, impulsada por su propio robot
(llamado msnbot). Al principio de 2005 comenz la versin definitiva.

El mercado est ahora dominado por Google, Yahoo! y Microsoft. El resto


de grandes buscadores tienden a ser portales que muestran los resultados de
otros buscadores y ofrecen, adems, otro tipo de contenidos que tienen mayor o
menor importancia en la pgina como hace el propio Yahoo!

Lo ms reciente es Noxtrum, el primer motor de bsqueda global diseado


por una empresa espaola, Telefnica Publicidad e Informacin, S. A. (TPI),
lanzado al mercado en versin Beta el 1 de diciembre de 2005. Su objetivo es ser
el lder en las bsquedas en Internet del mundo hispanohablante, y para ello est
especializado en las bsquedas locales, actualmente slo operativas en Espaa.
Noxtrum parte de la implementacin de FAST para construir su propio motor de
bsqueda, con lo que realmente no cuenta con tecnologa de bsqueda propia,
sino que adapta al espaol la tecnologa usada en su da por navegadores como
AllTheWeb, hoy propiedad de Yahoo!. Y finalmente Nutch un buscador basado en
tecnologa de cdigo abierto5 (WIK, 2007f).

1.3. Elementos bsicos de un buscador


A continuacin se detallan los elementos bsicos de un buscador segn
Prado [PRA, 2006].

Cdigo abierto (del ingls open source) es el trmino con el que se conoce al software
distribuido y desarrollado libremente. http://es.wikipedia.org/wiki/C%C3%B3digo_abierto (WIK,
2007i)

18

1.3.1. Interfaz de portada


El reto fundamental que se acomete en este punto es construir un sistema
de interaccin que sea consistente con la interfaz que el usuario se va a encontrar
durante el listado de resultados.

La portada debe facilitar al mximo la puesta en marcha de la bsqueda, ya


que la formulacin de la estrategia de bsqueda es posible que ya se haya
producido. Esto significa:


Informar de lo estrictamente necesario.

Introducir slo elementos grficos relevantes.

Poner el foco (a nivel esttico y a nivel de programacin) en la caja de


bsqueda.

Permitir el lanzamiento de la bsqueda al pulsar la tecla Enter.

Los elementos de interaccin estrictamente necesarios que nos encontramos son:




La caja de bsqueda

El botn de buscar

a)

b)

c)

Figura 1.1. Caja de bsqueda y botn de buscar de: a) Google b) Yahoo! y c) Altavista. Estas
interfaces de buscadores estn activas en las direcciones: http://www.google.com.mx/,
http://mx.yahoo.com/ y http://es.altavista.com/. 3 de Junio de 2007, 13:00 hrs.

19

La caja de bsqueda
La caja de bsqueda (Figura 1.1) suele ser alargada para animar al usuario
a que utilice varios trminos de bsqueda. A finales de 2004 Gary Price daba el
dato de 2.8 palabras como tamao medio para la pregunta. Prado menciona que
hay que recordar que la experiencia positiva de un usuario de un buscador, va a
depender al final de que encuentre lo que busca y es ms posible que lo haga si
puede formular una bsqueda de cuatro o cinco trminos, que de uno. Es esencial
que las interfaces de bsqueda que se planteen, tengan en cuenta este hecho y
motiven a formular bsquedas utilizando varios trminos de bsqueda.

El botn de buscar
El botn de buscar (Figura 1.1) debe estar claramente etiquetado ("buscar
en la Web", por ejemplo) y debe tenerse en cuenta, respecto de su tamao y
colocacin, la Ley de Fitt que dice que el tiempo requerido para alcanzar un
blanco est en funcin de la distancia al mismo y del tamao del mismo6. Es por
esto que algunos buscadores colocan debajo de la caja el botn y a la izquierda y
le proporcionan un tamao considerable.

1.3.2 Listado de resultados


El listado de resultados es el espacio en donde el usuario, dada la
naturaleza iterativa del proceso, pasa la mayor parte del tiempo antes de encontrar
el recurso deseado.

El listado de resultados es esencial que:




Informe claramente acerca de qu se est buscando y qu resultados se


estn visualizando.

Ley de fitt, Fue publicada por Paul Fitts en 1954. obtenido de http://en.wikipedia.org/wiki/Fitt (WIK,
2007j).

20

D alternativas de bsqueda frente a errores o queries formuladas de


manera insuficiente.

Permita el escaneo de los resultados.

Permita al usuario moverse con facilidad a travs de los resultados.

Permita reformular la bsqueda.

Reduzca en lo posible la necesidad de recordar todo el proceso de


bsqueda (con un histrico por ejemplo)

La interfaz de bsqueda
El listado de resultados debe contar con un interfaz de bsqueda que
permita el refinamiento de la misma. Las mismas caractersticas que debe tener la
interfaz de portada deben presentarse en la de los resultados, as como utilizar
menos espacio y de que el hecho de disponer de menos espacio no debe suponer
que ambos interfaces se planteen de manera inconsistente.

Status de bsqueda
La informacin que proporciona el status de bsqueda es necesaria para
contextualizar la experiencia de bsqueda, permitir la consulta eficiente de los
resultados y la reformulacin de la bsqueda si fuera necesario. El status debe
informar:


Qu se est buscando (el/los trminos de bsqueda).

Dnde se est buscando (el ndice que se est consultando).

Qu resultados se han encontrado (tamao del universo de bsqueda).

Qu resultados se estn visualizando en la pgina concreta.

Este es el tpico elemento informativo que slo se valora o se pondera


cuando se le echa en falta.

21

La representacin del status vara de un buscador a otro: algunos


concentran la informacin en un slo elemento, en un slo lugar (msn, por
ejemplo), otros la segmentan en dos piezas que se colocan separadamente pero
relacionadas gestlticamente (Google y Ask, por ejemplo).

El lugar o lugares en donde colocar la informacin del status necesariamente


deben localizarse en el comienzo del listado: all donde sern tiles al usuario a la
hora de plantear cmo va a manejar esos resultados y, en caso de desorientacin,
comprobar qu y dnde est buscando.

Spellchecking y Sugerencias
El spellchecking es un elemento de gran utilidad y que facilita una
experiencia de bsqueda positiva. Lo cierto es que los usuarios cometen errores
de escritura o gramtica a la hora de realizar sus bsquedas, y los sistemas de
Spell-checking dan respuesta a aproximadamente el 70% de estos errores.

Normalmente se presenta como un elemento que consta de dos partes:




Perfrasis7 identificativa "Quiso decir:"

Sugerencia.

Es conveniente que ambas partes estn diferenciadas y que la sugerencia


se remarque y tenga la forma propia de los enlaces del buscador.

La colocacin del spellchecking debe ser tal que permita acceder a l


rpidamente y poder as reformular de inmediato una bsqueda que de por s es
errnea. Normalmente se suele situar al comienzo y al final de la lista de
resultados. Prado menciona que est probada la eficacia de la colocacin de
7

Perfrasis, es la unin de dos (o ms) formas verbales que funcionan conjuntamente como una
unidad, por ejemplo: est escribiendo, tiene que escribir, va a escribir, obtenido de
http://www.asmadrid.org/spanish/gram/perifras.htm (LIROZ, 2006)

22

elementos de reformulacin de bsqueda al final del listado de resultados, pues


muchas veces es en ese momento, cuando acabamos de consultar el listado,
cuando nos preguntamos si podemos realizar una bsqueda ms productiva.

Las sugerencias o Feedback relevante dan respuesta al hecho de que


muchas veces los usuarios no tienen claro cmo formular efectivamente la
bsqueda que tienen en mente. Buscadores como Yahoo! y de manera ms
compleja Ask ofrecen este tipo de funcionalidad. Dependiendo de la complejidad
de la funcionalidad en s, su ubicacin normalmente tiende a ser muy similar a la
del Spellchecking en cuanto a forma y colocacin.

Listado
El listado debe ser fcilmente escaneable, de lo cual se derivan tres
conclusiones:


Cada uno de los resultados debe estar claramente diferenciado.

Cada uno de los elementos que conforman un resultado (como mnimo


ttulo y descripcin) deben ser claramente identificables.

El tipo de letra debe tener un tamao adecuado para los usuarios que
vayan a utilizar el buscador o la posibilidad de adecuarlo de manera
sencilla.

Respecto a numerar los resultados tal y como algunos buscadores hacen


(Yahoo! o Clusty por ejemplo), Prado opina que se puede dar a entender que
existe una jerarqua en la relevancia, algo que a su parecer es delicado. Este autor
menciona que lo que s es cierto es que numerar los resultados facilita la
referenciacin de los mismos y la ubicacin del usuario dentro de los resultados,
dos hechos que no pueden ser desdeados.

23

Paginacin
La paginacin es el elemento de interfaz que ayuda al usuario a moverse a
travs de la bsqueda por lo que su importancia es capital.

Prcticamente todos los buscadores utilizan para paginar una interfaz muy sencilla
con enlaces a las distintas pginas de resultados (normalmente de 10 en 10
pginas) y enlaces de "anterior" y "siguiente".

Todos los grandes buscadores colocan este elemento en donde resulta


necesario al usuario, justo despus del listado de resultados y de las
sugerencias/spellcheck, unos centrados (Yahoo!, Google y Ask, por ejemplo),
algunos alineados a la izquierda (Clusty o Alltheweb, por ejemplo) y otros
alineados a la derecha (msn, por ejemplo).

El usuario escanea los resultados empezando por la izquierda, por lo que,


Prado opina que, las mejores opciones de alineacin son las dos primeras
(izquierda y centro), pues no suponen ruptura con la direccin de visin del
usuario (PRADO, 2006).

1.4. Diferencia entre buscadores, directorios y portales


Resulta conveniente tener en cuenta el cierto grado de confusin existente
entre los usuarios de estos sistemas, que a veces no tienen muy claro que
modalidad de sistema estn empleando. Muchas veces los usuarios no distinguen
las diferencias que existen entre un directorio (Yahoo!, por ejemplo) y un motor de
bsqueda (como pueden ser AltaVista o Lycos), ya que las interfaces de consulta
de todos estos sistemas resultan muy similares y ninguno explica claramente en
su pgina principal, si se trata de un directorio o de un motor de bsqueda.
Algunas veces aparece un directorio ofreciendo resultados procedentes de un
motor de bsqueda (Yahoo! y Google tienen un acuerdo para ello), o bien un
24

motor tambin permite la bsqueda por categoras, como si fuera un directorio


(Microsoft Network, por ejemplo). Estas situaciones no contribuyen a superar ese
grado de confusin.

Los directorios son aplicaciones controladas por humanos que manejan


grandes bases de datos con direcciones de pginas, ttulos, descripciones, entre
otros. Estas bases de datos son alimentadas cuando sus administradores revisan
las direcciones que les son enviadas para luego ir clasificndolas en subdirectorios
de forma temtica. Los directorios ms amplios cuentan con cientos de
trabajadores y colaboradores revisando nuevas pginas para ir ingresndolas en
su base de datos. Los directorios estn organizados en categoras temticas,
que se organizan jerrquicamente en un rbol de materias de informacin que
permite el hojeo de los recursos descendiendo desde los temas ms generales a
los ms especficos. Las categoras presentan un listado de enlaces a las paginas
referenciadas en el buscador cada enlace incluye una breve descripcin..

Los motores de bsqueda son aplicaciones que manejan grandes bases de


datos de referencia a pginas Web recopiladas automticamente, sin intervencin
humana. Uno o varios agentes de bsqueda recorren la Web, a partir de una lista
inicial de direcciones y recopilan nuevas direcciones, generando una seria de
etiquetas que permiten su indexacin y almacenamiento en la base de datos. Un
motor no cuenta con subcategoras como los directorios, sino con avanzados
algoritmos de bsqueda que analizan las paginas y proporcionan el resultado ms
adecuado a una bsqueda. Tambin almacenan direcciones que les son remitidas
por los usuarios.

Delgado Domnguez resume en la tabla 1.1 las caractersticas bsicas de


los directorios y motores de bsqueda para recuperar informacin de la Web
(MARTINEZ, 2003).

25

Descubrimiento Representacin Representacin


de recursos

del contenido

de la consulta

Presentacin
de los
resultados

Directorios

Lo realizan

Clasificacin

Implcita

Paginas

personas

manual

(navegacin

creadas antes

por categoras)

de la consulta.
Poco
exhaustivos,
muy precisos

Motores

Principalmente

Indizacin

Explicita

Pginas

de

de forma

automtica

(palabras

creadas

bsqueda

automtica por

clave,

dinmicamente

medio de

operadores,

en cada

robots

etc.)

consulta. Muy
exhaustivas,
poco precisos

Tabla 1.1. Caractersticas de directorios y motores de bsqueda. Fuente: Martnez Mndez, F. J.


Propuesta y desarrollo de un modelo para la evaluacin de la recuperacin de informacin en
Internet (PDF) [En lnea] Biblioteca Virtual Miguel de Cervantes, 2003. Edicin digital a partir del
texto
original
de
la
tesis
doctoral.
Universidad
de
Murcia.
http://www.cervantesvirtual.com/FichaObra.html?Ref=10010&ext=pdf&portal=0. 4 de Julio de 2007,
11:00 hrs.

En cambio un portal es el sistema de acceso a la informacin formado por


un buscador, un ndice temtico y una serie de servicios aadidos como noticias,
compra electrnica, correos electrnicos gratuitos, foros, entre otros. Se trata de
un sistema comercial que basa su servicio en ofrecer el mayor nmero de
informaciones desde una misma pgina. Una caracterstica clara es que son sitios
Web que viven de la publicidad, por lo que todas sus pginas estarn repletas de
anuncios. A cambio son una buena puerta para conseguir informacin accesible
en lnea. Un ejemplo claro es Terra (VICENT, 2006).

26

1.5. Ventajas e inconvenientes de ndices y motores


Los ndices presentan como principal ventaja que la informacin que
compone su base de datos ha sido previamente supervisada y clasificada
adecuadamente por parte del administrador. Esto hace que las bsquedas sean
ms fiables y ms sencillas que en los motores, ya que el usuario dispone de la
gran ayuda de que la informacin est indexada y discriminada.

En el caso de los motores, la informacin suele ser mayor, es decir, la base


de datos que maneja dispone habitualmente de un nmero muy superior de
registros, lo que los hace ms potentes pero menos selectivos. En un buscador
tipo motor, la informacin resultante de una consulta puede llegar a ser algo
catica si no se definen con precisin los parmetros de la misma.

El uso de cada uno de los tipos de buscador depende sobre todo de lo


general o concreta que sea la consulta o lo que se desea encontrar.

Si se ignora el modo de localizar cierta informacin, lo mejor puede ser


utilizar un ndice, pues permite, mediante su directorio de temas, acotar la
consulta, que efectuada en un motor podra verse afectada con una gran seleccin
de direcciones pero con poca precisin. Contrariamente, las bsquedas realizadas
en un motor cuando se sabe muy bien lo que se busca, ofrecen por lo general, un
nmero mayor de resultados tiles (RODRIGUEZ, 2003).

Hasta este momento se han presentado la definicin, el funcionamiento y


caractersticas de las herramientas de bsqueda, pero Cmo emplearlas?,
Cmo obtener el mayor provecho de ellas? En el siguiente capitulo se abordan
los modelos de recuperacin de informacin, una metodologa, operadores y
estrategias para hacer uso adecuado de las herramientas de bsqueda en
Internet.

27

Capitulo II
Modelos, metodologa y estrategias de bsqueda

28

La gran cantidad de informacin en Internet ha provocado que no sea


una tarea sencilla su recuperacin, ya que no existe un orden en la Web.
Actualmente se ha convertido en un gran problema encontrar la informacin
que realmente se esta buscando, es por ello que en este capitulo se presentan
los modelos de recuperacin de informacin, una metodologa para utilizar las
herramientas de bsqueda, los operadores y las estrategias que el usuario
puede emplear en la bsqueda de informacin. Finalmente se aborda la
importancia del lenguaje natural en la recuperacin de informacin.

2.1. Modelos de recuperacin de informacin


Los modelos de recuperacin constituyen hoy en da una de las principales
herramientas a la hora de facilitar una comparacin entre una consulta
determinada y una serie de textos sobre los cuales se realiza dicha consulta.

Los modelos de recuperacin de informacin constituyen un elemento de


mxima importancia debido al auge de los buscadores de Internet y de la gran
expansin de la red de redes. Estos modelos de recuperacin son aplicables
solamente a documentos de contenido nicamente textual. Su funcionamiento
consiste en la creacin de un ndice determinado en funcin del contenido de
dicho documento a recuperar. Tambin cabe destacar para los modelos de
recuperacin los ndices invertidos que consiste en proporcionar la relacin de
documentos de texto en los que aparece una palabra especfica. Para la creacin
de ndices de documentos se tienen en cuenta factores como por ejemplo la
frecuencia con la cual aparece la palabra en el documento (PULIDO, 2007).

2.2. Clasificacin
Existen varias propuestas de clasificacin de los modelos de recuperacin,
una de las ms completas la realiza Dominich, quien establece cinco grupos
(MARTINEZ, 2003):
29

2.2.1. Modelos clsicos


Se consideran modelos clsicos los tres ms comnmente citados: el
booleano, el vectorial y el probabilstico. A continuacin se tallan cada uno de
estos modelos:
Modelo booleano

El modelo de recuperacin booleano es uno de los mtodos ms utilizados


para la recuperacin de informacin. Este modelo se basa en la agrupacin de
documentos, los cuales estn compuestos por conjuntos de trminos y en la
concepcin de las preguntas como expresiones booleanas, de ah deriva el
nombre de modelo de recuperacin booleano. La principal caracterstica es la
consideracin de la relevancia como un carcter puramente binario. Dentro del
modelo, se presenta el lenguaje de consulta, y el mecanismo de indizacin
utilizando los denominados ndices inversos o archivo fantasma.

Modelo vectorial

El modelo de recuperacin vectorial o de espacio vectorial propone un


marco en el que es posible el emparejamiento parcial, asignando pesos no
binarios a los trminos ndice de las preguntas y de los documentos. Estos pesos
de los trminos se usan para computar el grado de similitud entre cada documento
guardado en el sistema y la pregunta del usuario.

Modelo probabilstica

El modelo de recuperacin probabilstico se basa en la equiparacin


probabilstica, dados un documento y una pregunta, es posible calcular la
probabilidad de que ese documento sea relevante para esa pregunta.

30

2.2.2. Modelos alternativos


Estn basados en la lgica Fuzzy. La lgica borrosa o difusa se basa en lo
relativo de lo observado. Este tipo de lgica toma dos valores aleatrios, pero
contextualizados y referidos entre s8.

2.2.3. Modelos lgicos


Desarrollados en la dcada de los noventa, basados en la lgica formal. La
recuperacin de informacin se entiende como un proceso inferencial a travs del
cual se puede estimar la probabilidad de que una necesidad de informacin de un
usuario, expresa como una o mas consultas, sea satisfecha ofreciendo un
documento como prueba.

2.2.4. Modelos basados en la interactividad


Incluye posibilidades de expansin del alcance de la bsqueda y hacen uso
de la retroalimentacin por la relevancia de los documentos recuperados.

2.2.5. Modelos basados en la inteligencia artificial


Estos incluyen Bases de conocimiento, redes neuronales, algoritmos
genticos y procesamiento del lenguaje natural.

Esta simple idea naci en un artculo de Lofti A. Zadeh publicado en 1965 y titulado "Fuzzy Sets"

(Conjuntos Difusos). La lgica difusa permite representar de forma matemtica conceptos o


conjuntos imprecisos, tales como das fros, meses calurosos, personas altas, salarios bajos,
guisos

con

mucho

condimento,

profesores

poco

valorados,

etc.

Lgica

Difusa.

http://es.wikipedia.org/wiki/L%C3%B3gica_difusa (WIK, 2007k)

31

2.3. Metodologa para utilizar las herramientas de bsqueda en


Internet
Martnez, Lpez, Luna, Fernndez y Salmern en su obra Internet para
investigadores establecen una metodologa para utilizar las herramientas de
bsqueda, la cual se compone de cuatro pasos que se enumeran a continuacin
(MARTINEZ, 1998):

1 Definir lo que se busca. Es fundamental comenzar acotando la


bsqueda a realizar tan estrechamente como sea posible, identificando: el tema de
bsqueda, los lmites geogrficos (Europa, Espaa, etc.), los lmites temporales, el
objetivo de la bsqueda los conceptos claves que permiten identificar esa
informacin, el tipo de fuente donde puede encontrarse (paginas Web, Grupos de
noticias, etc.), el formato en que se desea los resultados (listas de enlaces HTML
en formato abreviado o detallado, etc.)

Concretamente para identificar el rea temtica y los conceptos claves, se


deber utilizar una terminologa que sea ambigua, revisar los posibles sinnimos
buscando palabras que realmente definan el concepto y traducirlos al ingls. A
menudo, la parte ms difcil de la bsqueda es saber cmo otras personas pueden
haber denominado el objeto buscado.

2 Definir una o ms estrategias de bsqueda. Una vez definido el objeto


de la bsqueda, se debern analizar las distintas estrategias de bsqueda y
ordenarlas segn la esperanza de encontrar el objetivo. Estas estrategias
dependern del objeto a buscar, pero grosso modo a puntamos a una serie de
estrategias genricas en el orden en que deberan analizarse.

Si el rea temtica a la que pertenece el objeto de la bsqueda est


claramente identificada, en primer lugar puede acudirse a una o ms herramientas
de bsqueda por ndice temtico, del tipo de Yahoo! o Webcrawler, o de las

32

especializadas en ese tema, si es que existen. Este tipo de herramientas permitir


obtener informacin sobre el objeto.

Posteriormente puede utilizar alguna herramienta de bsqueda por


contenido, del tipo de AltaVista, para obtener informacin ms especfica y
actualizada sobre el objeto en cuestin.

Como complemento de las dos estrategias anteriores se puede utilizar uno


o ms Metandices que realicen la bsqueda simultneamente con distintas
herramientas, teniendo en cuenta que estos buscadores en paralelo no suelen
tener acceso a toda la potencialidad de esas herramientas, lo que puede dar lugar
a bsquedas menos precisas que si se hubiese utilizado cada herramienta por
separado.

Seguidamente, si fuese posible, utilizar algunas de las herramientas de


bsqueda especializadas: de foros de discusin, listas de correo, de software, de
organizaciones y empresas, de libros y artculos, etc. Por ltimo, si fuese
necesario para completar la informacin ya obtenida, se podra utilizar otros
recursos de Internet como los Ghoper, Wais, Archi, etc.

3 Disear la(s) solicitud(es) de bsqueda para cada estrategia


definida. Para cada estrategia de bsqueda planteada en el paso anterior deber
disearse la solicitud de bsqueda de acuerdo a las posibilidades de la
herramienta a utilizar (podr acudirse a la ayuda que sta incorpore).

Los

trminos

de

la

bsqueda

(palabras

clave)

pueden

ser,

fundamentalmente:


Una o ms palabras sueltas

Una o ms frases (grupo de palabras que debern aparecer


seguidas), que pueden resultar muy til para localizar un
determinado texto.

33

Cualquier combinacin de palabras sueltas y frases.

Tngase cuidado con el buscador en cuestin a la hora de escribir en


maysculas o minsculas, ya que en algunos casos resulta indiferente pero en
otros no. Algo similar ocurre con las tildes de los acentos.

En la mayora de los buscadores si las palabras sueltas y/o frases se


separan por espacios en blanco y no se enlazan con ningn operador, se estar
indicando que se muestren aquellos resultados en donde aparece cualquiera de
esas palabras y/o frases.

En la mayora de las herramientas de bsqueda por ndices y en todas las


herramientas de bsqueda por sentido podrn utilizarse para acotar o ampliar la
bsqueda ciertos operadores. Tambin en algunas herramientas de bsqueda se
puede utilizar determinada sintaxis para restringir la bsqueda a determinados
campos de informacin, por ejemplo: a los ttulos de las paginas Web (title), a los
URL, a los dominios (host), a los hiperenlaces (link), a los nombres de imgenes
(image), etc.

Suele resultar muy til acceder a las pginas de ayuda que traen las
herramientas de bsqueda.

4 Aplicar las diferentes estrategias diseadas, registrando los posibles


resultados obtenidos con cada una de ellas.

Los resultados obtenidos debern analizarse leyendo el resumen que se


ofrece para ver si lo que nos interesa se encuentra en ese lugar, los primeros
siempre suelen ser las coincidencias que muestran un mayor parecido con la
bsqueda. En las pginas donde los buscadores muestran los resultados
obtenidos por una consulta, cuando el usuario accede a un enlace, ste cambia de
color lo que permite identificar los sitios an no visitados.

34

Los navegadores permiten grabar estos resultados en un fichero con


formato de texto ASCII, que podr ser ledo con cualquier aplicacin informtica o
en su formato original HTML, que tambin puede ser ledo por algunos
procesadores de texto, tal como es el caso de la ltima versin de Word. Tambin
existen programas, generalmente shareware, especialmente diseados para
bajarse de la Red pginas Web con todos sus elementos multimedia, con objeto
de imprimirlas en otro momento, conectar con algunas de sus conexiones sin
necesidad de volver acceder a ellas en lnea, o cualquier otra operacin. Algunos
de estos software son: WebWhacker, WebVcr y MemoWeb. Para guardar todo o
parte del texto de una pagina Web, siempre se tendr la opcin de utilizar las
prestaciones de Copiar y Pegar del entorno operativo que se este utilizando.

Adems recomendamos utilizar la lista de marcadores (Bookmark) del


navegador Netscape (o la agenda de paginas favoritas del navegador Explorer o la
Lista interactiva (Hotlist) de Mosaic) para guardar aquellas direcciones (URL) que
nos interesen, evitando as tener que memorizarlas y reescribirlas. Recordemos al
respecto que suelen existir tres formas de crear una marca, por ejemplo en el caso
del navegador Netscape:


Cuando estemos situado en la localizacin deseada activar el


comando

Marcadores/agregar

marcador

(Bookmark/Add

Bookmark).


Escribiendo la localizacin en la ventada que sale despus de


activar el comando Marcadores/Ir a marcadores (Bookmark/Go
to Bookmark).

Para el caso de querer incluir un enlace que exista en la pagina


en la que estamos situados se puede pulsar con el botn
derecho del ratn sobre el enlace que deseamos aadir y
activar el comando Aadir este en lace al marcador (Add
Bookmark for link).

35

A partir de los primeros resultados obtenidos en la bsqueda se podr


obtener otros trminos que puedan utilizarse para acotar o ampliar la lista de
coincidencias con la bsqueda, siendo recomendable volver a realizar el 2 y el 3
paso, segn los autores mencionados al inicio de este apartado.

2.4. Operadores de bsqueda


Cuando se realizan bsquedas por palabras claves, para obtener los
resultados deseados, el buscador suele permitir relacionar dos o ms palabras
claves y frases mediante los operadores, y de esta manera realizar ajustes en la
bsqueda para ampliarla, reducirla o dirigirla segn las previsiones iniciales o los
resultados obtenidos en las bsquedas efectuadas anteriormente.

Cada herramienta de bsqueda utiliza su propio conjunto de operadores


con una sintaxis especfica.

2.4.1. Operadores de exactitud


Este tipo de operadores se emplea cuando no se tiene definida la palabra
que se busca exactamente o de modo contrario, cuando si se conoce la palabra
exacta que se busca. As se tienen los siguientes dos operadores:

Familia de palabras. Aadiendo al final de la palabra el carcter comodn *,


en algunos casos es $ ? y en otras, la herramienta tiene una opcin especifica
que se puede activar. Se utiliza para indicar races o partes de palabras y buscar
palabras que comienzan con esta raz. Sera la manera de proceder sin no se
sabe como escribir la palabra a buscar exactamente (MARTINEZ, 1998).

Si se desea que la bsqueda localice tambin aquellos documentos donde


las palabras tecleadas aparezcan como partes de otras palabras. Seleccione la

36

opcin Substrings en Yahoo! o ponga el signo (*) en AltaVista o ($) en Lycos


despus de la palabra a buscar para hacer que se expanda. De esta manera, una
bsqueda de "educa" incluir tambin en la respuesta "educador" y "educativo"
(FILIBERTI, 1998).

Truncar la palabra. Aadiendo al final de la palabra el carcter . y en


algunas herramientas se deber activar la opcin especfica. Se utiliza para
encontrar solo aquellas referencias que tengan la palabra exacta y no extensiones
(MARTINEZ, 1998).

Se puede seleccionar la opcin Complete words en Yahoo! y en Lycos usar


el punto (.) al final de una palabra para limitarla en la bsqueda. Por ejemplo
"ciudad" encontrar referencias que contengan la palabra "ciudad" pero no as
"ciudadano" ni "ciudadana" (FILIBERTI, 1998).

2.4.2. Operadores de existencia


Estos operadores se emplean cuando se desean resultados en los cuales
se exija la existencia o inexistencia de alguna palabra. En este tipo de operadores
se incluyen los de presencia y ausencia que a continuacin se detalla y
ejemplifican:

Presencia. Aadiendo delante de la palabra el signo +. Exige la presencia


de alguna(s) palabra(s) clave(s) en la informacin encontrada, lo que permitir
precisar ms la bsqueda (MARTINEZ, 1998).

Especifica palabras que deban aparecer en el resultado. Se puede exigir la


presencia de alguna palabra clave en el documento, de tal forma que si no est
presente en l no se incluir en la lista de resultados. No ponga ningn espacio
entre el + y la palabra a buscar. Por ejemplo (FILIBERTI, 1998):
Olmpico+baloncesto+ftbol+voleibol+balonmano

37

Ausencia. Aadiendo delante de la palabra el signo -. Exige la ausencia de


alguna(s) palabra(s) clave(s) en la informacin encontrada, lo que permitir
precisar ms la bsqueda (MARTINEZ, 1998).

Se puede exigir la ausencia de alguna palabra clave en el documento, de tal


forma que si est presente en l no lo incluir en la lista de resultado. Por ejemplo:
juventud -racismo

Tambin se puede obtener a travs de los operadores lgicos AND NOT


(FILIBERTI, 1998). Por ejemplo:
juventud AND NOT racismo

2.4.3. Operadores lgicos


Los operadores lgicos nos proporcionan un resultado a partir de que se
cumpla o no una cierta condicin. Esto genera una serie de valores que, en los
casos ms sencillos, pueden ser parametrizados con los valores numricos 0 y 1 o
falso y verdadero, la combinacin de dos o ms operadores lgicos conforma una
funcin lgica. Estos operadores son Y (AND), O (OR) y NO (NOT) que se
detallan a continuacin y que para ejemplificarlos se usaran dos conjuntos de
elementos los estudiantes y los europeos:

Y lgico ( AND ). Tambin se puede poner &. Exige que aparezcan todas
las palabras indicadas independientemente del orden. Es un operador de
reduccin que permite realizar consultas ms especificas (MARTINEZ, 1998).

Es la interseccin de los dos conjuntos de bsqueda. Apareciendo en el


resultado nicamente los elementos que aparecen en los dos conjuntos. Ejemplo:
estudiantes AND europeos
Es decir los estudiantes europeos.

38

En nuestro ejemplo slo devolver las pginas que contengan ambos


elementos y no devolver las pginas que slo contengan uno de los dos o
ninguno (FILIBERTI, 1998).

O lgico ( OR ). Tambin se puede poner ! . Exige que aparezca al menos


una de esas palabras indicadas. Es un operador de ampliacin que permite. Por
ejemplo, buscar sinnimos o una o ms palabras claves acentuadas o no. Cuando
no se pone operador alguno entre palabras, los buscadores suelen interpretarlo
como si hubiramos colocado OR (MARTINEZ, 1998).

Unin de los elementos de los dos conjuntos de la bsqueda. Apareciendo


en la bsqueda todos los elementos. Ejemplo:
estudiantes OR europeos
Es decir los estudiantes o europeos.

En nuestro ejemplo devolver las pginas que contengan algn elemento


de los dos o los dos, no devolver las pginas que no contengan ningn elemento
de los dos. Tambin se puede usar | en vez de OR. Algo que hay que resaltar es
que cuando no se indica ningn operador entre palabras, los buscadores lo
interpretan como si se hubiera colocado OR. Es muy til para buscar varias formas
de escritura simultneamente (FILIBERTI, 1998). Ejemplo: Espaa OR Spain OR
Espagne

NO lgico ( NOT ). Tambin se puede poner ^, y en algunas herramientas


deber indicarse BUT NOT o AND NOT. Exige la ausencia de una o ms palabras
indicadas. Es un operador de reduccin que permite eliminar posibles palabras
parecidas pero sin inters para la consulta (MARTINEZ, 1998).

Excluye los elementos de uno de los dos conjuntos de la bsqueda.


Apareciendo en la bsqueda nicamente los elementos que no aparecen en el
conjunto indicado. Ejemplo:

39

estudiantes AND NOT europeos


Es decir los estudiantes que no sean europeos.

En nuestro ejemplo slo devolver las pginas que contengan el primer


elemento y no el segundo. No devolver las pginas en las que figure la palabra
europeo, adems se puede usar ! en vez de NOT (FILIBERTI, 1998).

2.4.4. Operadores de proximidad


Este tipo de operadores permiten especificar la relacin entre elementos
presentes en una bsqueda. As se tienen los operadores cerca, junto y frases que
a continuacin se definen:

Cerca ( NEAR ). En algunas herramientas se deber utilizar los corchetes []


es muy parecido al Y lgico, pero adems exige que entre ambas palabras no
haya ms de 10 palabras. Algunas herramientas pueden indicar la cantidad de
palabras mximas de separacin que debe haber entre dos palabras
determinadas con el operador NEAR/n, siendo n el nmero de palabras mximas
de separacin que se desea. En casos, el operador NEAR slo obliga a que las
palabras estn seguidas (MARTINEZ, 1998).

Es la interseccin de los dos conjuntos de bsqueda. Ejemplo:


estudiantes NEAR europeos
Es decir que las palabras estudiantes y europeos aparezcan relativamente
juntas.

Este operador lo tiene el buscador Alta Vista en su modalidad de bsqueda


avanzada. Es ideal para buscar nombres y apellidos. Adems se puede usar
corchetes ([ ]) para encontrar palabras juntas en InfoSeek (FILIBERTI, 1998).

40

Junto ( ADJ ). En algunas herramientas deber indicarse FOLLOWED BY;


Tambin se puede utilizar las comillas para recoger las palabras como frase o
unirlas mediante guiones sin dejar especio en blanco). Se parece al Y lgico pero
adems exige que entre ambas palabras no haya otra palabra (MARTINEZ, 1998).

Es la interseccin de los dos conjuntos de bsqueda que adems estn


adyacentes. Ejemplo:
estudiantes ADJ europeos
Es decir que las palabras estudiantes y europeos aparezcan juntas.

Este operador no lo tiene el buscador Alta Vista pero puede usar comillas
() con un resultado idntico, ejemplo: "estudiantes europeos". Tambin se puede
usar un guin entre las palabras que desea juntar, ejemplo: estudiantes-europeos
(FILIBERTI, 1998).

Frases. Se parece al Y lgico pero adems exige que la secuencia de


palabras sea idntica (MARTINEZ, 1998).

Es la interseccin de las palabras de bsqueda que adems estn


adyacentes y en el orden en que se describen. Ejemplo:
"estudiantes europeos conectados a Internet".
Es decir que la frase aparezca igual.

Se puede usar el guin - para concatenar y obtener un resultado idntico


por ejemplo: estudiantes-europeos-conectados-a-Internet. Cuando se busca un
texto concreto es muy til (FILIBERTI, 1998).

2.4.5. Otros operadores


Los operadores anteriores son los ms elementales, pero, por ejemplo
Altavista posee estos otros (RODRIGUEZ, 2003):

41

NEAR. Encuentra documentos que contienen ambas palabras o frases


especificadas a una distancia mxima de 10 palabras entre s. Ejemplo:
casa NEAR piscina encontrara documentos con casa con piscina, pero
probablemente ningn otro tipo de casa, como por ejemplo con jardn.

Asterisco (*). En Altavista se debe teclear al menos tres letras antes del *.
Tambin se puede colocar el * en medio de una palabra. Esto es til si no
se est seguro de la ortografa de la palabra.

Parntesis (). Permite agrupar las expresiones booleanas complejas. Por


ejemplo, (casa AND piscina) AND (garaje OR trastero) encontrara
documentos con las palabras casa con piscina y garaje o casa con piscina
y trastero, o ambas.

domain:domainname. Encuentra pginas dentro del dominio especificado.


Use domain:es para encontrar paginas espaolas o utilice domain:com
para encontrar paginas de sitios comerciales.

image:filename. Encuentra pginas con imgenes que tienen un nombre


de archivo especfico. Utilice image:casa para encontrar pginas con
imgenes llamadas casas.

tex:tex. Encuentra pginas que contienen el texto especificado en


cualquier parte de la pgina excepto las etiquetas de imagen, los vnculos
o las URL. La bsqueda text:piscina encontrara todas la paginas que
contengan el termino piscina.

title:text. Encuentra pginas que contienen la palabra o frases


especificada en el titulo de pgina (que aparece en la Barra de titulo de la
mayor parte de los navegadores). La bsqueda title:inmobiliaria
encontrara las paginas que contienen en el titulo la frase inmobiliaria.

url:text. Encuentra pginas con una palabra o frase especificas en la URL.


Utilice url:jardin para encontrar todas las pginas de todos los servidores
que tengan la palabra jardn en cualquier parte del nombre del host, la
ruta o nombre de archivo.

42

2.5. Estrategias de bsqueda


En este apartado se borda la definicin de estrategia de bsqueda y se
mencionan algunas de ellas, las cuales al ser aplicadas permitirn obtener
mejores resultados en la bsqueda de informacin.

2.5.1. Concepto de estrategia


Una estrategia es una directriz o lgica con la que se dirige la accin hacia
un objetivo determinado, vistas las caractersticas que tiene el medio en el que se
acta: las fortalezas y las debilidades, los obstculos, fuerzas en contra y las
virtudes y habilidades para vencer estos obstculos. Entonces, la estrategia surge
de elegir un cause de accin de entre varias posibilidades o alternativas
(MENESES, 2004).

2.5.2. Bsqueda de informacin


La bsqueda de informacin tiene diversas formas:


Una de ellas es la investigacin documental. Esta se realiza para obtener


informacin orientada a descubrir un conocimiento nuevo, elaborar uno
propio, identificar algn conocimiento que se deriva del uso creativo de la
informacin. Se realiza en bibliotecas, hemerotecas, archivos, centros de
informacin.

Otra forma es la bsqueda en Internet. La bsqueda se hace para


reconocer la informacin existente, determinar la que hace falta o es
limitada o actualizar la que se tiene.

Otra forma de bsqueda es la que se hace en bases de datos. Tiene


iguales propsitos que la bsqueda en Internet.

43

Cuando hay que buscar informacin acerca de un asunto, es necesario


emplear una estrategia de bsqueda para que el resultado de la bsqueda sea
exitoso: ms rpido, con la mejor, la mayor informacin y con la informacin vlida
(objetiva, significativa, pertinente, confiable, actual o vigente) (CBDM, 2003).

2.5.3. Concepto de estrategia de bsqueda


Procedimiento detallado que permite estructurar la secuencia de pasos a
seguir al utilizar un determinado mtodo de bsqueda de informacin. Una
estrategia bien estructurada permite asegurar la replicabilidad de la bsqueda, as
como acordar razonablemente que las variaciones en los resultados de la
bsqueda se deben a una variacin en el universo de bsqueda y no en el propio
procedimiento (MENESES, 2004).

Figura 2.1. Operaciones de la investigacin documental. Fuente: Coordinacin de Biblioteca y


Documentacin Multimedia. Secretara Acadmica. UNLZ.
http://www.unlz.edu.ar/biblioteca/tutores/tutor2b/dos.htm#*. 12 de Julio 2007. 10:50 hrs.

44

Una estrategia de bsqueda de informacin se define con acciones u


operaciones lgicas que resuelven cosas como:


Sobre qu buscar informacin (se definen necesidades existentes).

Qu ignorancias tengo y qu s sobre el tema de bsqueda. (Se definen


preguntas que llevan a responder las necesidades de indagacin).

Cul es el mbito de relaciones (o de informacin) del tema principal (se


define el tema general, los subtemas, los temas relacionados y los
equivalentes).

Dnde

buscar

(Se

responde

a: quin tiene

dnde

est

la

informacin?).


Con qu herramientas buscar (Se determina: cmo llego a donde se


encuentra la informacin).

Cmo hacerlo (Se define: con qu criterios, acotaciones, indicadores,


palabras claves).

En qu puntos o mbitos temticos (Se define desde qu otros temas


relacionados y subtemas se puede llegar a la informacin).

Las anteriores operaciones forman parte de la definicin de una lgica de


bsqueda (Figura 2.1). Forman parte de las operaciones de la llamada
investigacin documental (CBDM, 2003).

2.5.3.1. Pasos para llegar a lo que se busca


Aunque el proceso de bsqueda no es secuencial, los siguientes pasos
pueden ayudar a orientar el proceso (UDEA, 2007):
a) Establecer claramente los objetivos de bsqueda, esto le ayudara a
mantenerse concentrado en lo que necesita buscar.
b) Elaborar una lista de palabras claves que le ayuden a cumplir con sus
objetivos de bsqueda.
c) Hacer una bsqueda de material usando las palabras claves de la lista.

45

d) Hacer una preseleccin del material encontrado, basndose en criterios


como los mencionados en el apartado 2.5.7.
e) Leer el material preseleccionado concentrndose solo en las secciones:
resumen, introduccin y conclusiones. Escriba un prrafo resumiendo por
cada material: lo ledo y su relacin con el problema de su inters.
f) Seleccionar de nuevo. Escoja solo aquel material que tiene ms relevancia
en el contexto del problema de su inters.
g) Leer en forma cuidadosa todo el texto del material seleccionado.

2.5.4. La estrategia en la bsqueda de informacin


Segn Fuentes, ensear a buscar informacin resulta uno de los grandes
retos del futuro inmediato. Pero, qu ensear? Los resultados de nuestros
estudios nos permiten afirmar que es ms importante el hecho de ser estratgico
en la bsqueda de informacin que poseer amplios conocimientos acerca las
herramientas de bsqueda y los medios informticos.

Con sus estudios Fuentes ha podido observar cmo los usuarios


estratgicos, independientemente de sus conocimientos acerca del medio y la
temtica, llevan a trmino un proceso de planificacin (revisin) regulacin y
evaluacin que les ayuda a llegar a los resultados deseados; mientras que los
menos estratgicos siguen un proceso marcado por la asociacin, reproduccin y
automatizacin que no siempre les lleva a la informacin deseada. El segundo
grupo llega a buenos resultados si dispone de amplios conocimientos sobre el
tema o sobre distintos instrumentos y modalidades de bsqueda; pero, aun as,
difcilmente llegan a responder a demandas complejas y especficas que impliquen
reorganizar el conocimiento o seguir un proceso reflexivo.

Aprender una estrategia de bsqueda de informacin supone aprender


cundo y por qu se ha de utilizar un procedimiento, un concepto o una actitud
determinada. Es decir, cundo y por qu seguir un determinado proceso de

46

bsqueda, cundo y por qu utilizar unos u otros buscadores, cundo y por qu


utilizar determinados trminos, cundo y por qu utilizar ciertas opciones de
bsqueda que nos ofrecen los buscadores escogidos, cundo y por qu hacer uso
o no de operadores, cundo y por qu limitar la bsqueda.

Los usuarios menos estratgicos actan por ensayo y error sin trazar un
plan previo, sin conocer qu recursos de bsqueda existen y cules pueden
resultar ms adecuados en cada caso, y sin clarificar tampoco qu palabras clave
son las ms relevantes para el tema o qu criterios pueden resultar ms fiables
para seleccionar los mejores sitios o direcciones de entre un inmenso listado.
Utilizan el primer sistema de bsqueda que han encontrado sin tener en cuenta
sus caractersticas y las de la demanda (idioma, mbito geogrfico, mbito
temtico...). Emplean distintas palabras clave sin pararse a pensar en otras
opciones que no se encuentran especificadas tan claramente en la demanda.
Cuando no encuentran lo que desean tienden a dar por terminada la bsqueda. Si
efectan alguna revisin, sta se limita a posibles errores de escritura; raramente
se cuestionan el proceso seguido, la seleccin de los buscadores o la
organizacin de la bsqueda. La nica posible operacin de control que llevan a
cabo se basa en un simple reconocimiento de adecuacin, comprobando que la
informacin que van hallando est relacionada con el tema en cuestin.

En cambio, los usuarios que tienden a llegar a mejores resultados en la


bsqueda de informacin son los que siguen un proceso estratgico que implica
un ir y venir entre lo que quieren buscar y la manera en que lo hacen. Las
actuaciones de estos sujetos se ajustan a los objetivos de la bsqueda; toman
decisiones ms oportunas en funcin de la informacin hallada y de las
condiciones de la situacin y la tarea. Las revisiones son constantes a lo largo de
todo el proceso.

Se ha observado tambin que, si los expertos navegadores no estratgicos


tienen que actuar fuera de su dominio de conocimientos, les resulta difcil regular

47

el propio proceso de bsqueda, mientras que una bsqueda estratgica


(consciente, intencional y autorregulada) de la informacin favorece unos
resultados ms fructferos. Los sujetos estratgicos nos mostraron cmo, aun
actuando fuera de su dominio de conocimientos, pueden buscar soluciones
alternativas y hallar lo que buscan.

2.5.4.1. Delimitacin de la bsqueda


Fuentes menciona que toda bsqueda de informacin resultar ms eficaz
cuanto ms delimitado est lo que buscamos. Se trata de reducir el espacio que
media entre lo que ya sabemos y aquello que queremos encontrar; cuanto mayor
sea esa distancia, menores sern las posibilidades de hallarlo. Por consiguiente,
en lo referente a la bsqueda, una correcta planificacin nos permitir separar el
xito del fracaso ms que ninguna otra competencia.

En la tabla siguiente se presentan algunas decisiones relevantes en la


bsqueda de informacin.

Planificacin

Cul es el propsito de la bsqueda?


Para que necesito la informacin?
Cules son sus principales condiciones?
De cuanto tiempo dispongo para buscar?
Qu extensin deber tener la informacin?
Qu grado de profundidad?
Qu tipo de presentacin deber hacer de la informacin encontrada?
Qu necesito saber para iniciar la bsqueda?
A que fuentes de informacin pertinentes puedo tener acceso?
Cmo debo actuar para buscar la informacin en la fuente escogida?
Qu contenido deber tener esa informacin?
Cules son los instrumentos de bsqueda de que dispongo?

48

Supervisin

Cmo sabr que busco en la direccin adecuada?

Valoracin

Cmo sabr que he encontrado lo que buscaba?

Qu indicadores me darn cuenta de que la bsqueda esta resultando


fructfera?

Cmo sabr que lo que he hallado es lo que buscaba?


Qu criterios utilizare para seleccionar la informacin?

Tabla 2.1. Decisiones relevantes en la bsqueda de informacin. Fuente: Fuentes Agust, M.


Naufragar en Internet. Estrategias de bsqueda de informacin en redes telemticas. Virtual Educa
UOC 2001. http://www.uoc.edu/web/esp/art/uoc/0109037/fuentes.html. 11 de Mayo de 2007, 11:25
hrs.

Siguiendo el esquema presentado en la tabla anterior, plantearnos realizar


una bsqueda de informacin en Internet implica, en primer trmino, definir con la
mxima exactitud y concrecin posibles el objetivo u objetivos que nos motivan a
llevar a cabo la bsqueda. Slo a partir de esa definicin, entendida tanto
cuantitativamente

como

cualitativamente,

lograremos

acercarnos

los

instrumentos y al lenguaje de bsqueda ms adecuados para poder conseguir


unos resultados satisfactorios. Partiendo de lo que pretendamos conseguir,
definiremos uno u otro itinerario de localizacin, procesamiento y presentacin de
los resultados.

Sin embargo, actuar de este modo, orientado por un objetivo claro y


ajustndose a las condiciones de la bsqueda en s, resulta todava insuficiente.
Es imprescindible adquirir un sentido crtico que evite la sacralizacin de la
informacin (FUENTES, 2001).

49

2.5.5. Estrategias de bsqueda en Internet


Muchas veces, resulta tan frustrante no encontrar informacin en la Web,
como confuso disponer de demasiadas opciones de bsqueda y no saber cmo
emprenderla.

A continuacin se presentan algunas estrategias generales que deben


tenerse en cuenta para utilizar las diferentes herramientas de bsqueda en la Web
de forma ms rpida y eficiente. Los rubros bajo los cuales aparecen son
orientativos (MORENO, 2005).

Estrategias generales

Usar varios recursos de bsqueda, y no ceirse a uno exclusivamente


para todos los tipos de bsqueda.

Elaborar y mantener una lista propia de buscadores, metabuscadores,


directorios, guas y recursos ms tiles. Guardar la seleccin en un
archivo de Favoritos (bookmarks) en nuestra computadora y/o en un
servicio de acceso remoto a favoritos que permita consultar el archivo
desde cualquier computadora con acceso a la Web, como Backflip.

Consultar a los bibliotecarios para recibir orientacin sobre estrategias de


bsqueda y localizacin de recursos de informacin en la Web, y para
obtener documentos.

Seleccin de herramientas

Usar los tutoriales para aprender a seleccionar y utilizar las diferentes


herramientas de bsqueda.

50

Objetivo de la bsqueda

Usar buscadores o metabuscadores para localizar informacin de la que


poseemos datos especficos.

Usar directorios o guas para explorar reas de inters temtico.

Forma de bsqueda

Usar buscadores o metabuscadores para realizar bsquedas por


palabras.

Usar directorios o guas para revisar por categoras.

Especializacin de la bsqueda

Usar metabuscadores para realizar bsquedas generales en muchos


buscadores a la vez.

Usar los concentradores o directorios de buscadores para buscar en


varios buscadores especializados.

Precisin de la bsqueda

Seleccionar e instalar en nuestra computadora la versin gratuita de algn


motor avanzado o agente auxiliar para las bsquedas en la Web.

Solicitar la adquisicin para uso institucional de la versin completa de


algn motor avanzado o agente auxiliar para las bsquedas en la Web.

Seleccin de recursos

Usar las guas temticas para conocer los principales recursos de


informacin que cubren nuestros intereses.

Usar directorios especializados para bsquedas exhaustivas de recursos.

51

Franco Luis Filiberti en su trabajo propone las siguientes estrategias


(FILIBERTI, 1998):

Mucha informacin recuperada

Sea ms especfico en la descripcin del tema.

Usar ms palabras claves y relacionarlas con el AND lgico.

Exigir la presencia de las palabras ms relevantes.

Eliminar posibles palabras parecidas sin inters, mediante el NOT lgico

Usar frases en vez de palabras sueltas si es posible.

Restringuir la bsqueda a campos concretos. Por ejemplo:


 Ttulo (title)
 Url
 Enlace (link)
 Anfitrin (host)

Ponga en maysculas la primera letra de los nombres propios y use


acentos.

Escrbala en castellano o cualquier otro idioma que no sea el ingls.

Si desea darle mayor consideracin a cierta palabra, simplemente


reptala.

Usar buscadores con opciones avanzadas de bsqueda.

Usar directorios anotados o guas.

Poca informacin recuperada

Quitar palabras claves dejando slo las ms relevantes.

Cambiar el AND por el OR lgico.

Compruebe su ortografa. Sobre todo si deberan haber mas resultados de


los conseguidos.

Use sinnimos y variantes.

52

Cambie o incluya el otro nmero. Por ejemplo: libro a libros ; lpices a


lpiz.

Ponga todas las palabras en minsculas.

Use buscadores ms universales y use el ingls.

Es posible no haya mucha informacin sobre su tema.

Consultar a especialistas que conozcan recursos especializados.

Buscar en recursos adicionales si no se encuentra el material en la Web.

Resultados demasiado lentos

Elimine las palabras comunes o frecuentes. No utilice palabras de pocas


slabas como los artculos pues no facilitarn la bsqueda y la prolongarn
innecesariamente.

No use muchas palabras. Elimine las superfluas.

Cambie de buscador, quizs est sobrecargado o realice la bsqueda en


otro momento.

Desactive la carga automtica de los grficos hasta que alcance un


objetivo interesante.

Si quiere saltar a alguna pgina que no sea la contigua use la opcin del
men Ir (GO).

2.5.6. Estrategias recomendadas segn la herramienta


Antes de comenzar la bsqueda se tiene que enunciar el tema para luego
decidir la herramienta y estrategias que se debe usar, en el cuadro siguiente
(Tabla 2.2) se mencionan algunas estrategias para buscar informacin en Internet
segn la herramienta que el usuario dese emplear para su bsqueda (PUCC,
2007).

53

Herramientas de
bsqueda
Consulta un
Metabuscador para
consultas simples y
para recuperar pginas
de contenido.

Recomendaciones de bsqueda







Revisa las instrucciones de uso del buscador


Traduce los trminos al ingls.
Anota primero el concepto ms importante
Prefiere el uso de palabras en letra minscula
Usa frases entre comillas " " para limitar la
bsqueda. Por ejemplo: "artificial intelligence"
Realiza bsquedas sencillas (una o dos palabras,
frases entre comillas " " o un trmino y una frase
entre comillas " "). Por ejemplo : +universities +
"artificial intelligence".

Revisa las
Adems de las recomendaciones anteriores:
instrucciones
avanzadas de Motores
 Aprende a usar 2 - 3 buscadores
de Bsqueda para
 Utiliza ms de un buscador
delimitar la bsqueda o
 Comienza con una bsqueda especfica y si no
consultar sobre
tienes xito intenta usar un trmino ms general.
aspectos especficos
 Explora las opciones de bsqueda que se te
del tema.
ofrecen tales como: idioma, tipo de formato,
imagen, texto, video, dominio, etc.
Revisa Directorios
Temticos para
recuperar informacin
general sobre un tema
Selecciona el tema y
luego subtemas de
inters.





Navega a travs de las categoras y


subcategoras.
Usa ms de un directorio
Utiliza el casillero de bsqueda si se encuentra
disponible.

Tabla 2.2. Estrategias recomendadas segn la herramienta. Fuente: Pontificia Universidad Catlica
de Chile - Sistema de Bibliotecas. http://www.puc.cl/sw_educ/gnosis/J/gnosisj.htm. 12 de Mayo de
2007, 10:30 hrs.

2.5.7. La seleccin de la informacin


Se ha visto que, para llevar a cabo una buena bsqueda de informacin no
es suficiente con dominar ciertos contenidos relacionados con el medio de
bsqueda o con el contenido especfico, sino que es necesario dominar
mnimamente la lengua de comunicacin, conocer distintos procedimientos de

54

bsqueda y, sobre todo, saberlos utilizar de manera ajustada a los objetivos y


condiciones de la bsqueda. A todo esto hay que aadir la competencia para
determinar qu documentos de los encontrados son ms fiables y pueden resultar
de mayor provecho.

Ante la facilidad de publicacin en la Web y la falta de control sobre los


contenidos que se publican, es el usuario quien debe valorar el rigor y la fiabilidad
de la informacin hallada, evitando dudar de todo o creerlo todo sin ms, posturas
ambas que no conducirn a un resultado eficaz.

Fuentes menciona en su trabajo si comparamos los resultados de nuestros


estudios con expertos y principiantes ante la bsqueda de informacin, obtenemos
que los criterios ms utilizados por los navegadores expertos (contenidos
contrastables, autor, frecuencia de actualizacin) no han sido recogidos por los
usuarios principiantes, los cuales se fijan menos en la veracidad de la informacin
y dan prioridad al ajuste, al tpico de la bsqueda mediante una seleccin de la
informacin basada en la intuicin, el ttulo, el resumen y el orden de aparicin de
los documentos. Criterios que los expertos consideran de una relevancia
destacable pero que no sitan como prioritarios.

Muchas veces, ante los numerosos resultados, se inicia una especie de


zapping compulsivo sin partir de un criterio previo de seleccin. Ensear a ser
crticos en su proceso de bsqueda de informacin requiere un adiestramiento
tambin para diferenciar el grano de la paja. En la tabla que sigue (Tabla 2.3) se
exponen algunos de los criterios ms relevantes en la seleccin de la informacin
(FUENTES, 2001).

Criterios de seleccin
 Objetividad de la informacin
 Relacin entre el contenido real y el complementario
 Tono y estilo

55











Vocabulario
Ortografa, gramtica, sintaxis y composicin literaria
Organizacin y estructura de la informacin
Facilidad de lectura y compresin
Esttica, originalidad y creatividad
Enlaces operativos
Publicidad equilibrada
Opciones de bsqueda
Tecnologa apropiada

Rigor, credibilidad y fiabilidad de la informacin













Autor y/o productor


Nombre de la URL
Acceso a la direccin electrnica del autor y/o patrocinador
Contenido contrastable
Informacin duradera y/o frecuencia de actualizacin
Actualidad temtica
Enlaces pertinentes y apropiados
Frecuencia de consultas
Facilidad de navegacin
Seguridad del sistema

Ajuste al tpico de la bsqueda















Orden en que son presentados los documentos


ndice de importancia mostrado por el buscador
Resumen y/o comentarios
Idoneidad de los recursos
Idioma
Coste de la consulta
Facilidad de acceso a la informacin
Titulo
Trminos resaltados mediante tcnicas tipogrficas
Lectura de los primeros prrafos
Integridad de la informacin
Profundidad de la informacin

Tabla 2.3. Criterios relevantes en la seleccin de informacin. Fuente: Fuentes Agust, M.


Naufragar en Internet. Estrategias de bsqueda de informacin en redes telemticas. Virtual Educa
UOC 2001. http://www.uoc.edu/web/esp/art/uoc/0109037/fuentes.html. 11 de Mayo de 2007, 11:25
hrs.

56

2.5.7.1. Criterios para seleccionar el material


NOVEDAD: Si el tema de inters es un tema nuevo en el rea de estudio,
es preferible escoger materiales de publicacin reciente, aunque se corra el riesgo
de sacrificar calidad por obtener oportunidad. Si por el contrario el tema se ha
trabajado por muchos aos, es preferible escoger libros, de preferencia aquellos
que tienen varias ediciones.

POPULARIDAD: En trminos generales, los autores acostumbran citar un


material cuando consideran que ste es til y de buena calidad. El nmero de
citas a un artculo es un indicador de su popularidad, y por ende, de su calidad. El
nmero de ediciones de un libro es tambin un indicador de su popularidad.

RELEVANCIA: Es importante determinar si el material es relevante o no


para el objetivo de la bsqueda que se est realizando. Algunos buscadores
entregan listas ordenadas en forma descendente por el grado de relevancia con
respecto a las palabras claves usadas en la bsqueda. El investigador puede
determinar sus propios criterios de relevancia, por ejemplo,

calificando los

materiales de 1 a 5 despus de leer el resumen (abstract), la introduccin, y la


conclusin de cada uno de ellos.

CONSISTENCIA: Es bueno leer material que est escrito en una forma


consistente, tanto en su contenido, como en su relacin con el rea de estudio.
Esto ayuda a ser consistentes, y a la vez nos evita cometer errores por asumir
como vlidas afirmaciones que no lo son y viceversa. El criterio de consistencia es
difcil de evaluar sin leer en forma cuidadosa cada uno de los materiales; sin
embargo, una forma prctica de aplicar este criterio es preferir: lo internacional en
lugar de lo nacional, las revistas en lugar de las memorias de conferencias, las
memorias de conferencias en lugar de los reportes tcnicos.

57

PROCEDENCIA: Este es un criterio de seleccin basado en la siguiente


heurstica: el que hace un trabajo bien una vez tiene buena probabilidad de
hacerlo bien una segunda vez.

Se puede evaluar este criterio,

por ejemplo,

determinando el nmero de veces que sus autores han sido citados por otros
autores. Otra forma de evaluar la procedencia es observando los nombres de los
centros de investigacin y las universidades a los que estn afiliados los autores
(UDEA, 2007).

2.5.8. El ruido y el silencio en la recuperacin de informacin


El silencio a la hora de recuperar informacin, tambin conocido como
silencio documental, es un inconveniente que consiste en la ausencia de
resultados pertinentes ofrecidos por un motor de bsqueda cuando ste es
interrogado, producto de la sinonimia entre otras razones.

El objetivo principal de todo proceso de recuperacin de informacin (IR) es


conseguir que el sistema de informacin (SI) muestre aquellos documentos que se
ajusten de la manera ms adecuada a la necesidad de informacin originaria, es
decir, realizar una recuperacin de informacin en la que el ruido (conjunto de
documentos que son recuperados por el SI a partir de la ecuacin de bsqueda
pero que no se adecuan a la necesidad de informacin originaria) y el silencio
(conjunto de documentos que no son recuperados por el SI a partir de la ecuacin
de bsqueda pero que s se adecuan a la necesidad de informacin) sea igual al
conjunto vaco.

Este silencio no es el nico problema que presenta el uso del lenguaje


natural con el que se interrogan los motores de Internet (Yahoo, Google, Altavista,
Lycos...), existen otros como el ruido (producido por la polisemia, p.ej. banco,
gato), homografa (p. ej. traje, vino) y ambigedad.

58

Una de las causas de fracaso y frustracin en las bsquedas se produce


cuando el usuario desconoce o no domina suficientemente el lenguaje de
interrogacin del motor que est utilizando. En ese caso, encuentra grandes
dificultades para localizar la informacin que necesita. Si la consulta no se formula
de manera adecuada, aprovechando las prestaciones del sistema, ste no localiza
ningn documento pese a que existan algunos tiles y pertinentes, producindose
lo que se denomina silencio, o por el contrario, responde con un gran nmero de
referencias irrelevantes, lo que se denomina ruido.

Para orientar al usuario en la realizacin de las bsquedas, muchos de los


motores de bsqueda ponen a disposicin del usuario pantallas de ayuda.

No obstante, no es el usuario el nico responsable de que el proceso de


bsqueda resulte insatisfactorio (HERAS, 2006).

2.6. Bsqueda de informacin y el lenguaje natural


El procesamiento del lenguaje natural es una subrea de la inteligencia
artificial y de la lingstica que nace en la dcada de 1960, con el objeto de
estudiar los problemas derivados de la generacin y comprensin automtica del
lenguaje natural. Tambin se suele referir a esta rama de la informtica de forma
abreviada como PLN o NLP, del ingls Natural Language Processing.

El fin del PLN es construir sistemas y mecanismos que permitan la


comunicacin entre personas y mquinas por medio de lenguajes naturales.
Adems, trata de que los mecanismos que permitan esa comunicacin sean lo
ms eficaces posibles, computacionalmente hablando. En definitiva, se busca
poder crear programas que puedan analizar, entender y generar lenguajes que los
humanos utilizan habitualmente, de manera que el usuario pueda llegar a
comunicarse con el ordenador de la misma forma que lo hara con un humano.

59

La relacin entre el procesamiento del lenguaje natural y la recuperacin y


organizacin de informacin es evidente: la meta es desarrollar un buscador Web
al que un usuario preguntase cualquier cosa, y el sistema fuese capaz de
responderle correctamente, como lo hara cualquier persona. A esto se le conoce
con el nombre de sistemas de question-answering. En este sentido, un posible
buscador de informacin que utilizase procesamiento del lenguaje natural para la
recuperacin de informacin se diferenciara de un buscador tradicional en que el
usuario podra consultar la pregunta que se plantea l mismo tal y como la piensa,
sin necesidad de buscar por los conceptos que cree que podran servir para
encontrar la informacin que desea.

Adems de su utilidad en el campo del procesamiento y la recuperacin de


informacin, el PLN se aplica a otros aspectos como la traduccin automtica, el
reconocimiento del habla o la correccin ortogrfica de textos (MUOZ, 2007).

En sus orgenes, sus mtodos tuvieron gran aceptacin y xito, no


obstante, cuando sus aplicaciones fueron llevadas a la prctica, en entornos no
controlados y con vocabularios genricos, empezaron a surgir multitud de
dificultades. Entre ellas, pueden mencionarse por ejemplo los problemas de
polisemia y sinonimia.

En los ltimos aos, las aportaciones que se han hecho desde este dominio
han mejorado sustancialmente, permitiendo el procesamiento de ingentes
cantidades de informacin en formato texto con un grado de eficacia aceptable.
Muestra de ello es la aplicacin de estas tcnicas como una componente esencial
en los motores de bsqueda Web (VALLEZ, 2007).

60

2.6.1. Problemtica del procesamiento del lenguaje natural: la


variacin y la ambigedad lingsticas
El lenguaje natural, entendido como la herramienta que utilizan las
personas para expresarse, posee propiedades que merman la efectividad de los
sistemas de recuperacin de informacin textual. Estas propiedades son la
variacin y la ambigedad lingstica. Cuando hablamos de la variacin lingstica
nos referimos a la posibilidad de utilizar diferentes palabras o expresiones para
comunicar una misma idea. En cambio, la ambigedad lingstica se produce
cuando una palabra o frase permite ms de una interpretacin.

Ambos fenmenos inciden en el proceso de recuperacin de informacin


aunque de forma distinta. La variacin lingstica provoca el silencio documental,
es decir la omisin de documentos relevantes para cubrir la necesidad de
informacin, ya que no se han utilizado los mismos trminos que aparecen en el
documento. En cambio, la ambigedad implica el ruido documental, es decir la
inclusin de documentos que no son significativos, ya que se recuperan tambin
documentos que utilizan el trmino pero con significado diferente al requerido.
Estas dos caractersticas dificultan considerablemente el tratamiento automatizado
del lenguaje. A continuacin se muestran algunos ejemplos que ilustran la
repercusin de estos fenmenos en el proceso de recuperacin de informacin:

a) A nivel morfolgico una misma palabra puede adoptar diferentes roles


morfo-sintcticos en funcin del contexto en el que aparece, ocasionando
problemas de ambigedad.
Ejemplo: Deja la comida que sobre, sobre la mesa de la cocina, dijo llevando el
sobre en la mano.

La palabra sobre es ambigua morfolgicamente ya que puede ser un


sustantivo masculino singular, una preposicin, y tambin la primera o tercera
persona del presente de subjuntivo del verbo sobrar.

61

b) A nivel sintctico, centrado en el estudio de las relaciones establecidas


entre las palabras para formar unidades superiores, sintagmas y frases, se
produce ambigedad a consecuencia de la posibilidad de asociar a una frase ms
de una estructura sintctica. Por otro lado, esta variacin supone la posibilidad de
expresar lo mismo pero cambiando el orden de la estructura sintctica de la frase.
Ejemplo: Mara vio a un nio con un telescopio en la ventana.

La interpretacin de la dependencia de los dos sintagmas preposicionales,


con un telescopio y en la ventana, otorga diferentes significados a la frase: (1)
Mara vio a un nio que estaba en la ventana y que tena un telescopio, (2) Mara
estaba en la ventana, desde donde vio a un nio que tena un telescopio, y (3)
Mara estaba en la ventana, desde donde miraba con un telescopio, y vio a un
nio.

c) A nivel semntico, donde se estudia el significado de una palabra y el


de una frase a partir de los significados de cada una de las palabras que la
componen. La ambigedad se produce porque una palabra puede tener uno o
varios sentidos, es el caso conocido como polisemia.
Ejemplo: Lus dej el peridico en el banco.

El trmino banco puede tener dos significados en esta frase, (1) entidad
bancaria y (2) asiento. La interpretacin de esa frase va ms all del anlisis de
los componentes que forman la frase, se realiza a partir del contexto en que es
formulada.

Y tambin hay que tener en cuenta la variacin lxica que hace referencia a
la posibilidad de utilizar trminos distintos a la hora de representar un mismo
significado, es decir el fenmeno conocido como sinonimia.
Ejemplo: Coche / Vehculo / Automvil.

62

d) A nivel pragmtico, basado en la relacin del lenguaje con el contexto


en que es utilizado, en muchos casos no puede realizarse una interpretacin literal
y automatizada de los trminos utilizados. En determinadas circunstancias, el
sentido de las palabras que forman una frase tiene que interpretarse a un nivel
superior recurriendo al contexto en que es formulada la frase.
Ejemplo: Se mora de risa.

En esta frase no puede interpretarse literalmente el verbo morirse si no que


debe entenderse en un sentido figurado.

Otra cuestin de gran importancia es la ambigedad provocada por la


anfora, es decir, por la presencia en la oracin de pronombres y adverbios que
hacen referencia a algo mencionado con anterioridad.
Ejemplo: Ella le dijo que los pusiera debajo

La interpretacin de esta frase tiene diferentes incgnitas ocasionadas por


la utilizacin de pronombres y adverbio: quin habl?, a quin?, qu pusiera
qu?, debajo de dnde? Por tanto, para otorgar un significado a esta frase debe
recurrirse nuevamente al contexto en que es formulada.

Con todos los ejemplos expuestos queda patente la complejidad del


lenguaje y que su tratamiento automtico no resulta fcil ni obvio.

2.6.2. El procesamiento del lenguaje natural en la recuperacin de


informacin textual
Como el lector habr deducido, la complejidad asociada al lenguaje natural
cobra especial relevancia cuando se necesita recuperar informacin textual que
satisfaga la necesidad de informacin de un usuario. Es por ello, que en el rea de
Recuperacin de Informacin Textual las tcnicas de NLP son muy utilizadas,
tanto para facilitar la descripcin del contenido de los documentos, como para

63

representar la consulta formulada por el usuario, y ello, con el objetivo de


comparar ambas descripciones y presentar al usuario aquellos documentos que
satisfagan en mayor grado su necesidad de informacin.

Figura 2.2. Arquitectura de un sistema de recuperacin de informacin. Fuente: Vallez, M. y


Pedraza Jimnez, R. El Procesamiento del Lenguaje Natural en la Recuperacin de Informacin
Textual y reas afines. "Hipertext.net", nm. 5, 2007. http://www.hipertext.net/web/pag277.htm. 12
de Mayo de 2007, 10:50 hrs.

Dicho de otro modo, un sistema de recuperacin de informacin textual


(Figura 2.2) lleva a cabo las siguientes tareas para responder a las consultas de
un usuario (VALLEZ, 2007):
1. Indexacin de la coleccin de documentos: en esta fase, mediante la
aplicacin de tcnicas de NLP, se genera un ndice que contiene las
descripciones de los documentos. Normalmente, cada documento es

64

descrito mediante el conjunto de trminos que, hipotticamente, mejor


representa su contenido.
2. Cuando un usuario formula una consulta el sistema la analiza, y si es
necesario la transforma, con el fin de representar la necesidad de
informacin del usuario del mismo modo que el contenido de los
documentos.
3. El sistema compara la descripcin de cada documento con la
descripcin de la consulta, y presenta al usuario aquellos documentos
cuyas descripciones ms se asemejan a la descripcin de su consulta.
4. Los resultados suelen ser mostrados en funcin de su relevancia, es
decir, ordenados en funcin del grado de similitud entre las
descripciones de los documentos y de la consulta.

Como se pudo apreciar en este capitulo, empleando adecuadamente los


operadores, las estrategias y una metodologa en la bsqueda de informacin, se
obtienen mejores resultados y en la medida que el usuario se familiarice con las
diferentes herramientas de bsqueda ms satisfactorios sern estos. En el
capitulo siguiente se presenta informacin de las diversas herramientas de
bsqueda y recuperacin de informacin para que el usuario las utilic segn el
tipo de informacin que requiera.

65

Capitulo III
Tipologa de herramientas de bsqueda y
recuperacin de informacin

66

Actualmente las herramientas de bsqueda se han convertido en algo


esencial para los usuarios de Internet y existe una gran variedad de ellas
disponibles en la Web, a veces no muy conocidas, las cuales son empleadas de
manera indistinta por los usuarios sin conocer realmente de que tipo de
herramienta se trata, que caractersticas posee y cual es su funcionamiento, es
por ello que el presente capitulo presenta las caractersticas y algunos ejemplos
de cada tipo de buscador que permitirn diferenciarlos entre buscadores
automticos, buscadores temticos, buscadores especializados, multibuscadores
y metabuscadores. Tambin se abordaran otras tecnologas de bsqueda como lo
son los agentes inteligentes y las bases de datos.

3.1. Buscadores automticos


3.1.1. Definicin
Aquellos que a partir de cierta informacin entregada en lenguaje natural o
en alguna especificacin puede deducir y recuperar la informacin que el usuario
est buscando (VICENT, 2006).

Dentro de esta tipologa se incluyen todos aquellos recursos de bsqueda


que

emplean

"robots"

(Spider)

mquinas

para

recorrer

indexar

automticamente pginas a lo largo de la Red. Todas las pginas recorridas por


los "robots" son sometidas a criterios de filtrado y anlisis automtico en un intento
de eliminar aquellas cuyo objetivo sea la "manipulacin" de los resultados del
buscador. As mismo, la presentacin de resultados por parte de este tipo de
buscadores est basado en la aplicacin de algoritmos internos de medicin de
relevancia de las pginas incluidas con respecto a los trminos de bsqueda
empleados por los usuarios as como su importancia segn criterios internos. Todo
el proceso anterior no es automtico. Generalmente se suelen disponer varias
bases de datos con distintos niveles de actualizacin la cuales se van sustituyendo
progresivamente evitando actualizaciones "masivas" de todos los datos indexados.

67

Otra caracterstica de los buscadores basados en "robots" es la utilizacin


de enlaces entre pginas para la obtencin de nuevos recursos. De hecho en los
grandes buscadores generalmente no ser necesario dar de alta manualmente
una pgina ya que, por lo general, el "robot" encontrar la pgina mediante un
enlace y la indexar en su base de datos.

Los buscadores basados en "robots" no incorporan, a priori, un lmite de


pginas a indexar por Website por lo que los niveles de crecimiento de este tipo de
recursos son, en muchos casos, exponenciales, y los lmites se encuentran
nicamente en la capacidad de proceso y almacenamiento de sus sistemas
informticos de soporte.

A nivel de clasificacin interna de Websites, no existe una estructura


jerarquizada visible como en el caso de los directorios, por lo que los algoritmos de
clasificacin de resultados frente a consultas de los usuarios son de gran
importancia (SEO, 2004).

Los robots recorren las pginas recopilando informacin sobre los


contenidos de las pginas. Cuando se busca una informacin en los motores, ellos
consultan su base de datos y presentan resultados clasificados por su relevancia.
De la Web, los buscadores pueden almacenar desde la pgina de entrada, a todas
las pginas de la Web.

3.1.2. Objetivo
Encontrar los documentos que contengan las palabras claves introducidas.
Habitualmente localiza las pginas Web que mejor se adapten a las palabras
introducidas.

68

3.1.3. Componentes
Estn compuestos por tres partes:
1. Los robots que recorren la red escrutndola. Son programas que buscan
continuamente por todos los servidores de WWW (tambin en los de News,
Gopher y FTP), construyendo un ndice de lo hallado. Tambin son
conocidos como araas (Spider) por su continuo desplazamiento sobre la
red o telaraa.

2. La base de datos que es construida por los robots. Esta contiene todos los
URL encontrados, y asociados a ellos, la informacin relativa sobre sus
contenidos:


Su ttulo

Parte de texto

Hiperenlaces

Descriptores (palabras claves).

Etc.

Est actualizado continuamente por los robots que aaden nuevas pginas o
referencias, actualizan las que han cambiado y borran las que ya no existen.

3. El motor de bsqueda que facilita la consulta a la base, es la parte que


vemos cuando se realiza la bsqueda. Despus de introducirle una peticin
de bsqueda, el motor de bsqueda la coteja con la base de datos y
devuelve una lista ordenada de las coincidencias. La lista est ordenada
segn la relevancia de la consulta colocndose primero las ms
coincidentes.

69

3.1.4. Funcionamiento
Al conectar con algn buscador el usuario se encontrara con una pgina
que contiene un formulario para definir la bsqueda y las opciones de la misma;
tras llenarla, enviarla y esperar unos segundos, el buscador devolver una lista de
lugares donde figura la bsqueda. As pues se tendrn dos reas segn el
propsito:
1. Formular la bsqueda y enviarla.
2. Lista de resultados, ordenados segn su semejanza con las palabras claves
introducidas.

Si no se consiguen los resultados deseados, volver al inicio, pero


modificando la estrategia de bsqueda segn la observacin de los resultados.

3.1.5. Caractersticas importantes




Si se busca una palabra, por ejemplo, ordenadores. En los resultados


que ofrecer el motor de bsqueda, aparecern pginas que contengan
esta palabra en alguna parte de su texto.

Si consideran que una Web es importante para el usuario, tienden a


registrarlas todas. Si no la consideran importante, slo almacenan una o
ms pginas.

Cada cierto tiempo, los motores revisan las Webs, para actualizar los
contenidos de su base de datos, por lo que no es infrecuente que los
resultados de la bsqueda estn desactualizados.

Si se paga se obtiene un bonus que permitir aparecer en las primeras


pginas de resultados. Los Spiders se han visto obligados a este tipo de
publicidad para poder seguir ofreciendo a los usuarios el servicio de forma
gratuita (WIK, 2007l).

70

3.1.6. Deficiencias
No maneja informacin imprecisa. Dar mayor importancia a un documento
que tiene mayor cantidad de ocurrencias y manejar mal la informacin imprecisa
pero relevante para el usuario. Filiberti menciona que es mejor, hoy por hoy, usar
varias herramientas de bsqueda para manejar grandes volmenes de datos y
hacer nosotros el anlisis semntico y el proceso de filtrado definitivo (FILIBERTI,
1998).

3.1.7. Ejemplos
AltaVista (http://es.altavista.com/)
El buscador AltaVista (http://es.altavista.com) proporciona resultados de
bsqueda integrados, que incluyen pginas Web, archivos multimedia, noticias,
productos y servicios y un servicio gratuito de traduccin con Babel Fish (Figura
3.1).

Para las bsquedas simples, si desea encontrar varias palabras exactas, es


necesario que utilice de bsqueda Comillas (por ejemplo Anaya formacin), y no
hace falta que utilice las maysculas, ya que AltaVista no hace distincin entre
maysculas y minsculas (para mantener las maysculas, ponga la palabra entre
comillas). Si incluye un acento en una palabra de la consulta, AltaVista solamente
buscara coincidencias con ese acento especfico. Si no incluye acentos, AltaVista
buscara coincidencias en palabras con y sin acentos.

AltaVista muestra los resultados de la bsqueda bsica como cualquier otro


navegador, e incluye servicios adicionales como:


Traducir. Este enlace permite traducir una pagina Web a nueve


idiomas

71

Paginas relacionadas. Proporciona paginas Web que son


similares a la que esta en el resultado.

Ms pginas de [este sitio]. Cuando un sitio contiene muchas


pginas que coinciden en gran medida con la consulta, al hacer
clic en este enlace se pueden ver todas.

Archivos PDF. AltaVista busca varios tipos de archivo como


respuesta a las consultas que se realizan. Cuando encuentra un
archivo de PDF, aparece una nota que indica Formato de
archivo: PDF.

Distintos tipos de bsqueda en AltaVista


Las fichas de bsqueda de AltaVista, ubicadas en la parte superior del
cuadro de bsqueda, permiten buscar instantneamente en distintas reas: Web,
Imgenes, MP3/Audio, Video y Directorio.

Cuando se busca una imagen, AltaVista muestra los resultados del rastreo como
pequeas imgenes. Si pulsa sobre esta representacin grafica, entrara
directamente en la pgina Web que contiene dicha imagen. Todos los resultados
de imagen tienen una opcin de Ms informacin que aporta ms datos sobre
ese archivo especfico.

En la bsqueda de imagen avanzada es posible restringir los resultados


eligiendo ciertas opciones en las siguientes zonas:


Mostrarme: permite limitar los resultados a fotografas, a


grficos o a botones/banners.

Color: permite especificar color o blanco y negro/escala de


grises.

Fuentes: permite buscar en toda la Web o solo en los sitios


asociados a AltaVista.

72

Figura 3.1. Pgina principal de AltaVista. Fuente: http://es.altavista.com/. 16 de Julio de 2007,


14:00 hrs.

Cuando desee realizar una consulta de MP3/Audio, AltaVista encontrara los


archivos de audio que contengan las palabras de su bsqueda en los nombres de
archivo, el contexto, las etiquetas HTML de la pgina, o bien dentro del archivo.
Por ejemplo, si la bsqueda es sobre madonna se devolvern solo canciones de
Madonna., si es sobre la cancin: I wanna rock se mostraran solo las canciones
que responden a este titulo.

Cuando el usuario haga clic en la URL de una pgina o en la pgina de


resultados de una bsqueda de audio, entrara directamente en el sitio que
contiene el archivo de audio.

La bsqueda de audio permite restringir los resultados a archivos MP3,


WAV, Windows Media, Real u otros tipos. Tambin se pueden seleccionar
archivos que duren ms o menos de un minuto.

73

La

bsqueda

de video avanzada puede restringir los

resultados

dependiendo de las opciones que se seleccionen:




Mostrarme. Puede limitar sus resultados a archivos AVI,


MPEG, Quicktime, Windows Media, Real u otros tipos. Por
defecto AltaVista devolver todos los tipos.

Duracin. Se pueden seleccionar archivos que duren ms o


menos de un minuto.

Fuente. Puede buscar en toda la Web o en los sitios asociados


de AltaVista.

Directorio AltaVista
El Directorio de Alta Vista contiene sitios Web revisados y organizados en
categoras temticas. Este servicio de AltaVista puede ser usado cuando se esta
interesado en un tema determinado pero no se sabe exactamente lo que se busca,
o cuando se desea ver los sitios de ms calidad de un tema concreto. El Directorio
es una coleccin relativamente pequea.

Si el usuario no puede encontrar algo en el directorio, puede probar con una


bsqueda Web.

Para buscar en el directorio puede utilizar dos procedimientos:


1. Pulse sobre una categora determinada y teclee una consulta en la
casilla de bsqueda del Directorio. Por defecto, buscara solo en la
categora que haya seleccionado.
2. Pulse en la ficha del directorio durante una bsqueda de Web,
imagen, audio o video, para que de este modo busque en Todo el
Directorio.

74

Google (http://www.google.com)
Google utiliza una tecnologa innovadora que los diferencia de las maquinas
de primera y segunda generacin. En lugar de usar un trmino o una tecnologa
de metabusqueda, el corazn de este buscador se basa en el software
PageRank, un sistema de clasificacin de pginas Web desarrollado por sus
fundadores Lary Page y Sergey Brin en la universidad de Stanford (Google se
aborda como caso de estudio en el apartado 3.6).

PageRank se fundamenta en la exclusiva naturaleza democrtica de la Web


y usa su extensa estructura de vnculos como un indicador del valor de una pgina
individual. Google interpreta un vinculo desde la pagina A hacia la pgina B como
un voto de la pgina A por la pgina B. Pero revisa otras cosas aparte del nmero
de votos o de vinculas que una pgina recibe, puesto que tambin analiza la
pgina que emite el voto. Los votos emitidos por pginas que son en si mismas
importantes pesan ms y ayudan a convertir a otras pginas tambin en
importantes.

Los sitios importantes y de alta calidad reciben un PageRank ms alto, que


Google recuerda cada vez que realiza una bsqueda. Por supuesto, las pginas
importantes no significan nada para el usuario sino coinciden con su bsqueda.
Por eso, combina PageRank con sofisticadas tcnicas de bsqueda de texto para
encontrar pginas que sean importantes y a la vez relevantes para su consulta.

Va ms all de la cantidad de veces que un termino aparece en una pgina


y examina todos lo aspectos del contenido de la pgina (y el contenido de las
pginas vinculadas) para determinar si es una buena coincidencia para su
consulta.

Adems, este buscador toma una instantnea de cada pgina examinada


mientras explora la Web y la guarda en Cache como copia de seguridad en caso

75

de que la pgina original no este disponible. Al hacer clic en el vinculo Cache, se


vera la pgina Web como se vea cuando fue indexada. Adems, Google explora
automticamente la Web para encontrar pginas que estn relacionadas con este
resultado, haciendo clic en el vnculo pginas similares.

Para proporcionarle los resultados ms exactos, no usa bsquedas


parciales ni realiza bsquedas con comodines. En otras palabras busca
exactamente los trminos que se escriben en la casilla de bsqueda. Buscar pisc
o pis* no de volver bsquedas que contengan piscina o piscolabis. Eso si, su
bsqueda no distingue entre maysculas y minsculas. Todas las letras,
independientemente de cmo estn escritas, se consideran minsculas.

El funcionamiento de Google con el idioma espaol se restringe, en el


sentido de que no distingue los acentos diacrticos, ni diresis, es decir,
lingustica y lingstica encontraran las mismas paginas.

Otras bsquedas en Google


Con Google tambin se puede realizar una bsqueda por categoras. El
directorio Google proporciona un mtodo extremadamente til que permite acotar
la bsqueda basndose en un tema determinado. Por ejemplo, si busca Real
Madrid en la categora Deportes>Ftbol, encontrara pginas solamente acerca de
este equipo de ftbol. Buscar dentro de una categora de inters permite
rpidamente acotar la bsqueda a las pginas que son relevantes para el usuario.

La bsqueda avanzada de este buscador (Figura 3.2) ofrece una amplia


variedad de capacidades que permiten: acotar la bsqueda a las paginas de un
sitio determinado, excluir pginas de un sitio Web determinado, acotar la
bsqueda a las paginas en un determinado idioma, encontrar todas las pginas
que contienen vnculos con un sitio Web determinado y encontrar pginas
relacionadas con una determinada pgina Web.

76

Figura

3.2.

Pgina

de

bsqueda

avanzada

de

Google.

Fuente:

http://www.google.com.mx/advanced_search?hl=es. 16 de Julio de 2007, 14:00 hrs.

Si se desea buscar exclusivamente imgenes, es posible utilizar la direccin


http://imagenes. google .com. En su pgina de resultados, aparecern pequeas
imgenes, y pulsando sobre ellas, se vera una versin mas grande de la imagen,
as como la pagina Web donde esta ubicada (RODRIGUEZ, 2003).

Lycos (http://www.lycos.es/)
Es el ms enorme, destaca por la gran cantidad de direcciones y
referencias que devuelve.

Es un buscador y un directorio, se puede localizar

colocando la palabra en una caja de bsqueda o localizar la pgina navegando por


estructura temtica (Figura 3.3).

Es uno de los buscadores que se caracteriza por tener un mayor nmero de


aciertos significativos, es decir, ms calidad que volumen.

77

El conjunto de buscadores de Lycos est formado por las herramientas


A2Z, Point y el propio Lycos acontinuacion se definen:


Lycos es un buscador convencional con directorios de categoras


temticas.

A2Z es un buscador de categoras que lista los sitios ms frecuentes


visitados por los usuarios en el WWW.

Point es un directorio de categoras que realiza reseas de pginas


Web.

La presentacin de la informacin de este buscador est bien estructurada,


aparecen resmenes de las pginas seleccionadas y abstractos del contenido. En
el caso de Point, se listan clasificadas por caractersticas como fecha de
actualizacin, contenido, presentacin y experiencia.

Opciones avanzadas
Admite bsquedas booleanas con AND y NOT. Si se entra en Advanced
Seach de la pgina principal se puede indicar el tipo de informacin que se busca:
en todo el Web, si se busca multimedia, msica, libros, autor, actualizaciones,
entre otras.

Adems:


Ofrece continuar la bsqueda en Hotbot.

Si entra a travs de un vnculo en Lycos Worlwide se puede llegar a


versiones de Lycos regionales.

Lycos Argentina no devuelve la misma informacin que Lycos, sino


que le da preferencia a sitios en castellano. Permite la bsqueda
geogrficamente (HAW, 2001).

78

Figura 3.3. Pgina de bsqueda de Lycos. Fuente: http://www.lycos.es/. 16 de Julio de 2007, 14:00
hrs.

Hotbot (http://www.hotbot.es/)
Hotbot es un buscador especializado en rastrear la Web en busca de
contenido multimedia (Figura 3.4). Para realizar una bsqueda bsica, HotBot
funciona como cualquier otro buscador: se define el o los trminos que se quieren
buscar en la caja de texto correspondiente y se pulsa sobre el botn Buscar que la
acompaa.

HotBot posee un tipo de bsqueda peculiar denominada Rpida que


permite definir operadores o criterios de bsqueda mediante casillas de la
seleccin situadas en la parte inferior de la caja de texto Buscar (todas las
palabras AND y cualquier palabra OR). Estas opciones de bsqueda tambin
permiten buscar los trminos escritos como frase, o buscar los documentos Web
publicados en una fecha determinada o en un idioma determinado.

79

Figura 3.4. Pgina de bsqueda de HotBot. Fuente: http://www.hotbot.es/. 16 de Julio de 2007,


14:00 hrs.

Bsqueda avanzada de HotBot


La bsqueda avanzada de HotBot permitir explorar por mltiples
condiciones de bsqueda as como tipos de ficheros. Adems de contar con las
mismas opciones de la Bsqueda Rpida, esta aade nuevas caractersticas,
como son: filtro de palabras, filtro por dominios y localizacin, filtro por fecha de
publicacin y la posibilidad de buscar de entre una amplia gama de archivos
multimedia. La Bsqueda Avanzada de HotBot permite tambin buscar pginas
enlazadas a una determinada URL, as como activar el filtro Slo las mejores
pginas o personalizar por completo la pgina de bsqueda.

Para utilizar la bsqueda avanzada de HotBot es preferible utilizar la versin


internacional de este buscador (www.hotbot.com). En esta pgina Web, si pulsa

80

sobre la opcin Advanced Search, podr indicar que el resultado de la bsqueda


incluya archivos multimedia como (RODRIGUEZ, 2003):


Image: Extenciones: .gif, .jpg, .bmp, .tif.

MP3: extensin: .mp3

Video: .avi, .mpg, .mpeg, .mov.

Audio: extenciones: .au, .wav, .mid.

Acrobat: extensin .pdf.

3.2. Buscadores temticos


3.2.1. Definicin
Son aquellos cuyas bases de datos estn dedicadas a temas especficos.
La existencia de un mayor inters, por parte de ciertos grupos de usuarios, en
algunos temas concretos de la ciencia, la programacin, el software, las noticias,
la msica, entre otros, ha hecho que estos buscadores estn experimentando un
gran auge (RODRIGUEZ, 2003). Son una gua jerrquica de directorios que va de
los temas ms generales a los ms particulares. Listan lugares (URLs) y los
clasifican en categoras, adems de aadir comentarios identificativos sobre ellos.

3.2.2. Objetivo
Encontrar los documentos que pertenezcan al rea temtica seleccionada.

3.2.3. Componentes
Estn compuestos por dos partes:


La base de datos que es construida por los URLs remitidos.

Una estructura jerrquica que facilita la consulta a la base de datos.

81

3.2.4. Funcionamiento
Al conectar con algn buscador de este tipo el usuario se encontrara con
una pgina que contiene una estructura jerrquica de temas, es decir, hay un
grupo de temas generales, al seleccionar uno, sale otro grupo de temas
dependiente (cada vez mas especfico) del que llev al usuario all, y se puede
seguir as hasta que se localice el tema de inters o se acaben las categoras
creadas por el autor del buscador.

3.2.5. Deficiencias
Filiberti menciona las siguientes deficiencias (FILIBERTI, 1998):


No suele estar muy actualizado. Se hacen a mano.

Es lento para encontrar lo deseado, pues exige varios pasos previos.

El usuario se puede perder al distraerse antes de localizar lo que se


haba propuesto encontrar.

Existen items de difcil categorizacin.

3.2.6. Ejemplo
Yahoo! Mxico (http://mx.yahoo.com/)
Yet Another Hierarchically Officius Oracle, es decir Yahoo! (www.yahoo.es),
es toda una institucin dentro de Internet. Se trata de uno de los buscadores
temticos ms usado de la red, al que accedan millones de usuarios de forma
diaria (Figura 3.5).

Adems de permitir moverse al usuario a travs de cada una de las


categoras que pueblan el directorio de Yahoo!, tambin admite la bsqueda de
contenidos dentro del propio buscador, lo cual agiliza la localizacin de
informacin.
82

Para usar el servicio de bsqueda de Yahoo!, los usuarios pueden elegir


entre explorar su directorio o buscar todos los recursos en la Red.

El directorio Yahoo!
El directorio de Yahoo! esta formado por categoras, que a su vez estn
compuestas por subcategoras que contienen una serie de sitios Web. La
diferencia entre Yahoo! y los otros buscadores y motores de bsqueda es que su
directorio ha sido creado por un equipo humano, denominado Surfing.

Este grupo de trabajo mantiene da a da las categoras del directorio como


una biblioteca mantienen su fondo bibliogrfico. Cada una de estas categoras
mantiene varias subcategoras y/o un listado de sitios Web que han sido
previamente revisados y clasificados.

Los equipos de Surfing se encargan de visitar, analizar y evaluar estos


sitios y organizarlos segn su contenido en categoras y/o subcategoras, como si
de una gran biblioteca virtual se tratase.

Dentro de cada categora y subcategora existe un cajetn de bsqueda que


suele situarse en la esquina derecha de la pgina. Cuando se introduce una
palabra en al cajetn, por defecto, la bsqueda se realiza en todo directorio.

La bsqueda puede ser todava ms especifica si se marca la casilla de de


seleccin Slo esta categora, en cuyo caso solamente se realizar en la
categora o en la subcategora en la que se encuentre. La bsqueda tan bien se
puede restringir nicamente en los sitios Web de Mxico sealando para ello la
casilla Slo sitios de Mxico.

83

Figura 3.5. Pgina de bsqueda de Yahoo! Mxico. Fuente: http://mx.yahoo.com/. 16 de Julio de


2007, 14:00 hrs.

Bsqueda bsica en Yahoo!


Despus de haber especificado una palabra clave o un conjunto de
palabras clave, y pulsar sobre la tecla Intro el botn Buscar el motor de bsqueda
de Yahoo! buscara en las tres secciones (Categoras de Yahoo! Mxico, Sitios
Web y Noticias) de su base de datos, para hallar todas las correspondencias con
las palabras clave.

La primera pgina que aparecer consistir en una lista de las categoras


de Yahoo! Mxico que corresponden a la palabra que se esta buscando, seguidas
por una lista de sitios Web que estn incluidos en Yahoo! Mxico y que tambin
corresponden a la bsqueda.

84

En caso de que no se encuentren categoras y sitios Web que


correspondan

las

palabras

clave,

entonces

Yahoo!

Mxico

realizara

automticamente una bsqueda de documentos en la Web.

Si el usuario desea concretar an ms la bsqueda, se deben definir los


parmetros del rastreo mediante la opcin Bsqueda avanzada (RODRIGUEZ,
2003).

Adems en las categoras Yahoo! se pueden encontrar estos smbolos que


significan:


"@" La existencia de otra categora superior que aborda ese mismo


tema.

Un nmero entre parntesis que indica en nmero de opciones


contenidas.

XTRA!, quiere decir que existe algn artculo o novedad sobre ese tema.

3.3. Buscadores especializados


Son muy parecidos a los buscadores temticos aunque slo abordan algn
rea concreta, tambin pueden contener buscadores automticos. Suelen ser
grandes recopilaciones del conjunto de recursos sobre un tema especfico. En la
direccin

http://www.serach.com

existe

un

gran

nmero

de

buscadores

especializados (FILIBERTI, 1998).

3.4. Multibuscadores
Para mejorar las prestaciones de buscadores de una nica base de datos,
nacen los de tipo mltiple (al que responden tanto los multibuscadores como los
metabuscadores) (RODRIGUEZ, 2003).

85

Los multibuscadores ejecutan la consulta contra varios motores de forma


simultanea y presentan los resultados sin ms organizacin que la derivada a la
velocidad de respuesta de cada motor, un ejemplo es All4One que busca en una
gran cantidad de motores de bsqueda y directorios (MARTINEZ, 2003).

3.4.1. Funcionamiento
La informacin en ellos se trata de localizar en diversas bases de datos,
aumentndose las posibilidades de encontrarla, ya que si no est presente en una
de las bases de datos, s puede estar publicada en otra. Los multibuscadores
realizan esta operacin manualmente, pues ponen varias bases de datos a
disposicin del usuario, pero es l mismo quien debe elegir cul de ellas desea
utilizar en cada momento (RODRIGUEZ, 2003). Permite lanzar varias bsquedas
en motores seleccionados respetando el formato original de los buscadores.

3.4.2. Ejemplo
All4One (http://www.all4one.com/)
Este multibuscador, ejecuta la consulta contra varios motores de forma
simultnea y presentan los resultados sin ms organizacin que la derivada de la
velocidad de respuesta de los 10 motores de bsqueda ms importantes (Figura
3.6).

All4One busca en una gran cantidad de motores de bsqueda y directorios,


proporciona resultados rpidos y exactos. Todo lo que necesitas el usuario es
incorporar el trmino que est buscando en caja de la bsqueda (AGUILAR,
2002).

86

Figura 3.6. Pgina de bsqueda de All4One. Fuente: http://www.all4one.com/. 16 de Julio de 2007,


14:00 hrs.

3.5. Metabuscadores
Son buscadores mltiples que, a diferencia de los multibuscadores, realizan
la consulta solicitada por el usuario en varias bases de datos al mismo tiempo. Los
resultados del proceso se corresponden con la unin de los distintos resultados
independientes, es decir, de las bsquedas en cada una de las bases de datos
consultadas, por ejemplo. www.buscopio.net (RODRIGUEZ, 2003).

Los metabuscadores funcionan de manera similar a los multibuscadores


pero, a diferencia de estos, eliminan las referencias duplicadas, agrupan los
resultados y generan nuevos valores de pertinencia para ordenarlos, algunos
ejemplos son MetaCrawler, Cyber411 y digisearch (MARTINEZ, 2003).

87

3.5.1. Funcionamiento
Un metabuscador colecciona las respuestas recibidas y las unifica, la
principal ventaja de los metabuscadores es su capacidad de combinar los
resultados de muchas fuentes y el hecho que el usuario pueda acceder a varias
fuentes de forma simultanea a travs de una simple interfaz de usuario. Estos
sistemas no almacenan direcciones y descripciones en sus bases de datos, en
lugar de eso contienen registros de motores de bsqueda e informacin sobre
ellos. Envan la peticin del usuario a todos los motores de bsqueda (basados en
directorios y crawlers) que tienen registrados y obtienen los resultados que les
devuelven. Algunos ms sofisticados detectan las URL duplicadas provenientes de
varios motores de bsqueda y eliminan la redundancia, es decir solo presentan
una al usuario.

3.5.2. Caractersticas
Algunos metabuscadores se instalan como cliente en entorno local
(webcompass o Copernic, por ejemplo) o bien se consultan en lnea (buscopio, por
ejemplo). Otra diferencia sustancial existente entre estos sistemas es la
presentacin de los resultados.

Uno de los mayores inconvenientes de estos sistemas es que el resultado


no tiene porque ser necesariamente todo el conjunto de paginas sobre la materia
preguntada que se encuentran almacenadas en las fuentes del metabuscador, ya
que el nmero de documentos recuperados de cada una de estas fuentes se
encuentran generalmente limitado, sin embargo, el resultado devuelto por un
metabuscador suele ser ms relevante en su conjunto. Puede sorprender la
existencia de esta limitacin pero no se debe olvidar una de los elementos, el
tiempo de respuesta del sistema.

88

Si un metabuscador devolviera todas las referencias de los motores y


directorios que le sirven de fuente en la relacin con la materia objeto de una
bsqueda, el tiempo de respuesta del sistema alcanzara valores que
seguramente alegara a los usuarios del metabuscador, por excesivo. Es por ello
que resulta necesario establecer un nmero limite de documentos recuperados por
motor, con el fin de que el tiempo de respuesta, quede por si, ya sera siempre
mayor que el precisado por un nico motor, no aumente excesivamente
(MARTINEZ, 2003).

3.5.3 Ejemplos
Buscopio (http://www.buscopio.net/)
Dentro de esta tipologa de sistemas de bsqueda, merece un apartado
especial por ser el mayor buscador de buscadores y estar en espaol.

Es un metabuscador que muestra una gran cantidad de motores de


bsqueda, permite la bsqueda individual en la mayora de los motores que tiene
registrados, desde su pgina o por lo menos proporciona el enlace al sitio (Figura
3.7). Entre sus caractersticas estn las siguientes (AGUILAR, 2007):

La bsqueda excluye palabras de menos de tres letras, preposiciones,


conjunciones, adverbios y trminos gramaticales de similar contenido.
Asimismo excluye trminos genricos que por su redundancia generan
mucho ruido: buscador, Internet, search engines, informacin, entre otros.

Es capaz de realizar bsquedas con o sin acentos, obteniendo los mismos


resultados.

Bsqueda simple: permite buscar una palabra exacta o derivaciones de la


palabra.

bsqueda avanzada en la cual:

89

Se pueden acotar los campos de bsqueda: en ttulo, en la URL y en


el texto descriptivo del buscador. En el caso de que el usuario
marque no en las tres opciones, la bsqueda slo se realiza en los
descriptores ocultos asociados a cada buscador.

Se puede hacer la bsqueda de manera optativa en todas las


secciones o en algunas: todo, gua de servicios, buscadores (en este
caso

se

acotan

por

secciones:

internacionales,

regionales,

humanidades, ciencia, entre otras.).




Tambin se puede acotar el idioma.

Figura 3.7. Pgina de bsqueda de Buscopio. Fuente: http://www.buscopio.net/esp/. 16 de Julio de


2007, 14:00 hrs.

Cyber411 (http://cyber411.com)
Es un buscador realmente rpido, busca simultneamente en 15 de los ms
populares motores de bsqueda de la Red (Figura 3.8).

90

Su ndice de respuesta es bastante bueno, si lo que se espera del motor es


rapidez y exhaustividad, si bien tampoco da demasiado "ruido". Resulta
especialmente recomendable cuando el concepto est muy bien definido.

Su pagina Web contiene, adems, unas pginas amarillas para localizar


empresas norteamericanas, as como un generador de mapas de Estados Unidos
que permite definir la ruta entre dos puntos cualquiera del pas u obtener un mapa
centrado en cualquier calle o interseccin (PRO, 1997).

Figura 3.8. Pgina de bsqueda de Ciber411. Fuente: http://cyber411.com. 16 de Julio de 2007,


14:00 hrs.

MetaCrawler (http://www.metacrawler.com/)
MetaCrawler es una pgina que tiene todas las caractersticas de un
buscador normal, busca en la Web, busca imgenes, vdeo, noticias. Adems
cuenta con la posibilidad de buscar Sonidos algo no muy comn en la actualidad
(Figura 3.9).
91

Pero lo ms importante de la pgina es que combina todos los buscadores


ms potentes de la red, esto funciona de una forma muy interesante, cuando se
ingresa la bsqueda en ves de buscar solo en Google, Metacrawler combina los
mejores resultados de los mejores Buscadores, convirtiendo a Metacrawler en el
mejor (o uno de los mejores) buscadores de este momento (LUN, 2007).

Figura 3.9. Pgina de bsqueda de metacrawler. Fuente: http://www.metacrawler.com/. 16 de Julio


de 2007, 14:00 hrs.

3.6. Caso de estudio Google


Fundada en septiembre de 1998 por Larry Page y Sergey Brin, Google Inc.
es la empresa creadora de Google, un prestigioso motor de bsqueda diseado
para ofrecer un mtodo de bsqueda por Internet rpido y fcil. Se trata del mayor
motor de bsqueda de la Web, puesto que ofrece a los usuarios acceso a un
ndice compuesto por ms de 8.000 millones de URL. Google mantiene su
liderazgo en el sector gracias a la continua innovacin de sus capacidades de
bsqueda.
92

"Googol" es el trmino matemtico que designa un 1 seguido por 100 ceros.


El trmino fue acuado por Milton Sirotta, sobrino del matemtico estadounidense
Edward Kasner, y se populariz gracias al libro Mathematics and the Imagination,
de Kasner y James Newman. Para la empresa, Google simboliza su objetivo de
organizar la inmensa cantidad de informacin disponible en Internet.

Las consultas de Google suelen tardar menos de medio segundo. Sin


embargo, conllevan una serie de pasos que deben llevarse a cabo antes de que el
usuario pueda visualizar los resultados. Estos pasos se muestran en la figura 3.10
(GOO, 2007a).

Figura

3.10.

Duracin

de

una

consulta

de

Google.

Fuente:

http://www.google.com/intl/es/corporate/tech.html. 16 de Julio de 2007, 14:30 hrs.

93

El objetivo de Google consiste en organizar informacin proveniente de todo


el mundo y hacerla accesible y til de forma universal.

Hoy en da, Google se considera el mayor motor de bsqueda. Este servicio


gratuito y fcil de utilizar suele ofrecer resultados relevantes en una fraccin de
segundo.

En cuanto a bsqueda Google est en primer lugar. As lo confirma un


informe de Onestat, difundido en Nua.com, que afirma que Google domina ese
sector acaparando 55,1% de las preferencias. Su seguidor ms cercano es Yahoo!
con 20,6 %.

El xito de Google
La clave del xito de Google fue, ante todo, los algoritmos de ordenacin
(PageRank). Estos complejos algoritmos, con capacidades de inteligencia artificial,
posibilitan la clasificacin de informacin de una forma rpida y eficiente. Adems,
todos los servicios de Google funcionan sin intervencin humana, desde la
clasificacin de pginas hasta la insercin de publicidad (PRO, 2007).

Sergio Cceres menciona que quiz el mayor xito de Google ha sido el de


facilitar el acceso a Internet incluso a las personas ms reacias a familiarizarse
con la red y sus recursos. Otros buscadores han intimidado en cierta manera al
pblico por la complejidad de su presentacin. Realizar una bsqueda mediante
Altavista o Yahoo!, por mencionar algunos, exiga de todas maneras cierto
conocimiento de la Web y sus misterios. En eso apareci Google, con una pgina
de presentacin sencilla: un logo, una casilla donde anotar la duda que se quiere
absolver y un botn donde hacer click; nada ms. Y mientras los otros buscadores
se hacen aparatosos y lentos a causa de la publicidad con que bombardean al
usuario o de su despliegue de imgenes, Google ofrece austeridad y rapidez.

94

Esos detalles, que no son pequeos, hicieron que en poco ms de tres aos este
buscador se posesione por encima de todos los dems y con sobrada ventaja. Si
bien Altavista, Lycos o Yahoo! an cuentan con usuarios, stos son cada vez
menos. En cambio, la mayora de la gente que ingresa a la red Internet suele
tomar a Google como el punto de partida para cualquiera de sus navegaciones.

Pero el ser una herramienta eficaz no es la nica cualidad de Google. Es un


sitio ingenioso y lleno de sorpresas. Desde Google se puede revisar las noticias
diariamente, consultar precios de casi cualquier artculo disponible en el mercado
mundial, acceder a catlogos, realizar traducciones en varios idiomas (CACERES,
2003).

Google contina creciendo para descubrir nuevas tecnologas de bsqueda


que mejoren la vida de los usuarios. Desde que hizo su aparicin, este buscador
ha llevado a cabo una filosofa de trabajo. En principio, ha decidido no
conformarse nunca. Considera que en cuanto al servicio que brinda, realmente lo
ms importante es pensar en el usuario. Tambin sabe y afirma que es mejor
especializarse en algo y hacerlo realmente bien, siendo la democracia un
elemento primordial que funciona de maravillas en la Web. Asimismo considera
que es posible obtener ingresos si se acta de forma tica.

Segn palabras de Larry Page, el motor de bsqueda perfecto comprende


exactamente lo que quiere decir el usuario y le ofrece exactamente lo que desea.
Este gran buscador se ha propuesto liderar este proceso, y a pesar de que ya es
considerada la empresa de tecnologa de bsqueda ms destacada del mundo, su
meta es ofrecer un mejor nivel de servicio a todos aquellos que buscan
informacin, ms all de donde estn ubicados.

Google contina diseando nuevos productos, a la vez que mejora la


bsqueda, ya que su objetivo es acercar el poder de la bsqueda a reas nunca
antes exploradas, de modo que se le permita a los usuarios acceder y utilizar an

95

ms informacin de la que est disponible y en constante expansin de la que


nunca antes hayan usado.

En este punto la velocidad es primordial. Google cree en la gratificacin


instantnea, ya que el usuario quiere conseguir respuestas cuanto antes. La
empresa asegura estar batiendo de forma constante su propio rcord de
velocidad, porque estn obsesionados por reducir todos los bits y bytes
innecesarios de sus pginas e incrementar de este modo la eficiencia de su
entorno de publicacin. Contina trabajando para incrementar todava ms la
velocidad de su servicio.

Es as que su reto es innovar sin descanso, llegando y pasando los lmites


de la tecnologa actual con el objetivo de proporcionar un servicio (cada vez ms)
rpido, preciso y fcil de utilizar a todo el mundo. Google se ha centrado en
ofrecerle el mejor servicio posible al usuario, cuestin que se comprueba en que
su interfaz es clara y sencilla, las pginas se cargan al instante y el puesto en los
resultados de la bsqueda no est a la venta. Adems la publicidad que aparece
en el sitio ofrece contenido relevante y no resulta una distraccin.

De esta manera este buscador ha logrado tener un pblico fiel, el ms leal


de la Web. Y vale la pena aclarar que este crecimiento no se ha conseguido a
travs de campaas publicitarias en televisin, sino a las recomendaciones de los
usuarios satisfechos. El boca en boca ha sido, y es, fundamental.

Por consiguiente, es una empresa dedicada a generar tecnologa para


buscar en Internet. Permanece fiel al internauta, es gratis y sus resultados no son
comerciales, a diferencia de otros que cobran por aparecer en sus bases de datos.

Eso es posible debido a su peculiar modelo de negocios, ofrece la


posibilidad de colocar avisos, los cuales no resultan invasivos para el navegante,
vende su tecnologa de bsqueda a empresas, y adems presta servicio a otras

96

empresas de servicios en Internet, desde Yahoo! y AOL hasta el portal italiano


Virgilio.

Es raro ver un anuncio en Google, ya que no se muestran los mismos en


las pginas de resultados a menos que sean relevantes respecto a la pgina en
cuestin. Este buscador entiende, y cree con firmeza, que los anuncios pueden
ofrecer informacin til nicamente si son relevantes respecto a lo que busca el
usuario. Adems, Google demostr que la publicidad puede ser eficiente sin ser
llamativa. No acepta los anuncios emergentes, que interfieren en la visualizacin
del contenido solicitado.

Para Google es un reto poder abarcar toda la informacin disponible. Es as


que hoy acepta una docena de formatos, como Microsoft Word, Excel y
PowerPoint. Este buscador ha creado un mtodo exclusivo para transformar
archivos HTML a un formato que se puede visualizar en los dispositivos mviles, lo
que resulta muy til para los usuarios de tecnologa inalmbrica. Lo ms probable
es que la lista no termine aqu, puesto que sus investigadores siguen pensando en
formas de ofrecer toda la informacin posible a los usuarios que buscan
respuestas.

Hay otra caracterstica que diferencia a Google de otras empresas, y es que


es una compaa privada. Esto quiere decir que no se cotiza en la bolsa de
valores, y por el momento la compaa no tiene planes de hacerlo.

Funciones y dems servicios del buscador


La innovadora tecnologa de bsqueda Google se basa en los hipertextos,
analizando todo el contenido de cada Web y la posicin de todos los trminos en
cada una de las pginas. Se priorizan los resultados de acuerdo con la proximidad
de los trminos de la bsqueda, sin perder tiempo en analizar resultados
irrelevantes.

97

Google se basa en la tecnologa PageRank, la cual coloca a los resultados


ms importantes en primer lugar en la bsqueda. PageRank mide de forma
objetiva la importancia de las pginas Web y se calcula que resuelve una ecuacin
de 500 millones de variables y ms de 2.000 millones de trminos.

Los complejos mecanismos automticos de bsqueda de Google permiten


prescindir de la interferencia humana. Est estructurado de manera que nadie
puede comprar un lugar privilegiado en la lista ni alterar los resultados con fines
comerciales (por ejemplo, nadie puede comprar un PageRank ms elevado).

Google cuenta con ms de 8.000 millones de pginas Web, y al mes se


llegan a realizar ms de 5.000 millones de bsquedas (aproximadamente, unos
200 millones de bsquedas diarias). Por otro lado, este buscador contiene ms de
mil millones de imgenes de todos los tipos: fotografas, dibujos, pinturas,
bosquejos, historietas, carteles y ms. La ultima versin de bsqueda de escritorio
de Google, tiene la capacidad de localizar muchos ms archivos de diferentes
tipos incluyendo PDF y MP3; estando disponible en Ingls, Francs, Alemn,
Espaol, Chino, Japons y Coreano.

Otras de sus funciones clave son: cuando encuentra documentos en


formato PDF que pueden ser pesados, da la opcin de abrirlos en HTML; cuando
no encuentra una pgina o encuentra una versin distinta a la esperada deja
explorar su memoria usando la funcin de cach. Asimismo corrige la ortografa
de las bsquedas con la pregunta quiso usted decir...?; y en funciones de
bsqueda avanzada permite explorar qu sitios tienen enlaces hacia otro
determinado, o en cules aparece mencionado, una herramienta de gran valor
para los administradores de sitios Web.

Una ventaja indudable de las bsquedas en Google es la limpieza de sus


resultados, que adems suelen ser ms relevantes que los de la competencia.

98

Hoy, en que el mundo es cada vez ms mvil, los usuarios desean acceder
a la informacin desde cualquier lugar en que se encuentren; esto es, a travs de
dispositivos PDA, telfonos mviles o incluso mientras conducen. Google, que
siempre ha entendido los cambios, lanz a la Web Google Number Search. Este
sistema permite la visualizacin de miles de millones de pginas en dispositivos
que, de otro modo, no podran ser mostradas, como los PDA de Palm y los
dispositivos japoneses i-mode, J-Sky y EZWeb. Adems, este servicio reduce el
nmero de teclas que se deben pulsar para buscar informacin desde un telfono
mvil con acceso a Internet, y un sistema de traduccin automtica que convierte
las pginas escritas en HTML a un formato que los exploradores telefnicos
pueden leer (PRO, 2007).

Razones para usar Google


Google proporciona los resultados ms relevantes para su bsqueda antes
y ms rpido que nadie. La cantidad abrumadora de informacin en la Web
requiere un excelente servicio de bsqueda para que esa informacin sea
accesible y til. Sin una poderosa herramienta de bsqueda, encontrar un sitio
Web especfico puede ser muy difcil, por no decir imposible. Es por ello que la
empresa Google menciona las siguientes razones para hacer uso de su buscador
(GOO, 2007b):

Google pone orden en la Web.

Google est diseado para poner orden en el caos de la informacin. Es lo


que un servicio de bsqueda debera ser, no una versin limitada de un directorio
o lista de resultados que han sido vendidas al mejor postor, sino un mtodo
racional de organizar Internet de acuerdo a su estructura.

99

Google permite buscar en ms de 8.000 millones de direcciones


URL.

El ndice Google, que comprende ms de 8.000 millones de direcciones


URL, es el mejor de su clase y constituye la coleccin ms detallada de las
pginas ms tiles de Internet.

Google slo devuelve pginas que contienen los trminos que


usted ingres.

A diferencia de muchos otros motores de bsqueda, Google slo produce


resultados que contienen todos los trminos de la bsqueda en el texto de la
pgina o en los vnculos que le apuntan. Se acabaron las frustraciones con
resultados que no tienen ninguna relacin con los trminos de su bsqueda.

Google considera la ubicacin de los trminos de bsqueda en


la pgina.

Los resultados de las bsquedas Google no slo contienen todos los


trminos de la bsqueda, sino que Google tambin analiza la proximidad de esos
trminos en la pgina. A diferencia de muchos otros motores de bsqueda, Google
da prioridad a los resultados de acuerdo con la proximidad de los trminos de la
bsqueda. Favorecemos los resultados en los que los trminos de bsqueda estn
prximos entre s, as pierde menos tiempo analizando resultados irrelevantes.

Google le ofrece un resumen relevante de cada resultado.

En vez de las sinopsis de las pginas Web que nunca cambian, Google
extrae fragmentos de texto de los resultados que coinciden con su consulta. Esta
caracterstica le ahorra el tiempo y la frustracin de descargar una pgina Web
irrelevante.

100

Google puede hacerle sentirse afortunado

Google se especializa en mostrar primero el resultado correcto para


consultas comunes, como nombres de compaas. Estamos tan seguros de
nuestro servicio que, de hecho, hemos instalado un botn "Voy a Tener Suerte",
que le lleva directamente al sitio Web del primer resultado de la bsqueda. La
funcin "Voy a Tener Suerte" de Google est diseada para llevarle a la
informacin til rpidamente.

Google guarda pginas Web en su cach.

Google guarda un sinfn de pginas Web en su cach para mostrrselas en


caso de que el servidor de la pgina falle temporalmente. A menudo, ver la
informacin almacenada en cach suele ser ms rpido que seguir el vnculo,
aunque la informacin no est actualizada.

Google adems pone al servicio de sus usuarios los productos que se


muestran en la siguiente tabla, servicios a los cuales se tiene acceso en la
direccin: http://www.google.com.mx/intl/es/options/

Ms productos de Google
Buscar

Comunicar, mostrar y compartir

Acadmico
Busque documentos
acadmicos

Blogger
Exprese sus opiniones en
lnea

Alertas
Reciba noticias y resultados
de bsquedas por correo
electrnico

Calendar
Organiza tu agenda y
comparte eventos con tus
amigos

Barra Google
Aada un cuadro de
bsqueda a su navegador

Docs y Hojas de clculo


Crea tus proyectos en lnea,
comprtelos y accede a ellos
desde donde ests

101

Bloc de notasNuevo!
Marcar y recopilar informacin
a medida que navegas por
Internet
Bsqueda de blogs
Busque blogs sobre sus
temas favoritos

Gmail
Correo gratuito con 2.8GB de
espacio y menos spam
Grupos
Cree listas de distribucin y
grupos de debate

Bsqueda de libros
Busque en el contenido de los
libros

Talk
Enva mensajes instantneos
y llama a tus amigos desde tu
equipo

Bsqueda en la Web
Realice bsquedas en ms de
8 mil millones de pginas Web

Traducir
Visualice pginas Web en
otros idiomas

Desktop
Realice bsquedas en su
propio equipo
Directorio
Realice bsquedas temticas
en la Web

Optimizar el funcionamiento del


equipo informtico
Pack
Una coleccin gratuita de
software indispensable

Funcionalidades de bsqueda
Web
Saque el mximo partido a
sus bsquedas
Imgenes
Busque imgenes en la Web
Noticias
Busque miles de noticias

Tabla 3.1. Productos de Google. Fuente: http://www.google.com.mx/intl/es/options/. 24 de Julio de


2007, 14:45 hrs.

3.7. Agentes inteligentes de bsqueda


La distribucin de la informacin Internet, especialmente a travs de la
Web, se est convirtiendo en un mar de informacin. Los usuarios inexpertos rara
vez consiguen unos resultados satisfactorios de sus consultas, e incluso los

102

expertos suelen cometer errores a la hora de utilizar las herramientas de


bsqueda. La solucin a los problemas de recuperacin, en ste mbito, puede
venir de los agentes inteligente (HIPOLA, 1999).

3.7.1 Qu es un agente
El trmino agente fue empleado por vez primera por Minsky en su obra "The
Society of Mind"9. En la actualidad, la palabra "agente" tiene muchos significados
distintos, puesto que se utiliza en diversas disciplinas. As, encontramos agentes
referidos a (LAMARCA, 2007):


Agentes autnomos

Agentes biolgicos

Agentes robticos

Agentes computacionales

Agentes de vida artificial

Agentes de software

Agentes de tareas especficas

Agentes de entretenimiento

Virus, etc.

3.7.2. Que es un agente inteligente


Un agente inteligente es una entidad software que, basndose en su propio
conocimiento, realiza un conjunto de operaciones destinadas a satisfacer las

Marvin Lee Minsky ha contribuido en el desarrollo de la descripcin grfica simblica,

geometra computacional, representacin del conocimiento, semntica computacional,


percepcin mecnica, aprendizaje simblico y conexionista. En su obra "La Sociedad de la
Mente", ttulo original en ingls "The Society of Mind". Simon and Schuster, 1987., es donde
emplea por primera vez el termino agente. http://es.wikipedia.org/wiki/Marvin_Minsky (WIK,
2007m)

103

necesidades de un usuario o de otro programa, bien por iniciativa propia o porque


alguno de stos se lo requiere (LARMARCA, 2006).

Todos los agentes inteligentes son programas, pero no todos los programas
que realizan bsquedas son agentes inteligentes. Los agentes en s mismos
pueden ser considerados como entidades individuales (partes de programa que
tienen control sobre sus propias vidas y movimientos). Continuamente estn
realizando procesos que les indican qu hacer y cmo. Se comunican con otros
agentes para resolver de forma adecuada su trabajo.

De acuerdo con el punto de vista de la inteligencia artificial un agente posee


las siguientes propiedades:


Autonoma

Sociabilidad

Capacidad de reaccin

Iniciativa

Benevolencia

Racionalidad

3.7.3. Agentes inteligentes de informacin


No es necesario que un agente dedicado a la recuperacin de informacin
posea todas las propiedades que se han citado, pero s las que a continuacin se
describen:


Autonoma: actuar sin ningn tipo de intervencin humana


directa, y tener control sobre sus propios actos.

Sociabilidad: comunicarse por medio de un lenguaje comn con


otros agentes, e incluso con los humanos.

Capacidad de reaccin: percibir su entorno, y reaccionar para


adaptarse a l.

Iniciativa: emprender las acciones para resolver un problema.

104

Una vez dicho esto, ya no se hablar ms de agentes inteligentes para la


recuperacin de la informacin, sino que simplemente se har referencia a ellos
como agentes de informacin.

Estos agentes estn diseados especficamente para procesar consultas, y


poseen al menos uno de los siguientes elementos: capacidad de proceso,
conocimiento del entorno donde se mueven e informacin de un dominio.

Un agente tiene capacidad de proceso, puesto que puede descomponer


una consulta en subconsultas y asociar a los distintos trminos resultantes otros
trminos relacionados o afines. Su conocimiento del entorno le viene dado por su
propio conocimiento y por el de otros agentes que se comunican con l. El
conocimiento puede ser adquirido: del mismo usuario o de otros agentes con los
que se encuentra mientras realiza una tarea determinada; y, una vez finalizado su
trabajo: de aquellos lugares que ha visitado, as como de las direcciones de los
agentes con los que se ha encontrado. En todo momento debera saber a qu
informacin acceder o a qu otro agente dirigirse para obtenerla. Un agente puede
tener tambin acceso a un dominio y/o informacin de un modelo, si se asocia con
la estructura de ste.

3.7.4. Tipologa de agentes y el problema de la distribucin de la


informacin
Cualquier objetivo o problema se puede descomponer en subobjetivos o en
subproblemas. Por tanto, cualquier consulta se podr dividir en subconsultas (o en
tantos agentes como subconsultas tenga la consulta) para encontrar las
respuestas adecuadas. Los agentes pueden dar respuesta a cada uno de estos
subproblemas y, una vez combinados entre s, ofrecer la respuesta al problema en
su conjunto.

105

Un agente que sabe cmo resolver una subconsulta en particular puede


tomar la responsabilidad de responderla. Por ejemplo si la consulta es perros y
gatos, y hay un agente en cuyo dominio se encuentra una entrada a la base de
datos relacionada con perros, entonces el agente se ofrecer para tomar parte
en la bsqueda de perros. Despus los resultados obtenidos por separado de
perros y gatos sern conjuntados, filtrados, seleccionados y presentados al
usuario.

3.7.4.1. Agentes cooperativos


Para que un agente pueda ser autosuficiente y conocedor del entorno en el
que se encuentra, debe coordinarse y cooperar con cada uno de los otros
agentes. Existen varias formas para hacer esto.


En un sistema compartido un agente cualquiera descompone la consulta


y asigna las subconsultas a otros agentes. Cada uno sabe cules son las
capacidades y limitaciones del resto. No existe un agente maestro; el
grupo de agentes recibe las subconsultas, y todos ellos trabajan por igual
para encontrar la solucin.

En un sistema contractual los agentes siguen teniendo todos el mismo


estatus. Sin embargo, el agente que recibe la consulta no asigna las
subconsultas al grupo de agentes, sino que las enva a todos ellos para
que stos le indiquen quin puede resolverlas, y de entre ellos selecciona
aquellos cuyo dominio sea ms adecuado.

Por el contrario, un sistema federado es una estructura jerrquica de


agentes controlada por un facilitador o agente principal. Los agentes
federados se comunican slo con su agente principal, el cual conoce las
capacidades y limitaciones de cada uno de sus agentes. Una vez recibida
la consulta, el facilitador principal se comunica con el resto de facilitadores
con el fin de seleccionar los agentes locales ms adecuados de cada
federacin para resolver las subconsultas que permitan resolver la consulta
completa.

106

3.7.4.2. Agentes mviles


Es uno de los ltimos desarrollos en tecnologa de agentes. Se basan en el
principio organizador de redes de comunicacin entre ordenadores, conocido
como Control de Procedimientos Remotos (RPC).

Un agente mvil puede suspender el proceso que est realizando,


transportarse a s mismo por medio de la Red y reanudar la ejecucin del proceso
que estaba llevando a cabo donde estime oportuno. Esta capacidad le permite al
agente seleccionar la informacin recuperada antes de enviarla por la Red, lo que
evita la transferencia de grandes cantidades de informacin que podra ser intil.

Un ejemplo bastante ilustrativo (terico) de este tipo de agentes se puede


encontrar en: http://www.genmagic.com/

Independientemente del tipo de cooperacin o coordinacin que se elija, los


agentes deben poder comunicarse entre s. Hay dos formas de realizar esta
comunicacin: directa, como en el caso de los sistemas compartidos o las redes
contractuales, o indirecta, caso de los sistemas federados.

Un agente de informacin necesita una especializacin, es decir, requiere


un campo de cobertura no muy amplio que le permita interactuar perfectamente
con el medio en que se desarrolla, y que a su vez le ofrezca la posibilidad de no
aumentar su base de conocimiento hasta lmites infinitos, pues de ser as se ver
afectado en su capacidad de movimiento y en el tiempo de respuesta.

3.7.4.3. Interfaces inteligentes de usuario


Su objetivo es llevar a cabo bsquedas conceptuales ms que localizar
simples cadenas de caracteres. Cuando un usuario hace una consulta, la interfaz
recoge los trminos de sta como algo representativo de la materia en la que se

107

est interesado. Posteriormente, y a partir de su base de conocimiento, realiza una


consulta expandida. Es decir, partiendo de los trminos suministrados por el
usuario, se aaden otros relacionados con el mismo concepto, realizando as una
consulta mucho ms completa que la que en un principio se pretenda hacer. Por
ejemplo la consulta perro puede ser expandida a perro o can o sabueso.

Se han desarrollado algunos sistemas expertos que expanden de forma


automtica las consultas de los usuarios con la ayuda de un tesauro o base de
conocimiento, en donde se almacenan las palabras relacionadas. Estos sistemas
incorporan estrategias de bsqueda aprendidas de buscadores humanos expertos,
estrategias que a su vez pueden personalizarse para un dominio en particular. Un
ejemplo de este tipo de agente es Alexa (http://www.alexa.com)

3.7.4.4. Agentes de bsqueda inteligentes


En un principio, los sistemas expertos fueron diseados para ejecutar
consultas en una sola e independiente base de datos. La aparicin de Internet ha
propiciado el surgimiento de miles de bases de datos almacenadas en diferentes
direcciones. Obviamente no tiene ningn sentido recopilar todas las bases de
datos existentes en la Red y almacenarlas en una nica direccin, con los
problemas de espacio y coste que esto significara cada vez que un usuario
decidiera realizar una consulta. Pero tampoco tiene mucho sentido que un usuario
vaya de Web en Web buscando en cada una de las bases de datos.

La distribucin de la informacin conduce a la necesidad de crear un


sistema descentralizado de recuperacin de informacin, que estar basado en
agentes inteligentes, los cuales podrn localizar, recuperar y almacenar las
preguntas en un resultado para un usuario en concreto.

Pero los agentes de informacin no slo son tiles para la recuperacin de


informacin en bases de datos. Hoy da han evolucionado y se utilizan para

108

realizar bsquedas de informacin textual en artculos de revistas electrnicas o


en las pginas Web. Independientemente del tipo de informacin que se quiera
localizar, los agentes de bsqueda pueden diferenciarse por la entidad o persona
para la que trabajan: usuarios y/o consultas y/o bases de datos. Tambin se
pueden distinguir por su forma de interactuar, es decir, si se relacionan libremente
todos los agentes para resolver las consultas, o slo son unos pocos agentes los
que se relacionan entre s (mediadores o principales).

Agentes de consulta: un sistema de agentes orientados a consulta origina


uno o ms agentes en respuesta a la pregunta formulada por un usuario. Estos
agentes trabajan en representacin del individuo mientras dura la consulta,
recogiendo informacin de todas las bases de datos disponibles.

Cuando una persona realiza una pregunta, sta se descompondr en


subconsultas para su resolucin. Si los agentes existentes son incapaces de dar
una respuesta en toda su amplitud, se generan nuevos agentes que buscarn en
otras bases de datos. Si an as la respuesta no es lo suficientemente amplia, se
crearn nuevos agentes hasta poder ofrecer la respuesta adecuada.

Agentes de bases de datos: en el tipo de arquitectura anterior las bases


de datos son depsitos pasivos de informacin; por contra, en este sistema pasan
a ser agentes activos que interactan entre s. Cada base de datos dispone de un
agente que sabe cmo presentar de forma adecuada las subconsultas a su base
de datos, conociendo a su vez el tipo de informacin que se almacena en ella. Los
agentes de bases de datos estn organizados en un sistema federado, teniendo
mucha informacin de otros agentes que componen el mismo sistema, pero muy
poca de aquellos que estn en otras federaciones.

Agentes de consulta de bases de datos: las bases de datos y las


consultas pueden ambas tener sus propios agentes con el fin de proporcionar las
respuestas ms adecuadas al usuario. Forman una estructura jerrquica en donde

109

los agentes de consulta poseen informacin de las materias almacenadas en cada


base de datos.

Cuando los agentes de consulta reciben una pregunta por parte del usuario,
stos determinan qu base o bases de datos contienen esa informacin y se la
entregan a los agentes primarios de cada una de ellas, siguiendo el mtodo de lo
menos costoso.

Por ejemplo, si una consulta consta de dos trminos y hay una base de
datos que posee informacin sobre uno de ellos, mientras que en otra se recoge
informacin sobre los dos, los agentes de bsqueda siempre preferirn la
segunda, puesto que implica menos trabajo y por tanto menos costo. Una vez que
los agentes de bases de datos han recibido la consulta, stos la descompondrn
en subconsultas y seleccionarn a los agentes de su federacin para que las
resuelvan. Si los trminos de bsqueda no se encuentran en la misma base de
datos, distribuirn la consulta en tantas como sea necesario para resolverla.

Un ejemplo de este tipo de agentes, es Seidam, un agente de consulta para


sistemas que dan soporte a SQL (Structured query language).

Agentes mediadores de consulta de bases de datos: un sistema


mediador est basado en el modelo descrito anteriormente, pero incluye la
novedad de contar con un agente mediador entre el agente de consulta y el de
base de datos. El proyecto quiz ms relevante de este tipo es Macron (Multiagent architecture for cooperative retrieval online), de 1995.

En este sistema los agentes utilizan informacin de Internet (grupos de


trabajo, archivos, bases de datos de revistas, sitios Web, entre otros.). Su
arquitectura es doble. Por una parte cuenta con una estructura organizacional que
usa agentes de razonamiento, agentes de recuperacin en red de bajo nivel y
agentes de interfaz de usuario. Por otra parte tiene una estructura funcional con

110

unidades tipo pregunta/respuesta conformada por agentes individuales y un


facilitador.

Agentes de usuario: los agentes orientados a usuario estn asociados a


una persona en concreto. A diferencia de los agentes de consulta, que se generan
cada vez que tienen que realizar una consulta para un individuo, los agentes de
usuario siempre estn activos, buscando informacin y suministrndosela a su
creador.

Los agentes de consulta son tiles para recuperar informacin donde las
fuentes son relativamente estticas y la informacin que se busca es dinmica.
Por el contrario, los agentes de usuario son ms efectivos cuando se trata de
recuperar informacin que es relativamente constante, pero cuyas fuentes son
dinmicas. Los agentes de usuario pueden ser utilizados para recuperar
informacin de bases de datos, de revistas electrnicas, o incluso de los mensajes
e-mail. Su objetivo es disminuir el trabajo necesario en la recuperacin de la
informacin. En definitiva, hacer la vida de su propietario ms fcil.

3.7.4.5. Agentes de bsqueda inteligentes para la Web


Tienen la capacidad de hacer transparente la complejidad de la informacin
almacenada en la Red, filtrando la informacin disponible sobre la materia
requerida. Las consultas pueden ser textuales (productos en concreto, sobre
viajes o cualquier informacin de inters.) o por las distintas partes (ttulo, cuerpo,
entre otras.) en que el World Wide Web se representa hoy da. Desgraciadamente
la investigacin sobre los agentes de bsqueda en la Red an est en paales,
segn Hpola. Lo que a continuacin se expone es una serie de aplicaciones cuya
cobertura va desde interfaces generales hasta agentes de compra.

111

Interfaces Web: el usuario puede realizar la consulta en lenguaje natural


(alto nivel), pero el agente de interfaz crea una memoria intermedia entre el
usuario y la Web, para transformar dicha consulta a bajo nivel.

Un ejemplo de agente de interfaz Web es Softbot. Se diferencia de


anteriores sistemas, destinados a ayudar al usuario en la bsqueda y en la
recuperacin de informacin, en que acepta preguntas de alto nivel por parte del
usuario, y es l quien decide qu procesos de descomposicin y consulta realizar
para satisfacer adecuadamente la peticin. Gestiona servicios de informacin
estructurada tales como servidores meteorolgicos, de bolsa, e incluso puede
monitorizar hechos o acontecimientos y enviarlos al usuario de forma autnoma.
Posee la capacidad de moverse en la Red, comprimir, cambiar protecciones e
incluso almacenar ficheros en formatos distintos y acceder a bases de datos
remotas para obtener informacin.

Se pueden ver las distintas versiones de Softbot que existen actualmente, e


incluso bajarlas. Slo que se necesita un sistema operativo Unix para hacerlas
funcionar.

Compradores Web: la aparicin de la compra en lnea ha propiciado el


crecimiento de los sitios Web que se dedican a la venta. Se necesitara una gran
inversin en tiempo (y en dinero, al precio que se han puesto las
telecomunicaciones) para visitar cada una de las tiendas en lnea y encontrar el
mejor precio de un producto concreto. Si un grupo de agentes pudiese realizar
esta tarea, el resultado supondra un ahorro significativo para el comprador.
ShopBot es un agente de compra que se dedica a comparar las caractersticas y
precios de los distintos productos que ofrecen las tiendas en lnea.

Actualmente, bajo este concepto se agrupa una gran variedad de agentes


de Internet especializados en un determinado tipo de productos. Existe un

112

directorio de los mejores robots del ao (compra, seguimiento de programas,


robots de Chat, entre otros.): http://www.botspot.com/main.html

Los ShopBots utilizan una combinacin de bsquedas heursticas, modelos


de coincidencia y tcnicas de aprendizaje inductivo, que les permiten extraer la
informacin de los vendedores en lnea. Posteriormente la compara entre s y se la
presenta al usuario.

ShopBot trabaja slo con textos en html. Si un vendedor incorpora grficos


o utiliza Java, no ser incluido en su lista de proveedores. Es ms, su cobertura
est limitada slo a aquellos que suministren un ndice de sus productos. Se est
intentado salvar este inconveniente para un futuro cercano.

Es posible obtener una copia de Shopbot (http://www.shopbottools.com/),


as como herramientas de todo tipo para personalizarlo (en funcin de los
productos que el usuario desee adquirir y de los proveedores disponibles), as
como los requerimientos hardware y software necesarios para que el agente de
compra funcione perfectamente (HIPOLA, 1999).

Por otro lado Lara menciona otras cinco tipologas de agentes inteligentes,
las cuales se detallan a continuacin (LARA, 2006):


Clientes z39.50. Permiten la consulta simultnea de un elevado nmero de


servidores, mediante un nico protocolo, es decir, un nico interfaz y
lenguaje de interrogacin. Es especialmente til en recuperar la
informacin que se encuentra en la llamada Internet invisible, informacin
que no es indizada por los motores de bsqueda (por ejemplo, las bases de
datos).

Volcadores. Permiten volcar automticamente una copia idntica de sedes,


directorios y documentos, manteniendo su estructura y sus elementos
(incluso los enlaces), y creando as un archivo offline. Se puede programar
la hora del volcado, reduciendo considerablemente el tiempo y el coste, y

113

permite activar el vuelco de diferentes tipos especiales de documentos (


html, .doc, .pdf, .gif ).


Trazadores. Permiten la bsqueda en las pginas enlazadas desde una


pgina Web determinada o desde una lista de resultados de un buscador.
Desde esta primera sede, llamada semilla, y aprovechando la naturaleza
hipertextual de Internet, van comprobndose las pginas que se
encuentran enlazadas segn una serie de criterios de pertinencia, y as
sucesivamente hasta un nivel prefijado. Aunque generan mucho ruido y es
una tcnica lenta, permite recuperar informacin que es imposible de
localizar para los buscadores.

Indizadores Permiten indizar y resumir automticamente diferentes pginas


Web, y exportar los resultados en diferentes formatos reutilizables por
editores Web.

Mapeadores. Describen ntegramente una sede, detallando cada fichero y


directorio, y proporcionando un mapa de contenidos. Permiten obtener
datos numricos que ayudan a evaluar dichos contenidos y establecer una
comparativa entre diferentes sedes Web, en base a valores como el
tamao, la densidad hipermedia de la sede, su estructura de niveles, la
tipologa de enlaces, etc.

3.8. Otras tecnologas de bsqueda


No solo los buscadores son la nica herramienta por la cual se puede
obtener informacin de Internet, tambin las bases de datos son una muy buena
fuente de las cuales se puede recuperar informacin muy confiable, ya que la gran
mayora de estas son empleadas por instituciones oficiales para difundir sus
investigaciones.

114

3.8.1. Bases de datos


Una base de datos o banco de datos es un conjunto de datos que
pertenecen al mismo contexto almacenados sistemticamente para su posterior
uso. En este sentido, una biblioteca puede considerarse una base de datos
compuesta en su mayora por documentos y textos impresos en papel e indexados
para su consulta. En la actualidad, y debido al desarrollo tecnolgico de campos
como la informtica y la electrnica, la mayora de las bases de datos tienen
formato electrnico, que ofrece un amplio rango de soluciones al problema de
almacenar datos.

En informtica existen los Sistemas Gestores de Bases de Datos


(SGBD), que permiten almacenar y posteriormente acceder a los datos de forma
rpida y estructurada.

3.8.1.1. Bases de datos de texto completo


Estas Bases de datos almacenan las fuentes primarias, como por ejemplo,
todo el contenido de todas las ediciones de una coleccin de revistas cientficas.
Esta es una herramienta que las instituciones entregan a la comunidad
universitaria y al pblico en general para que profundicen en la investigacin en
cualquiera de las reas del conocimiento (WIK, 2007n).

Las bases de datos de texto completo, constituyen tambin una tipologa de


buscador, ya que le permiten al usuario tener acceso a informacin confiable
desde la Web, por medio de las pginas de universidades y bibliotecas virtuales,
desde las cuales se puede realizar la consulta.

115

3.8.1.1.1. Bases de datos en texto completo de la Biblioteca Virtual de


la Universidad Veracruzana
La Biblioteca Virtual (BiV) de la Universidad Veracruzana (UV), es un
servicio informativo de vanguardia, para atender a la poblacin universitaria,
distribuida en 14 ciudades en todo el Estado de Veracruz. BiV est estructurada
con acervos electrnicos y un servicio de asesora informativa, las 24 horas del da
durante los 365 das del ao, as como un programa de digitalizacin de
publicaciones por parte de la Direccin de Bibliotecas.

Figura

3.11.

Pgina

de

recursos

de

la

Biblioteca

Virtual

de

la

UV.

Fuente:

http://www.uv.mx/bvirtual/?pg=r_rechome. 16 de Julio de 2007, 14:10 hrs.

En

la

BiV

estn

disponibles:

revistas

electrnicas,

colecciones

monogrficas, bases de datos, y una amplia seleccin de sitios Web de calidad,


as como el catlogo pblico de la Bibliotecas UV, que tiene las referencias (no
texto completo) de ms de 400,000 libros que poseen las 52 bibliotecas de la

116

universidad en el Estado de Veracruz. Esta biblioteca fue creada para ofrecer una
plataforma tecnolgica que apoye los diversos procesos de aprendizaje de la UV.

Dentro de los recursos digitales que brinda esta biblioteca esta el de bases
de datos en texto completo y referenciales, dichas bases de datos ofrecen
servicios de texto completo, resumen o referencial a travs de herramientas que
facilitan la bsqueda y recuperacin de informacin. El usuario puede tener
acceso a ellas desde la seccin Recursos Digitales de la pgina Web de la BiV,
(Figura 3.11) adems puede acceder a otros recursos como son:


Revistas electrnicas

Ligas Web temticas

Catlogo en lnea del sistema bibliotecario de la UV

Libros electrnicos

Coleccin digital UV

El acceso de los repertorios informativos con licencias contratadas a


proveedores comerciales, debe realizarse por ahora, desde la red universitaria,
excepto las fuentes que pertenecen a la UV, a las cuales

puede accesar el

usuario desde el hogar o cualquier parte donde se encuentre. La Biblioteca Virtual


UV est disponible las 24 horas, durante los siete das de la semana. La direccin
de Internet de la Biblioteca Virtual UV es : http://www.uv.mx/bvirtual

donde

pueden accesarse los recursos de BiV UV desde cualquier parte del mundo, a
excepcin de las bases de datos, las cules slo pueden ser consultadas dentro
de la red de la Universidad por la licencia de uso adquirida (LAU, 2005).

Las diferentes tipologas de buscadores expuestas a lo largo de este


capitulo facilitan al usuario la bsqueda de informacin segn sus necesidades de
una manera rpida, sencilla y especializada, pero estos tipos de buscadores estn
cambiando constantemente para mejorar cada vez ms su propsito, facilitar al
usuario la bsqueda de informacin, es por esta razn que en el capitulo siguiente

117

se abordan los cambios que estn presentando los buscadores actualmente y los
cambios que presentaran en un futuro.

118

Capitulo IV
El futuro de los buscadores

119

Los buscadores actualmente se encuentran en constante cambio, esto


con el propsito de facilitar cada vez ms las bsquedas de los usuarios y poder
satisfacer sus necesidades de informacin, es bajo este propsito por el cual los
buscadores estn adoptando nuevas tecnologas para el tratamiento de la
informacin contenida en la Web. En este capitulo se mencionan los cambios
ms importantes que presentaran los buscadores, desde los cambios ms
sencillos hasta los retos que an tienen que desafiar.

4.1. Cambios en los buscadores


Los principales buscadores suelen incluir publicidad y, cada vez ms, una
gran cantidad de recursos de valor aadido como pueden ser: direcciones de
correo electrnico, bsqueda de artculos de noticias, chats (grupos de
conversacin en lnea), acceso a sitios de venta a travs de Internet, acceso a
informacin meteorolgica actualizada, enlaces a prensa electrnica, enlaces a
otros buscadores, servicios de traduccin automtica de pginas, servicios de
localizacin de imgenes o archivos de audio, y acceso a las ltimas noticias de
actualidad. Esto los convierte en portales de Internet, es decir, sitios a los que se
accede no slo para realizar bsquedas, sino tambin para disponer de una serie
de servicios y enlaces directos de valor aadido. Adems los motores de
bsqueda se estn enfocando a personalizar la interfaz de entrada para cada
usuario, como el caso de Yahoo!. Esto es clsico de los portales de Internet y
tiene el objetivo de retener la lealtad del cliente.

4.2. Bsquedas futuras


Los buscadores del futuro, permitirn realizar bsquedas de manera ms
sofisticada, dependiendo del recurso e informacin que se esta buscando. Aguilar
Gonzlez en su trabajo, menciona los siguientes aspectos en los cuales los
buscadores evolucionaran en un futuro no muy lejano (AGUILAR, 2002).
120

4.2.1. Resaltar las palabras


Los motores de bsqueda en ocasiones indexan secciones irrelevantes de
una pgina, por lo cual se deben proveer los medios para publicar o marcar el
texto que debe ser ignorado, usando el seudo ndice de los meta ndices, por
ejemplo. Adicionalmente el resaltar las palabras que corresponden con la
bsqueda en el contexto ayudar a los usuarios a entender los resultados, tal
tcnica ya es usada por algunos motores como Google (AGUILAR, 2002).

4.2.2. Buscadores en pginas XML


XML, sigla en ingls de eXtensible Markup Language (lenguaje de marcas
extensible), es un metalenguaje extensible de etiquetas desarrollado por el World
Wide Web Consortium (W3C). Es una simplificacin y adaptacin del SGML
(Standard Generalizad Markup Language) y permite definir la gramtica de
lenguajes especficos (de la misma manera que HTML (HyperText Markup
Language) es a su vez un lenguaje definido por SGML). Por lo tanto XML no es
realmente un lenguaje en particular, sino una manera de definir lenguajes para
diferentes necesidades. Algunos de estos lenguajes que usan XML para su
definicin son XHTML, SVG, MathML.

XML no ha nacido slo para su aplicacin en Internet, sino que se propone


como un estndar para el intercambio de informacin estructurada entre diferentes
plataformas. Se puede usar en bases de datos, editores de texto, hojas de clculo
y casi cualquier cosa imaginable.

XML es una tecnologa sencilla que tiene a su alrededor otras que la


complementan y la hacen mucho ms grande y con unas posibilidades mucho
mayores. Tiene un papel muy importante en la actualidad ya que permite la
compatibilidad entre sistemas para compartir la informacin de una manera
segura, fiable y fcil (WIK, 2007).

121

Continuamente, los medios de comunicacin especializados en tecnologas


de la informacin se hacen eco de la importancia cada vez mayor del lenguaje
XML, al que definen como la lengua franca de Internet.

Desde su lanzamiento en 1996 el lenguaje XML ha cobrado un importante


protagonismo en el diseo de aplicaciones para la Web, protagonismo que
aumentar en los prximos aos.

Esto hace del lenguaje XML uno de los pilares bsicos para el diseo de
aplicaciones y servicios para la Web. A diferencia de otras tecnologas, para las
que se puede prever un periodo de vigencia ms o menos limitado, en el caso de
XML, Eitom menciona que nos encontramos con un estndar del que con toda
seguridad podemos afirmar seguir siendo utilizado en el futuro (EITO, 2001).

La creacin de las pginas en el lenguaje XML pretende homogenizar los


diferentes tipos de formatos de texto e integrar los diferentes tipos de bases de
datos que manejan los sitios. Estos hacen uso de ndices ms flexibles, de tal
forma que la informacin en esos documentos es ms fcil de rastrear y tambin
pueden describir su contenido en los resultados de la bsqueda. Los motores
basados

en

indexacin

de

documentos

XML

son

ms

relevantes

consistentemente precisos, aunque solo una pequea proporcin de la


informacin actualmente disponible se encuentra estructurada en XML (AGUILAR,
2002).

La Biblioteca Virtual Miguel de Cervantes emplea un buscador avanzado en


textos XML que permite la bsqueda de palabras dentro de las construcciones
especficas de los textos: prrafos, versos, citas, e incluso intervenciones de un
determinado personaje en piezas de teatro. Es posible delimitar fcilmente, por
ttulos o por nombres de autores, el conjunto de obras en las que localizar las
palabras mediante la introduccin de restricciones (BIA, 2000).

122

4.2.3. Buscadores de imgenes


Para los motores de bsqueda de imgenes, el siguiente paso ser
reconocer objetos en una imagen (poder diferenciar una mesa de un rbol, un
baln de ftbol de una pelota de bisbol, entre otras opciones.), lo cual requerir
un gran poder de cmputo ya que las imgenes pueden ser dibujadas, pintadas o
fotografiadas. Es algo que an se ve lejano (AGUILAR, 2002).

IBM pretende desarrollar un motor de bsqueda de imgenes especficas


dentro de videos, donde el usuario podra buscar en frames especficos de un
video simplemente describiendo una escena dentro del mismo. El motor no
buscara en el texto descriptivo del videoclip sino buscara las escenas reales
dentro del video. El motor de bsqueda, por ahora llamado Marvel todava
necesita que los videos sean etiquetados manualmente, pero en un futuro seria
capaz de clasificarlos automticamente. Esta basado en MPEG 7 pero podr
buscar cualquier tipo de formato de video (UNI, 2007).

4.2.4. Redes neuronales


Las redes neuronales sern usadas ms comnmente en el futuro para
organizar gran cantidad de informacin no estructurada. Las redes neuronales son
conjuntos interconectados de unidades de procesamiento simple o nodos, cuya
funcionalidad est basada sobre la neurona biolgica. La habilidad de
procesamiento de la red est contenida dentro de la fuerza (o peso) de la conexin
entre los nodos. Este peso se deriva de un proceso de aprendizaje sobre un
conjunto de patrones. La red neuronal aprende a reconocer algunos sentidos
sobre la calidad de una pgina basados en ciertas estadsticas o mtricas,
relacionadas con la pgina como el nmero de enlaces, la naturaleza del ttulo, el
nmero de ocurrencias de palabras claves entre otros (AGUILAR, 2002).

123

Autonomy es un motor de bsqueda que usa el modelo del concepto


probabilstico o estadstico para entender grandes documentos. Autonomy es
capaz de procesar cualquier tipo de informacin desestructurada, ya sea texto,
audio o vdeo, sin ningn tipo de intervencin manual (VASS, 2007).

4.2.5. Agrupacin de conceptos


Los motores de bsqueda estn empleando otra tecnologa llamada
agrupacin de conceptos (concept clustering). Vivsimo (http://www.vivisimo.com/)
utiliza agrupacin de conceptos mediante algoritmos heursticos para grupos de
documentos. El software propietario es insertado en el pipeline (trayecto por el
cual pasan los datos dentro del microprocesador central) de resultados de
bsqueda, los cuales se obtienen de un motor de bsqueda o de una fuente de
informacin textual. Un documento de agrupacin es la organizacin de
documentos dentro de clusters (grupos de documentos con contenidos similares).
Se realiza de forma totalmente automtica, sin intervencin humana en ningn
punto (con excepcin de la gente que escribi los algoritmos).

Los mtodos de agrupacin conceptual intercalan el proceso de formacin


de grupos con el paso de anotacin de los mismos. Si Vivsimo, por ejemplo,
intenta formar un grupo pero juzga que no puede describirlo bien, el grupo es
rechazado. Otros motores, como Northern Light (http://www.nlsearch.com),
confan sobre optimizacin matemtica, en la que la descripcin es relegada hasta
despus de que estn formados los grupos. La agrupacin es hecha en tiempo
real, justo antes de que el usuario vea los resultados de la bsqueda, por lo cual
no hay necesidad de preparar nada con anticipacin. La agrupacin de
documentos tiene una dcada, pero su calidad an no ha sido comprobada.
Algunas veces los documentos caen en ms de una categora jerrquica, estos se
anexan en todas ellas (AGUILAR, 2002).

124

Slawski propone 20 posibilidades de reordenamiento de resultados antes de


que stos sean entregados al usuario (SLAWSKI, 2006):
1. Eliminacin de contenidos duplicados, o casi duplicados
2. Eliminacin de mltiples pginas relevantes de un mismo sitio
3. Basados en intereses personales
4. Reordenamiento basado en interconectividad local
5. Ordenando resultados segn el pas
6. Ordenando segn el idioma
7. Viendo la segmentacin de poblacin y audiencia
8. Reordenamiento segn datos histricos
9. Reordenamiento segn topic familiarity
10. Reordenando segn la intencin comercial
11. Reordenamiento y eliminacin de resultados segn compatibilidad con
dispositivos mviles
12. Reordenamiento segn accesibilidad
13. Reordenamiento segn contenido editorial
14. Reordenamiento segn trminos adicionales (boosting) y comparacin de
similitud de textos.
15. Reordenamiento segn feedback implcito de la actividad del usuario y ratio
de clicks.
16. Reordenamiento segn endorso de la comunidad
17. Reordenamiento basado en informacin redundante
18. Reordenamieto basado en storylines
19. Reordenamiento observando blogs, noticias y pginas como enfermedades
infecciosas
20. Reordenamiento segn informacin conceptual relacionada, incluyendo
factores basados en tiempo y uso

125

4.2.6. Bsqueda nacionalista, multilinge y multicultural


Otra tendencia son los motores de bsqueda nacionalistas y los multilinge
y multicultural. Estos ltimos pretenden la realizar consultas y ofrecer informacin
en la lengua que el usuario prefiera. Para acoplarse a los sitios multicultural y
multilinge los motores de bsqueda tienen que reconocer caracteres extendidos
(como los encontrados en las palabras th y da), y todos los lenguajes en
general. Debern permitir a los usuarios buscar trminos con o sin caracteres
diacrticos (marcas gramaticales como los acentos y signos), e indexar caracteres
de doble byte o caracteres Unicode. El cdigo Unicode contiene ms signos que el
ASCII, lo que le permite el uso alfabtico de todos los idiomas mundiales.

4.2.7. Bsquedas en lenguaje natural


Una tendencia ms son las bsquedas en lenguaje natural. La diferencia
entre los motores de bsqueda convencionales y los de lenguaje natural radica en
la forma de indexar las pginas, estos ltimos tratan las palabras como nodos en
una semntica de red. El nfasis se sita en el significado de las palabras juntas y
no por separado. AltaVista y Ask Jeeves (http://es.ask.com/) son precursores en el
uso del lenguaje natural (AGUILAR, 2002).

Prez considera que los dos baluartes de esta nueva tendencia son
Powerset (http://www.powerset.com/) y Hakia (http://www.hakia.com/), detrs de
los cuales se encuentra el Procesamiento de Lenguaje Natural, para conseguir un
nuevo salto de calidad en la evolucin de los buscadores Web. La razn de este
nuevo resurgimiento en el entorno de los buscadores se corresponde en parte con
un ciclo natural, tpico de cualquier disciplina cientfica, donde se prueban viejas
ideas desde enfoques nuevos. Pero tambin se trata de una cuestin de
marketing, donde nuevos buscadores tratan de entrar en el mercado vendiendo la
idea de que tienen una nueva tecnologa revolucionaria que superar con creces

126

el enfoque actual de los grandes buscadores. Google, Yahoo! y Microsoft llevan


tiempo trabajando tambin en esta direccin.

Prez concluye que pese a que la inclusin de lenguaje natural en los


buscadores es sin duda una de las lneas de trabajo futuro para mejorar no slo la
calidad de los resultados de los buscadores sino tambin sus posibilidades e
interaccin con los usuarios, an queda mucho por hacer a este respecto, y raro
ser que ningn nuevo buscador desbanque a Google simplemente porque utiliza
tcnicas de procesamiento natural (PEREZ, 2007).

4.2.8. Motores de reconocimiento y concordancia


Mientras los motores de bsqueda estn basados predominantemente en
palabras claves, los motores de reconocimiento y los motores de concordancia
(Matching engines) pueden tratar con ms factores. Estos representan una nueva
generacin en los motores de bsqueda.

El motor de reconocimiento (o motor de filtrado colaborativo) como


LikeMinds de Macromedia, y Firefly de Microsoft, pueden ilustrar una nueva forma
de traer resultados ms precisos al usuario. Los motores de reconocimiento
comparan un conjunto de caractersticas del usuario con el perfil de un grupo.
Amazon.com, usa un motor de este tipo para clasificar al visitante y adecuarlo a un
grupo que ya se tiene contemplado, se basa sobre las compras y decisiones
previas, hechas mediante clics.

Los motores de concordancia toman un conjunto de caractersticas


proporcionadas por el usuario o por alguna otra fuente y lo comparan con otro
conjunto de variables que se encuentran en un ndice o base de datos, son
particularmente tiles cuando se intenta cotejar algo, por ejemplo, un candidato a
un trabajo con una empresa. Los motores de concordancia estn an en
desarrollo (por Burning Glass Technologies e iXmatch) y traern un nuevo nivel de

127

bsqueda de sitios en un futuro prximo. Pretenden aplicar esa ventaja a los


motores basados en bsqueda de usuarios para obtener una comparacin ms
precisa y relevante. El motor de concordancia usa el conjunto de teora bsica,
correlacin de coeficientes, anlisis de regresin y agrupacin de datos en el
proceso de intentar comparar un conjunto de caractersticas complejas con otro.
La primera implementacin ser en un sitio de trabajo, como Monster o Guru.com,
donde los empresarios intentan cotejar conjuntos de habilidades complejas con
resmenes registrados. Pero no hay razn para que no puedan usarse con otros
propsitos, como encontrar la casa apropiada para un comprador o encontrar las
partes adecuadas para un ingeniero diseador de electrnicos (AGUILAR, 2002).

4.2.9. Motores de bsqueda y el E-Commerce


El comercio electrnico (en ingls Electronic Commerce, E-Commerce,
ecommerce o EC) consiste principalmente en la distribucin, compra, venta,
mercadotecnia y suministro de informacin complementaria para productos o
servicios a travs de redes informticas como Internet u otras. La industria de la
tecnologa de la informacin podra verlo como una aplicacin informtica dirigida
a realizar transacciones comerciales.

El comercio electrnico tambin incluye la transferencia de informacin


entre empresas (EDI Electronic Data Interchange).

Existen cuatro clases de comercio electrnico:

Business to Consumer (B2C)

Es el Comercio entre las Empresas y los Consumidores Finales. Se trata de


la Venta Directa a travs de Internet., es ms regulado (compra-venta, arriendo de
servicios.) Ejemplo: bazuca.com. En esta modalidad se pretende beneficiar al
consumidor.

128

Business to Business (B2B)

Son los negocios de Comercio realizados entre Empresas. Contratos EDI


(entre empresas, contratando modelos econmicos, contratos Asp). Por ejemplo:
yo le entrego la contabilidad a otra empresa.

Peer to Peer (P2P)

Es el sistema de red en el que los archivos se reparten en diferentes


computadoras, los usuarios accedan a ste de uno a otro en vez de un servidor
central. Se da por medio de e-mail o Internet. Ejemplo: Napster: dos servidores se
comunican y hacen intercambio de msica.

Consumer/Business to Government (B2C/G)

El Gobierno con las empresas o consumidores. Ejemplo: DAE (Direccin de


Abastecimiento del Estado)

El comercio electrnico en la actualidad se ha convertido en el mayor medio


de compra y venta entre grandes empresas (WIK, 2007o).

Los motores de bsqueda han mejorado las capacidades del E-Commerce


en los modelos business-to-business (negocio a negocio) y business-to-customer
(negocio a cliente) para encontrar productos e informacin. Entre las nuevas
capacidades que se ofrecen estn el perfilado de usuario, un consejero de
bsqueda automatizado, e integracin y monitoreo del desempeo. La meta es
combinar la bsqueda con el comercio y la informacin personalizada para
manejar los negocios de los vendedores. Como ejemplo, el motor de bsqueda de
empolis, orenge 2.1, liberado en Octubre del 2001, acta como un consejero
inteligente o un asistente de ventas virtual para los clientes, se basa en el
conocimiento de los productos y las preferencias personales de los clientes.
Orenge usa XML para intercambio de los datos de los productos (AGUILAR,
2002).

129

CONCLUSIONES

130

Como primer punto relevante de esta Monografa, puedo concluir que los
buscadores en la actualidad son la principal herramienta para facilitar la tarea de la
recuperacin de informacin que existe en gran cantidad y de forma
desorganizada en Internet. Adems que podemos emplear cualquier tipo de
buscador dependiendo de nuestras necesidades, as como mtodos y estrategias
de bsqueda que nos permitan acotar los resultados de lo que estamos buscando.

Otra conclusin del presente trabajo es que Internet es el medio que brinda
informacin til y rpida que no podramos encontrar en ningn otro lugar, pero en
ocasiones no es estn fcil localizarla por el gran desorden que existe con esa
informacin, para lo cual en la red existen varios buscadores que nos facilitan esa
difcil tarea, los cuales se han convertido en una herramienta bsica para casi todo
usuario de Internet, sin embargo su servicio se ve empaado con la
comercializacin, que con fines personales u organizacionales, hacen a un lado el
propsito de ofrecer un servicio de calidad en la bsqueda de informacin,
convirtindose estas herramientas en un centro de publicidad en el cual las
personas y empresas desean aparecer, provocando que nos encontremos
inmersos en un mar de informacin, a veces no tan til, sin poder encontrar la
informacin que verdaderamente cubra con nuestras necesidades.

Tambin concluyo que a pesar de que los resultados de los buscadores no


se encuentran alejados de la publicidad que presentan algunas pginas, estas
herramientas de bsqueda son el nico medio por el cual podemos obtener
informacin de Internet de una manera rpida y sencilla, sin tener que navegar de
pgina en pgina para obtener resultados que no cubran satisfactoriamente
nuestras necesidades.

Considero que conocer las diversos tipos de herramientas de bsqueda que


ofrece Internet permite al usuario conocer la estructura y funcionamiento de cada
herramienta para que el empleo de estas sea el adecuado en las bsqueda de
informacin, adems que el hacer uso de los operadores de bsqueda que los

131

buscadores aceptan y las opciones de bsqueda avanzada que algunos ofrecen,


permiten que los usuarios exploten las herramientas al mximo y as obtengan los
resultados en texto, imgenes, audio o video segn sus necesidades, ya que si
utilizamos los buscadores de una manera irracional, andaremos como barcos a la
deriva, obteniendo resultados no satisfactorios, por el simple hecho de no conocer
la herramienta que estamos empleando para buscar.

En cuanto al buscador Google puedo decir que es el buscador ms


empleado por los usuarios de Internet, ya que es muy sencillo, tiene una gran
velocidad y precisin en la presentacin de sus resultados. Adems que es uno
de los buscadores automticos con una interfaz clara y sencilla que carga muy
rpido en su pgina Web, algo que es apreciado por sus usuarios, sus bsquedas
proporcionan resultados solo de los trminos que se ingresan en su caja de
bsqueda y ofrece un extracto del texto de la pagina que contiene esos trminos.
Son sus algoritmos de ordenacin y su gran empeo por ser un buscador cada
vez mejor, lo que le han proporcionado esas ventajas y por lo que es considerado
un de los buscadores ms utilizados de Internet, sus usuarios satisfechos son
quienes se han encargado de hacerle la publicidad y proporcionado el xito para
estar entre los mejores motores de bsqueda.

Google sin duda, ms de una vez, nos ha salvado en esas situaciones en


las que necesitamos informacin, ya sea para una tarea, para una investigacin o
inclusive para tomar una decisin. Pero no solo los buscadores son la nica
herramienta de bsqueda disponible en Internet, tambin estn los agentes
inteligentes de bsqueda los cuales son muy eficaces en la recuperacin de
informacin de revistas electrnicas, bases de datos, paginas Web y hasta del
correo electrnico, adems de las bases de datos, que son otro medio que
proporcionan informacin especializada y fiable, tal es el caso de las bases de
datos de texto completo de la Biblioteca Virtual de la UV.

132

En lo que corresponde a la manera de buscar informacin en Internet,


concluyo que no existe una receta definida y fiable para buscar, pero que s
podemos disear un procedimiento estratgico que nos permita crear estrategias
de bsqueda, definir nuestros objetivos y elegir la herramienta para buscar, de esa
manera podemos delimitar la bsqueda y obtener mejores resultados, para que
aprovechemos al mximo la informacin que existe en Internet.

Adems considero que la experiencia que se dar a consecuencia del uso


de las diferentes herramientas, nos permitir disear nuestros propios mtodos de
bsqueda y de esa forma obtener resultados ms provechosos al momento de
buscar en Internet.

La evolucin de los buscadores, en lo personal es sorprendente, por el


surgimiento de nuevas tecnologas de bsqueda que ya se encuentran en
desarrollo para sacar el mayor provecho de los recursos que ofrece Internet, por lo
que puedo concluir que tienen mucho para donde expandirse, tal es el caso del
empleo de lenguaje natural en las consultas a las bases de datos de los
buscadores, las redes neuronales para organizar la informacin no estructurada, el
uso de agentes inteligentes de bsqueda ms sofisticados y especializados en
determinadas reas, as como los motores de reconocimiento y concordancia que
no tratan solo con palabras clave, si no con otros factores como las caractersticas
del usuario, estas tecnologas resolvern las necesidades de bsqueda de
informacin que sea realmente til en la toma de decisiones personales u
organizacionales. De ese modo las herramientas de bsqueda tienen varios retos
que desafiar, ya que las necesidades de informacin son cada vez mayores y en
ocasiones no es posible encontrarla en otro lado ms que en Internet.
Finalmente el desarrollo de esta investigacin me permiti conocer
diferentes herramientas de bsqueda, su funcionamiento y estructura, as como
emplear mtodos y estrategias de bsqueda para llevar a cabo este trabajo.
Tambin me deja la inquietud de seguir investigado sobre las nuevas tecnologas
para la bsqueda y recuperacin de informacin.
133

BIBLIOGRAFA Y REFERENCIAS
(AGUILAR, 2002) AGUILAR GONZLEZ, R. Monografa sobre motores de
bsqueda.
http://www.geocities.com/motoresdebusqueda/inicio.html.
Yahoo
Geocites, 2002. 10 de Julio de 2007, 9:10 hrs.
(BIA, 2000) BIA, A. XML y Bsquedas: Bsquedas por estructuras marcadas
en XML y otros mtodos complementarios.
http://www.archivovirtual.org/seminario/busqueda/ponencias/p5.htm#siete.
Ponencia 2000. Subdirector de Investigacin Informtica, Biblioteca Virtual Miguel
de Cervantes, Universidad de Alicante. 11 de Julio de 2007, 10:00 hrs.

(CACERES,

2003)

CCERES

S.

Google,

la

competencia

de

Dios.

<http://www.voltairenet.org/article120411.html. Voltairenet.org Red de Prensa No


Alineados. 2003. 24 de Julio de 2007, 9:20 hrs.

(CBDM, 2003) Coordinacin de Biblioteca y Documentacin Multimedia. La


Estrategia de Bsqueda de Informacin.
http://www.unlz.edu.ar/biblioteca/tutores/tutor2b/dos.htm#*. Secretara Acadmica.
UNLZ, 2003. 12 de Julio de 2007, 10:50 hrs.

(DOUGLAS, 1998) DOUGLAS E. C. El libro de Internet. Segunda edicin, Mxico


Printece Hall, 1998. p. 85,244.

(EITO, 2001) EITO BRUN, R. Programacin con XML. Madrid, Anaya


Multimedia, 2001. p.17.

(EUM, 2007) EUMED.NET. Tim Berners Lee.


http://www.eumed.net/cursecon/ecoinet/conceptos/Tim.htm.

eumed.net.

29

de

Junio de 2007, 9:40 hrs.

134

(FILIBERTI, 1998) FILIBERTI, F. L. Motores de bsqueda.


http://www.monografias.com/trabajos/buscadores/buscadores.shtml.
monografas.com, 1998. 12 de Mayo de 2007, 9:45 hrs.

(FUENTES, 2001) FUENTES AGUST, M. Naufragar en Internet. Estrategias de


bsqueda de informacin en redes telemticas.
http://www.uoc.edu/web/esp/art/uoc/0109037/fuentes.html. Virtual Educa UOC
2001. 11 de Mayo de 2007, 11:25 hrs.

(GOO, 2007a) GOOGLE. Tecnologa de google.


http://www.google.com/intl/es/corporate/tech.html. google.com, 2007. 24 de Julio
de 2007, 12:30 hrs.

(GOO, 2007b) GOOGLE. Porque usar google.


http://www.google.com.mx/intl/es/why_use.html. google.com, 2007. 24 de Julio de
2007, 12:35 hrs.

(HAW, 2001) HAW, C. Monografa sobre motores de bsqueda en Internet.


http://www.unlu.edu.ar/~tyr/seminario/TYR-motor/hauw-semi-motor.pdf.
Universidad Nacional de Lujan, 2001. 9 de Julio de 2007, 13:20 hrs.

(HERAS, 2006) HERAS QUIRS, A. El silencio en la recuperacin de


informacin. http://www.geocities.com/silencio_recuperacion/bases_respuesta.
html. Licenciatura en Documentacin, 5 Curso, 2006. 20 de Mayo de 2007, 9:15
hrs.

(HIPOLA, 1999) HPOLA, P. Y VARGAS QUESADA, B. Agentes inteligentes:


definicin y tipologia. Los agentes de informacin.
http://www.elprofesionaldelainformacion.com/contenidos/1999/abril/agentes_intelig
entes_definicion_y_tipologia_los_agentes_de_informacion.html. El profesional de
la informacin, 1999. 12 de Mayo de 2007, 9:00 hrs.

135

(LAMARCA, 2007) LAMARCA LAPUENTE. M. J. Hipertexto: El nuevo concepto


de documento en la cultura de la imagen.
http://www.hipertexto.info/documentos/robot_agent.htm#Olivares#Olivares.
Universidad Complutense de Madrid, Hipertexto, 2007. 3 de Julio de 2007, 13:00
hrs.

(LARA, 2006) LARA NAVARRA, P. Y MARTNEZ USERO, J. A. Agentes


inteligentes en la bsqueda y recuperacin de informacin.
http://eprints.rclis.org/archive/00006923/01/2004-Lib-Agentes.pdf.

E-prints

in

Library and Information Science, 2006. 5 de Julio de 2007, 10:00 hrs.

(LAU, 2005) LAU, J. Biblioteca Virtual UV (BiV) una plataforma tecnolgica


para procesos de aprendizaje. Ponencia para: Reunin CUDI por medio de
videoconferencia Abril 13, 2005, USBI-VER Coordinador Biblioteca Virtual UV
Universidad Veracruzana. Veracruz, Mxico. 2005.

(LIROZ, 2006) LIROZ, F. Las parfrasis verbales.


http://www.asmadrid.org/spanish/gram/perifras.htm.

The

American

School

of

Madrid, 2006. 3 de Julio de 2007, 14:00 hrs.

(LUN, 2007) Las ltimas Noticias de Internet. Metacrawler Buscador de


Buscadores.

http://www.internetynoticias.blogspot.com/2007/06/metacrawler-

buscador-de-buscadores.html. Internet y Noticias, 2007. 10 de Julio de 2007,


13:20 hrs.

(MARTINEZ, 1998) MARTNEZ LPEZ, F. J., LUNA HUERTAS, P., FERNNDEZ


CARRIN, R. Y SALMERN SILVERA, J. L. Internet para investigadores. 2
edicin, Espaa. Universidad de Huelva, 1998. p. 82-89.

136

(MARTINEZ, 2003) MARTNEZ MNDEZ, F. J. Propuesta y desarrollo de un


modelo para la evaluacin de la recuperacin de informacin en Internet.
http://www.cervantesvirtual.com/FichaObra.html?Ref=10010&ext=pdf&portal=0.
Biblioteca Virtual Miguel de Cervantes, 2003. Edicin digital a partir del texto
original de la tesis doctoral. Universidad de Murcia. 4 de Junio de 2007, 11:00 hrs.

(MENESES, 2004) MENESES, J., BOIXADS, M., VALIENTE, L., VIVAS, P. &
ARMAYONES, M. Construccin de estrategias sistemticas para la bsqueda
exhaustiva de informacin en Internet: un marco de toma de decisiones
aplicado

la

informacin

sobre

psicologa

de

la

salud.

http://InformationR.net/ir/10-3/paper231.html. Information Research, 2004 10(3)


paper 231. 20 de Mayo de 2007, 10:35 hrs.

(MORENO, 2005) MORENO JIMNEZ, P. M. Estrategias y mecanismos de


bsqueda en la web invisible. http://biblio.colmex.mx/recelec/web_invisible.htm.
El Colegio de Mxico, 2005. 12 de Mayo de 2007, 13:25 hrs.

(MUOZ, 2007) MUOZ FERNNDEZ, S. Procesamiento del lenguaje natural


para la recuperacin de informacin.
http://procesamientolenguajerecuperacion.50webs.org/.

Wiki

Recuperacin

Organizacin de la Informacin 2007. 2 de Junio de 2007, 10:45 hrs.

(PEREZ, 2007) PREZ AGERA, J. R. La nueva generacin de motores de


bsqueda

basados

en

procesamiento

de

lenguaje

natural.

http://www.thinkepi.net/repositorio/la-nueva-generacion-de-motores-de-busquedabasados-en-procesamiento-de-lenguaje-natural/. Dept. de Ingeniera del Software


e Inteligencia Artificial 2007, Facultad de Informtica, Universidad Complutense de
Madrid. 12 de Julio de 2007, 13:20 hrs.

137

(PRADO, 2006) PRADO, D. Elementos de interaccin esenciales


buscador.

de un

http://www.dnxgroup.com/ideas/articulos/elementos-interaccion-

esenciales-buscador.html. dnx, 2006. 12 de Mayo de 2007, 12:15 hrs.

(PRO, 1997) Profesional de la Informacin. Multibuscadores: Cyber411.


http://www.elprofesionaldelainformacion.com/contenidos/1997/julio/multibuscadore
s_cyber411.html. El Profesional de la Informacin Revista Internacional Cientfica
y Profesional, 1997. 10 de Julio de 2007, 9:47 hrs.

(PRO, 2007) Promocion. La historia de un buscador llamado Google.


http://www.promocion.org/historia-de-google.htm.

Informacin

sobre

posicionamiento y buscadores Promocion.org, 2007. 24 de Julio de 2007, 10:10


hrs.

(PUCC,

2007)

Pontificia

Universidad

Catlica

de

Chile.

Estrategias

recomendadas para buscar informacin en Internet.


http://www.puc.cl/sw_educ/gnosis/J/gnosisj.htm. Sistema de Bibliotecas, 2007. 12
de Mayo de 2007, 10:30 hrs.

(PULIDO,

2007)

PULIDO

MARTN,

S.

modelos

de

recuperacin.

http://modelosderecuperacioni.iespana.es/. Wiki Recuperacin y Organizacin de


la Informacin 2007. 12 de Mayo de 2007, 11:35 hrs.

(RODRIGUEZ, 2003] RODRGUEZ FERNNDEZ, O. TRONCOSO EGEA, R. Y


BRAVO DE PABLO, S. La Biblia de Internet. Espaa. Anaya Multimedia. 2003. p.
142-170.

(SANCHEZ, 1996) SNCHEZ PREZ M. El libro de la jungla de Internet.


Traduccin Titulo original Das Internet Dschungelbuch. Espaa. Marcombo S.A.
1996.

138

(SEO, 2004) SEOLUCION. Tipologa de buscadores: robots y directorios.


http://www.seolucion.com/articulos/040308-robots-y-directorios.asp. SEOLUCINAdesis Netlife, 2004. 12 de Mayo de 2007, 12:15 hrs.

(SLAWSKI, 2006) SLAWSKI, B. 20 maneras de reordenar los resultados.


http://www.ojobuscador.com/2006/10/17/20-maneras-de-reordenar-resultados/.
Traduccin autorizada por Bill Slawski para OJObuscador. 2006 Versin original
en ingls: 20 Ways Search Engines May Rerank Search Results. 12 de Julio de
2007, 9:40 hrs.

(SLIDE, 2007) SLIDE SHARE. Internet y sus servicios.


http://www.slideshare.net/gildaeliana/internet-y-servicios/. SlideShare Inc. 2007. 3
de Julio de 2007, 14:35 hrs.

(TURBAN, 2006) TURBAN, E., MCCLEAN, E. Y WETHERBE, J. Tecnologas de


informacin para la administracin. Mxico. CECSA. 2006. p. 10

(UDA, 2007) Universidad de Antioquia. Estrategias de bsqueda y organizacin


de material acadmico escrito.
http://elektra.udea.edu.co/~giraa/busqueda_cientifica.htm UDEA 2007, 12 de Mayo
de 2007, 13:00 hrs.

(UDS, 2007) Universidad de Sevilla. Como buscar informacin en Internet.


http://bib.us.es/guias_old/internet_b.htm. Biblioteca de la Universidad de Sevilla,
2007. 2 de Junio de 2007, 9:55 hrs.

(UNI, 2007) UNIXMEXICO. IBM desarrollara un motor de bsqueda de imgenes


en videos.
http://www.unixmexico.org/modules.php?name=News&file=article&sid=1317.
Archivo de noticias UNIXMEXICO 2007, 13 de Julio de 2007, 10:40 hrs.

139

(VALLEZ, 2007) VALLEZ, M. Y PEDRAZA JIMNEZ, R. El Procesamiento del


Lenguaje Natural en la Recuperacin de Informacin Textual y reas afines.
http://www.hipertext.net/web/pag277.htm. "Hipertext.net", nm. 5, 2007. 12 de
Mayo de 2007, 10:50 hrs.

(VASS, 2007) VASS Valor Aadido en Soluciones y Servicios. Autonomy.


http://www.vass.es/actividad/nuevastecno.asp?idsol=14.

Nuevas

tecnologas

VASS 2007. 12 de Julio de 2007, 9:35 hrs.

(VICENT, 2006) VICENT, A. Buscar en Internet.


http://www.buc.unican.es/par/buscar/Buscadores.htm. Biblioteca de la Universidad
de Cantabria, 2006. 2 de Junio de 2007, 13:45 hrs.

(WIK, 2007a) Wikipedia. Internet. http://es.wikipedia.org/wiki/Internet. Wikimedia


Fundation, Inc. 2007. 4 de Junio de 2007, 10:10 hrs.

(WIK, 2007b) WIKIPEDIA, World Wide Web.


http://es.wikipedia.org/wiki/World_Wide_Web. Wikimedia Foundation, Inc. 2007. 9
de Julio de 2007, 10:20 hrs.

(WIK, 2007c) WIKIPEDIA. URL. http://es.wikipedia.org/wiki/URL. Wikimedia


Foundation, Inc. 2007. 29 de Junio de 2007, 10:47 hrs.

(WIK, 2007d) WIKIPEDIA. Sitio web. http://es.wikipedia.org/wiki/Website.


Wikimedia Foundation, Inc. 2007. 3 de Julio de 2007, 15:00 hrs.

(WIK, 2007e) WIKIPEDIA. Portal (Internet).


http://es.wikipedia.org/wiki/Portal_%28Internet%29. Wikimedia Foundation, Inc.
2007. 3 de Julio de 2007, 15:10 hrs.

140

(WIK, 2007f) WIKIPEDIA. Buscador. http://es.wikipedia.org/wiki/Buscador.


Wikimedia Foundation, Inc. 2007. 11 de Mayo de 2007, 9:12 hrs.

(WIK, 2007g) WIKIPEDIA. Robot. http://es.wikipedia.org/wiki/Robot. Wikimedia


Foundation, Inc. 2007. 5 de Junio de 2007, 14:30 hrs.

(WIK, 2007h) WIKIPEDIA. Buscadores mviles.


http://es.wikipedia.org/wiki/Buscadores_m%C3%B3viles. Wikimedia Foundation,
Inc. 2007. 20 de Mayo de 2007, 11:37 hrs.

(WIK, 2007i) WIKIPEDIA, Cdigo abierto.


http://es.wikipedia.org/wiki/C%C3%B3digo_abierto. Wikimedia Foundation, Inc.
2007. 20 de Mayo de 2007, 14:21 hrs.

(WIK, 2007j) WIKIPEDIA. Fitts law. http://en.wikipedia.org/wiki/Fitt. Wikimedia


Foundation, Inc. 2007. 11 de Mayo de 2007, 11:13 hrs.

(WIK, 2007k) WIKIPEDIA. Lgica difusa.


http://es.wikipedia.org/wiki/L%C3%B3gica_difusa.

Wikimedia

Foundation,

Inc.

2007. 13 de Julio de 2007, 12:05 hrs.

(WIK, 2007l) WIKIPEDIA. Motor de bsqueda.


http://es.wikipedia.org/wiki/Motor_de_b%C3%BAsqueda.

Wikimedia

Fundation,

Inc. 2007. 12 de Mayo de 2007, 11:25 hrs.

(WIK, 2007m) WIKIPEDIA. Marvin Minsky.


http://es.wikipedia.org/wiki/Marvin_Minsky. Wikimedia Fundation, Inc. 2007. 29 de
Junio de 2007, 9:30 hrs.

141

(WIK, 2007n) WIKIPEDIA. Bases de datos.


http://es.wikipedia.org/wiki/Base_de_datos. Wikimedia Fundation, Inc. 2007. 29 de
Junio de 2007, 9:35 hrs.

(WIK, 2007) WIKIPEDIA. XML. http://es.wikipedia.org/wiki/XML. Wikimedia


Fundation, Inc. 2007. 24 de Julio de 2007, 12:15 hrs.

(WIK, 2007o) WIKIPEDIA. E-commerce.


http://es.wikipedia.org/wiki/Comercio_electr%C3%B3nico. Wikimedia Fundation,
Inc. 2007. 24 de Julio de 2007, 10:40 hrs.

142

Das könnte Ihnen auch gefallen