Beruflich Dokumente
Kultur Dokumente
MONOGRAFA
Qu para obtener el Ttulo de:
Licenciado en Sistemas
Computacionales Administrativos
Presenta:
Asesor:
Xalapa-Enrquez, Veracruz
Septiembre 2007
AGRADECIMIENTOS
A Dios:
Por ser m gua en el camino, por estar siempre junto a m, por darme todo
lo que tengo y por concederme el logro de uno de mis grandes sueos. Gracias
A mis padres:
Quienes con su confianza, cario y apoyo me han convertido en una
persona de provecho, ayudndome al logro de una meta ms y la cual es mi mejor
herencia: mi carrera profesional.
Gracias por hacer de mi lo que soy, recuerden que sus sacrificios no sern
en vano y que este xito tambin es de ustedes.
Gracias Magdalena Soto Gmez y Pedro Velzquez Herrera.
A mis hermanas:
Gracias por estar siempre a mi lado apoyndome, por compartir tristezas y
alegras, xitos y fracasos, por todos los detalles que me han brindado durante mi
vida como estudiante.
Gracias Adali por darme una alegra ms en la vida, mi sobrina Michelle, y a
ti Maria del Carmen por tu apoyo en todo momento.
A mis abuelitos, tos y primos:
A ustedes que siempre han estado presentes cuando ms los necesito, por
sus consejos, por su gran amor y afecto. Gracias, especialmente familia Soto.
A mis amigos:
Por estar con migo en los mejores y peores momentos, por su confianza y
apoyo gracias. Espero seguir contando con ustedes.
A los maestros:
Nancy A. Olivares R. por brindarme el apoyo para realizar este trabajo,
Mayra M. Mndez A. y Hctor J. Vargas R. por dedicar parte de su tiempo para
corregirlo y especialmente al maestro Enrique Romero P. por su apoyo
incondicional para llevarlo acabo.
II
NDICE
INTRODUCCION ................................................................................................ 1
IV
VI
NDICE DE FIGURAS
Figura 1.1. Caja de bsqueda y botn de buscar de Google,
Yahoo! y Altavista ........................................................................................... 19
Figura 2.1. Operaciones de la investigacin documental .................................. 44
Figura 2.2. Arquitectura de un sistema de recuperacin de informacin........... 64
Figura 3.1. Pgina principal de AltaVista........................................................... 73
Figura 3.2. Pgina de bsqueda avanzada de Google ..................................... 77
Figura 3.3. Pgina de bsqueda de Lycos ........................................................ 79
Figura 3.4. Pgina de bsqueda de HotBot ...................................................... 82
Figura 3.5. Pgina de bsqueda de Yahoo! Mxico.......................................... 84
Figura 3.6. Pgina de bsqueda de All4One..................................................... 87
Figura 3.7. Pgina de bsqueda de Buscopio................................................... 90
Figura 3.8. Pgina de bsqueda de Ciber411 ................................................... 91
Figura 3.9. Pgina de bsqueda de metacrawler .............................................. 92
Figura 3.10. Duracin de una consulta de Google ............................................ 93
Figura 3.11. Pgina de recursos de la Biblioteca Virtual de la UV .................. 116
VII
NDICE DE TABLAS
Tabla 1.1. Caractersticas de directorios y motores de bsqueda..................... 26
Tabla 2.1. Decisiones relavantes en la bsqueda de informacin..................... 49
Tabla 2.2. Estrategias recomendadas segn la herramienta ............................ 54
Tabla 2.3. Criterios relevantes en la seleccin de informacin.......................... 56
Tabla 3.1. Productos de Google...................................................................... 102
VIII
INTRODUCCIN
Capitulo III. Este capitulo tiene como objetivo presentar los tipos de
herramientas de bsqueda y recuperacin de informacin, para que el usuario
conozca y haga uso adecuado de las herramientas segn sus necesidades.
los
buscadores
automticos,
temticos,
especializados,
Capitulo IV. Finalmente el objetivo del capitulo IV, es informar sobre las
tendencias que estn adoptando los buscadores segn las necesidades de
informacin de los usuarios.
CAPITULO I
LA INFORMACIN EN INTERNET Y LAS
HERRAMIENTAS DE BSQUEDA
1.1. Qu es Internet?
Internet (interconnection networks) es un mtodo de interconexin de redes
de computadoras implementado en un conjunto de protocolos denominado TCP/IP
(Protocolo de Control de Transmisin y Protocolo de Internet) y garantiza que
redes fsicas heterogneas funcionen como una red (lgica) nica. De ah que
Internet se conozca comnmente con el nombre de "red de redes", pero es
importante destacar que Internet no es un nuevo tipo de red fsica, sino un mtodo
de interconexin. Aparece por primera vez en 1969, cuando ARPANET establece
su primera conexin entre tres universidades en California y una en Utah.
un usuario visualiza pginas Web que pueden contener texto, imgenes u otros
contenidos multimedia, y navega a travs de ellas usando hiperenlaces (WIK,
2007b)2.
en
el
Laboratorio
Europeo
de
Fsica
de
Partculas
(CERN).
World Wide Web, a lo largo del trabajo se emplearan como sinnimos World Wide Web, WWW ,
Web y la Web, http://es.wikipedia.org/wiki/World_Wide_Web. 09 de Julio de 2007, 10:20 hrs.
nombre del fichero y el protocolo a usar para recuperar los datos. Las URL fueron
una innovacin fundamental en la historia de Internet (WIK, 2007c).
Es posible el acceso a todo tipo de informacin, sea cual sea la materia que
se este buscando. Se trata de un gran almacn de datos
El Chat
Videoconferencia
Telnet
FTP
Web (WWW)
b) Asncronos:
Chat: son salas virtuales donde los usuarios se conectan con otros usuarios
para comunicarse en tiempo real.
10
11
12
13
cientfica. Se hace necesaria la utilizacin de una estrategia que afronte con las
mayores garantas posibles la bsqueda sistemtica de informacin en Internet
(MENESES, 2004).
14
Motores de bsqueda: Son por palabras clave. Son bases de datos que
incorporan automticamente pginas Web mediante "robots" de bsqueda
por la red.
1.2.2. Funcionamiento
Los
buscadores
generan
bases
de
datos
mediante
dos
formas
1.2.2.1 ndices
Las bases de datos de estos buscadores se disean para permitir que la
informacin pueda agruparse en distintos temas siguiendo un orden jerrquico,
dentro del cual las direcciones se disponen de ms general a ms concretas. Esto
es equivalente a crear un rbol cuyas ramas principales son los temas, y que se
ramifican en subtemas, o grupos de menor categora. En este caso, es el
administrador del buscador quien, mediante la inscripcin en el mismo de las
direcciones URL, forma la base de datos, que se actualiza permanentemente por
un equipo que visita las direcciones y por las altas de propios usuarios que desean
registrar su Web.
15
16
Los buscadores mviles sern tan importantes para la gestin de los contenidos mviles como los
buscadores lo han sido para Internet. Aunque hoy la mayora de los contenidos mviles estn
vinculados a los portales de los operadores, los contenidos fuera de los mismos, Off port. Obtenido
de "http://es.wikipedia.org/wiki/Buscadores_m%C3%B3viles" (WIK, 2007h)
17
Cdigo abierto (del ingls open source) es el trmino con el que se conoce al software
distribuido y desarrollado libremente. http://es.wikipedia.org/wiki/C%C3%B3digo_abierto (WIK,
2007i)
18
La caja de bsqueda
El botn de buscar
a)
b)
c)
Figura 1.1. Caja de bsqueda y botn de buscar de: a) Google b) Yahoo! y c) Altavista. Estas
interfaces de buscadores estn activas en las direcciones: http://www.google.com.mx/,
http://mx.yahoo.com/ y http://es.altavista.com/. 3 de Junio de 2007, 13:00 hrs.
19
La caja de bsqueda
La caja de bsqueda (Figura 1.1) suele ser alargada para animar al usuario
a que utilice varios trminos de bsqueda. A finales de 2004 Gary Price daba el
dato de 2.8 palabras como tamao medio para la pregunta. Prado menciona que
hay que recordar que la experiencia positiva de un usuario de un buscador, va a
depender al final de que encuentre lo que busca y es ms posible que lo haga si
puede formular una bsqueda de cuatro o cinco trminos, que de uno. Es esencial
que las interfaces de bsqueda que se planteen, tengan en cuenta este hecho y
motiven a formular bsquedas utilizando varios trminos de bsqueda.
El botn de buscar
El botn de buscar (Figura 1.1) debe estar claramente etiquetado ("buscar
en la Web", por ejemplo) y debe tenerse en cuenta, respecto de su tamao y
colocacin, la Ley de Fitt que dice que el tiempo requerido para alcanzar un
blanco est en funcin de la distancia al mismo y del tamao del mismo6. Es por
esto que algunos buscadores colocan debajo de la caja el botn y a la izquierda y
le proporcionan un tamao considerable.
Ley de fitt, Fue publicada por Paul Fitts en 1954. obtenido de http://en.wikipedia.org/wiki/Fitt (WIK,
2007j).
20
La interfaz de bsqueda
El listado de resultados debe contar con un interfaz de bsqueda que
permita el refinamiento de la misma. Las mismas caractersticas que debe tener la
interfaz de portada deben presentarse en la de los resultados, as como utilizar
menos espacio y de que el hecho de disponer de menos espacio no debe suponer
que ambos interfaces se planteen de manera inconsistente.
Status de bsqueda
La informacin que proporciona el status de bsqueda es necesaria para
contextualizar la experiencia de bsqueda, permitir la consulta eficiente de los
resultados y la reformulacin de la bsqueda si fuera necesario. El status debe
informar:
21
Spellchecking y Sugerencias
El spellchecking es un elemento de gran utilidad y que facilita una
experiencia de bsqueda positiva. Lo cierto es que los usuarios cometen errores
de escritura o gramtica a la hora de realizar sus bsquedas, y los sistemas de
Spell-checking dan respuesta a aproximadamente el 70% de estos errores.
Sugerencia.
Perfrasis, es la unin de dos (o ms) formas verbales que funcionan conjuntamente como una
unidad, por ejemplo: est escribiendo, tiene que escribir, va a escribir, obtenido de
http://www.asmadrid.org/spanish/gram/perifras.htm (LIROZ, 2006)
22
Listado
El listado debe ser fcilmente escaneable, de lo cual se derivan tres
conclusiones:
El tipo de letra debe tener un tamao adecuado para los usuarios que
vayan a utilizar el buscador o la posibilidad de adecuarlo de manera
sencilla.
23
Paginacin
La paginacin es el elemento de interfaz que ayuda al usuario a moverse a
travs de la bsqueda por lo que su importancia es capital.
Prcticamente todos los buscadores utilizan para paginar una interfaz muy sencilla
con enlaces a las distintas pginas de resultados (normalmente de 10 en 10
pginas) y enlaces de "anterior" y "siguiente".
25
del contenido
de la consulta
Presentacin
de los
resultados
Directorios
Lo realizan
Clasificacin
Implcita
Paginas
personas
manual
(navegacin
creadas antes
por categoras)
de la consulta.
Poco
exhaustivos,
muy precisos
Motores
Principalmente
Indizacin
Explicita
Pginas
de
de forma
automtica
(palabras
creadas
bsqueda
automtica por
clave,
dinmicamente
medio de
operadores,
en cada
robots
etc.)
consulta. Muy
exhaustivas,
poco precisos
26
27
Capitulo II
Modelos, metodologa y estrategias de bsqueda
28
2.2. Clasificacin
Existen varias propuestas de clasificacin de los modelos de recuperacin,
una de las ms completas la realiza Dominich, quien establece cinco grupos
(MARTINEZ, 2003):
29
Modelo vectorial
Modelo probabilstica
30
Esta simple idea naci en un artculo de Lofti A. Zadeh publicado en 1965 y titulado "Fuzzy Sets"
con
mucho
condimento,
profesores
poco
valorados,
etc.
Lgica
Difusa.
31
32
Los
trminos
de
la
bsqueda
(palabras
clave)
pueden
ser,
fundamentalmente:
33
Suele resultar muy til acceder a las pginas de ayuda que traen las
herramientas de bsqueda.
34
Marcadores/agregar
marcador
(Bookmark/Add
Bookmark).
35
36
37
Y lgico ( AND ). Tambin se puede poner &. Exige que aparezcan todas
las palabras indicadas independientemente del orden. Es un operador de
reduccin que permite realizar consultas ms especificas (MARTINEZ, 1998).
38
39
40
Este operador no lo tiene el buscador Alta Vista pero puede usar comillas
() con un resultado idntico, ejemplo: "estudiantes europeos". Tambin se puede
usar un guin entre las palabras que desea juntar, ejemplo: estudiantes-europeos
(FILIBERTI, 1998).
41
Asterisco (*). En Altavista se debe teclear al menos tres letras antes del *.
Tambin se puede colocar el * en medio de una palabra. Esto es til si no
se est seguro de la ortografa de la palabra.
42
43
44
Dnde
buscar
(Se
responde
a: quin tiene
dnde
est
la
informacin?).
45
46
Los usuarios menos estratgicos actan por ensayo y error sin trazar un
plan previo, sin conocer qu recursos de bsqueda existen y cules pueden
resultar ms adecuados en cada caso, y sin clarificar tampoco qu palabras clave
son las ms relevantes para el tema o qu criterios pueden resultar ms fiables
para seleccionar los mejores sitios o direcciones de entre un inmenso listado.
Utilizan el primer sistema de bsqueda que han encontrado sin tener en cuenta
sus caractersticas y las de la demanda (idioma, mbito geogrfico, mbito
temtico...). Emplean distintas palabras clave sin pararse a pensar en otras
opciones que no se encuentran especificadas tan claramente en la demanda.
Cuando no encuentran lo que desean tienden a dar por terminada la bsqueda. Si
efectan alguna revisin, sta se limita a posibles errores de escritura; raramente
se cuestionan el proceso seguido, la seleccin de los buscadores o la
organizacin de la bsqueda. La nica posible operacin de control que llevan a
cabo se basa en un simple reconocimiento de adecuacin, comprobando que la
informacin que van hallando est relacionada con el tema en cuestin.
47
Planificacin
48
Supervisin
Valoracin
como
cualitativamente,
lograremos
acercarnos
los
49
Estrategias generales
Seleccin de herramientas
50
Objetivo de la bsqueda
Forma de bsqueda
Especializacin de la bsqueda
Precisin de la bsqueda
Seleccin de recursos
51
52
Si quiere saltar a alguna pgina que no sea la contigua use la opcin del
men Ir (GO).
53
Herramientas de
bsqueda
Consulta un
Metabuscador para
consultas simples y
para recuperar pginas
de contenido.
Recomendaciones de bsqueda
Revisa las
Adems de las recomendaciones anteriores:
instrucciones
avanzadas de Motores
Aprende a usar 2 - 3 buscadores
de Bsqueda para
Utiliza ms de un buscador
delimitar la bsqueda o
Comienza con una bsqueda especfica y si no
consultar sobre
tienes xito intenta usar un trmino ms general.
aspectos especficos
Explora las opciones de bsqueda que se te
del tema.
ofrecen tales como: idioma, tipo de formato,
imagen, texto, video, dominio, etc.
Revisa Directorios
Temticos para
recuperar informacin
general sobre un tema
Selecciona el tema y
luego subtemas de
inters.
Tabla 2.2. Estrategias recomendadas segn la herramienta. Fuente: Pontificia Universidad Catlica
de Chile - Sistema de Bibliotecas. http://www.puc.cl/sw_educ/gnosis/J/gnosisj.htm. 12 de Mayo de
2007, 10:30 hrs.
54
Criterios de seleccin
Objetividad de la informacin
Relacin entre el contenido real y el complementario
Tono y estilo
55
Vocabulario
Ortografa, gramtica, sintaxis y composicin literaria
Organizacin y estructura de la informacin
Facilidad de lectura y compresin
Esttica, originalidad y creatividad
Enlaces operativos
Publicidad equilibrada
Opciones de bsqueda
Tecnologa apropiada
56
calificando los
57
por ejemplo,
determinando el nmero de veces que sus autores han sido citados por otros
autores. Otra forma de evaluar la procedencia es observando los nombres de los
centros de investigacin y las universidades a los que estn afiliados los autores
(UDEA, 2007).
58
59
En los ltimos aos, las aportaciones que se han hecho desde este dominio
han mejorado sustancialmente, permitiendo el procesamiento de ingentes
cantidades de informacin en formato texto con un grado de eficacia aceptable.
Muestra de ello es la aplicacin de estas tcnicas como una componente esencial
en los motores de bsqueda Web (VALLEZ, 2007).
60
61
El trmino banco puede tener dos significados en esta frase, (1) entidad
bancaria y (2) asiento. La interpretacin de esa frase va ms all del anlisis de
los componentes que forman la frase, se realiza a partir del contexto en que es
formulada.
Y tambin hay que tener en cuenta la variacin lxica que hace referencia a
la posibilidad de utilizar trminos distintos a la hora de representar un mismo
significado, es decir el fenmeno conocido como sinonimia.
Ejemplo: Coche / Vehculo / Automvil.
62
63
64
65
Capitulo III
Tipologa de herramientas de bsqueda y
recuperacin de informacin
66
emplean
"robots"
(Spider)
mquinas
para
recorrer
indexar
67
3.1.2. Objetivo
Encontrar los documentos que contengan las palabras claves introducidas.
Habitualmente localiza las pginas Web que mejor se adapten a las palabras
introducidas.
68
3.1.3. Componentes
Estn compuestos por tres partes:
1. Los robots que recorren la red escrutndola. Son programas que buscan
continuamente por todos los servidores de WWW (tambin en los de News,
Gopher y FTP), construyendo un ndice de lo hallado. Tambin son
conocidos como araas (Spider) por su continuo desplazamiento sobre la
red o telaraa.
2. La base de datos que es construida por los robots. Esta contiene todos los
URL encontrados, y asociados a ellos, la informacin relativa sobre sus
contenidos:
Su ttulo
Parte de texto
Hiperenlaces
Etc.
Est actualizado continuamente por los robots que aaden nuevas pginas o
referencias, actualizan las que han cambiado y borran las que ya no existen.
69
3.1.4. Funcionamiento
Al conectar con algn buscador el usuario se encontrara con una pgina
que contiene un formulario para definir la bsqueda y las opciones de la misma;
tras llenarla, enviarla y esperar unos segundos, el buscador devolver una lista de
lugares donde figura la bsqueda. As pues se tendrn dos reas segn el
propsito:
1. Formular la bsqueda y enviarla.
2. Lista de resultados, ordenados segn su semejanza con las palabras claves
introducidas.
Cada cierto tiempo, los motores revisan las Webs, para actualizar los
contenidos de su base de datos, por lo que no es infrecuente que los
resultados de la bsqueda estn desactualizados.
70
3.1.6. Deficiencias
No maneja informacin imprecisa. Dar mayor importancia a un documento
que tiene mayor cantidad de ocurrencias y manejar mal la informacin imprecisa
pero relevante para el usuario. Filiberti menciona que es mejor, hoy por hoy, usar
varias herramientas de bsqueda para manejar grandes volmenes de datos y
hacer nosotros el anlisis semntico y el proceso de filtrado definitivo (FILIBERTI,
1998).
3.1.7. Ejemplos
AltaVista (http://es.altavista.com/)
El buscador AltaVista (http://es.altavista.com) proporciona resultados de
bsqueda integrados, que incluyen pginas Web, archivos multimedia, noticias,
productos y servicios y un servicio gratuito de traduccin con Babel Fish (Figura
3.1).
71
Cuando se busca una imagen, AltaVista muestra los resultados del rastreo como
pequeas imgenes. Si pulsa sobre esta representacin grafica, entrara
directamente en la pgina Web que contiene dicha imagen. Todos los resultados
de imagen tienen una opcin de Ms informacin que aporta ms datos sobre
ese archivo especfico.
72
73
La
bsqueda
resultados
Directorio AltaVista
El Directorio de Alta Vista contiene sitios Web revisados y organizados en
categoras temticas. Este servicio de AltaVista puede ser usado cuando se esta
interesado en un tema determinado pero no se sabe exactamente lo que se busca,
o cuando se desea ver los sitios de ms calidad de un tema concreto. El Directorio
es una coleccin relativamente pequea.
74
Google (http://www.google.com)
Google utiliza una tecnologa innovadora que los diferencia de las maquinas
de primera y segunda generacin. En lugar de usar un trmino o una tecnologa
de metabusqueda, el corazn de este buscador se basa en el software
PageRank, un sistema de clasificacin de pginas Web desarrollado por sus
fundadores Lary Page y Sergey Brin en la universidad de Stanford (Google se
aborda como caso de estudio en el apartado 3.6).
75
76
Figura
3.2.
Pgina
de
bsqueda
avanzada
de
Google.
Fuente:
Lycos (http://www.lycos.es/)
Es el ms enorme, destaca por la gran cantidad de direcciones y
referencias que devuelve.
77
Opciones avanzadas
Admite bsquedas booleanas con AND y NOT. Si se entra en Advanced
Seach de la pgina principal se puede indicar el tipo de informacin que se busca:
en todo el Web, si se busca multimedia, msica, libros, autor, actualizaciones,
entre otras.
Adems:
78
Figura 3.3. Pgina de bsqueda de Lycos. Fuente: http://www.lycos.es/. 16 de Julio de 2007, 14:00
hrs.
Hotbot (http://www.hotbot.es/)
Hotbot es un buscador especializado en rastrear la Web en busca de
contenido multimedia (Figura 3.4). Para realizar una bsqueda bsica, HotBot
funciona como cualquier otro buscador: se define el o los trminos que se quieren
buscar en la caja de texto correspondiente y se pulsa sobre el botn Buscar que la
acompaa.
79
80
3.2.2. Objetivo
Encontrar los documentos que pertenezcan al rea temtica seleccionada.
3.2.3. Componentes
Estn compuestos por dos partes:
81
3.2.4. Funcionamiento
Al conectar con algn buscador de este tipo el usuario se encontrara con
una pgina que contiene una estructura jerrquica de temas, es decir, hay un
grupo de temas generales, al seleccionar uno, sale otro grupo de temas
dependiente (cada vez mas especfico) del que llev al usuario all, y se puede
seguir as hasta que se localice el tema de inters o se acaben las categoras
creadas por el autor del buscador.
3.2.5. Deficiencias
Filiberti menciona las siguientes deficiencias (FILIBERTI, 1998):
3.2.6. Ejemplo
Yahoo! Mxico (http://mx.yahoo.com/)
Yet Another Hierarchically Officius Oracle, es decir Yahoo! (www.yahoo.es),
es toda una institucin dentro de Internet. Se trata de uno de los buscadores
temticos ms usado de la red, al que accedan millones de usuarios de forma
diaria (Figura 3.5).
El directorio Yahoo!
El directorio de Yahoo! esta formado por categoras, que a su vez estn
compuestas por subcategoras que contienen una serie de sitios Web. La
diferencia entre Yahoo! y los otros buscadores y motores de bsqueda es que su
directorio ha sido creado por un equipo humano, denominado Surfing.
83
84
las
palabras
clave,
entonces
Yahoo!
Mxico
realizara
XTRA!, quiere decir que existe algn artculo o novedad sobre ese tema.
http://www.serach.com
existe
un
gran
nmero
de
buscadores
3.4. Multibuscadores
Para mejorar las prestaciones de buscadores de una nica base de datos,
nacen los de tipo mltiple (al que responden tanto los multibuscadores como los
metabuscadores) (RODRIGUEZ, 2003).
85
3.4.1. Funcionamiento
La informacin en ellos se trata de localizar en diversas bases de datos,
aumentndose las posibilidades de encontrarla, ya que si no est presente en una
de las bases de datos, s puede estar publicada en otra. Los multibuscadores
realizan esta operacin manualmente, pues ponen varias bases de datos a
disposicin del usuario, pero es l mismo quien debe elegir cul de ellas desea
utilizar en cada momento (RODRIGUEZ, 2003). Permite lanzar varias bsquedas
en motores seleccionados respetando el formato original de los buscadores.
3.4.2. Ejemplo
All4One (http://www.all4one.com/)
Este multibuscador, ejecuta la consulta contra varios motores de forma
simultnea y presentan los resultados sin ms organizacin que la derivada de la
velocidad de respuesta de los 10 motores de bsqueda ms importantes (Figura
3.6).
86
3.5. Metabuscadores
Son buscadores mltiples que, a diferencia de los multibuscadores, realizan
la consulta solicitada por el usuario en varias bases de datos al mismo tiempo. Los
resultados del proceso se corresponden con la unin de los distintos resultados
independientes, es decir, de las bsquedas en cada una de las bases de datos
consultadas, por ejemplo. www.buscopio.net (RODRIGUEZ, 2003).
87
3.5.1. Funcionamiento
Un metabuscador colecciona las respuestas recibidas y las unifica, la
principal ventaja de los metabuscadores es su capacidad de combinar los
resultados de muchas fuentes y el hecho que el usuario pueda acceder a varias
fuentes de forma simultanea a travs de una simple interfaz de usuario. Estos
sistemas no almacenan direcciones y descripciones en sus bases de datos, en
lugar de eso contienen registros de motores de bsqueda e informacin sobre
ellos. Envan la peticin del usuario a todos los motores de bsqueda (basados en
directorios y crawlers) que tienen registrados y obtienen los resultados que les
devuelven. Algunos ms sofisticados detectan las URL duplicadas provenientes de
varios motores de bsqueda y eliminan la redundancia, es decir solo presentan
una al usuario.
3.5.2. Caractersticas
Algunos metabuscadores se instalan como cliente en entorno local
(webcompass o Copernic, por ejemplo) o bien se consultan en lnea (buscopio, por
ejemplo). Otra diferencia sustancial existente entre estos sistemas es la
presentacin de los resultados.
88
3.5.3 Ejemplos
Buscopio (http://www.buscopio.net/)
Dentro de esta tipologa de sistemas de bsqueda, merece un apartado
especial por ser el mayor buscador de buscadores y estar en espaol.
89
se
acotan
por
secciones:
internacionales,
regionales,
Cyber411 (http://cyber411.com)
Es un buscador realmente rpido, busca simultneamente en 15 de los ms
populares motores de bsqueda de la Red (Figura 3.8).
90
MetaCrawler (http://www.metacrawler.com/)
MetaCrawler es una pgina que tiene todas las caractersticas de un
buscador normal, busca en la Web, busca imgenes, vdeo, noticias. Adems
cuenta con la posibilidad de buscar Sonidos algo no muy comn en la actualidad
(Figura 3.9).
91
Figura
3.10.
Duracin
de
una
consulta
de
Google.
Fuente:
93
El xito de Google
La clave del xito de Google fue, ante todo, los algoritmos de ordenacin
(PageRank). Estos complejos algoritmos, con capacidades de inteligencia artificial,
posibilitan la clasificacin de informacin de una forma rpida y eficiente. Adems,
todos los servicios de Google funcionan sin intervencin humana, desde la
clasificacin de pginas hasta la insercin de publicidad (PRO, 2007).
94
Esos detalles, que no son pequeos, hicieron que en poco ms de tres aos este
buscador se posesione por encima de todos los dems y con sobrada ventaja. Si
bien Altavista, Lycos o Yahoo! an cuentan con usuarios, stos son cada vez
menos. En cambio, la mayora de la gente que ingresa a la red Internet suele
tomar a Google como el punto de partida para cualquiera de sus navegaciones.
95
96
97
98
Hoy, en que el mundo es cada vez ms mvil, los usuarios desean acceder
a la informacin desde cualquier lugar en que se encuentren; esto es, a travs de
dispositivos PDA, telfonos mviles o incluso mientras conducen. Google, que
siempre ha entendido los cambios, lanz a la Web Google Number Search. Este
sistema permite la visualizacin de miles de millones de pginas en dispositivos
que, de otro modo, no podran ser mostradas, como los PDA de Palm y los
dispositivos japoneses i-mode, J-Sky y EZWeb. Adems, este servicio reduce el
nmero de teclas que se deben pulsar para buscar informacin desde un telfono
mvil con acceso a Internet, y un sistema de traduccin automtica que convierte
las pginas escritas en HTML a un formato que los exploradores telefnicos
pueden leer (PRO, 2007).
99
En vez de las sinopsis de las pginas Web que nunca cambian, Google
extrae fragmentos de texto de los resultados que coinciden con su consulta. Esta
caracterstica le ahorra el tiempo y la frustracin de descargar una pgina Web
irrelevante.
100
Ms productos de Google
Buscar
Acadmico
Busque documentos
acadmicos
Blogger
Exprese sus opiniones en
lnea
Alertas
Reciba noticias y resultados
de bsquedas por correo
electrnico
Calendar
Organiza tu agenda y
comparte eventos con tus
amigos
Barra Google
Aada un cuadro de
bsqueda a su navegador
101
Bloc de notasNuevo!
Marcar y recopilar informacin
a medida que navegas por
Internet
Bsqueda de blogs
Busque blogs sobre sus
temas favoritos
Gmail
Correo gratuito con 2.8GB de
espacio y menos spam
Grupos
Cree listas de distribucin y
grupos de debate
Bsqueda de libros
Busque en el contenido de los
libros
Talk
Enva mensajes instantneos
y llama a tus amigos desde tu
equipo
Bsqueda en la Web
Realice bsquedas en ms de
8 mil millones de pginas Web
Traducir
Visualice pginas Web en
otros idiomas
Desktop
Realice bsquedas en su
propio equipo
Directorio
Realice bsquedas temticas
en la Web
Funcionalidades de bsqueda
Web
Saque el mximo partido a
sus bsquedas
Imgenes
Busque imgenes en la Web
Noticias
Busque miles de noticias
102
3.7.1 Qu es un agente
El trmino agente fue empleado por vez primera por Minsky en su obra "The
Society of Mind"9. En la actualidad, la palabra "agente" tiene muchos significados
distintos, puesto que se utiliza en diversas disciplinas. As, encontramos agentes
referidos a (LAMARCA, 2007):
Agentes autnomos
Agentes biolgicos
Agentes robticos
Agentes computacionales
Agentes de software
Agentes de entretenimiento
Virus, etc.
103
Todos los agentes inteligentes son programas, pero no todos los programas
que realizan bsquedas son agentes inteligentes. Los agentes en s mismos
pueden ser considerados como entidades individuales (partes de programa que
tienen control sobre sus propias vidas y movimientos). Continuamente estn
realizando procesos que les indican qu hacer y cmo. Se comunican con otros
agentes para resolver de forma adecuada su trabajo.
Autonoma
Sociabilidad
Capacidad de reaccin
Iniciativa
Benevolencia
Racionalidad
104
105
106
107
108
109
Cuando los agentes de consulta reciben una pregunta por parte del usuario,
stos determinan qu base o bases de datos contienen esa informacin y se la
entregan a los agentes primarios de cada una de ellas, siguiendo el mtodo de lo
menos costoso.
Por ejemplo, si una consulta consta de dos trminos y hay una base de
datos que posee informacin sobre uno de ellos, mientras que en otra se recoge
informacin sobre los dos, los agentes de bsqueda siempre preferirn la
segunda, puesto que implica menos trabajo y por tanto menos costo. Una vez que
los agentes de bases de datos han recibido la consulta, stos la descompondrn
en subconsultas y seleccionarn a los agentes de su federacin para que las
resuelvan. Si los trminos de bsqueda no se encuentran en la misma base de
datos, distribuirn la consulta en tantas como sea necesario para resolverla.
110
Los agentes de consulta son tiles para recuperar informacin donde las
fuentes son relativamente estticas y la informacin que se busca es dinmica.
Por el contrario, los agentes de usuario son ms efectivos cuando se trata de
recuperar informacin que es relativamente constante, pero cuyas fuentes son
dinmicas. Los agentes de usuario pueden ser utilizados para recuperar
informacin de bases de datos, de revistas electrnicas, o incluso de los mensajes
e-mail. Su objetivo es disminuir el trabajo necesario en la recuperacin de la
informacin. En definitiva, hacer la vida de su propietario ms fcil.
111
112
Por otro lado Lara menciona otras cinco tipologas de agentes inteligentes,
las cuales se detallan a continuacin (LARA, 2006):
113
114
115
Figura
3.11.
Pgina
de
recursos
de
la
Biblioteca
Virtual
de
la
UV.
Fuente:
En
la
BiV
estn
disponibles:
revistas
electrnicas,
colecciones
116
universidad en el Estado de Veracruz. Esta biblioteca fue creada para ofrecer una
plataforma tecnolgica que apoye los diversos procesos de aprendizaje de la UV.
Dentro de los recursos digitales que brinda esta biblioteca esta el de bases
de datos en texto completo y referenciales, dichas bases de datos ofrecen
servicios de texto completo, resumen o referencial a travs de herramientas que
facilitan la bsqueda y recuperacin de informacin. El usuario puede tener
acceso a ellas desde la seccin Recursos Digitales de la pgina Web de la BiV,
(Figura 3.11) adems puede acceder a otros recursos como son:
Revistas electrnicas
Libros electrnicos
Coleccin digital UV
puede accesar el
donde
pueden accesarse los recursos de BiV UV desde cualquier parte del mundo, a
excepcin de las bases de datos, las cules slo pueden ser consultadas dentro
de la red de la Universidad por la licencia de uso adquirida (LAU, 2005).
117
se abordan los cambios que estn presentando los buscadores actualmente y los
cambios que presentaran en un futuro.
118
Capitulo IV
El futuro de los buscadores
119
121
Esto hace del lenguaje XML uno de los pilares bsicos para el diseo de
aplicaciones y servicios para la Web. A diferencia de otras tecnologas, para las
que se puede prever un periodo de vigencia ms o menos limitado, en el caso de
XML, Eitom menciona que nos encontramos con un estndar del que con toda
seguridad podemos afirmar seguir siendo utilizado en el futuro (EITO, 2001).
en
indexacin
de
documentos
XML
son
ms
relevantes
122
123
124
125
Prez considera que los dos baluartes de esta nueva tendencia son
Powerset (http://www.powerset.com/) y Hakia (http://www.hakia.com/), detrs de
los cuales se encuentra el Procesamiento de Lenguaje Natural, para conseguir un
nuevo salto de calidad en la evolucin de los buscadores Web. La razn de este
nuevo resurgimiento en el entorno de los buscadores se corresponde en parte con
un ciclo natural, tpico de cualquier disciplina cientfica, donde se prueban viejas
ideas desde enfoques nuevos. Pero tambin se trata de una cuestin de
marketing, donde nuevos buscadores tratan de entrar en el mercado vendiendo la
idea de que tienen una nueva tecnologa revolucionaria que superar con creces
126
127
128
129
CONCLUSIONES
130
Como primer punto relevante de esta Monografa, puedo concluir que los
buscadores en la actualidad son la principal herramienta para facilitar la tarea de la
recuperacin de informacin que existe en gran cantidad y de forma
desorganizada en Internet. Adems que podemos emplear cualquier tipo de
buscador dependiendo de nuestras necesidades, as como mtodos y estrategias
de bsqueda que nos permitan acotar los resultados de lo que estamos buscando.
Otra conclusin del presente trabajo es que Internet es el medio que brinda
informacin til y rpida que no podramos encontrar en ningn otro lugar, pero en
ocasiones no es estn fcil localizarla por el gran desorden que existe con esa
informacin, para lo cual en la red existen varios buscadores que nos facilitan esa
difcil tarea, los cuales se han convertido en una herramienta bsica para casi todo
usuario de Internet, sin embargo su servicio se ve empaado con la
comercializacin, que con fines personales u organizacionales, hacen a un lado el
propsito de ofrecer un servicio de calidad en la bsqueda de informacin,
convirtindose estas herramientas en un centro de publicidad en el cual las
personas y empresas desean aparecer, provocando que nos encontremos
inmersos en un mar de informacin, a veces no tan til, sin poder encontrar la
informacin que verdaderamente cubra con nuestras necesidades.
131
132
BIBLIOGRAFA Y REFERENCIAS
(AGUILAR, 2002) AGUILAR GONZLEZ, R. Monografa sobre motores de
bsqueda.
http://www.geocities.com/motoresdebusqueda/inicio.html.
Yahoo
Geocites, 2002. 10 de Julio de 2007, 9:10 hrs.
(BIA, 2000) BIA, A. XML y Bsquedas: Bsquedas por estructuras marcadas
en XML y otros mtodos complementarios.
http://www.archivovirtual.org/seminario/busqueda/ponencias/p5.htm#siete.
Ponencia 2000. Subdirector de Investigacin Informtica, Biblioteca Virtual Miguel
de Cervantes, Universidad de Alicante. 11 de Julio de 2007, 10:00 hrs.
(CACERES,
2003)
CCERES
S.
Google,
la
competencia
de
Dios.
eumed.net.
29
de
134
135
E-prints
in
The
American
School
of
http://www.internetynoticias.blogspot.com/2007/06/metacrawler-
136
(MENESES, 2004) MENESES, J., BOIXADS, M., VALIENTE, L., VIVAS, P. &
ARMAYONES, M. Construccin de estrategias sistemticas para la bsqueda
exhaustiva de informacin en Internet: un marco de toma de decisiones
aplicado
la
informacin
sobre
psicologa
de
la
salud.
Wiki
Recuperacin
basados
en
procesamiento
de
lenguaje
natural.
137
de un
http://www.dnxgroup.com/ideas/articulos/elementos-interaccion-
Informacin
sobre
(PUCC,
2007)
Pontificia
Universidad
Catlica
de
Chile.
Estrategias
(PULIDO,
2007)
PULIDO
MARTN,
S.
modelos
de
recuperacin.
138
139
Nuevas
tecnologas
140
Wikimedia
Foundation,
Inc.
Wikimedia
Fundation,
141
142