Sie sind auf Seite 1von 56

TRABAJO DE TESIS

DEFINICIN DE UNA METODOLOGA PARA LA EVALUACIN


DE BUSCADORES WEB

Alumnos:
- Romero Colqui, Lesly Stefany
- Ormeo Vera, Wilber Javier

INDICE
Fundamentos y Estado del Arte .
Introduccin a la Recuperacin de Informacin
1.1. Recuperacin de Informacin.
1.2. Sistemas de Recuperacin de Informacin.
1.3. Modelos para la recuperacin de informacin.
1.4. Sistemas de Recuperacin de Informacin en la Web.
Metodologas para la Evaluacin de Buscadores Web
2.1. Evaluacin de buscadores web.
2.2. Mtricas de evaluacin.
2.3. Metodologas de evaluacin de buscadores.
2.4. Propuesta de la TREC (Text Retrieval Conference).
2.5. Herramientas para la evaluacin.
2.6. Trabajos Relacionados.

Desarrollo de la Metodologa
Diseo de la Metodologa
3.1. Definicin del alcance.
3.2. Diseo de la metodologa.
3.3. Seleccin de resultados por parte del usuario.
Aplicacin de la metodologa
4.1. Introduccin.
4.2. Seleccin de buscadores web. .
4.2.1. Caractersticas de Google.
4.2.2. Caractersticas Bing. .
4.3. Evaluacin de la usabilidad.
4.4. Aplicacin de la metodologa en dos buscadores
generales.
4.5. Aplicacin de la metodologa en dos buscadores

Conclusiones.
Recomendaciones.
Bibliografa

OBJETIVO GENERAL:
Definicin de

una metodologa para la evaluacin de buscadores web

PARTE 1
Fundamentos y estado del arte

INTRODUCCIN
Las teoras de informacin han ido mejorando el acceso a pginas
web de muchos usuarios.
Pero antes desconocimiento de algunas personas surgieron los
buscadores web, pero como saber cual utilizar para esto
necesitamos desarrollar una metodologa de evaluacin, esta
consiste en realizar una comparacin del funcionamiento de los
buscadores web desde diversos criterios y as encontrar el mejor
buscador.

CAPTULO 1
Introduccin a la Recuperacin de Informacin

1.1. Recuperacin de la informacin


Es la representacin del almacenamiento de la informacin en las bases de
datos y diferentes medios de almacenamiento bibliogrfico, la organizacin
de la informacin previamente recopilada y almacenada, el acceso a los
tems de informacin estableciendo tcnicas que permitan encontrar la
informacin almacenada que posteriormente va a ser solicitada por un
usuario,
Gerald Salton

1.2. Sistemas de Recuperacin de Informacin


En esta parte se va a desarrollar el proceso de bsqueda, seleccin y presentacin
de la informacin que un usuario ha solicitado.
FUNCIONES:

1. Identificar las fuentes de informacin que tengan relevancia con la


informacin solicitada por los usuarios.
2. Analizar el contenido de los documentos.
3. Representar los contenidos de los documentos analizados de manera
que se las pueda comparar con las preguntas que van a realizar los
usuarios.

4. Analizar las preguntas de los usuarios y representarlas de forma


adecuada para compararlas con las representaciones de los
documentos de la base de datos.
5. Analizar la correspondencia entre la representacin de la
bsqueda y los documentos almacenados en la base de datos.
6. Recuperar la informacin relevante, y,
7. Realizar los ajustes necesarios en el sistema basados en la
retroalimentacin con los usuarios.

1.3. Modelos para la recuperacin de informacin.


Como se obtienen las representaciones de los documentos y de la
consulta, la estrategia para evaluar la relevancia de un documento respecto
a una consulta y los mtodos para establecer la importancia de los
documentos de salida(Martnez_Mndez, 2004)
PROCESO:
recolectar las palabras importantes contenidas en un documento
ordenarlas y a establecer la relevancia de cada documento solicitado
por los usuarios

MODELO

DESCRIPCIN

Modelos clsicos

Incluye los tres ms comnmente citados: booleano,


espacio vectorial y probabilstico

Modelos alternativos

Modelos lgicos

Modelos basados en la interactividad

Modelos basados en la inteligencia artificial

Estn basados en la Lgica Fuzzy


Desarrollados en la dcada de los noventa, basados
en la Lgica Formal. La recuperacin de informacin
se entiende como un proceso inferencial a travs del
cual se puede estimar la probabilidad de que una
necesidad de informacin de un usuario, expresada
como una o ms consultas, sea satisfecha ofreciendo
un documento como prueba.
Incluyen posibilidades de expansin del alcance de la
bsqueda y hacen uso de retroalimentacin por la
relevancia de los documentos recuperados.
Bases del conocimiento, redes neuronales,
algoritmos genticos y procesamiento del lenguaje
natural.

MODELO BOOLEANO
las consultas realizadas con este mtodo se las desarrolla de forma similar a como se las
ejecuta en una base de datos tradicional, es decir con operadores booleanos

MODELO DEL ESPACIO VECTORIAL


En este modelo cada expresin del lenguaje natural puede ser representada como un vector de
pesos de trminos, en donde un trmino es la unidad mnima de informacin.
Documento = (peso_ de_trmino_1, peso_de_trmino_2,, peso_de_trmino_n)
Consulta = (peso_de_trmino_1, peso_de_trmino_2,, peso_de_trmino_n)

Cos (vector X.vector Y) =

.
.[ ]

MODELO PROBABILISTICO
Calcula la probabilidad de que un documento sea relevante para una consulta
debido a que el documento tiene propiedades que facilitan esta operacin.

Este modelo parte de dos suposiciones:


Suponiendo que todo documento tiene dos valores, o es
relevante para la consulta o no lo es
Juzgar a un documento como relevante o no, no quiere decir
que este va a aportar informacin sobre la posible relevancia o
irrelevancia de otros documentos.

1.3. Sistemas de Recuperacin de Informacin en la Web.


Los documentos web estn interconectados y se recomiendan entre ellos, la
recomendacin se da a travs de un anlisis de los enlaces utilizando medidas como el
PageRank, los Hits o Aprendizaje.
Baeza-Yates en (Martnez_Mndez, 2004) describe dos formas de buscar informacin en
la web:
1. Mediante el uso de motores de bsqueda(Google).
2. Mediante el uso de directorios(Yahoo!).

se utiliza lenguaje natural, la que a travs del uso de la semntica de los textos
facilita la recuperacin de informacin.

1. Motores de bsqueda.
Aplicacin que maneja grandes cantidades de informacin que esta
almacenada en sus servidores y que son recopiladas por medio del uso de
robots encargados de recolectar la informacin de todas las pginas web
existentes en el ciberespacio.
Utiliza una algoritmo de clasificacin que procede a ordenarlas segn su
nmero de enlaces.
2.Directorios
Son aplicaciones controladas por humanos, el principio es similar al
de los motores de bsqueda pero en los directorios se ordena la
informacin recopilada de acuerdo a temticas previamente
establecidas.

CAPTULO 2
Metodologas para la Evaluacin de Buscadores Web

2.1. Evaluacin de buscadores web.


Un motor de bsqueda es previamente evaluado simulando bsquedas, si
funciona se evaluar en la web.
Debemos evaluar la eficacia y eficiencia
Eficacia: es la capacidad del motor de bsqueda para encontrar la
informacin correcta y se la puede medir a travs del ranking basado
en los juicios de relevancia del usuario
Eficiencia: es la rapidez con que el motor de bsqueda realiza la
bsqueda solicitada,


Precisin =

Criterios de evaluacin buscadores de web


Calidad de paginas
Nmero de pginas cubiertas por el servidor
Actualizacin/re-indizacin
Estructura de la interfaz y accesibilidad
Tiempo de respuesta
Servicios adicionales(bsquedas mas exhaustivas)

2.2. Mtricas de evaluacin.


Las mtricas para la evaluacin de buscadores web que se utiliza son recall y precisin,
introducidas por Cranfield, para comparar los resultados de bsqueda.
Relevantes

No relevantes

Recuperados

AB

AB

No recuperados

AB

AB

Estas medidas nos van a servir para calcular el recall

Recall =

A y B representan el nmero total de documentos presentados

2.3. Metodologas de evaluacin de buscadores.


2.3.1. Metodologa propuesta por Mara Dolores Olvera Lobo.
Etapas:
Determinacin de las necesidades de informacin de los usuarios.
Elaboracin del enunciado de bsqueda.
Realizacin de las consultas.
Valoracin de la relevancia.
Anlisis de los resultados.

2.3.2. Evaluacin propuesta por YiqunLiu, Min Zhang y Liyun


Se presenta una evaluacin que consiste en anlisis de datos a travs de la evaluacin de
clics, se da de forma automtica generando temas de bsqueda y realizando clics de forma
experimental utilizando los criterios que utilizara un usuario.

2.3.3. Metodologa propuesta por Bing Liu.


Disea un proceso de evaluacin minimizando los sesgos que puedan
producirse en el proceso de bsqueda, el proceso de evaluacin va a ser
manual.
(i) Consta de dos pasos:
1. Evaluacin individual de
cada motor de bsqueda
2. Comparacin de las
evaluaciones realizadas a cada
motor de bsqueda

(ii) Evaluacin de resultados.


1. Buscar resultados de calidad.
a. Ratings generales.
2. Spam y granjas de contenido.

Parte 2

Desarrollo de la metodologa

Captulo 3
Diseo de la Metodologa
3.1. Definicin del alcance.
Evaluar dos buscadores web en base a resultados (url) iguales.
Los buscadores califican los resultados de
acuerdo al algoritmo de ranking de cada
uno de ellos, esta puede ser basada en
los enlaces que entran y salen de cada
pgina web

Se ha dividido en dos partes la metodologa para la evaluacin de buscadores web

3.1.1 Evaluacin manual.


Lo primero que har el usuario es una observacin general de la
presentacin del buscador, luego analizara el servicio que ofrece cada
buscador
Se analizara la bsqueda, la usabilidad y los servicios adicionales.

a)La bsqueda:
Es lo primero que el usuario realiza, encontrar el lugar donde va a realizar la
consulta.

Textbox: Este parmetro mide la


facilidad con que el usuario encuentra e lugar
donde escribir la consulta.

Sugerencias de bsqueda.
Este parmetro mide si el buscador le
presenta alguna sugerencia mientras realiza
el ingreso de la consulta.

Control de vocabulario.
Este parmetro mide si el buscador le sugiere
cmo escribir una palabra.

b) La usabilidad:
Consiste en analizar la facilidad de uso que el buscador va a presentar al usuario.

Accesibilidad
Permite evaluar si la arquitectura del buscador es comprensiva y si
buscador le brinda la ayuda al usuario en el proceso de consulta.
Navegacin.
Permite evaluar la facilidad de desplazamiento a travs de cada pgina de
resultados del buscador.
Ayuda en lnea.
Permite evaluar si el buscador ayuda al usuario a travs de una gua de uso del
buscador.
Lenguaje y contenido.
Permite evaluar que los resultados presentados sean claros y que el buscador
tenga claridad textual en su presentacin.

c) El proceso de evaluacin de los servicios adicionales.


Permite evaluar las opciones que se le presentar al usuario para
mejorar la calidad de los resultados de las bsquedas

3.1.2. Evaluacin semi-automtica de los buscadores web.


Se presenta los pasos que se va a seguir para evaluar la
funcionalidad de un buscador web, se inicia con la seleccin de
los buscadores hasta la presentacin de los resultados al
usuario.

1) Seleccin de los buscadores que se va a evaluar.


Se debe considerar el tipo de informacin que se desea consultar

2) Consultas en los buscadores.


Se puede consultar en una sola
palabra(sencillas) o emplear
varias palabras(complejas),
Existen varios tipos de
bsqueda, de las cuales se va a
seleccionar la consulta
navigacional.

3) Calificacin de los resultados obtenidos.

Una limitacin que se ha encontrado es la dificultad al momento de obtener el valor real del ranking de
cada pgina web desde los servicios web del buscador

3.2. Diseo de la metodologa.


Pasos a seguir para obtener los datos de bsqueda, y el proceso que se seguir
para realizar la extraccin de datos del buscador web y cmo el usuario
calificara los resultados de acuerdo a su criterio basado en su necesidad de
informacin

3.2.1. Diseo del proceso de seleccin de buscadores.


Una vez seleccionado el buscador se hace lo siguiente:
Nombre del
Buscador

Tipo de buscador
H/V/S

Tipo de consulta
N/T/I

Algoritmo de
ranking

3.2.2. Diseo de la evaluacin manual.


Diseo del proceso de evaluacin de la usabilidad
Una vez seleccionados los buscadores a evaluar, se va a realizar una prueba de
aspecto visual para el usuario, en esta prueba se analizar los componentes del
buscador.
Evaluar el textbox del buscador.
Evaluar la accesibilidad: se analiza si el buscador permite moverse entre las
diferentes pginas de resultados y a travs de los enlaces de servicios que se
presenta al usuario.
Opciones de bsqueda avanzada: Esta opcin permite el refinamiento de las
bsquedas, con ella se pasa de un aspecto general de las consultas a un
aspecto ms especfico. Este checklist se lo revisar si el buscador presenta
opciones de bsqueda avanzada.

Aspectos a evaluar
El textbox de bsqueda es fcil de
encontrar?

El buscador presenta sugerencias de


bsqueda?
El buscador presenta control de
vocabulario?

El buscador es predictivo?
El buscador tiene ayuda en lnea?
El buscador se presenta con lenguaje
claro?

El buscador presenta la opcin de


bsqueda avanzada?

Si

No

3.2.3. Diseo de la evaluacin semi-automtica.


Realiza la evaluacin del buscador web en base a la bsqueda y a los
resultados obtenidos.
a) Informacin a buscar.
Primero se debe seleccionar la informacin que se desea consultar y la
forma en que se va realizar las consultas especificando si se est realizando
una consulta simple o compleja y si se est utilizando operadores
booleanos.
b) Ingreso de la consulta en el buscador web

Para poder evaluar se debe escribir la misma consulta en cada buscador

c) Extraccin de resultados de los buscadores web.


Los resultados obtenidos se los guarda en dos archivos, uno por cada buscador consultado.

Palabra
consultada

Url

Palabra de
enlace

Informacin
de la web

d) Seleccin de resultados de los dos


buscadores web

Posicin en
la que
aparece

Consulta
simple o
compleja

Utilizo
operadores
booleanos

Para seleccionar los resultados con los que se va a trabajar se debe filtrar la
informacin para extraer las respuestas que tengan url igual, el propsito
de utilizar las urls para comparar igualdad de resultados es porque las
urls son direcciones y cada pgina web pertenece a una sola direccin, en
caso de utilizar las palabras que las identifican para comparar la similitud
obtendramos resultados de similitud ambiguos .
Una vez que obtenemos nicamente los resultados que coinciden en sus
urls, se proceder a presentar al usuario una tabla de resultados, estos
resultados se los considera como los resultados ms idneos seleccionados
por los buscadores.

Estos resultados se presentarn al usuario para que seleccione la respuesta que


mejor criterio tenga con respecto a la bsqueda solicitada, mientras tanto en la
tabla de resultados segundarios se indica los siguientes datos.
Palabra
consultada

Url

Palabra de
enlace

Informacin
de la web

Posicin
en la que
aparece en
el
buscador 1

Posicin
en la que
aparece en
el
buscador 2

Consulta
simple o
compleja

Utilizo
operadores
booleanos

3.3. Seleccin de resultados por parte del usuario.


Perfil de usuario

Intencin de la
bsqueda

Palabra buscada

Buscador

Tipo de
respuesta

Promedio
de
posiciones
en que
aparecen

Se considera importante la participacin del usuario ya que el sabe que informacin


Los promedios de los rankings de las pginas obtenidas se las calculan de la
siguiente manera
1 + 2
Nuevo ranking =

Van a permitir presentar al usuario un resultado de cada url recuperada


en orden ascendente de acuerdo al resultado del promedio de ranking.
De esta forma cuando el usuario seleccione un resultado se le indicara la
posicin de cada resultado en los diferentes buscadores consultados.
Con estos resultados el usuario proceder a calificar la calidad de
resultados obtenidos, para ello deber ingresar a la direccin de la
informacin que se le presenta, para posteriormente calificarla de acuerdo
a su contenido

Resultado esperado. Cuando el usuario quede satisfecho con la respuesta


obtenida por el buscador.
Resultado en parte con el esperado. Cuando el usuario no encuentre lo que
busca, pero obtenga temas similares que resuelvan en algo lo que estaba
buscando
Resultado no coincide con el esperado. Ningn resultado presentado le
sirve al usuario.
Pgina no se abre. La pgina esta con el enlace roto o ya ha caducado, en
este caso se observara con cuidado el tiempo en que se demora el
buscador en actualizar la informacin de sus bases de datos.

Los valores de la precisin se los obtiene con la siguiente ecuacin



P=
+

Para el recall es

R=

Captulo 4
APLICACIN DE LA METODOLOGA

4.1 introduccin
Para aplicar esta metodologa es necesario seleccionar los buscadores web, estos deben tener
las caractersticas necesarias expuestas en la tabla 3.6.
Una vez identificadas estas caractersticas y de analizar que los buscadores la renen pasamos a
aplicar la metodologa.

Seleccin de buscadores web


CARACTERSTICAS DE GOOGLE
Utiliza los enlaces que significan votos.

Analiza a la pgina a la que le otorgo el voto, de acuerdo a su relevancia se incrementar y


disminuir el valor del voto.
Rastrea coincidencia de palabras buscadas entre las pginas de sus bases de datos.
La bsqueda de coincidencias se extienden hasta la pgina que se enlazan.

Seleccin de buscadores web


CARACTERSTICAS DE BING
RankNet utiliza redes neuronales para evaluar un conjunto de documentos para determinar los
factores que le dan su relevancia.
toma los patrones de bsquedas humanas en cuenta, y aprende de ellos.
Utiliza aprendizaje supervisado.
Se basa en el ancla del texto, en los enlaces y contenido.
Aprende como clasificar correctamente las pginas web.
Ofrecen resultados ms relevantes.
Divide los resultados por categoras en lugar de presentar una lista ordenada.
Considera importantes las palabras clave en las url.

4.3
evaluacin
de
la
usabilidad
La encuesta propuesta para evaluar la facilidad de uso del buscador web, se la debe
llenar con la informacin obtenida en los dos buscadores.
La encuesta realizada fue tomada a una muestra de 20 personas seleccionadas al
azar, obteniendo as los siguientes resultados.

Con estos resultados se concluye que el buscador Google es ms fcil de utilizar que
el buscador Bing de acuerdo a la encuesta realizada.

4.4 Aplicacin de la metodologa en dos


buscadores generales
4.4.1. Seleccin de la informacin a buscar.
4.4.2. Resultados obtenidos en el buscador.

En esta parte podemos observar que el orden en el que aparecen


las paginas web
encontradas al realizar con la bsqueda con cada
uno de los buscadores, el resultado, es decir, la
posicin es
totalmente diferente.
4.4.3. Resultados presentados al usuario
Luego de realizar las consultas se presenta cuatro resultados al usuario, estos son los que
coincidieron en sus urls. de estas respuestas destaco la respuesta 2 de la tabla 4.6 en la que
luego de promediar los resultados, google se coloco en el primer lugar. Esta respuesta el usuario
la califico cmo el resultado esperado.

4.5. Aplicacin de la metodologa en dos buscadores especializados.


Un ejemplo de la aplicacin de la metodologa entre dos
la presenta a continuacin.

buscadores especializados se

4.5.1. Seleccin de los buscadores a evaluar.


4.5.1.1. Caractersticas de OCW Search.
Ocw es un buscador independiente que permite el acceso a la
informacin ms
destacada de los cursos universitarios en lnea,
esto permite al usuario encontrar con mayor
rapidez los recursos
educativos difundidos de forma gratuita(OCW, SF).
4.5.1.2. Caractersticas OER Commons.
Los recursos educativos abiertos son materiales de enseanza
libremente y de forma gratuita(OER, SF)

que se pueden utilizar

4.5.3. Resultados presentados al usuario.


En la tabla 4.6 podemos ver que tenemos 2 resultados en cada buscador:
En OCW Search con la posicin 1 y 2
En OER Commons en la posicin 9 y 11

4.5.4. Calificacin de resultados por parte del usuario.

Al realizar el anlisis adecuado el usuario califico como


satisfactorio el resultado
obtenido. En este caso OCW search se
lleva el premio como el buscador que pudo satisfacer la
necesidad de informacin del usuario.

Anexo 1
DISCUSIN Y ANLISIS DE LOS RESULTADOS

A1.1. Tipo de buscadores y tipos de consultas.


Los buscadores horizontales se basan en la bsqueda de informacin general, para (Ignacio,
2006) en este tipo de buscadores, se plantea la palabra o palabras a buscar y los resultados se los
localizar en sitios o pginas web que tengan relacin con las palabras buscadas. Los buscadores
horizontales son abiertos, generales y dan muchas opciones de resultados sobre los cuales
seleccionar.
Los buscadores verticales sirven para buscar temas especficos, en (Natalia, 2006; Rodriguez,
2006) indica que los buscadores verticales funcionan con mayor capacidad de comprensin de los
textos, de esta manera arrojan resultados ms delimitados, adems de ello utilizan una interfaz
de bsqueda especializada; para encontrar un buscador vertical, generalmente se necesita de un
buscador horizontal.

A1.2. Seleccin de buscadores.


Para llevar a cabo la metodologa propuesta en este trabajo, es importante que los buscadores
seleccionados tengan los mismos atributos disponibles para que la evaluacin sea homognea.
En este caso: google y Bing.
Tambin puedo ser google y Yahoo!

Anexo 2
PROCESO DE EXTRACCIN DE DATOS

Luego de seleccionar los buscadores que se va a evaluar, se procede a realizar el procedimiento de


consulta y seleccin de resultados.

A2.1. Obtener datos a travs de los Web Service.


A travs de los servicios web de los buscadores se puede conectar de manera estndar con
sus procedimientos de
consulta y recuperacin de resultados, es a travs de ellos que
obtendremos los datos necesarios para realizar la comparacin
de resultados.

A2.1.1. Extraccin de los datos del buscador.


Luego de realizar la consulta se extrae los resultados en dos archivos, uno por cada buscador.

A2.1.2. Respuestas de consulta similares presentadas al usuario.


Cuando el usuario obtiene los resultados de la bsqueda, l deber analizar cada resultado
para asignarle una calificacin en donde se demuestre el nivel de satisfaccin con la respuesta
obtenida.
A2.1.4. Verificacin de posicin en los buscadores.
Luego de calificar los resultados obtenidos de la consulta, se proceder a realizar la
verificacin de qu buscador fue el que
presento ese resultado en posicin inicial, de esta forma
se
puede decir si un buscador es preciso, exhaustivo o los dos.

Anexo 3
ENCUESTA

Algunas preguntas realizadas en las encuestas fueron:


En los resultados obtenidos, puede moverse con facilidad a cualquier otra pgina de resultados?
En buscador permite desplazarse con facilidad a travs de los resultados obtenidos en la bsqueda?
Luego de ingresar a las opciones de bsqueda avanzada, para realizar la consulta, se le permite
buscar por trminos la informacin que usted necesita?

Estas preguntas y las dems presentan solo 2 alternativas para hacer ms sencilla la recoleccin de
datos, estas son:
a)

SI

b)

No

Das könnte Ihnen auch gefallen