Sie sind auf Seite 1von 9

Toconas juan Manuel

Etapas de la historia y desarrollo de la


recuperacin de la informacin
1 Etapa: infancia (1945-1955)
Inicia con el artculo publicado por vannevar Bush en 1945, en este artculo
propone el uso del Memex (memory extended system)
Sistemas de recuperacin de la informacin:
Sistemas pre-coordinados: La combinacin de trminos se
coordinaban juntos en la indizacin. Sistemas manuales, se usaban,
encabezamientos de materias o cdigos de clasificacin para
describir el contenido de los documentos.
Sistemas post-coordinados: Combinacin de los trminos durante la
bsqueda y no en la indizacin. Los trminos ndice se asignaban de
forma individual, correspondiendo cada entrada a un solo termino
(Mortimer Taube)
A este sistema se le adhirieron 2 mtodos de bsqueda mecnica en
fichas:

Uniterm (Taube): Cada ficha representa un trmino y en donde


aparecen los nmeros de los documentos que contenan ese
trmino listado en 1 columnas ordenados de menor a mayor.

Zatocoding (Calvin Moers): Este tipo de ficha era una tarjeta


perforada con muescas en los bordes donde cada ficha
representaba un documento y no un trmino.

WRU Searching Selector (Allen Kent) sistema de codificacin


semntico que tena en cuenta el contexto de los trminos para
evitar los falsos positivos.

Desventajas:
Solo podan manejar un nmero limitado de trminos ndice o de registros y
sus procesos de equitacin era complicado y rgido.
Ventajas:
Su contenido se poda introducir fcilmente en un PC
Investigacin y evaluacin:

El origen de la investigacin emprica en Recuperacin de Informacin


comienza en 1953 con los test ASTIA-Uniterm y Cranfield-Uniterm. En
estos test se toma la relevancia de cada consulta como criterio de
rendimiento de avaluacin

2 Etapa: Escolar (1956-1970)


Se celebra en 1958 la conferencia internacional sobre informacin
cientfica que marca el comienzo de la recuperacin de informacin
moderna. En esta conferencia se menciona:
Organizacin e el almacenamiento bsqueda de la informacin,
haciendo hincapi en la comparacin de los sistemas existentes.
Organizacin de la informacin para el almacenamiento y la bsqueda
retrospectiva: problemas intelectuales y consideraciones de
equipamientos en el diseo de nuevos sistemas.
Organizacin de la informacin para el almacenamiento y la bsqueda
retrospectiva.
En 1957 se lanza el satlite Sputnik (Sovitico) con el que se revaloriza el
valor de la informacin en USA invirtiendo en desarrollo de conexiones
informticos militares. En 1969 A.R.P.A. Crea arpanet (base para el
internet de nuestros das).
Sistemas de recuperacin de informacin:
Sistemas en batch, offline, multipropsito que usaban la cinta magntica
para una bsqueda en serie. Casi todos se basaban en la indizacin y
bsqueda humana, utilizando vocabularios controlados.
Ventajas:
Mltiples puntos de acceso a un documento
Permita bsqueda compleja con mltiples trmino
Mltiples bsquedas
Se podan imprimir

A partir de una nica entrada se producan una variedad de servicios


y de productos.
Desventajas:
La falta de interaccin durante las bsquedas
Retraso en el tiempo para obtener los resultados que deban
repetirse si haba algn error
Las bsquedas las hacia un especialista que no tena contacto con el
individuo solicitante, as que no se poda explicar bien lo que se
necesitaba.
A.S.T.I.A, N.A.S.A Y National library of medicine decidieron
automatizar sus fondos documentales para solucionar estos problemas y
transformndose en pioneras de la automatizacin bibliogrfica. El primer
sistema fue Medlars.
S.D.C. Empiezan a desarrollar software de Recuperacin de informacin
para permitir su bsqueda ms rpida y eficaz. En 1966 crean Recon para la
N.A.S.A. En 1960 Orbit para National Library of medicine un servicio de
informacin online.
En 1967 en Ohio se fund OCLC (Ohio college Library Center) un importante
paso para el entorno bibliotecario que consista en un sistema automatizado
para que las bibliotecas acadmicas pudieran compartir sus recursos y
reducir costos.
Investigacin:
Su principal objetivo apunto a mejorar los algoritmos informticos para
tratar grandes cantidades de datos y recursos de informacin para mejorar
la automatizacin de la indizacin.
Hans Peter Luhn propuso mtodos de indizacin automtica y la localizacin
de textos dentro de los textos. Utilizaba las estadsticas para conocer los
trminos clave en el texto dndole un contenido al documento. Aporto
tambin el Key Word in Context marcando la importancia de la frecuencia
del termino y la frecuencia inversa (tf/idf) que a la vez permitan la
bsqueda en el texto de forma libre.

Maron y Kuhns desarrolla la tcnica probabilstica basada en la relevancia y


permite para una consulta, realizar una inferencia estadstica y calcular un
nmero para cada documento.
Surge el concepto de feedback por relevancia por Rochio, para ampliar los
resultados de una bsqueda incorporando trminos de documento
relevantes.
Douglas Engelbart desarrolla NLS reconocido como el primer sistema de
hipertexto en funcionamiento, formado por un conjunto de fichas
organizadas en segmentos de 3000 palabas o menos que podan estar
enlazados jerrquica y no jerrquicamente.
A finales de los 60 Gerard Salton desarrolla el sistema de recuperacin
Smart para el desarrollo y evaluacin de tcnicas de recuperaciones
automatizadas.
Evaluacin:
Los ms importantes fueron los test del colegio de Aeronutica de
Cranfieldque marcaron un cambio histrico del planteamiento y diseo delos
SRI a un planteamiento experimental. Haciendo que los estudio de SRI se
enfocaran en las preguntas sobre la relevancia y rendimiento.

3 ETAPA: ADULTA (1970-1980)


Se caracteriza por 2 hechos:
1el nacimiento de la industria de la informacin online y los primeros sri e
funcionamiento
2 refinamiento de ideas y tcnicas estadsticas experimentadas en la
dcada anterior: los modelos vectoriales y los probabilsticos.
Sistemas de recuperacin de informacin:
El medio de almacenamiento de los sistemas en el disco magntico
organizado en fichas lineales e diversos. Sistemas de tiempos compartidos
que permite la conexin simultnea de varios usuarios y la ejecucin de
varias tareas a la vez.

Se desarrollaron redes de telecomunicaciones por conmutacin de paquetes


para unir dos computadoras y trasmitir datos.
Se abre la posibilidad de acceso remoto con la que ya no era necesario estar
fsicamente donde estuviera el fichero sino que se poda realizar de
cualquier lugar del mundo.
Gracias a los productores de bases de datos surgen mltiples servicios
online. Los productores eran organizaciones acadmicas o profesionales
bibliotecas, etc. que crean representaciones de sus documentos y los
ingresan a la computadora, creando su propia base de datos.
Los primeros usuarios de los servicios de bsqueda online fueron los centros
de informacin y bibliotecas cientficas especializadas, as el bibliotecario
empez a ser un intermediario de bsqueda con los protocolos, uso de
software y conocedor de varias bases de datos.
Los SRI adoptan el modelo booleano para buscar informacin que sigue
vigente hasta hoy. En este los documentos los trminos estn representados
por trminos ndice (palabras clave), y las consultas son combinaciones
lgicas de estos trminos.
Investigacin y evaluacin:
Se centra en el desarrollo de tcnicas y mtodos para la automatizacin de
la indizacin, resumen, clasificacin y construccin de tesauros, y formacin
de consultas.
Se desarrolla y refina el modelo probabilstico ue ordena los documentos en
orden de probabilidad de relevancia segn la necesidad del usuario.
A finales de dcada Oddy crea THOMAS un sistema experimental
interactivo para obtener un modelo de la necesidad del usuario a travs del
dialogo que se produce entre un hombre y la mquina. THOMAS sienta las
bases para un SRI ms eficaz.

4ETAPA: MADUREZ:

Se expande la industria online, refinamientos de SRI para buscar en las


bases de datos y aparecen bases de datos en CD-ROM. En investigacin
cambia el inters y se ve al usuario como figura clave en el proceso de SRI.
Sistema de recuperacin de informacin:
Sigue la expansin de la industria online. Como consecuencia de
microcomputadoras cobra importancia el usuario en el proceso de bsqueda
de informacin y se desarrollan sistemas que hacen fcil el buscar
informacin. En 1985 aparecen las primeras bases de datos en CD-ROM y
los sistemas de hipertexto e hipermedia. Salton y McGill dicen que la
recuperacin de informacin como ciencia tiene 2 vnculos el de la
informtica y el de la cenca del comportamiento para ayudar las actividades
humanas.
Surgen modelos enfocados en el comportamiento del usuario e a bsqueda
de informacin e interaccin con el SRI, los modelos cognitivos. Dervin
apoya os nuevos paradigmas con su modelo sense-making.
Evaluacin:
Se destaca el de Blair y Maron en el sistema Stairs, creado por IBM, uno de
los primeros experimentos realizados a una coleccin de texto completo. Da
como resultado el cuestionamiento sobre lo que significa sistema de
recuperacin en lenguaje natural.

5 ETAPA: CRISIS DE LA MEDIA VIDA


Se caracteriza por la expansin de computadoras personales ms potentes,
aparecen interfaces de bsqueda amigables , expansin de internet, y
desarrollo de motores bsqueda
Sistemas de recuperacin:
Aparece la World Wide Web (1990-TIM BERNERS-LEE) dando un vuelco en
el mundo y en los SRI. Se convierte en la fuente de informacin ms
utilizada; SRI migran a este entorno y se empiezan a utilizar tcnicas RI;
surgen nuevos sistemas de recuperacin los motores de bsqueda.

El WWW se hizo pblico en 1991, el protocolo que permita la comunicacin


era HTTP y el lenguaje usado para los documentos web era HTML; el
localizador uniforme de recursos es URL. Mosaic fue el primer el primer
navegador grafico apareci en 1993. En 1994 aparecen los motores de
bsqueda el primero fue WebCrawler.
Investigacin:
Se centran en la recuperacin de informacin en internet y en WWW. Se
destaca la importancia cada vez mayor del contexto debido a que la RI se
lleva a cabo e situaciones distintas.
Coleen Cool y Amanda Spik resumen contexto en :
1- Entorno de la informacin en el que tiene lugar el comportamiento
2- Bsqueda de informacin
3- Interaccin con el sistema
4- Consulta.
Surgen modelos centrados en el usuario y su comportamiento en la
bsqueda de informacin:
Kuhlthau: propone etapas en la bsqueda de informacin:
1) Iniciacin
2) Seleccin
3) Exploracin
4) Formulacin
5) Coleccin
6) Presentacin
Wilson: Revisin del modelo de 1981. Presenta 3 ideas tericas:
1) Stress/coping: la necesidad evoca comportamiento en la bsqueda de
informacin

2) Riego recompensa: indica que fuentes informacin son ms y menos


utilizadas
3) Aprendizaje social: evoca el concepto de autoefecacia.
Otro modelo es el de Ingwersen centrado en la identificacin de procesos
cognitivos que pueden ocurrir en todos los elementos del procesos de
informacin. Identifica diferentes frenes de investigacin en esta dcada:
1) Estudios sobre motores de bsqueda
2) Evaluacin de la recuperacin
3) Fiabilidad de la informacin en la web
4) Organizacin y estructura de la informacin en la web
5) Interfaces de usuario
6) Estudios de usuario
7) Agente de bsqueda inteligente
Evaluacin:
Se inician las conferencias TREC que tienen un gran impacto en la cantidad y
calidad de la investigacin. Haciendo que las investigaciones se llevan a cabo
en una misma coleccin ms grande permita comprar la eficacia de las
diferentes tcnicas, tener una continuidad en el tiempo y espacio y
reuniendo en un mismo foro a organismos gubernamentales, investigadores y
empresas.

6 ETAPA: ACTUAL
Se plasman las perspectivas del futuro de Lesk. Die que se generalizara la
oferta de la informacin, la investigacin de centrara en los problemas de
la necesidad de recuperar informacin sonora y grfica, nuevos mtodos y
algoritmos de representacin y recuperacin. Las bibliotecas escanearan los
texto de sus fondos para hacerlo accesibles en lnea y que con al aumento
de demanda se crearan cooperativas de recursos.

Sistemas de recuperacin de informacin:


Se realiza en 3 sistemas:
BASE DE DATO ONLINE
BASE DE DATO EN CD ROM
WWW
Uno de los grandes problemas de este avance es el hecho de que la
bsqueda da resultados poco relevantes, repetidos o que han dejado de
funcionar.
Contina la necesidad de recuperar la informacin de manera eficaz, rpida
y relevante para el usuario. Phil Bradley opina que los motores de bsqueda
deben dar mor cobertura y mejorar las capacidades de bsqueda y
algoritmos de relevancia.
Investigacin:
Tiene como objetivo disear sistemas de recuperacin de informacin
ms eficaces y eficientes que proporcionen informacin relevante al
usuario. Su enfoque va dirigida a :
Mejorar la representacin e indizacin de la informacin en las bases
de datos
Mejorar la representacin e indizacin de las consultas de los
usuarios
Buscar mecanismo ms eficaz de equiparacin de las representaciones
de la informacin con las representaciones de las consultas que
proporcionen solo la informacin relevante para el usuario.
Facilitar la interaccin con el usuario del sistema.

Das könnte Ihnen auch gefallen