Sie sind auf Seite 1von 9

UNIVERSIDAD MAYOR DE SAN MISION FACULTAD DE CIENCIAS DE TECNOLOGIA CARRERA DE INGENIERIA DE SISTEMAS

Nombres: BARRIENTOS JALDN Diego Ral PICACHURI CALA Cipriana ROMERO ECHEVERRIA Naira TERAN ARISPE Maribel Docente: CALANCHA NAVIA Boris Marcelo Materia: Recuperacin de la Informacin

Abril, 11 de 2013

Modelo Probabilstico DESCRIPCIN DEL MODELO: Este modelo fue desarrollado por Robertson y Sparck Jones, e introducido entre 1977-1979 y es conocido como modelo probabilstico de independencia binaria (BIR). Se fundamenta en la representacin binaria de los documentos, al igual que en el modelo de recuperacin booleano, indicando presencia o ausencia de trminos mediante 0 y 1. Su diferencia radica en el mtodo estadstico y en las premisas bajo las que se constituye su funcionamiento estableciendo las siguientes aseveraciones: Segn la consulta planteada por el usuario, los documentos de la coleccin se clasifican en dos grupos; 1) Conjunto de Documentos Relevantes y 2) Conjunto de Documentos Irrelevantes. Existe una respuesta ideal del sistema, constituida por el conjunto de documentos relevantes, a la que se denomina Conjunto de Respuesta Ideal. Existe una Consulta Ideal, que es aquella que proporciona un Conjunto de Respuesta Ideal o lo que es lo mismo el conjunto de documentos relevantes para el usuario. Aunque a priori se desconoce cul es la Consulta Ideal (el usuario no tiene porqu conocerla), s se sabe que es una combinacin de 0 y 1 por ser un modelo binario de recuperacin. Se desconocen por tanto los trminos que se deberan introducir para obtener el Conjunto de Respuesta Ideal. FRMULAS DEL MODELO: Ponderacin: El objetivo del modelo probabilstico es tomar la consulta del usuario para ser refinada sucesivamente hasta obtener el conjunto de respuesta ideal, mediante la reformulacin sucesiva de los trminos de su consulta, empleando para ello la ponderacin de los trminos. Esto significa que se modifican los valores 1 (presencia) por un nmero (peso) que permita acercar la consulta imperfecta a una consulta ideal. El proceso de ponderacin de los trminos de la consulta es el clculo de probabilidad de que exista dicho trmino en el conjunto de los documentos relevantes y la probabilidad de que se encuentre presente en el conjunto de los documentos irrelevantes.

El clculo de probabilidades como base para la ponderacin de los trminos

El mtodo por defecto para el clculo de pesos de los trminos de la consulta se puede llevar a cabo mediante la razn de Odds. Es decir, la probabilidad de que el trmino aparezca en el conjunto de documentos relevantes entre la probabilidad de que el trmino aparezca en el conjunto de trminos irrelevantes.

Razn de Odds aplicado al clculo de pesos de los trminos de la consulta del usuario

Esta formulacin requiere de un mayor control de precisin, debe observarse que inicialmente se desconoce cul es el nmero de documentos relevantes e irrelevantes que conforman la coleccin. Esta situacin, particularmente compleja de averiguar a priori, se resuelve, concediendo unos valores iniciales por defecto, denominados de "Mxima incertidumbre". Para la probabilidad de P(Ti/R) se le asigna el valor 0,5 que es intermedio entre 0 y 1 para indicar que la probabilidad de que el trmino se encuentre entre los documentos relevantes e irrelevantes es la misma, por ello se denomina de mxima incertidumbre. Para la probabilidad de P(Ti/R) se asigna el cociente de dividir la frecuencia de aparicin del trmino en los documentos de la coleccin, entre el nmero total de documentos de la coleccin.

Asignacin de valores de aproximacin inicial

Pero existen ms factores que pueden afectar al peso final del trmino de la consulta del usuario, por ejemplo, cuando se tiene en cuenta que la probabilidad de la relevancia se basa tanto en la presencia como en la ausencia de los trminos de la consulta y en la independencia de la distribucin de los trminos dentro del conjunto de documentos relevantes. En tal caso, se utiliza una formulacin derivada para el clculo de los pesos, que pone en relacin el factor independencia de las distribuciones de trminos en documentos relevantes, de presencia por relevancia e irrelevancia de una forma mucho ms precisa.

Mtodo estndar para el clculo de pesos de los trminos de la consulta en el modelo probabilstico de independencia binaria.

El clculo del peso para el trmino de la consulta "Ti", incluye la suma de logaritmos de las probabilidades de presencia y ausencia en los conjuntos de documentos relevantes CDR (primera parte de la ecuacin) y las probabilidades de presencia y ausencia en los conjuntos de documentos irrelevantes CDI (segunda parte de la ecuacin). Aplicando los valores de aproximacin inicial propuestos anteriormente.

Asignacin de valores de aproximacin al mtodo estndar

El clculo de la similaridad Para cuantificar la similaridad de los documentos de la coleccin con la consulta expresada por el usuario se emplea la siguiente formulacin, que pone en relacin el peso de los trminos de la consulta del usuario con los del documento. Se trata de una variante del clculo de similaridad mediante el producto escalar, en la que el nico elemento variable es el peso de la consulta.

Clculo de similaridad del modelo probabilstico

Una vez calculada la similaridad entre la consulta y los documentos de la coleccin, el sistema es capaz de ordenar los documentos de la coleccin conforme al orden decreciente de su probabilidad de relevancia con respecto a la consulta del usuario. Dicho de otra forma, se mostrar en primer lugar el documento cuya probabilidad de relevancia sea ms alta. El modelo probabilstico, ampla su mecanismo de funcionamiento una vez ofrecidos los resultados al usuario, pidiendo su intervencin para que seale la relevancia de los documentos. De esta forma el sistema ajusta mejor el CDR y el CDI, anteriormente mencionados, efectuando una nueva consulta que mejora y adapta el clculo de los pesos de la consulta. Esta reformulacin para el clculo de los pesos consiste en asignar a la probabilidad de P(Ti/R) el cociente del nmero de documentos relevantes en los que se encuentra el trmino de consulta entre el nmero de documentos relevantes sealados por el usuario. A la probabilidad de P(Ti/R) se le asigna el cociente del nmero total de documento que tiene el trmino de consulta menos el nmero de documentos relevantes en los que se encuentra el trmino de consulta, entre el nmero total de documentos irrelevantes menos el nmero de documentos relevantes sealados por el usuario.

Asignacin de valores de aproximacin sucesivos

En el momento en el que el sistema asigna valores de aproximacin sucesivos, se considera que se est retroalimentando con la informacin proporcionada por el usuario, este fenmeno se denomina, "retroalimentacin por relevancia", lo que le permite calcular nuevos pesos para los trminos de la consulta y aproximarse al conjunto de respuesta ideal. Este proceso de retroalimentacin puede repetirse consecutivamente tantas veces como se configure en el sistema, aunque resulta habitual la repeticin de 1 a 2 ciclos.

Ventajas Retroalimentacin por relevancia, acepta feedback. Asume la independencia de los trminos de la consulta. Asigna pesos a los trminos, permitiendo recuperar los documentos que probablemente sean relevantes. Es considerado uno de los mejores modelos dados sus buenos resultados con colecciones reales. Su mtodo de recuperacin es mediante equiparacin parcial, superando al mtodo de equiparacin exacta del modelo booleano.

Desventajas Mantiene el modelo binario de recuperacin de informacin, no teniendo en cuenta todos los trminos del documento como ocurrira en el modelo vectorial. Asigna pesos a los trminos, permitiendo recuperar los documentos que probablemente sean irrelevantes. Requiere alta capacidad de computacin, resultando complejo de implementar. Necesita efectuar una hiptesis inicial que no siempre resulta acertada. No tiene en cuenta la frecuencia de aparicin de cada trmino en el documento, tal como lo hara un modelo binario.

EJEMPLO CONCRETO: Clculo de Pesos I1: La distribucin de trminos en documentos relevantes es independiente, y en todos los documentos tambin. I2: La distribucin de trminos en documentos relevantes es independiente, y en no relevantes tambin. O1: La probabilidad de relevancia se basa slo en la presencia de los trminos de la consulta en el documento. O2: La probabilidad de relevancia se basa en la presencia de los trminos de la consulta en el documento y en su ausencia.

N=nmero de documentos R=nmero de relevantes para la consulta n=nmero de documentos con el trmino r=nmero de relevantes con el trmino

Q: oro plata camin D1: envo de oro daado en incendio D2: entrega de plata en un camin de plata D3: envo de oro en un camin D2 y D3 son considerados relevantes