Beruflich Dokumente
Kultur Dokumente
Jesus Vilares
Grupo de Lengua y Sociedad de la Informacion (LYS)
Universidade da Coruna
jvilares@udc.es
dj
lenguaje
procesamiento
0
-
natural
P (A|B) + P (A|B) = 1
A y B independientes entre s:
Teorema de Bayes:
P (B|A) P (A)
P (A|B) =
P (B)
P (A)
O(A) =
P (A)
Sean:
P (R|dj , q) probabilidad de que un documento dj
sea relevante para una consulta q
P (R|dj , q) probabilidad de que un documento dj
no sea relevante para una consulta q
Hiptesis clster :
los trminos estn distribuidos de forma diferente
en los documentos relevantes y no relevantes
Y P (wij |R,
M
q)
O(R| dj , q ) = O(R| q )
P (w |R,
q)
i=1 ij
Simplificamos la notacin:
pi = P (wij = 1|R,
q) prob. trmino ti aparezca en doc. relevante
u = P (w = 1|R,
i ij
q) prob. trmino ti aparezca en doc. no relevante
Y pi Y 1 pi
O(R| dj , q ) = O(R| q )
ui 1 ui
ti Dj ti D
/ j
Operando sucesivamente:
(. . .)
Y p (1 u )
i i
Y 1 pi
O(R| dj , q ) = O(R| q )
ui (1 pi ) 1 ui
ti Q ti Q
ti Dj
Problema: desconocemos pi y ui
Conocemos:
|V |, no docs. relevantes devueltos
|Vi |, no docs. relevantes devueltos contienen trmino t i
N , no docs. en coleccin
dfi , no docs. en coleccin contienen trmino ti
J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 28
Estimacin de Probabilidades (cont.)
|Vi |
pi
|V |
pi / (1pi )
ci = log ui / (1ui )
(. . .)
(|Vi |+0,5) / (|V ||Vi |+0,5)
log (dfi |Vi |+0,5) / (N dfi |V |+|Vi |+0,5)
Constante de ajuste k1 :
k1 = 0: comportamiento binario original
k1 muy alto: devolvera valores prximos a tfij
Idea:
Asumir distribucin aleatoria de los trminos en los docs.
Si una palabra aparece en un doc. mucho ms de lo
esperado, ese doc. trata ese tema.
Distribucin geomtrica:
tfij !
1 T Fi
P rob1 (tfij ) = log2 con =
1+ 1+ N
Normalizacin B:
T Fi + 1
Prisk =
dfi (tfij + 1)
Ejemplos:
dlavg
tf nij = tfij
dlj
dlavg
tf nij = tfij log2 1 +
dlj
Okapi BM25
Evolucin: frecuencia del trmino + longitud
Paradigma DFR
Metodologa vs. modelo
Ganancia de informacin vs. probabilidad de relevancia