Tutorial Modelo Probabilistico Slides PDF

El Modelo Probabilstico:
Caractersticas y Modelos Derivados
Jesus Vilares
Grupo de Lengua y Sociedad de la Informacion (LYS)
Universidade da Coruna
jvilares@udc.es
J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 1

ndice
Introduccin
Conceptos de Teora de Probabilidades
Principio de Ordenacin por Probabilidad
Modelo de Independencia Binaria
Okapi BM25
Paradigma DFR
Conclusin

ndice
Introduccin
Okapi BM25
Paradigma DFR
Conclusin

Recuperacin de Informacin (RI)

Terminologa
Documento: unidad de texto almacenada y disponible
para su recuperacin; p.ej., pginas web, artculos de
prensa, tesis, ...
Coleccin: repositorio de documentos en los que

buscar
Trminos: unidades lxicas (palabras) que componen

un documento/consulta
Consulta (query): representacin en forma de

trminos, de la necesidad de informacin del usuario

Terminologa (cont.)
Relevancia de un documento:
Calculada por el sistema respecto a la consulta
Juzgada por el usuario respecto a la necesidad de
informacin en su cabeza (subjetividad)
Ordenacin (ranking): los documentos suelen

devolverse ordenados por relevancia
Peso de un trmino: medida de su representatividad

Frecuencia dentro del documento
Distribucin dentro de la coleccin
Longitud del documento

Paradigma Bag-of-Terms
Def.: representacin de documentos/consultas como conjunto
de trminos ndice
Ppo. de composicionalidad de Frege: "la semntica de un

objeto puede obtenerse a partir de la semntica de sus
componentes"
Si una palabra aparece en un texto, dicho texto trata dicho
tema
Si una consulta y un documento comparten uno/ms
trminos ndice, el documento debera tratar el tema de
la consulta

Modelos de Recuperacin
Establecen:
Cmo representar los documentos

Cmo representar la consulta
Cmo compararlos

Otros Modelos
Modelo vectorial como ejemplo
Base matemtica: lgebra vectorial
Consultas y documentos representados como vectores en

un espacio multidimensional
1 dimensin por trmino vocabulario
P.ej. Vocabulario tamao M espacio M -dimensional

Documento dj : vector dj = ( w1j , w2j , . . . , wM j )
Consulta q: vector

q = (w , w , ..., w )
1q 2q Mq
donde wij 0 y wiq 0 los pesos del trmino ti en dj y q

Otros Modelos (cont.)
dj
lenguaje
procesamiento
0
-
natural
Si los vectores de consulta y documento estn

prximos, asumimos que documento es similar a la
consulta (i.e., posiblemente relevante)

Medida proximidad (similaridad): coseno del ngulo
formado por los vectores:
M
P

wij wiq
dj q i=1
sim(dj , q) = cos () = =
| dj | |

s s
q| M
P M
P
w2 ij w2 iq
i=1 i=1

Base formal?
S.
Forma calcular correspondencias, es la mejor/ms

adecuada?
No sabemos, no hay nada que nos lo permite afirmar.

(Familia) Modelos Probabilsticos
Sistema IR:
Comprensin incierta de la necesidad/consulta.
Conjeturar acerca de si el contenido del documento
es relevante.
Marco formal de trabajo: teora de probabilidades

Probabilidad de relevancia vs. medida similaridad

ndice
Introduccin
Okapi BM25
Paradigma DFR
Conclusin

P (A) probabilidad de que un suceso A ocurra

P (A) probabilidad de que un suceso A no ocurra
P (A) + P (A) = 1
P (A|B) probabilidad (condicionada) de que suceda A si ocurre B

P (A|B) probabilidad (condicionada) de que no suceda A si ocurre B
P (A|B) + P (A|B) = 1
A y B independientes entre s:
P (A|B) = P (A) P (B|A) = P (B)

P (A, B) = P (A B) = P (A) P (B)
Conceptos de Teora de Probabilidades (cont.)
Teorema de Bayes:
P (B|A) P (A)
P (A|B) =
P (B)
permitiendo expresar P (A|B) en trminos de P (B|A).
Razn odds (odds ratio) de un suceso A:
P (A)
O(A) =
P (A)

ndice
Introduccin
Okapi BM25
Paradigma DFR
Conclusin

Ppo. de Ordenacin por Probabilidad
Base de los modelos probabilsticos:

la recuperacin ptima es aqulla en la que
los documentos son devueltos ordenados en
orden decreciente de acuerdo a su probabilidad
de relevancia respecta a la consulta

Ppo. de Ordenacin por Probabilidad (cont.)
Sean:
P (R|dj , q) probabilidad de que un documento dj
sea relevante para una consulta q
P (R|dj , q) probabilidad de que un documento dj
no sea relevante para una consulta q
Documentos devueltos por orden de probabilidad

de relevancia P (R|dj , q)
Documento es relevante si P (R|dj , q) > P (R|dj , q)

ndice
Introduccin
Okapi BM25
Paradigma DFR
Conclusin

Bases del Modelo
El ms sencillo de los probabilsticos.
Hiptesis clster :
los trminos estn distribuidos de forma diferente
en los documentos relevantes y no relevantes
Binario (booleano): slo tendremos en cuenta si un trmino

aparece o no en un documento, no cuntas veces:

dj = ( w1j , w2j , . . . , wM j )
donde wij = 1 si ti Dj (trmino ti est en documento dj )

wij = 0 si ti
/ Dj (trmino ti no est en documento dj )

Bases del Modelo (cont.)
Independencia:
Distribucin de un trmino en la coleccin independiente
de la de otros
Relevancia de un documento independiente de la de otros

Formulacin

Trabajaremos con O(R| dj , q ) en lugar de con P (R| dj ,
q ):

P (R| d j , q)
O(R| dj , q ) =

P (R| dj , q)
Al aplicar el Teorema de Bayes:

P (R| q ) P ( d j |R, q )
P ( d j |R, q)
O(R| dj , q ) =
= O(R| q )

P (R| q ) P ( dj |R, q ) P ( dj |R,
q)
Al asumir que los trminos son independientes entre s:

Y P (wij |R,
M
q)

O(R| dj , q ) = O(R| q )
P (w |R,

q)
i=1 ij

Formulacin (cont.)
Agrupamos los operandos de los trminos segn aparezcan o
no en el documento:

Y P (wij = 1|R,

q ) Y P (wij = 0|R,

q)

O(R| dj , q ) = O(R| q )

P (w = 1|R, q ) P (w = 0|R,
q)
ti Dj ij ti D
/ j ij
Simplificamos la notacin:
pi = P (wij = 1|R,

q) prob. trmino ti aparezca en doc. relevante
u = P (w = 1|R,
i ij

q) prob. trmino ti aparezca en doc. no relevante

Y pi Y 1 pi
O(R| dj , q ) = O(R| q )
ui 1 ui
ti Dj ti D
/ j

Formulacin (cont.)
Obviamos trminos ajenos a la consulta:

Y pi Y 1 pi
O(R| dj , q ) = O(R| q )
ui 1 ui
ti Q ti Q
ti Dj ti D
/ j
Operando sucesivamente:
(. . .)

Y p (1 u )
i i
Y 1 pi
O(R| dj , q ) = O(R| q )

ui (1 pi ) 1 ui
ti Q ti Q
ti Dj

Formulacin (cont.)
Slo nos interesa la ordenacin, no el valor concreto:
Eliminamos factores constantes (mantiene ordenacin)
Aplicamos logaritmos (mantiene ordenacin)
Retrieval Status Value
Y pi (1 ui ) X pi (1 ui )
RSVdj q = log = log
ui (1 pi ) ui (1 pi )
ti Q ti Q
ti Dj ti Dj
Considerando cada trmino de la consulta por separado:

X pi (1 ui ) pi / (1 pi )
RSVdj q = ci con ci = log = log
ui (1 pi ) ui / (1 ui )
ti Q
ti Dj

Formulacin (cont.)
pi / (1 pi )
ci = log
ui / (1 ui )
Tmino ms probable en relevantes (pi > ui ): ci > 0.
Tmino ms probable en no relevantes (pi < ui ): ci < 0.
Trmino igualmente probable (pi = ui ): ci = 0.

Estimacin de Probabilidades
pi / (1 pi )
ci = log
ui / (1 ui )
Problema: desconocemos pi y ui
Solucin: estimacin a partir de subconjunto resultado inicial

(relevance feedback ):
Obtenemos conjunto resultado inicial
Comprobamos cules son relevantes
Estimamos pi y ui a partir de estos conjuntos

Estimacin de Probabilidades (cont.)
Conocemos:
|V |, no docs. relevantes devueltos
|Vi |, no docs. relevantes devueltos contienen trmino t i
N , no docs. en coleccin
dfi , no docs. en coleccin contienen trmino ti
Aproximamos pi mediante la proporcin de docs. relevantes

devueltos que contienen trmino ti :
|Vi |
pi
|V |

Suponiendo resto son no relevantes, aproximamos u i

mediante la proporcin de docs. no relevantes que
contienen trmino ti :
dfi |Vi |
ui
N |V |

Sustituyendo y operando:
Factores de ajuste
pi / (1pi )
ci = log ui / (1ui )
(. . .)
(|Vi |+0,5) / (|V ||Vi |+0,5)
log (dfi |Vi |+0,5) / (N dfi |V |+|Vi |+0,5)
denominado peso Robertson-Sparck Jones

ndice
Introduccin
Okapi BM25
Paradigma DFR
Conclusin

Okapi BM25
Modelo de referencia (entre los mejores)
Evolucin del modelo de dependencia binaria,

introduce:
No apariciones del trmino en el documento
Longitud del documento

Formulacin: Base Inicial
Partimos de la expresin del modelo de independencia
binaria bsico:
X
RSVdj q = ci
ti Q
ti Dj

Formulacin: Frec. Trmino
Ponderar no apariciones del trmino en el documento:
frecuencia del trmino ti en el documento dj (tfij )
Introducir funcin de peso del trmino en el documento

en base a su frecuencia:
X (k1 + 1) tfij
RSVdj q = ci
k1 + tfij
ti Q
ti Dj
Constante de ajuste k1 :
k1 = 0: comportamiento binario original
k1 muy alto: devolvera valores prximos a tfij

Formulacin: Frec. Trmino (cont.)
dem para frecuencia de los trminos en la consulta:
X (k1 + 1) tfij (k3 + 1) tfiq
RSVdj q = ci
k1 + tfij k3 + tfiq
ti Q
ti Dj

Formulacin: Longitud Doc.
Ponderar longitud del documento
Introducimos longitud dlj del documento dj , normalizada

respecto a la longitud media de los documentos de la
coleccin (dlavg ):
X (k1 + 1) tfij (k3 + 1) tfiq
RSVdj q = ci
K + tfij k3 + tfiq
ti Q
ti Dj
con K = k1 ((1 b) + b dlj /dlavg )
Constante de ajuste b [0, 1]:

b = 0: se desestima longitud
b = 1: aplicacin plena
ndice
Introduccin
Okapi BM25
Paradigma DFR
Conclusin

Paradigma DFR
Divergence From Randomness (DFR): metodologa para
construir modelos de recuperacin
Diferencias respecto modelos probabilsticos clsicos:

Metodologa, no modelo.
No paramtrico: no hay parmetros a ajustar (ej. k1 , k3 y b
en BM25).
Ganancia de informacin vs. probabilidad de relevancia.
Idea:
Asumir distribucin aleatoria de los trminos en los docs.
Si una palabra aparece en un doc. mucho ms de lo
esperado, ese doc. trata ese tema.

Paradigma DFR: Componentes
Un modelo DFR tiene 3 componentes:
X
RSVdj q = wij con wij = tfiq Inf1 (tf nij )Prisk (tf nij )
ti Q
Inf1 , contenido informativo del trmino ti en doc. dj

Prisk , riesgo asumido al aceptar ti como descriptor vlido
del doc. dj
tf nij , frecuencia tfij del trmino ti en doc. dj tras ser
normalizada respecto a longitud del doc.

Comp. 1: Modelo Aleatorio
Modelo de distribucin de los trminos
P rob1 (tfij ): probabilidad trmino ti aparezca tfij veces en
doc. dj
Inf1 , contenido informativo del trmino ti en doc. dj
Inf1 = log2 P rob1
trmino con alta probabilidad de aparecer en un doc. ("de

no-especialidad"): escaso contenido informativo
trmino con poca probabilidad de aparecer en un doc. ("de
especialidad"): alto contenido informativo

Comp. 1: Ejemplos
Distribucin binomial:

T Fi 1
P rob1 (tfij ) = ptfij q T Fij tf ij con p= y q = 1p
tfij N
donde tfij es la frecuencia del trmino ti en el documento dj

T Fi es la frecuencia total del trmino ti en la coleccin
N es el nmero de documentos en la coleccin
Distribucin geomtrica:
tfij !
1 T Fi
P rob1 (tfij ) = log2 con =
1+ 1+ N

Comp. 2: Primera Normalizacin
Sea un trmino poco comn ("de especialidad") que aparece
en un doc. ...
... muy pocas veces: puede ser por casualidad, no conviene
usarlo (riesgo alto)
... muchas veces: seguro relacionado con el tema,
debemos usarlo (riesgo bajo)
Ponderar contenido informativo (Inf1 ) respecto riesgo al

tomarlo como descriptor (Prisk )

Comp. 2: Ejemplos
Normalizacin L:
1
Prisk =
tfij + 1
Normalizacin B:
T Fi + 1
Prisk =
dfi (tfij + 1)
donde T Fi es la frecuencia total del trmino ti en la coleccin

dfi es no docs. que contienen el trmino ti .

Comp. 3: Segunda Normalizacin
Normalizar la frecuencia tfij del trmino ti en el documento
dj en base a:
Longitud del documento (dlj )
Longitud media de los documentos (dlavg )
Ejemplos:
dlavg
tf nij = tfij
dlj

dlavg
tf nij = tfij log2 1 +
dlj

ndice
Introduccin
Okapi BM25
Paradigma DFR
Conclusin

Conclusin
Base formal: teora de probabilidades
Ppo. de Ordenacin por Probabilidad

Ordenacin por probabilidad de relevancia
Recuperacin ptima

Conclusin (cont.)
Modelo bsico
Okapi BM25
Evolucin: frecuencia del trmino + longitud
Paradigma DFR
Metodologa vs. modelo
Ganancia de informacin vs. probabilidad de relevancia

Tutorial Modelo Probabilistico Slides PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tutorial Modelo Probabilistico Slides PDF

Hochgeladen von

Copyright:

Verfügbare Formate

El Modelo Probabilstico:

Caractersticas y Modelos Derivados

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 1

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 2

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 2

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 3

Coleccin: repositorio de documentos en los que

Trminos: unidades lxicas (palabras) que componen

Consulta (query): representacin en forma de

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 4

Ordenacin (ranking): los documentos suelen

Peso de un trmino: medida de su representatividad

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 5

Ppo. de composicionalidad de Frege: "la semntica de un

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 6

Cmo representar los documentos

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 7

Base matemtica: lgebra vectorial

Consultas y documentos representados como vectores en

1 dimensin por trmino vocabulario

P.ej. Vocabulario tamao M espacio M -dimensional

donde wij 0 y wiq 0 los pesos del trmino ti en dj y q

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 8

Si los vectores de consulta y documento estn

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 9

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 10

Forma calcular correspondencias, es la mejor/ms

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 11

Marco formal de trabajo: teora de probabilidades

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 12

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 13

P (A) probabilidad de que un suceso A ocurra

P (A|B) probabilidad (condicionada) de que suceda A si ocurre B

P (A|B) = P (A) P (B|A) = P (B)

permitiendo expresar P (A|B) en trminos de P (B|A).

Razn odds (odds ratio) de un suceso A:

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 15

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 16

Base de los modelos probabilsticos:

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 17

Documentos devueltos por orden de probabilidad

Documento es relevante si P (R|dj , q) > P (R|dj , q)

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 18

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 19

Binario (booleano): slo tendremos en cuenta si un trmino

donde wij = 1 si ti Dj (trmino ti est en documento dj )

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 20

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 21

Al aplicar el Teorema de Bayes:

Al asumir que los trminos son independientes entre s:

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 22

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 23

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 24

Considerando cada trmino de la consulta por separado:

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 25

Tmino ms probable en relevantes (pi > ui ): ci > 0.

Tmino ms probable en no relevantes (pi < ui ): ci < 0.

Trmino igualmente probable (pi = ui ): ci = 0.

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 26

Solucin: estimacin a partir de subconjunto resultado inicial

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 27

Aproximamos pi mediante la proporcin de docs. relevantes

J. Vilares El Modelo Probabilstico: Caractersticas y Modelos Derivados p. 29