Sie sind auf Seite 1von 3

Reconocimiento Sint actico de Formas

2. Modelos Estocasticos:
2.1. Introduccion: formalismo y propiedades
2.2. Analisis Sintactico Estocastico: gramaticas incontextuales
2.3. Analisis Sintactico Estocastico Corrector de Errores
2.4. Aprendizaje de los modelos:
Estimacion de las distribuciones de probabilidad:
Metodos clasicos: Inside-outside y conteo de Viterbi
Metodos basados en un subconjunto de derivaciones
Estimacion basada en aprendizaje discriminativo
Aprendizaje de la estructura:
Metodos caracterizables: Algoritmo de Sakakibara
Metodos heursticos: aprendizaje bayesiano
Aprendizaje mediante algoritmos de estimacion
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 1
Modelos Estoc asticos
Dada la observacion x T

y un modelo estocastico M; la probabilidad


de que el modelo M describa la observacion x, es:
Pr
M
(x)
Lenguaje estocastico (L, ) sobre el alfabeto T:
L T

lenguaje caracterstico.
: T

[0, 1] funcion estocastica computable:


i) x L = (x) = 0 x T

ii) x L = 0 < (x) 1 x T

iii)

xL
(x) = 1
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 2
Modelos Estoc asticos
Ejemplo
Dado el alfabeto T = {a, b}, se dene L = {a
n
b
n
| n 0}, con (x) = 0,
x L y (a
n
b
n
) =
1
en!
.

xL
(x) =

0n
1
en!
=
1
e

0n
1
n!
=
1
e
e = 1
Teorema [Wetherell,80]
Sea (L, ) un lenguaje estocastico innito; para cada > 0 existe un
n 0 tal que:
| x | n = > (x)
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 3
Gram aticas estoc asticas
Gramaticas estocasticas: G
e
= (G, Pr)
G = (N, T, P, S) gramatica caracterstica
Pr : P ]0, 1] probabilidades de las reglas:
A
i
N Pr(r
ij
) = Pr(A
i

j
) = Pr(A
i

j
| A
i
)
Sea n
i
el n umero de reglas con A
i
como parte izquierda, entonces:

1jn
i
Pr(A
i

j
) = 1
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 4
Gram aticas estoc asticas
Derivacion estocastica
Dada una secuencia de eventos estocasticos:
S =
0
r
1

1
r
2

2

m1
rm

m
= x
la probabilidad de generacion de x por G
e
= (G, Pr) a partir de la secuencia
de reglas d
x
= r
1
r
m
, es:
Pr(x, d
x
| G
e
) = Pr(r
1
) Pr(r
2
| r
1
) Pr(r
m
| r
1
r
m1
)
problema: Computo de las probabilidades.
restriccion: Pr(r
j
| r
1
r
j1
) = Pr(r
j
)
Pr
Ge
(x, d
x
) =

j=1m
Pr(r
j
)
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 5
Lenguaje estoc astico
Probabilidad de una cadena
Pr
Ge
(x) =

dxDx
Pr
Ge
(x, d
x
)
Probabilidad de la mejor derivacion

Pr
Ge
(x) = max
dxDx
Pr
Ge
(x, d
x
)
Lenguaje generado por una gramatica estocastica
L(G
e
) = {x L(G) | Pr
Ge
(x) > 0}
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 6
Propiedades
Teorema [Booth-Thompson,73]
Existen lenguajes estocasticos (L, ) que no pueden ser generados por
una gramatica estocastica G
e
= (G, p).
Ejemplo.- Sea el lenguaje estocastico L = {a
n
b
n
| n 0} con:
(a
n
b
n
) =
1
en!
no existe ninguna G
e
tal que: (x) = Pr
Ge
(x) x L.
Gramaticas consistentes
Una gramatica estocastica G
e
= (G, p) es consistente si y solo si:

xL(G)
Pr
Ge
(x) = 1
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 7
Consistencia
Teorema [Booth-Thompson,73]
Una gramatica regular estocastica es consistente si cualquier no terminal es
alcanzable desde el axioma y puede derivar una subcadena de terminales.
Una gramatica incontextual estocastica es consistente si (E) < 1, donde (E)
es el radio espectral (valor absoluto del mayor valor propio) de la matriz E.
Matriz de esperanzas de no terminales: E = (e
ij
), n umero esperado
de no-terminales A
j
que se pueden derivar directamente de A
i
:
e
ij
=

(A
i
)
p(A
i
)N(A
j
, ) 1 i, j |N|
Matriz de esperanzas de terminales: Z = (z
ij
),n umero esperado de
terminales z
j
que se pueden derivar directamente de A
i
:
z
ij
=

(A
i
)
p(A
i
)N(a
j
, ) 1 i |N|, 1 j |T|
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 8
Consistencia
Matriz de esperanzas
Q =

i=0
E
i
. Si G
e
es consistente, la suma converge a: Q = (I E)
1
Longitud esperada de las derivaciones
LED(G
e
) =
|N|

i=1
Q
1i
Longitud esperada de las cadenas
LEC(G
e
) =
|T|

i=1
(QZ)
1i
Densidad de un terminal: dens(a
i
, L(G
e
)), n umero relativo de veces
que el terminal a
i
aparece en cadenas de L(G
e
).
a
i
T, dens(a
i
, L(G
e
)) =
(100 . . . 0) Q Z
i
LEC(G
e
)
Jose Miguel Bened (2005-2006) Reconocimiento Sintactico de Formas / Modelos Estocasticos 9

Das könnte Ihnen auch gefallen