Sie sind auf Seite 1von 13

Word Vectorization

AGENDA
1. Word2Vec: Introdução

2. Princípio de funcionamento

3. Distância; Analogia;...

4. Demonstração

5. Conclusão
TEXT MINING: MIGUEL BATISTA 2
INTRODUÇÃO
“A word is known by the company it
keeps”

TEXT MINING: MIGUEL BATISTA 3


INTRODUÇÃO
Tradicional: Bag of Words Word Embeddings
• Cada palavra é um ponto no
• Usa ‘one hot encoding’
espaço de dimensões altas
(100+), onde é representado
por um vector.
• Cada palavra do vocabulário é
• Representação construida
representada como um vector
enorme. somente ingerindo texto (não-
supervisionado).
• Por exemplo, num vocabulário de
10000 palavras, ‘olá’ é • Por exemplo, ‘olá’ poderia ser
representado: representado:
[0 0 0 1 0 0 . . . . . . . 0 0 0 0] [0.4, -0.11, 0.55, 0.3 . . . 0.1,
0.02]
• O contexto da palavra não é
usado. • Dimensões do espaço
representam relações entre
TEXT MINING: MIGUEL BATISTA 4
PRINCÍPIO DE
FUNCIONAMENTO
Matriz de co-ocorrência.

TEXT MINING: MIGUEL BATISTA 5


PRINCÍPIO DE
FUNCIONAMENTO
Corpus = {“I like deep learning” “I like NLP” “I enjoy
flying”}

TEXT MINING: MIGUEL BATISTA 6


PRINCÍPIO DE
FUNCIONAMENTO
Corpus = {“I like deep learning” “I like NLP” “I enjoy
flying”}

TEXT MINING: MIGUEL BATISTA 7


PRINCÍPIO DE
FUNCIONAMENTO
Corpus = {“Eu comi o bolo.”}

Contexto pode ser qualquer coisa – n-grams vizinhos, conjuntos


de palavras vizinhas que obedeçam a condições, …

Por exemplo, o contexto é definido como uma palavra e a palavra


que se segue:
i.e. �������o(�_� ) = �_(�+�)

Training Set : Eu|comi, comi|o , o|bolo, bolo|.

TEXT MINING: MIGUEL BATISTA 8


DISTÂNCIAS;
ANALOGIAS;...
Palavras comuns são agrupadas.
Dificil de visualizar: muitas dimensões !!!

TEXT MINING: MIGUEL BATISTA 9


DISTÂNCIAS;
ANALOGIAS;...
Palavras comuns são agrupadas.

TEXT MINING: MIGUEL BATISTA 10


DISTÂNCIAS;
ANALOGIAS;...
Operações vectoriais são permitidas Analogias

TEXT MINING: MIGUEL BATISTA 11


DEMONSTRAÇÃO

...live... 

TEXT MINING: MIGUEL BATISTA 12


CONCLUSÃO
1. Abordagem muito poderosa para todos os
problemas de Processamento de Linguagem.
2. Muito dependente do corpus que se usa para treinar
o modelo.
3. Potencialmente demorado para treinar.
4. Fácil de treinar.
5. Consome muita memória!

Questões? TEXT MINING: MIGUEL BATISTA 13

Das könnte Ihnen auch gefallen