Sie sind auf Seite 1von 58

INF 1771 Inteligncia Artificial

Aula 18 Aprendizado No-Supervisionado

Edirlei Soares de Lima


<elima@inf.puc-rio.br>
LOGO
Formas de Aprendizado

Aprendizado Supervisionado
rvores de Deciso.
K-Nearest Neighbor (KNN).
Support Vector Machines (SVM).
Redes Neurais.

Aprendizado No-Supervisionado

Aprendizado Por Reforo


LOGO
Introduo

No aprendizado supervisionado, todas os


exemplos de treinamento eram rotulados.

0.51 0.14 0.12 0.04 0.65 0.01 0.08 2

Vetor de Atributos Classe

Estes exemplos so ditos supervisionados,


pois, contm tanto a entrada (atributos),
quanto a sada (classe).
LOGO
Introduo

Porm, muitas vezes temos que lidar com


exemplos nosupervisionados, isto ,
exemplos no rotulados.

Por que?

Coletar e rotular um grande conjunto de exemplos


pode custar muito tempo, esforo, dinheiro...
LOGO
Introduo

Entretanto, podemos utilizar grandes


quantidades de dados no rotulados para
encontrar padres existentes nestes dados. E
somente depois supervisionar a rotulao
dos agrupamentos encontrados.

Esta abordagem bastante utilizada em


aplicaes de minerao de dados
(datamining), onde o contedo de grandes
bases de dados no conhecido
antecipadamente.
LOGO
Introduo

O principal interesse do aprendizado no-


supervisionado desvendar a organizao
dos padres existentes nos dados atravs de
clusters (agrupamentos) consistentes.

Com isso, possvel descobrir


similaridades e diferenas entre os
padres existentes, assim como derivar
concluses teis a respeito deles.
LOGO
Introduo

Exemplos de agrupamentos (clusters):

Passaro Lagarto Tubaro


Tubaro Passaro Lagarto
Gato Peixe
Ovelha
Peixe Gato Ovelha
Cachorro
Sapo
Cachorro Sapo

Existencia de pulmes Ambiente onde vivem


LOGO
Clusterizao

A clusterizao o processo de agrupar


um conjunto de objetos fsicos ou abstratos
em classes de objetos similares.

Um cluster uma coleo de objetos que so


similares uns aos outros (de acordo com
algum critrio de similaridade pr-
definido) e dissimilares a objetos
pertencentes a outros clusters.
LOGO
Critrio de Similaridade

A similaridade difcil de ser definida...


LOGO
Processo de Aprendizado No-Supervisionado

As etapas do processo de aprendizagem


no supervisionada so:

(1) Seleo de atributos


(2) Medida de proximidade
(3) Critrio de agrupamento
(4) Algoritmo de agrupamento
(5) Verificao dos resultados
(6) Interpretao dos resultados
LOGO
Processo de Aprendizado No-Supervisionado

(1) Seleo de Atributos:

Atributos devem ser adequadamente


selecionados de forma a codificar a maior
quantidade possvel de informaes
relacionada a tarefa de interesse.

Os atributos devem ter tambm uma


redundncia mnima entre eles.
LOGO
Processo de Aprendizado No-Supervisionado

(2) Medida de Proximidade:

Medida para quantificar quo similar ou


dissimilar so dois vetores de atributos.

ideal que todos os atributos contribuam de


maneira igual no clculo da medida de
proximidade.

Um atributo no pode ser dominante sobre o outro,


ou seja, importante normalizar os dados.
LOGO
Processo de Aprendizado No-Supervisionado

(3) Critrio de Agrupamento:

Depende da interpretao que o especialista d ao


termo sensvel com base no tipo de cluster que
so esperados.

Por exemplo, um cluster compacto de vetores de


atributos pode ser sensvel de acordo com um
critrio enquanto outro cluster alongado, pode ser
sensvel de acordo com outro critrio.
LOGO
Processo de Aprendizado No-Supervisionado

(4) Algoritmo de Agrupamento:

Tendo adotado uma medida de proximidade e um


critrio de agrupamento devemos escolher um
algoritmo de clusterizao que revele a
estrutura agrupada do conjunto de dados.
LOGO
Processo de Aprendizado No-Supervisionado

(5) Validao dos Resultados:

Uma vez obtidos os resultados do algoritmo de


agrupamento, devemos verificar se o resultado
esta correto.

Isto geralmente feito atravs de testes


apropriados.
LOGO
Processo de Aprendizado No-Supervisionado

(6) Interpretao dos Resultados:

Em geral, os resultados da clusterizao devem ser


integrados com outras evidncias experimentais
e anlises para chegar as concluses corretas.
LOGO
Processo de Aprendizado No-Supervisionado

Diferentes escolhas de atributos, medidas de


proximidade, critrios de agrupamento e
algoritmos de clusterizao levam a
resultados totalmente diferentes.

Qual resultado o correto?


LOGO
Clusterizao

Dado um conjunto de dados X:

X = {x1, x2, . . ., xn}

Definimos como um magrupamento de X a partio de X


em m conjuntos (clusters ou grupos) C1, C2, ..., Cm tal que
as trs condies seguintes sejam satisfeitas:
Nenhum cluster pode ser vazio (Ci ).

A unio de todos os cluster deve ser igual ao conjunto de dados que


gerou os clusters, ou seja, X.

A interseo de dois clusters deve ser vazio, i.e., dois cluster no podem
conter vetores em comum (Ci Cj = ).
LOGO
Clusterizao

Os vetores contidos em um cluster Ci devem ser mais


similares uns aos outros e menos similares aos
vetores presentes nos outros clusters.

Tipos de Clusters:

Clusters compactos Clusters alongados Clusters esfricos e ellipsoidals


LOGO
Medidas de Proximidade

Medidas de Dissimilaridade:
Mtrica lp ponderada;
Mtrica Norma l ponderada;
Mtrica l2 ponderada (Mahalanobis);
Mtrica lp especial (Manhattan);
Distncia de Hamming;

Medidas de Similaridade:
Produto interno (inner);
Medida de Tanimoto;
LOGO
Algoritmos de Clustering

Os algoritmos de clusterizao buscam


identificar padres existentes em conjuntos
de dados.

Os algoritmos de clusterizao podem ser


divididos em varias categorias:
Sequenciais;
Hierrquicos;
Baseados na otimizao de funes custo;
Outros: Fuzzy, SOM, LVQ...
LOGO
Algoritmos Sequenciais

So algoritmos diretos e rpidos.

Geralmente, todos os vetores de


caractersticas so apresentados ao
algoritmo uma ou vrias vezes (at 5 ou 6
vezes).

O resultado final geralmente depende da


ordem de apresentao dos vetores de
caractersticas.
LOGO
Algoritmos Sequenciais

Basic Sequential Algorithmic Scheme (BSAS)

Todos os vetores so apresentados uma nica vez


ao algoritmo.

Nmero de clusters no conhecido inicialmente.

Novos clusters so criados enquanto o algoritmo


evolui.
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Parmetros do BSAS:
d(x, C): mtrica de distncia entre um vetor de
caractersticas x e um cluster C.
: limiar de dissimilaridade.
q: nmero mximo de clusters.

Idia Geral do Algoritmo:


Para um dado vetor de caractersticas, designlo
para um cluster existente ou criar um novo cluster
(depende da distncia entre o vetor e os clusters j
formados).
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Exemplo 1:
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Exemplo 1:

1a iterao
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Exemplo 1:

2a iterao
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Exemplo 1:

3a iterao
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Exemplo 1:

1 2

d(x4, C1) >

4a iterao
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Exemplo 1:

1 2

5a iterao
Basic Sequential Algorithmic Scheme (BSAS)
LOGO

Exemplo 1:
1
2

na iterao
LOGO
Clusterizao Hierrquica

Os algoritmos de clusterizao hierrquica


pode ser divididos em 2 subcategorias:
Aglomerativos:
Produzem uma sequncia de agrupamentos com um nmero
decrescente de clusters a cada passo.
Os agrupamentos produzidos em cada passo resultam do
anterior pela fuso de dois clusters em um.

Divisivos:
Atuam na direo oposta, isto , eles produzem uma seqncia
de agrupamentos com um nmero crescente de clusters a cada
passo.
Os agrupamentos produzidos em cada passo resultam da
partio de um nico cluster em dois.
LOGO
Clusterizao Hierrquica

Exemplo 1 Aglomerativo:
LOGO
Clusterizao Hierrquica

Exemplo 1 Aglomerativo:

1a iterao
LOGO
Clusterizao Hierrquica

Exemplo 1 Aglomerativo:

1 2

1a iterao
LOGO
Clusterizao Hierrquica

Exemplo 1 Aglomerativo:

3
1 2

3a iterao
LOGO
Clusterizao Hierrquica

Exemplo 1 Aglomerativo:

3
1 2

4a iterao
LOGO
Clusterizao Hierrquica

Exemplo 1 Aglomerativo:

3
1 2
5

5a iterao
LOGO
Clusterizao Hierrquica

Exemplo 1 Aglomerativo:

3 9
6 1 2
5
8
4
7

na iterao
LOGO
Clusterizao Hierrquica

Exemplo 2 Divisivo:

Processo inverso.
LOGO
K-Means

a tcnica mais simples de aprendizagem no


supervisionada.

Consiste em fixar k centrides (de maneira


aleatria), um para cada grupo (clusters).

Associar cada indivduo ao seu centride mais


prximo.

Recalcular os centrides com base nos indivduos


classificados.
LOGO
Algoritmo K-Means

(1) Selecione k centrides iniciais.

(2) Forme k clusters associando cada


exemplo ao seu centride mais prximo.

(3) Recalcule a posio dos centrides com


base no centro de gravidade do cluster.

(4) Repita os passos 2 e 3 at que os


centrides no sejam mais movimentados.
LOGO
Algoritmo K-Means

Exemplo:
LOGO
Algoritmo K-Means

Exemplo: k=3

Seleciona-se k centrides iniciais.


LOGO
Algoritmo K-Means

Exemplo: k=3

1a iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

2a iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

3a iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

4a iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

5a iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

na iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

Repite-se os passos anteriores at que os centrides no se movam mais.


LOGO
Algoritmo K-Means

Exemplo: k=3

1a iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

2a iterao
LOGO
Algoritmo K-Means

Exemplo: k=3

3a iterao
LOGO
Problemas do K-Means

O principal problema do K-Means a


dependncia de uma boa inicializao.
LOGO
Problemas do K-Means

O principal problema do K-Means a


dependncia de uma boa inicializao.
LOGO
Problemas do K-Means

O principal problema do K-Means a


dependncia de uma boa inicializao.
LOGO
Aprendizado No-Supervisionado

O aprendizado no-supervisionado ou
clusterizao (agrupamento) busca extrair informao
relevante de dados no rotulados.

Existem vrios algoritmos agrupamento de dados.

Diferentes escolhas de atributos, medidas de


proximidade, critrios de agrupamento e algoritmos
de clusterizao levam a resultados totalmente
diferentes.