Relatório KNN

Disciplina: ELE0606 - Tpicos Especiais em Inteligncia Artificial
Prof.: Jos Alfredo Ferreira Costa

Aluna: Larissi Arajo da Silva
Relatrio: Mtodos de classificao utilizando o NN e KNN
1. Mtodos de Classificao
As tcnicas de classificao abordadas nesse relatrio so classificadas como aprendizado
supervisionado. Nesse mtodo a varivel alvo especificada e o algoritmo "aprende" a partir dos
exemplos. O critrio utilizado para classificar os objetos medido pela similaridade e pelo critrio de
seleo dos vizinhos.
Normalmente em minerao de dados supervisionados utiliza-se conjuntos de dados de
treinamento como parte da construo do modelo e no processo de avaliao. Nesse caso, os dados de
treinamento sero obtidos a partir de amostras aleatrias da base de dados.
2. Base de Dados
A base de dados escolhida foi a dados.txt. Os dados so apresentados em uma matriz 500x2.
A partir da anlise do grfico mostrado na figura 1, nota-se a existncia de duas classes e valores
aleatrios na faixa de [-1,4].
Classe A 200
Classe B 200
Aleatrios 100
Tabela 1- Classes da matriz 'dados.txt'
Figura 1- Plot da matriz 'dados.txt'

Figura 2 - Distribuio das variveis em dados.txt.
Foi abordado tambm a possibilidade de trabalhar com os dados no formato original, realizando
o escalonamento linear ou a transformao das variveis Z-score. Valores de dados contnuos devem ser
Usando a normalizao Min-Max, mostrada na equao 1, os valores esto no intervalo de
[0,1]. Na padronizao Z-Score, apresentada na equao 2, os valores esto no intervalo de [-2,2.5].
x(i) min( x)
Min Max (1)
max( x) min( x)
x(i) media( x)
Z score (2)
desv. padro( x)
Os BoxPlot apresentados nas figuras 3 e 4 podem ajudar a compreender a distribuio dos

dados, como tambm a disperso das variveis. Ao realizar o escalamento, nota-se que o desvio padro
diminuiu.
Figura 3- BoxPlot das variveis sem modificaes.
Figura 4- BoxPlot das variveis com escalonamento Min-Max.

Figura 5- Plot das amostras aleatrias (a). Programa MATLAB para escolhas das amostras. (b)
3. Vizinho mais prximo (Nearest Neighbor ou NN)
Para utilizar o NN necessrio um conjunto de exemplos de treinamento, no caso foi

selecionado amostras aleatrias da base de dados, como mostrado anteriormente. Para cada objeto da
base de dados, medida a distncia entre ele e todas as amostras. Verifica-se qual o vizinho mais
prximo e a sua classe pertencente. Usando a funo dist do MATLAB foi calculada a distncia.
Para exemplificar o funcionamento do algoritmo pode-se observar o diagrama de Voroni.
Nesse diagrama, mostrado na figura 6, o plano partilhado com n pontos em n polgonos convexos,
tal que cada polgono contm exatamente um ponto e cada ponto num dado polgono est mais prximo
do seu ponto central que de qualquer outro. Ou seja, o programa vai procurar classificar os dados de
acordo com esses limites de proximidade.
Figura 6- Digrama de Voroni das amostras aleatrias.

Figura 7 - Plot da classificao utilizando NN.
4. K-vizinhos prximos (K- Nearest Neighbor ou KNN)
Para determinar a classe de um elemento que no pertena ao conjunto de treinamento, o

classificador KNN procura K elementos do conjunto de treinamento que estejam mais prximos deste
elemento desconhecido, ou seja, que tenham a menor distncia. Estes K elementos so chamados de
K-vizinhos mais prximos. Verifica-se quais so as classes desses K vizinhos e a classe mais frequente
ser atribuda classe do elemento desconhecido.
O KNN um classificador que possui apenas um parmetro livre (o nmero de K-vizinhos)
que controlado pelo usurio com o objetivo de obter uma melhor classificao.
Figura 8 - Plot da classificao utilizando KNN com k=5.

5. NN utilizando o centroide mais prximo.
Esse mtodo similar ao Vizinho Prximo (NN) diferenciando-se pelo fato de calcular a mdia
dos elementos da amostra para servir como parmetro de proximidade entre o objeto desconhecido.
Figura 9 - Plot da classificao utilizando NN-centroide com dados normalizados (Z-score).
6. Vantagens e Desvantagens
Umas das vantagens desse mtodo o fato dele conseguir se adaptar forma de distribuio
dos dados de treinamento, possibilitando a obteno de um bom resultado quando o conjunto de
treinamento grande ou representa todas as variaes possveis dos dados, principalmente no caso de
k=n. Outro bom fator a tcnica simples e facilmente implementada
Um fator negativo o desgaste computacional, principalmente se for um grande conjunto de
dados. J que classificar um exemplo desconhecido requer clculos de distncia para cada exemplo de
treinamento. Isso pode consumir muito tempo. Outro problema que a classificao pode ser
prejudicada pela presena de rudo ou caractersticas irrelevantes.
7. Concluso
As tcnicas apresentadas tm como objetivo a classificao de padres. Classificar padres

significa classificar um padro desconhecido dentre vrias classes possveis.
Foi observado que os trs mtodos apresentaram bons resultados para a separao das classes,
notando-se pouca diferena entre os mtodos. Uma das razes pode ser explicada pelo fato da
distribuio dos dados haver poucas sobreposies e as amostras conseguirem caracterizar bem as
classes.
Com relao ao K, notou-se uma pequena diferena variando para maiores valores.
A preciso da classificao utilizando o algoritmo depende bastante do modelo de dados.
Quando os dados foram escalonados (Min-Max) ou normalizados (Z-score) evita-se que os atributos
maiores dominem a classificao. Tambm se observou maior exatido para classificar objetos
localizados nos pontos extremos.
8. Referncias
Daniel T. Larose and Chantal Larose (2014). Discovering Knowledge in Data: An Introduction
to Data Mining. 2nd Ed., Wiley.
Nearest Neighbor Classifiers. http://www.ee.columbia.edu/~vittorio/lecture8.pdf
Regra dos K-vizinhos mais prximos
http://www.vision.ime.usp.br/~teo/publications/qualificacao/node35.html

Relatório KNN

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Relatório KNN

Hochgeladen von

Copyright:

Verfügbare Formate

Disciplina: ELE0606 - Tpicos Especiais em Inteligncia Artificial

Prof.: Jos Alfredo Ferreira Costa

Relatrio: Mtodos de classificao utilizando o NN e KNN

Figura 1- Plot da matriz 'dados.txt'

Figura 2 - Distribuio das variveis em dados.txt.

Os BoxPlot apresentados nas figuras 3 e 4 podem ajudar a compreender a distribuio dos

Figura 3- BoxPlot das variveis sem modificaes.

Figura 4- BoxPlot das variveis com escalonamento Min-Max.

3. Vizinho mais prximo (Nearest Neighbor ou NN)

Para utilizar o NN necessrio um conjunto de exemplos de treinamento, no caso foi

Figura 6- Digrama de Voroni das amostras aleatrias.

Figura 7 - Plot da classificao utilizando NN.

4. K-vizinhos prximos (K- Nearest Neighbor ou KNN)

Para determinar a classe de um elemento que no pertena ao conjunto de treinamento, o

Figura 8 - Plot da classificao utilizando KNN com k=5.

Figura 9 - Plot da classificao utilizando NN-centroide com dados normalizados (Z-score).

As tcnicas apresentadas tm como objetivo a classificao de padres. Classificar padres

Das könnte Ihnen auch gefallen