Beruflich Dokumente
Kultur Dokumente
1. Mtodos de Classificao
As tcnicas de classificao abordadas nesse relatrio so classificadas como aprendizado
supervisionado. Nesse mtodo a varivel alvo especificada e o algoritmo "aprende" a partir dos
exemplos. O critrio utilizado para classificar os objetos medido pela similaridade e pelo critrio de
seleo dos vizinhos.
Normalmente em minerao de dados supervisionados utiliza-se conjuntos de dados de
treinamento como parte da construo do modelo e no processo de avaliao. Nesse caso, os dados de
treinamento sero obtidos a partir de amostras aleatrias da base de dados.
2. Base de Dados
A base de dados escolhida foi a dados.txt. Os dados so apresentados em uma matriz 500x2.
A partir da anlise do grfico mostrado na figura 1, nota-se a existncia de duas classes e valores
aleatrios na faixa de [-1,4].
Classe A 200
Classe B 200
Aleatrios 100
Tabela 1- Classes da matriz 'dados.txt'
Foi abordado tambm a possibilidade de trabalhar com os dados no formato original, realizando
o escalonamento linear ou a transformao das variveis Z-score. Valores de dados contnuos devem ser
Usando a normalizao Min-Max, mostrada na equao 1, os valores esto no intervalo de
[0,1]. Na padronizao Z-Score, apresentada na equao 2, os valores esto no intervalo de [-2,2.5].
x(i) min( x)
Min Max (1)
max( x) min( x)
x(i) media( x)
Z score (2)
desv. padro( x)
Figura 5- Plot das amostras aleatrias (a). Programa MATLAB para escolhas das amostras. (b)
Esse mtodo similar ao Vizinho Prximo (NN) diferenciando-se pelo fato de calcular a mdia
dos elementos da amostra para servir como parmetro de proximidade entre o objeto desconhecido.
6. Vantagens e Desvantagens
Umas das vantagens desse mtodo o fato dele conseguir se adaptar forma de distribuio
dos dados de treinamento, possibilitando a obteno de um bom resultado quando o conjunto de
treinamento grande ou representa todas as variaes possveis dos dados, principalmente no caso de
k=n. Outro bom fator a tcnica simples e facilmente implementada
Um fator negativo o desgaste computacional, principalmente se for um grande conjunto de
dados. J que classificar um exemplo desconhecido requer clculos de distncia para cada exemplo de
treinamento. Isso pode consumir muito tempo. Outro problema que a classificao pode ser
prejudicada pela presena de rudo ou caractersticas irrelevantes.
7. Concluso