Beruflich Dokumente
Kultur Dokumente
AGRRIAS
Ps-graduao em agronomia cincia do solo: CPGA-CS
ANLISE DE AGRUPAMENTO
Carlos Alberto Alves Varella
INTRODUO
Anlise de agrupamento ou Cluster analysis:
Sequncia de regras (algoritmo) para agrupar
objetos sem inferncia de probabilidade a priori
dos grupos. Tcnica utilizada em classificadores
denominados de no supervisionados.
Dado um conjunto de n unidades amostrais
(tratamentos, objetos, indivduos, ...), os quais
so medidos segundo p variveis, obter um
algoritmo que possibilite reunir os indivduos, tal
que exista homogeneidade dentro do grupo e
heterogeneidade entre grupos (Regazzi, 2000).
MEDIDAS DE DISSIMILARIDADE
Distncia euclidiana
Distncia euclidiana mdia
Distncia de Mahalanobis
A maioria dos algoritmos de anlise de
agrupamento tm como base estas
medidas de dissimilaridade;
Quanto maior for a medida de
dissimilaridade menor ser a semelhana
entre os indivduos.
MEDIDAS DE SIMILARIDADE
O coeficiente de correlao uma medida
de similaridade, enquanto que a distncia
euclidiana uma medida de
dissimilaridade;
Quanto maior for a medida de similaridade
maior semelhana entre os indivduos.
Distncia euclidiana
A
distncia euclidiana entre os indivduos
a e b dada analiticamente por:
Distncia euclidiana
A distncia euclidiana ente os indivduos a
e b dada matricialmente por:
Distncia euclidiana
recomendvel a padronizao das
variveis antes de se obter o valor da
distncia euclidiana, devido que
normalmente todos os dados no esto no
mesmo padro de medidas.
Distncia euclidiana mdia
A distncia euclidiana cresce medida
que cresce o nmero de variveis. Uma
maneira de eliminar o efeito do nmero de
variveis dividir o valor da distncia
euclidiana pela raiz quadrada do nmero
de variveis.
Distncia de Mahalanobis
A
distncia de Mahalanobis entre os indivduos a
e b dada por:
em que,
MTODOS DE AGRUPAMENTO
Existem diversos mtodos de
agrupamento que podem resultar em
diferentes padres de agrupamento. O
pesquisador deve decidir qual o mtodo
mais adequado ao seu trabalho. Os
mtodos mais utilizados so:
Mtodos hierrquicos
Mtodos hierrquicos de
agrupamento
Nestes mtodos os indivduos so
alocados nos grupos em diferentes etapas,
de modo hierrquico, o resultado final
uma rvore de classificao. Os mtodos
hierrquicos mais utilizados so:
(15) 2 3 4
(15) 0 5 10 7
2 0 5 2
3 0 3
4 0
Matriz de distncia D3
Distncia euclidiana entre d24 e os demais
indivduos da populao ;
O menor valor em D3 d(24)3 = 3, ento
o indivduo 3 includo no grupo de 2 e 4.
Ind. (15) (24) 3
(15) 0 5 10
(24) 0 3
3 0
Matriz de distncia D4
Distncia euclidiana entre (234) e (15) ;
O grupo (234) includo no grupo (15),
formando assim um nico grupo. Fim do
agrupamento.
(15) (234)
(15) 0 5
(234) 0
Resumo do mtodo do vizinho mais
prximo
Tabela resumindo passos, grupos e
distncias entre grupos.
options ls=120;
proc print data=cluster.Dist(Obs=10);
title2 'Output data set from PROC DISTANCE';
run;