Beruflich Dokumente
Kultur Dokumente
ii
iii
SERVIO DE PS-GRADUAO DO
ICMC-USP
Data de Depsito: 23 de janeiro de 2012
Assinatura:
USP - So Carlos
Janeiro de 2012
iv
Resumo
Aprendizado de mquina figura como uma rea de pesquisa que visa a desenvolver mtodos computacionais capazes de aprender com a experincia.
As tcnicas tradicionais de aprendizado de mquina, na construo de classificadores, necessitam de uma grande quantidade de dados rotulados. Estes
dados so geralmente difceis de serem obtidos, principalmente quando envolvem a rotulao manual por parte de um especialista. Recentemente, uma nova
vertente da rea de aprendizado de mquina, intitulada aprendizado semissupervisionado, tem atrado a ateno de muitos pesquisadores. Esta forma de
aprendizado objetiva a propagao de rtulos para todos os dados no rotulados, de tal forma a preservar a distribuio original. Alm disso, recentemente,
um crescente interesse nas tcnicas que utilizam redes para representar os dados foi verificado. Este fato deve-se ao surgimento das redes complexas como
um tpico unificador de sistemas complexos e como uma poderosa ferramenta
de representao e abstrao de dados, sendo capazes de capturar suas relaes
espaciais, topolgicas e funcionais. Nos ltimos anos, foram desenvolvidas tcnicas de aprendizado de mquina baseadas em competio partculas por meio
de redes complexas, as quais dispem de alta preciso e baixa complexidade
computacional. Todavia, apenas resultados empricos esto presentes na literatura, carecendo tal modelo de uma anlise matemtica rigorosa. Com o intuito
de suprir esta lacuna, neste projeto sero desenvolvidas tcnicas de competio de partculas, no contexto de aprendizado semissupervisionado, baseadas
em competio e cooperao de partculas em redes complexas, em conjunto
com uma modelagem analtica do sistema competitivo. A hiptese assumida
que tal modelo de competio exista e possa ser analiticamente avaliado. Alm
disso, o assunto de confiabilidade dos dados em aprendizado semissupervisionado ser analisado, o qual ainda configura-se como um ramo pouco estudado
na literatura. Com o objetivo de validar as tcnicas desenvolvidas em problemas reais, estas sero aplicadas para anlise de dados em bases amplamente
aceitas na comunidade. Os modelos matemticos propostos sero avaliados
quanto a sua acurcia na previso dos processos descritos, por meio de mtodos estatsticos. Enfim, acredita-se que este estudo possa gerar contribuies
relevantes para a rea de aprendizado de mquina.
Palavras-chave: aprendizado competitivo, caminhadas aleatrias, aprendizado semissupervisionado, classificao, redes complexas.
vi
Abstract
vii
viii
Sumrio
Resumo
Abstract
vii
Sumrio
ix
Lista de Figuras
xi
Introduo
1.1 Objetivos e Motivaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Organizao do Documento . . . . . . . . . . . . . . . . . . . . . . . . . .
Redes Complexas
2.1 Evoluo Histrica . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Modelos de Formao de Rede . . . . . . . . . . . . . . . . . . . .
2.2.1 Redes Randmicas . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Redes de Pequeno Mundo . . . . . . . . . . . . . . . . . . .
2.2.3 Redes Livre de Escala . . . . . . . . . . . . . . . . . . . . .
2.2.4 Redes Aleatrias Clusterizadas . . . . . . . . . . . . . . . .
2.3 Deteco de Comunidades . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Conceitos Relevantes . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Trabalhos Relevantes . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Competio de Partculas para Deteco de Comunidades
2.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Aprendizado Semissupervisionado
3.1 Aprendizado de Mquina . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Aprendizado Semissupervisionado: Definies, Motivaes e Modelos
3.2.1 Uma Breve Evoluo Histrica . . . . . . . . . . . . . . . . . . .
3.2.2 Motivaes para o Aprendizado Semissupervisionado . . . . .
3.2.3 Formulao Matemtica . . . . . . . . . . . . . . . . . . . . . . .
3.3 Abordagens de Aprendizado Semissupervisionado . . . . . . . . . . .
3.3.1 Modelos Generativos . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Mtodos de Separao por Regies de Baixa Densidade . . . . .
3.3.3 Mtodos Baseados em Grafos . . . . . . . . . . . . . . . . . . . .
3.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
1
5
8
.
.
.
.
.
.
.
.
.
.
.
11
11
13
13
15
17
18
20
20
20
21
23
.
.
.
.
.
.
.
.
.
.
25
25
28
28
29
30
32
32
33
33
47
Sumrio
Resultados Obtidos
4.1 Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Viso Geral do Modelo . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Derivao da Matriz de Transio Competitiva . . . . . . . . . . .
4.1.3 O Modelo de Aprendizado Competitivo Semissupervisionado . .
4.1.4 As Condies Iniciais do Sistema Competitivo . . . . . . . . . . .
4.1.5 O Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.6 Anlise de Complexidade Algortmica . . . . . . . . . . . . . . . .
4.2 Anlise Matemtica do Modelo Competitivo . . . . . . . . . . . . . . . .
4.2.1 Resultados Tericos . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Um Exemplo Numrico . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Validao dos Resultados Tericos . . . . . . . . . . . . . . . . . .
4.3 Simulaes Computacionais . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Anlise Emprica da Sensibilidade dos Parmetros do Modelo . .
4.3.2 Simulaes com Bases de Dados Artificiais . . . . . . . . . . . . .
4.3.3 Simulaes em Bases de Dados Reais . . . . . . . . . . . . . . . .
4.3.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . .
49
Proposta de Pesquisa
5.1 Estratgia de Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Modelagem da Tcnica de Competio de Partculas para Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . .
5.1.2 Anlise Matemtica do Modelo de Competio Semissupervisionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.3 Extenso do Modelo Competitivo ao Aprendizado No Supervisionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.4 Deteco de Vrtices e Comunidades Sobrepostos . . . . . . . . .
5.1.5 Tratamento da Confiabilidade dos Dados no Processo de Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . .
5.2 Atividades e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Materiais e Recursos Disponveis . . . . . . . . . . . . . . . . . . . . . . .
5.4 Forma de Anlise dos Resultados . . . . . . . . . . . . . . . . . . . . . . .
97
97
Referncias Bibliogrficas
49
49
52
60
62
63
64
67
67
80
83
85
85
87
90
96
98
98
99
100
101
102
103
103
105
Lista de Figuras
1.1
2.1
2.2
2.3
2.4
2.5
3.1
3.2
3.3
14
16
16
18
19
27
30
Motivao para utilizao de grafos. (a) Problema inicial para classificao semissupervisionada. (b) Resultado obtido aplicando SVM. (c)
Resultado obtido aplicando kNN. (d) Resultado ideal. Figura extrada
de Zhou et al. (2003). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
xi
xii
Lista de Figuras
4.1
Uma tpica situao em que a partcula vermelha, presentemente localizada no vrtice v1 , tem de selecionar o prximo vizinho a visitar. Neste
exemplo, h 2 partculas, vermelha e azul (a partcula azul no mostrada). A cor bege denota os vrtices que ainda no foram dominados
por quaisquer partculas at o instante t. . . . . . . . . . . . . . . . . . . .
4.2 Ilustrao do procedimento de reanimao. H duas partculas, a vermelha e azul, localizadas nos vrtices v17 e v1 no instante t, respectivamente, as quais se tornaram exaustas. A rede engloba 20 vrtices. A
cor do vrtice representa qual partcula est impondo o maior nvel de
dominao no tempo t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Diagrama de fluxo que indica, em alto nvel, como o sistema dinmico
evolui no tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(t) se estabilize. Cada ponto na curva
4.4 Tempo consumido para que N
uma mdia de 10 realizaes independentes. As barras verticais de erro
representam o maior e menor tempos de processamento. . . . . . . . . .
4.5 Uma rede construda para ilustrar a trajetria que uma partcula deve
percorrer para aumentar uma entrada arbitrria de N (t) o mais rpido
possvel. (a) Rede sem autolaos; (b) rede com autolaos. . . . . . . . . .
4.6 Comparao entre as distribuies terica e emprica para trs vrtices
distintos: v4 , v11 e v16 em relao ao nvel de dominao imposto pela
partcula vermelha. Pode-se verificar que o nvel de dominao mais
provvel que a partcula vermelha impor ao vrtice v4 ser aproximadamente de 0.88 com 34% de chance, ao vrtice v11 ser 0.53 com 47% de
chance, e ao vrtice v16 ser 0.14 com 33% chance. . . . . . . . . . . . . .
4.7 Acurcia de classificao vs. . Nestas simulaes, N = 1000, h 4
comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.07.
Cada ponto na curva a mdia de 100 realizaes. As barras verticais
indicam o desvio padro. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Acurcia de classificao vs. . Nestas simulaes, N = 1000, h 4
comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.6.
Cada ponto na curva a mdia de 100 realizaes. As barras verticais
indicam o desvio padro. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9 Ilustrao de um processo de classificao semissupervisionada via competio de partculas. As redes possuem 100 vrtices. Vrtices escuros
ainda no foram dominados por nenhuma partcula. As cores nos vrtices representam a partcula que o est dominando. Retrato da rede
quando: (a) t = 0; (b) t = 100; (c) t = 200; e (d) t = 300. . . . . . . . . . .
4.10 Comportamento evolucional do nvel de dominao mdio imposto pelas partculas no modelo. (a) Nvel mdio de dominao imposto pela
partcula 1; e (b) Mesma informao para a partcula 2. . . . . . . . . . .
4.11 Classificao de dados semissupervisionada. A cor do vrtice indica a
partcula que o est dominando. Os pontos escuros so vrtices ainda
no dominados. (a) e (b) Duas classes com formatos de banana; (c) e (d)
Duas classes, cada qual seguindo uma distribuio Highleyman; (e) e (f)
Duas classes, cada qual seguindo uma distribuio Lithuanian; (g) e (h)
Quatro classes, cada qual seguindo uma distribuio Gaussiana. . . . . .
55
59
63
68
74
85
86
87
88
89
91
C APTULO
1
Introduo
Captulo 1 - Introduo
induzido a partir de uma base de dados, geralmente, composta por uma grande
quantidade de dados no rotulados e apenas uma pequena parcela de dados rotulados fornecida. Desta forma, o trabalho do especialista na rotulagem dos exemplos
consideravelmente reduzido. Alm disso, resultados empricos tm demonstrado que
a utilizao de dados no rotulados pode aumentar o desempenho do classificador
(Chapelle et al., 2006).
A competio um processo natural observvel na natureza e em diversos sistemas sociais que compartilham recursos escassos, tais como gua, comida, parceiros,
territrios, entre muitos outros. O aprendizado competitivo uma importante abordagem no aprendizado de mquina e amplamente utilizado em redes neurais artificiais para realizar aprendizado no supervisionado. Trabalhos relevantes anteriores
incluem o desenvolvimento do famoso Mapa Auto-Organizvel (SOM - Self-organizing
Map) (Kohonen, 1990), Aprendizado Competitivo Diferencial (Kosko, 1991), e Teoria
de Ressonncia Adaptativa (ART - Adaptive Resonance Theory) (Carpenter e Grossberg,
1987; Grossberg, 1987). Desde ento, muitas redes neurais baseadas em aprendizado
competitivo foram desenvolvidas (Amorim et al., 2007; Athinarayanan et al., 2002; Jain
et al., 2010; Kaylani et al., 2010; Lu e Ip, 2009; Lpez-Rubio et al., 2009; Meyer-Bse e
Thmmler, 2008; N. Allinson e Slack, 2001; Principe e Miikkulainen, 2009; Tan et al.,
2008) e uma vasta gama de aplicaes foi verificada (Bacciu e Starita, 2008; Chen et al.,
2005; Deboeck e Kohonen, 2010; do Rgo et al., 2010; Liu et al., 2008; Wang et al., 2009;
Xu e II, 2005), quais sejam em agrupamento de dados, visualizao computacional
de dados, reconhecimento de padres e processamento de imagens. Sem sombras de
dvidas, redes neurais baseadas em aprendizado competitivo representam um dos
principais sucessos do desenvolvimento de redes neurais. Entretanto, dois problemas
remanescem: (i) geralmente, a rede construda pequena. Desta forma, a competio
ocorre entre um pequeno nmero de neurnios; consequentemente, o modelo pode
no exibir grande robustez para o processamento dos dados. (ii) No h uma ligao
direta entre os dados de entrada e a rede neural treinada. Quando um grande conjunto
de dados mapeado em uma rede com um pequeno nmero de neurnios, constitui
uma tarefa complexa traduzir a correspondncia entre os dados originais e a rede neural treinada. Esta uma das razes pelas quais as redes neurais so, normalmente,
consideradas como sistemas caixa-preta.
Uma caminhada aleatria uma formalizao matemtica de uma trajetria consistindo em tomar sucessivos passos aleatrios. Tal conceito j foi usado para descrever
muitos fenmenos naturais, bem como foi aplicado para resolver inmeros problemas
de engenharia, tais como em correspondncia entre grafos (graph matching) e reconhecimento de padres (Gori et al., 2005), segmentao de imagens (Grady, 2006), modelagem de redes neurais (Jiang e Wang, 2000; Liang et al., 2009), indicao de centralidade
de uma rede (Noh e Rieger, 2004), partio de redes (Zhou, 2003a), construo e an-
lise de redes de telecomunicao (Zeng et al., 2010; Zhong et al., 2008), entre diversos
outros. Entretanto, at o presente momento, no h teoria ainda que descreva um processo geral de vrias caminhadas aleatrias que se interagem.
Nos ltimos anos, ocorreu um intenso desenvolvimento em uma rea de pesquisa
chamada redes complexas. Tais redes tm emergido como um tpico unificador em sistemas complexos e esto presentes em vrios ramos da cincia (Bornholdt e Schuster,
2003). Estruturalmente, as redes complexas so representadas por um grafo de grande
escala G = V , E , em que V representa o conjunto de vrtices e E , o conjunto de
arestas. Segundo Albert et al. (2004), as redes complexas so modelos para sistemas
em geral, em virtude de possurem uma topologia no trivial, alm de serem compostas por uma grande quantidade de vrtices. Dentre alguns exemplos plausveis
de representao em rede, incluem-se: a Internet (Faloutsos et al., 1999), a World Wide
Web (WWW) (Albert et al., 1999), redes neurais biolgicas (Sporns, 2002), redes sociais
entre indivduos (Scott, 2000) e entre companhias e organizaes (Mizruchi, 1982), cadeias alimentares (Montoya e Sol, 2002), redes do metabolismo (Jeong et al., 2000) e
de distribuio como a corrente sangunea (West et al., 1999), rotas de entrega postal e
de distribuio de energia eltrica (Albert et al., 2004), etc. De acordo com (Strogatz,
2001), algumas caractersticas inerentes a esse tipo de rede so: a complexidade estrutural - que se traduz na dificuldade de visualizao da rede; a evoluo - que marca
a constante alterao na estrutura da rede devido incluso e remoo de vrtices
e conexes; a diversidade de conexes - pois estas ligaes entre os vrtices podem
apresentar muitas variaes em suas caractersticas, tais como a capacidade, o comprimento, a largura e o sentido; e a dinmica e a estrutura complexas - as quais influem em
grande escala nos estados de uma rede, j que podem ser entendidas como o trfego
de informaes (Zhao et al., 2007), as ocorrncias de falhas de comunicao (Zhao et al.,
2004, 2005, 2007), as relaes de similaridade entre vrtices, a distribuio de funes
(Newman, 2003), entre outras.
As redes com topologias complexas eram tradicionalmente descritas, em meados
da dcada de 60, de acordo com o modelo proposto em (Erds e Rnyi, 1959), mais conhecido como grafos randmicos ou redes randmicas. Em 1998, Watts e Strogatz descobriram que a mdia de caminhos mais curtos em uma rede pode ser drasticamente
reduzida por uma alterao aleatria de poucas ligaes, partindo-se de uma rede regular (Watts e Strogatz, 1998). Esta rede resultante chamada de Rede de Pequeno
Mundo (Small-World Network). Em 1999, Barabsi e Albert descobriram que muitas
redes reais tm uma distribuio de grau dos vrtices que obedece a lei de potncia:
P(k ) k , na qual k o nmero de ligaes de um vrtice escolhido aleatoriamente
e o expoente de escala (Barabasi e Albert, 1999). Essa distribuio heterognea modela a existncia de um pequeno grupo de vrtices que apresenta um grande nmero
de ligaes. Tais redes so denominadas Redes Livres de Escala (Scale-free Networks).
Captulo 1 - Introduo
Por outro lado, existem as Redes Aleatrias (Random Networks), que tm uma distribuio de grau homognea, resultando, nesse caso, na ausncia de vrtices dominantes.
Ademais, algumas redes complexas, ou modelagens de sistemas e dados como redes, apresentam comunidades (Danon et al., 2007). Tais comunidades podem ser definidas como grupos de vrtices da rede densamente conectados, enquanto que as conexes entre vrtices de grupos diferentes so esparsas (Newman e Girvan, 2004), conforme pode ser observado na Figura 1.1. Pela figura, de fcil percepo que existem
inmeras conexes entre vrtices da mesma comunidade e uma quantidade escassa do
mesmo entre comunidades distintas. As comunidades representam padres de interao entre os vrtices de uma rede e sua identificao importante para o entendimento
dos mecanismos de crescimento e formao da rede (Clauset, 2005).
Figura 1.1: Exemplo de rede com estrutura de comunidades retirado de uma rede de protenas.
As cores representam as comunidades. Figura extrada de (Girvan e Newman, 2002)
Recentemente, muitas tcnicas para a deteco de comunidades tm sido desenvolvidas (Boccaletti et al., 2007; Danon et al., 2007; Newman e Girvan, 2004; Reichardt
e Bornholdt, 2004; Zhou, 2003b). As tcnicas de deteco de comunidades em redes
complexas podem ser diretamente empregadas para se realizar o aprendizado no supervisionado de agrupamento de dados (Cook e Holder, 2000; Karypis et al., 1999;
Quiles et al., 2008; Schaeffer, 2007). Para tanto, o conjunto de dados deve ser transformado em uma rede. Este processo pode ser realizado tomando cada item de dado
como um vrtice de uma rede. As ligaes entre os vrtices definem as similaridades
entre os dados. Assim, dados com maiores similaridades estaro mais conectados en-
tre si e pouco ligados a outros dados com menores similaridades. Logo, a aplicao de
tcnicas de deteco de comunidades na rede permite evidenciar os grupos de vrtices
fortemente ligados, ou seja, as comunidades. Em suma, uma tarefa de agrupamento de
dados se transforma em uma tarefa de deteco de comunidades, to logo que a rede
seja construda a partir do conjunto de dados. Alm disso, essa abordagem apresenta
interessantes vantagens em relao a outras abordagens de agrupamento de dados,
como a capacidade de deteco de clusters de formas variadas e a representao hierrquica dos dados, como, por exemplo, na forma de dendogramas (Duda et al., 2000;
Jain et al., 1999).
1.1
Objetivos e Motivaes
Este projeto de pesquisa traz como objetivo geral o desenvolvimento e fundamentao terico-matemtica de uma nova tcnica de aprendizado semissupervisionado
para a anlise de dados baseada em redes complexas. A hiptese assumida da existncia de tal modelo matemtico que represente o comportamento de competio de
partculas. Os objetivos especficos so listados abaixo.
1. Proposio e desenvolvimento de uma nova tcnica de aprendizado semissupervisionado baseada em competio de partculas em redes complexas. Neste caso,
alguns vrtices da rede so rotulados, ou seja, suas classes (grupos) so previamente definidas. O modelo a ser desenvolvido dever ser capaz de propagar os
rtulos para os outros vrtices da rede via competio e cooperao de partculas, de forma eficiente em relao aos algoritmos j produzidos na literatura. Um
mecanismo de cooperao entre as partculas ser desenvolvido, de forma que
partculas do mesmo time propaguem o mesmo tipo de rtulo (classe). Esperase que a proposio desse modelo dinmico competitivo trar uma contribuio
para o campo de mltiplas caminhadas aleatrias com interao, cuja modelagem e estudo inexistem na literatura.
2. A partir do modelo semissupervisionado desenvolvido na etapa anterior, ser
conduzida uma anlise matemtica do modelo, a fim de descrever o comportamento emprico do mesmo por meio de equaes probabilsticas. esperado
tambm que uma validao seja realizada, com o propsito de constatar se o
modelo matemtico realmente se assemelha com o comportamento emprico do
modelo competitivo.
3. O modelo semissupervisionado ser estendido ao modo de aprendizado no supervisionado. Neste caso, espera-se que o modelo possa realizar tarefas de deteco de comunidades e agrupamento de dados. Para o caso de tarefas de deteco
Captulo 1 - Introduo
movimentao das partculas pode, de forma substancial, melhorar a taxa de classificao, como ser visto no captulo de resultados obtidos. Este modelo corrobora a
importncia do papel da aleatoriedade em sistemas evolucionrios, cuja funo principal de evitar, de forma automtica, que as partculas caiam em armadilhas locais,
alm de proporcionar, para as partculas, a habilidade de explorar territrios desconhecidos. Logo, uma certa quantidade de aleatoriedade essencial para o processo
de aprendizado. Tal aleatoriedade incumbida de representar o estado No sei e
presta-se como um eficiente explorador de novas caractersticas.
O modelo de competio de partculas foi originalmente proposto em Quiles et al.
(2008) no campo de aprendizado no supervisionado, em que apenas um procedimento de competio de partculas foi introduzido, sem nenhuma definio formal.
Tal tcnica mostra pelo menos duas vantagens salientes, em cotejo entre muitas outras
tcnicas de deteco de comunidades atuais (Boccaletti et al., 2007; Danon et al., 2007;
Newman e Girvan, 2004; Reichardt e Bornholdt, 2004; Zhou, 2003b): (i) o mecanismo
de competio de partculas no s oferece uma tcnica de deteco de comunidades,
mas tambm apresenta um esquema geral de aprendizado de mquina competitivo;
e (ii) a tcnica apresenta alta preciso de deteco e, ao mesmo tempo, baixa ordem
de complexidade computacional. No trabalho presente, uma definio rigorosa ser
fornecida, na qual a competio de partculas formalmente modelada a partir de um
sistema dinmico estocstico. Tal modelo , ao contrrio do originalmente proposto em
Quiles et al. (2008), utilizado em classificao semissupervisionada, i.e., no campo de
aprendizado semissupervisionado. Alm disso, um mecanismo de cooperao entre
as partculas ser introduzido. Tendo em vista que o modelo de vrias partculas que
se interagem corresponde a muitos sistemas naturais e artificiais, o estudo deste tpico configura-se como uma importante tarefa. Em virtude da ausncia de teoria para
tais modelos, este trabalho (a definio do modelo per se) um importante passo para
compreender e dominar tais sistemas. Adicionalmente, o mecanismo de cooperao
entre partculas permite que partculas do mesmo time propaguem o mesmo tipo de
rtulo e, ao mesmo tempo, times distintos compitam uns contra os outros para definir
as bordas das classes. Outra caracterstica saliente do modelo a propagao local dos
rtulos, i.e., em decorrncia do processo competitivo, cada partcula apenas visita uma
poro de vrtices potencialmente pertencente quela partcula ou ao seu time. Esta
caracterstica pode ser entendida como um efeito dividir para conquistar embutido
no prprio esquema competitivo-cooperativo. Em funo disto, muitas caminhadas
longas e redundantes realizadas pelas partculas so evitadas. Como resultado, o algoritmo apresenta complexidade temporal baixa. Outra particularidade importante
que a rede subjacente construda diretamente do conjunto de dados de entrada; portanto, a correspondncia entre os dados de entrada e o resultado de processamento (a
rede final) mantida. Como consequncia disso, o efeito caixa-preta, o qual existe,
Captulo 1 - Introduo
1.2
Organizao do Documento
Este documento foi organizado da seguinte forma: nos Captulos 2 e 3, sero fornecidos uma reviso bibliogrfica pertinente ao projeto de pesquisa proposto: Redes
10
Captulo 1 - Introduo
C APTULO
2
Redes Complexas
2.1
Evoluo Histrica
12
portas para uma rea de estudos: a teoria de redes aleatrias, que representa uma mistura de teoria dos grafos e teoria da probabilidade (Erds e Rnyi, 1959).
Seguindo a cronologia, em 1967, Stanley Milgram resolveu aceitar o desafio proposto por Frigyes Karinthy, inspirado pelas conjecturas de Guglielmo Marconi em
1909, o qual desafiava algum encontrar outra pessoa a qual no poderia ser conectada por meio de, no mximo, 5 pessoas intermedirias (Milgram, 1967). Estava lanado o conceito denominado de separao em seis graus, que constituiu a semente
para o estudo de redes de pequeno mundo. Para solucionar tal desafio, Milgram conduziu experimentos no intuito de tentar descobrir a probabilidade de duas pessoas
quaisquer se conhecerem. Para tanto, foram enviadas cartas para pessoas aleatrias
residentes em regies pr-determinadas dos Estados Unidos, cujo contedo versava
sobre informaes de outra pessoa qualquer. Caso a pessoa referida na carta fosse conhecida pelo leitor, ento este remetia a carta para o destinatrio. Por outro lado, caso
no a conhecesse, ento deveria enviar para alguma outra pessoa conhecida. No fim
do experimento, Milgram constatou que a mdia de encaminhamentos de uma pessoa
para outra atingia 5, 5 pessoas. Estava, portanto, descoberta a propriedade de pequeno
mundo, em termos empricos, que afirma que mesmo que existam milhes de vrtices interconectados em uma rede social, a distncia mdia entre eles no passa de um
pequeno valor, no caso do exemplo, 5, 5 pessoas (Milgram, 1967).
Apesar das concluses de Milgram, foi somente no final da dcada de 90 que as
pesquisas foram retomadas nesta rea. Em 1998, Watts e Strogatz descobriram que a
mdia de caminhos mais curtos em uma rede pode ser drasticamente reduzida por
uma alterao aleatria de poucas ligaes, partindo-se de uma rede regular (Watts e
Strogatz, 1998). Esta rede resultante chamada de Rede de Pequeno Mundo (SmallWorld Network), j empiricamente descoberta por Milgram. Em 1999, Barabsi e Albert
descobriram que muitas redes reais tm uma distribuio de grau dos vrtices que
obedece a lei de potncia: P(k) k , na qual k o nmero de ligaes de um vrtice
escolhido aleatoriamente e o expoente de escala (Barabasi e Albert, 1999). Essa
distribuio heterognea modela a existncia de um pequeno grupo de vrtices que
possuem um grande nmero de ligaes. Tais redes so denominadas Redes Livre de
Escala (Scale-free Networks).
Impulsionada pelo avano tecnolgico computacional e as crescentes propores
de dados a serem analisados, as redes complexas tm emergido como um tpico unificador em sistemas complexos e esto presentes em vrios ramos da cincia (Bornholdt
e Schuster, 2003). Estruturalmente, as redes complexas so representadas por um grafo
de grande escala G = V , E , onde V representa o conjunto de vrtices e E , o conjunto
de arestas. Segundo Albert et al. (2004), as redes complexas so modelos para sistemas
em geral, em virtude de possurem uma topologia no trivial, alm de serem compostas por uma grande quantidade de vrtices. Dentre alguns exemplos plausveis de
13
representao em rede, incluem-se: a Internet (Faloutsos et al., 1999), a World Wide Web
(Albert et al., 1999), redes neurais biolgicas (Sporns, 2002), redes sociais entre indivduos (Scott, 2000) e entre companhias e organizaes (Mizruchi, 1982), cadeias alimentares (Montoya e Sol, 2002), redes do metabolismo (Jeong et al., 2000) e de distribuio
como a corrente sangunea (West et al., 1999), rotas de entrega postal e de distribuio
de energia eltrica (Albert et al., 2004), etc. De acordo com (Strogatz, 2001), algumas caractersticas inerentes a esse tipo de rede so: a complexidade estrutural - que se traduz
na dificuldade de visualizao da rede; a evoluo - que marca a constante alterao
na estrutura da rede devido incluso e remoo de vrtices e conexes (Dorogovtsev e Mendes, 2003); a diversidade de conexes - pois estas ligaes entre os vrtices
podem apresentar muitas variaes em suas caractersticas, tais como a capacidade, o
comprimento, a largura e o sentido; e a dinmica e a estrutura complexas - as quais
influem em grande escala nos estados de uma rede, j que podem ser entendidas como
o trfego de informaes (Zhao et al., 2007), as ocorrncias de falhas de comunicao
(Zhao et al., 2004, 2005, 2007), as relaes de similaridade entre vrtices, a distribuio
de funes (Newman, 2003), entre outras.
2.2
2.2.1
Redes Randmicas
A rede desenvolvida por Erds e Rnyi pode ser considerada o modelo mais fundamental das redes complexas. No seu artigo de 1959 (Erds e Rnyi, 1959), Erds
e Rnyi apresentaram um modelo gerador de redes aleatrias consistindo de N vrtices e M arestas. Iniciando de N vrtices completamente desconectados (nenhuma
aresta na rede), a rede construda a partir da adio de L arestas aleatoriamente, sempre evitando conexes mltiplas ou autoconexes (determinado vrtice i ligar com ele
mesmo). Outro modelo similar define N vrtices e uma probabilidade p de conectar
cada par de vrtices. O ltimo modelo amplamente reconhecido como o modelo de
Erds e Rnyi. A Figura 2.1a mostra um exemplo que goza dessa propriedade de rede
14
randmica.
Figura 2.1: Um exemplo de rede aleatria de Erds e Rnyi. (a) uma rede construda por meio
da abordagem randmica proposta por Erds e Rnyi; (b) o grfico da mdia de distribuio de
grau de uma rede apresentando N = 10000 e p = 0.2. Figura integralmente extrada de Costa
et al. (2007).
Uma vez que, para cada vrtice i da rede (de um total de N), existem N 1 possibilidades de conexo, segue que a cardinalidade do espao amostral, que representa a
totalidade de opes em uma rede que uma aresta pode existir, dada por:
|| =
N ( N 1)
,
2
(2.1)
sendo que a diviso por dois decorre do fato que as arestas aqui tomadas no so
direcionadas, isto , se existe uma aresta que origina de vi e termina em v j , ento, por
consequncia, considera-se que a mesma aresta tambm origina-se em v j e termina em
vi . Em termos gerais, a presena dessas duas arestas representa a ocorrncia do mesmo
evento probabilstico. Tendo como base que, para cada aresta que esteja inclusa no
espao amostral , existe a probabilidade p dela ocorrer e de 1 p, no caso contrrio,
e sabendo que h ( N k1) formas de escolher k vrtices entre N 1 no total, e pk a
probabilidade deles terem k arestas, ento ( N k1) pk representa a probabilidade de um
vrtice da rede possuir arestas para k outros vrtices. Entretanto, deve-se impor no
modelo que no exista mais nenhuma aresta, alm dessas k, ou seja, para a quantidade
de vrtices restantes, dada por N 1 k, que deva ocorrer o evento complementar
de existir arestas, isto , (1 p)( N 1k) . Portanto, a distribuio de grau segue uma
Binomial ( N 1, p), cuja equao regida pela seguinte expresso:
P(grau(k )) =
N1 k
p (1 p)( N 1)k .
k
(2.2)
15
( N 1) p = .
(2.3)
2.2.2
16
que todas as arestas troquem de vrtice-destino (Watts e Strogatz, 1998). A Figura 2.3
traz um esquemtico do comportamento do parmetro p, responsvel pela frequncia
de remanejamento das arestas. Perceba que para valores de p pequenos, tem-se redes
efetivamente regulares. Conforme p aumenta, a propriedade de pequeno mundo se
torna evidente. Quando p = 1, a rede se torna randmica. O pico da distribuio de
grau, seguindo esta abordagem de construo, se localiza prximo do valor 2k (Watts,
2003; Watts e Strogatz, 1998).
Figura 2.2: Mtodo de construo de uma rede de pequeno mundo, de acordo com o proposto
por Watts e Strogatz em (Watts e Strogatz, 1998). Figura extrada de Costa et al. (2007).
Figura 2.3: Comportamento da rede com a mudana do parmetro responsvel pela frequncia
de remanejamento das arestas.
2.2.3
17
Em um estudo proposto por Barabsi e Albert, eles notaram que algumas redes
possuem um pequeno nmero de vrtices com graus elevados, enquanto que a maioria possui graus muito reduzidos (Barabasi e Albert, 1999). Com esta observao em
mente, em 1999, eles propuseram as redes livre de escala, na qual a distribuio de
grau obedece a lei de potncia (power-law) dada por:
P (k ) k ,
(2.4)
kj
.
u k u
(2.5)
18
de novas pginas ocorre a praticamente todo momento. Outro ponto que difere das
abordagens anteriores que os modelos vistos assumem que a probabilidade de dois
vrtices serem conectados independe do grau dos vrtices, ou seja, feita de forma
uniformemente aleatria. A maioria das redes reais, todavia, exibe a propriedade de
ligao preferencial, na qual a existncia de uma aresta depende diretamente do grau
do vrtice em questo. Retomando o exemplo da World Wide Web, fica evidente que
muito mais provvel haver uma ligao de uma nova pgina a outra que seja mais
referenciada em relao quelas j existentes na rede (Barabasi e Albert, 1999). A Figura
2.4a ilustra um exemplo de rede livre de escala. Perceba que, com o auxlio da Figura
2.4b, constata-se um nmero reduzido de vrtices com grau alto (evidenciado com
cores na rede em Figura 2.4a), enquanto que existem muitos vrtices com grau baixo,
o que mostra a tendncia de novos vrtices de se conectarem a vrtices com graus j
elevados.
Figura 2.4: ( a) Ilustrao de uma rede livre de escala; (b) Grfico da distribuio de grau em
funo do grau k. Figura modificada a partir da proposta em Barabasi e Albert (1999).
2.2.4
Algumas redes reais, tais como sociais e biolgicas, apresentam estruturas modulares (Girvan e Newman, 2002). Essas redes so constitudas de conjuntos ou comunidades de vrtices, com a caracterstica de que vrtices pertencentes a mesma comunidade
possuem muitas arestas os interligando e, ao mesmo tempo, vrtices de comunidades
distintas possuem poucas arestas ligando uma comunidade com a outra. Um modelo
para gerar tais comunidades foi proposto por Girvan e Newman (2002). Inicialmente,
um conjunto de N vrtices disposto em M comunidades distintas, sem sobreposio.
19
Figura 2.5: Esquemtico de uma rede aleatria clusterizada. As comunidades so representadas pelas cores. Figura integralmente retirada de Papadopoulos et al. (2009).
20
2.3
Deteco de Comunidades
Nesta seo, ser dada uma viso geral sobre os conceitos e tcnicas de deteco de
comunidades. Especificamente, especial ateno ser importada tcnica proposta em
Quiles et al. (2008), uma vez que o plano de pesquisa relaciona-se com esta tcnica.
2.3.1
Conceitos Relevantes
2.3.2
Trabalhos Relevantes
21
Nicosia et al., 2009; Palla et al., 2005; Shen et al., 2009; Sun et al., 2011; Zhang et al., 2007).
Em Zhang et al. (2007), os autores combinam a ideia da funo de modularidade Q, relaxao espectral e agrupamento por meio de fuzzy c-means com o intuito de construir
uma nova funo de modularidade baseada na funo generalizada Q de Newman e
Girvan. Em Palla et al. (2005), as estruturas de comunidades so descobertas por meio
de percolaes em cliques de k vrtices, enquanto que as sobreposies em comunidades so garantidas pelo fato que um vrtice pode participar de mais de um clique
ao mesmo tempo. Entretanto, o mtodo por cliques de tamanho k traz alguns efeitos indesejveis, e.g., alguns vrtices podem no pertencer a nenhuma comunidade na
rede. Alm disso, a estrutura hierrquica pode no ser revelada, dependendo da escolha do parmetro k. Em Lancichinetti et al. (2009), apresentado um algoritmo que
encontra tanto comunidades sobrepostas, quanto a estrutura hierrquica das parties
em comunidades, por intermdio de uma funo de otimizao e um parmetro de
resoluo fornecidos pelo usurio. Recentemente, Evans e Lambiotte (2009) propuseram um mtodo para reconhecer estrutura de comunidades sobrepostas por meio da
partio de um grafo em sub-grafos menores. Um ponto negativo da maioria dessas
tcnicas que a deteco de comunidades e vrtices sobrepostos realizada como um
processo dedicado, ou seja, separado do processo de deteco de comunidades. Desta
forma, um processamento computacional adicional necessrio.
2.3.3
A tcnica proposta por Quiles et al. (2008) ser estudada em detalhes nesta seo,
uma vez que ela se assemelha muito ao principal tpico de pesquisa desse documento.
Em termos gerais, tal tcnica se baseia em competio de partculas. Essas partculas navegam na rede com o propsito de conquistar novos vrtices, enquanto que,
tambm, tentam defender seus vrtices previamente conquistados. O modelo foi originalmente proposto para deteco de comunidades em redes complexas e, portanto,
figura-se como uma tcnica pertencente ao aprendizado no supervisionado.
Um partcula, denotada por j , matematicamente expressa por duas variveis escalares: (i) vj (t), a qual representa o vrtice vi visitado pela partcula j no instante t; e
(ii)
j ( t ) [ min , max ], a qual indica o potencial de explorao da partcula no tempo
t. A dinmica que rege a movimentao e atualizao da capacidade de explorao das
partculas dada por:
vj (t + 1) = vi
(2.6)
22
j (t)
j ( t + 1) = j ( t ) + ( max j ( t ))
(t) ( (t) )
j
se vi (t) = 0
se vi (t) = j = 0
se
min
vi ( t )
(2.7)
= j = 0
Cada vrtice vi da rede representado por meio de trs variveis escalares: (i) vi (t),
a qual define a partcula proprietria do vrtice vi no instante t; (ii) vi (t) indica o nvel
v i ( t + 1)
vi ( t )
j
se vi (t) = 0
vi ( t )
v i ( t + 1) =
max{min , vi (t) v }
j ( t + 1)
(2.8)
se vi (t) = 0
se vi (t) = 1 e vi (t) = j
se vi (t) = 1 e vi (t) = j
(2.9)
onde v denota a frao de nvel de explorao perdida por um vrtice, caso uma
partcula rival venha a visit-lo. O algoritmo de deteco de comunidades inicia inserindo K partculas em K vrtices escolhidos aleatoriamente. No incio do processo
dinmico, cada partcula j e cada vrtice vi possuem potencial igual a
j (0) = min
e vi (t) = min , respectivamente. Alm disso, cade vrtice no dominado por nenhuma partcula, i.e., ela est no estado livre, o qual matematicamente modelado por
vi (0) = 0. A cada iterao, cada partcula escolhe um vrtice para visitar, segundo
uma poltica de movimentao aleatria ou determinstica. Na primeira, a partcula
visita aleatoriamente os vizinhos, enquanto que, na segunda, a partcula prefere visitar vrtices j dominados por ela. A seguir, ilustram-se os casos que podem ocorrer
quando da escolha, por um partcula, de um vrtice adjacente:
23
j ( t );
3. Caso o vrtice visitado pertena a partcula diversa, ento os potenciais da partcula e do vrtice so enfraquecidos. Se o potencial da partcula
j atingir um
valor inferior que min , ento essa partcula reiniciada em um novo vrtice escolhido aleatoriamente. Caso o potencial do vrtice v
j atingir um valor menor
que min , ento o vrtice no mais propriedade de partcula alguma no modelo,
i.e., o mesmo regressa ao estado livre: v
j = 0.
Assim, o nvel de dominao de um vrtice aumenta, caso seja visitado pela partcula a qual o domina no instante atual. A contrario sensus, quando da visita de uma
partcula rival a um vrtice no dominado pela mesma, ocorre um enfraquecimento
do nvel de dominao da partcula proprietria sobre aquele vrtice. Caso essa dominao no for slida o suficiente, a partcula ora dominante perde a propriedade sobre
aquele vrtice. Em um amplo perodo de tempo, espera-se que cada partcula domine
uma comunidade na rede.
O modelo proposto em Quiles et al. (2008) apresenta duas caractersticas salientes:
(i) altas taxas de deteco de comunidades e (ii) baixa complexidade computacional.
No entanto, no trabalho original, apenas um procedimento de competio de partculas introduzido, sem nenhuma definio formal. Isto impossibilita qualquer anlise
ou predio do comportamento do modelo. Como ser visto mais para frente, uma das
principais contribuies dessa pesquisa apresentar um modelo rigoroso por meio de
um sistema dinmico estocstico competitivo.
2.4
Consideraes Finais
24
C APTULO
3
Aprendizado Semissupervisionado
Neste captulo, sero fornecidos conceitos fundamentais sobre o aprendizado semissupervisionado. Especificamente, sero analisadas tcnicas pertencentes ao aprendizado semissupervisionado, com nfase nas baseadas em redes.
3.1
Aprendizado de Mquina
26
distribuio original que o gerou, i.e., objetiva-se encontrar aqueles itens de dados que
so diferentes da maioria (Liu et al., 2004). Na reduo de dimensionalidade, espera-se
dispor os itens de dados em um espao dimensional inferior ao espao da distribuio
original, com o fim de simplificar as relaes entre os dados (Lim e Park, 2009). Na associao, buscam-se gerar regras que relacionem subconjuntos de atributos preditivos
(Piatetsky-Shapiro, 1991).
O segundo tipo de aprendizado denomina-se aprendizado supervisionado. A meta
aqui aprender um mapeamento de x para y, dado o conjunto de treinamento constitudo pelos pares ( xi , yi ). Neste caso, yi Y chamado de rtulo do exemplo xi .
Se os rtulos tiverem natureza numrica, ento y = (yi )iT[n] denota o vetor-coluna
de rtulos. Novamente, um requisito padro que os pares ( xi , yi ) sejam amostrados
identicamente e independentemente distribudos de uma distribuio mapeada no espao Y (Chapelle et al., 2006). Este aprendizado bem definido, uma vez que esse
mapeamento pode ser avaliado atravs do desempenho preditivo do classificador no
conjunto de testes. Quando Y = R ou Y = Rd , isto , o conjunto possvel de rtulos
contnuo, a tarefa chamada de regresso. Caso o conjunto de rtulos possveis seja
discreto, a tarefa dita de classificao. Existem duas famlias de algoritmos para o
aprendizado supervisionado. Os algoritmos generativos tentam modelar a densidade
condicional das classes p( x |y) utilizando algum procedimento de aprendizado no supervisionado. A densidade preditiva pode ser inferida a partir do teorema de Bayes:
p(y | x ) =
p( x | y) p(y)
.
p
(
x
|
y
)
p
(
y
)
dy
Y
(3.1)
27
(a)
(b)
(c)
Figura 3.1: Esquemtico dos trs modos de aprendizado de mquina. Aprendizado: (a) no
supervisionado (agrupamento); (b) semissupervisionado (classificao semissupervisionada);
(c) supervisionado (classificao supervisionada).
28
3.2
3.2.1
29
3.2.2
30
no rotulados, ento o aprendizado semissupervisionado capaz de melhorar o desempenho de uma tarefa supervisionada. Como exemplo, considere a Figura 3.2 em
que os crculos escuros denotam dados rotulados, enquanto que crculos claros, dados no rotulados. Aplicando-se um algoritmo supervisionado, a fronteira de deciso
seria estabelecida, muito provavelmente, nas vicinidades da linha pontilhada. De maneira anloga, algoritmos semissupervisionados fixariam, com uma grande margem
de certeza, a fronteira de deciso na linha contnua. No caso desse exemplo, algoritmos supervisionados no seriam capazes de eficientemente classificar os exemplos no
rotulados. Por outro lado, algoritmos semissupervisionados, a partir da utilizao de
dados no rotulados, poderiam obter acurcias bem superiores. Isto exatamente o
que ocorre na figura, a qual mostra que o algoritmo semissupervisionado reflete mais
fielmente a distribuio das classes. Isto decorre graas utilizao da informao dos
dados no rotulados no ato do treinamento do classificador.
3.2.3
Formulao Matemtica
De uma forma geral, o aprendizado semissupervisionado pode ser definido da seguinte maneira (Chapelle et al., 2006): seja um conjunto de dados X = { x1 , x2 , . . . , xn },
dividido em duas partes, Xl = { x1 , x2 , . . . , xl } onde l < n e Xu = { xl +1 , . . . , xn }. J,
Y = {1, 2, . . . , c} representa o conjunto de rtulos. Para todo exemplo xi Xl , um
rtulo y j Y fornecido. Os rtulos do subconjunto Xu no so conhecidos a priori.
Normalmente, l
u, ou seja, a grande maioria de vrtices no possui um rtulo (Chapelle et al., 2006). Isto ocorre porque a tarefa de rotulao extremamente onerosa e
deve ser feita por especialista. A Figura 3.1b ilustra um esquemtico de uma tarefa de
classificao semissupervisionada.
Com base nestas definies, o aprendizado semissupervisionado pode ter como
funo tanto tarefas de classificao de dados, quando os exemplos rotulados so utilizados no processo de rotulao de exemplos no rotulados, quanto de tarefas de
31
32
3.3
3.3.1
Modelos Generativos
A inferncia por modelos generativos envolve a estimao da densidade condicional p( x | y). Nesta abordagem, qualquer informao adicional correspondente
natureza de p( x ) de extrema valia. Para efeitos didticos, suponha, por exemplo,
que p( x | y) seja Gaussiano (Chapelle et al., 2006). Ento, pode-se utilizar o algoritmo
Expectation Maximization para encontrar os parmetros concernentes distribuio geradora da Gaussiana para cada classe do problema. A nica diferena entre o famoso
algoritmo Expectation Maximization padro, aquele utilizado para agrupamento, e o em
estudo resta no fato de que as variveis desconhecidas associadas a cada exemplo rotulado, na verdade, no so a priori desconhecidas, ou seja, so sabidas e devem ser
iguais aos rtulos das classes j pr-definidos ao longo de todo o processo de otimizao do Expectation Maximization (Zhu e Goldberg, 2009). Vale frisar que a suposio de
clusters deve ser cumprida, a fim de que o mtodo gere resultados coerentes.
Um ponto forte da abordagem generativa que o conhecimento da estrutura do
problema ou dos dados pode ser facilmente incorporado ao modelo. De acordo com
Ratsaby e Venkatesht (1995), os dados rotulados corretamente so exponencialmente
mais efetivos para a minimizao do erro de classificao do que os dados no rotulados. J para o caso de dados no rotulados, conforme Shahshahani e Landgrebe (1994)
indica, estes podem degradar o desempenho de classificadores utilizando esta aborda-
33
gem se forem introduzidos apenas dados outliers, ou, em outras palavras, dados que
so muito diferentes que os outros da sua classe.
Nota-se, portanto, que as tcnicas que utilizam esta abordagem so, de maneira
geral, muito sensveis aos dados rotulados e no rotulados. Uma pr-anlise deve ser
efetuada antes de proceder s simulaes computacionais desses algoritmos, visto que
rudos podem degradar consideravelmente o desempenho final do algoritmo (Alpaydin, 2004; Chapelle et al., 2006; Grtner, 2008; Zhu e Goldberg, 2009).
3.3.2
Nesta abordagem, os algoritmos buscam implementar a suposio de baixa densidade interclasse por meio do afastamento dos limites de deciso (hiperplanos de deciso) dos dados no rotulados (Chapelle et al., 2006). O mtodo mais comum para atingir esse objetivo consiste em utilizar o algoritmo de maximizao marginal, tal como
as SVMs transdutivas. Entretanto, salienta-se que tal problema de maximizao , na
maioria dos casos, no convexo e, portanto, apresenta srias dificuldades na sua otimizao, tendo em vista que encontrar o melhor hiperplano que maximize a distncia
total no trivial (Zhu e Goldberg, 2009).
Algumas alternativas, com o intuito de resolver esses problemas de maximizao
no convexa, foram propostas na literatura (Alpaydin, 2004; Chapelle et al., 2006; Cortes e Vapnik, 1995; Zhu e Goldberg, 2009). Por exemplo, em Vapnik (1998), inicia-se
de uma soluo da SVM treinada apenas com os dados rotulados, e, conforme cada
iterao avana, os dados no rotulados so rotulados por meio de predies da SVM.
O processo refeito com os novos dados rotulados at se atingir alguma condio de
parada especfica. Cada iterao conduzida de forma que os pesos dos dados no
rotulados utilizados na maximizao so sucessivamente incrementados. Como outro
exemplo, o trabalho proposto em De Bie e Cristianini (2004) discute uma abordagem
alternativa baseada na relaxao convexa do problema de otimizao associada em
SVM transdutivas.
3.3.3
34
Figura 3.3: Motivao para utilizao de grafos. (a) Problema inicial para classificao semissupervisionada. (b) Resultado obtido aplicando SVM. (c) Resultado obtido aplicando kNN. (d)
Resultado ideal. Figura extrada de Zhou et al. (2003).
35
Quanto natureza das arestas, a literatura indica que podem ser direcionadas (dgrafos), no direcionadas, com peso, entre outros tipos. Na maioria dos problemas,
normalmente, as arestas so consideradas no direcionadas (um contraexemplo so os
links de pgina web). O peso da aresta wij entre dois vrtices xi e x j pode representar,
por exemplo, a similaridade entre essas duas instncias. Neste caso, a ideia que se wij
for grande, ento os dois rtulos de yi e y j so esperados de serem o mesmo. Observe
aqui a conexo com a suposio de suavidade, porm com representao distinta: ao
invs de regies de alta densidade, aqui considera-se o peso wij . Portanto, de extrema
importncia a designao correta dos pesos das arestas do grafo, pois esses traduzem
as relaes entre o conjunto de dados para a representao em grafo. Os pesquisadores
da rea especificam os pesos das arestas a partir de heursticas bem conhecidas, algumas das quais so elencadas a seguir. Reitera-se que a lista apresentada fica longe de
ser exaustiva.
Rede completamente conectada: cada par de vrtices xi , x j conectado por uma
aresta. O peso da aresta decresce medida que a distncia xi x j aumenta.
Uma funo de peso popular dada por:
wij = exp
xi x j
22
(3.2)
d ( xi , x j ) = xi x j =
|xik x jk |2
1
p
(3.3)
k =1
36
37
jc
funo vetorial F : X
que atribui um vetor Fi para cada dado xi , isto , para cada
dado, o algoritmo mantm o nvel de pertinncia para cada rtulo possvel, sendo que,
este dado recebe, ao fim das iteraes, aquele rtulo cujo nvel de pertinncia o maior.
Defina tambm uma matriz Y de dimenses n c com Yij = 1 se xi estiver rotulado
como yi = j e atribua Yij = 0, caso contrrio. Claramente, Y consistente com os rtulos iniciais, uma vez que isto manualmente feito pelo algoritmo na primeira iterao
e cada rtulo fornecido pelo usurio. O algoritmo procede da seguinte forma (Zhou
et al., 2003):
1. Crie a matriz de afinidade W, a qual definida por Wij = exp(
xi x j
22
) se i = j e
38
Em Zhou et al. (2003) foi demonstrado que tal sequncia { F (t)} converge e que
tambm a soluo do problema de propagao de rtulos assume uma frmula fechada
dada por:
F = lim F (t) = ( I S)1 Y.
(3.4)
Com a Equao (3.4), fica vivel encontrar a soluo tima F sem nenhuma iterao, bastando apenas realizar a inverso matricial. Alm disso, esta equao mostra
que o resultado final da iterao, depois de convergido, no depende das condies
iniciais do problema (Smola e Kondor, 2003). importante notar tambm que este
algoritmo, com o propsito de obter a soluo tima, deve realizar uma tarefa de inverso de matrizes, incorrendo, portanto, em uma complexidade temporal custosa,
O(V 3 ). Assim, para redes de grande escala, esta tcnica no vivel.
De acordo ainda com Zhou et al. (2003), esses realizaram uma deduo de um framework de regularizao motivados pelo algoritmo supracitado. Este framework visa
minimizao de uma funo de custo que, na esfera fsica, pode ser entendida como
uma funo de energia. Tal funo, denotada aqui por F, definida como:
C( F) =
1
1
Wij Fi
2 i,j=1
Dii
1
Fj
D jj
+ Fi Yi 2 ,
(3.5)
i =1
(3.6)
39
caso, tal termo encaixa-se perfeitamente na descrio de uma funo de perda. O contrapeso entre estas duas quantidades conflitantes indicado pelo parmetro positivo .
Observe que a restrio de ajuste contm tanto dados rotulados quanto no rotulados
(Zhou et al., 2003).
Matematicamente falando, fica fcil evidenciar a restrio de suavidade da Equao
(3.5), bastando notar que um grande valor de Wij , que acontece quando os dados so
2
1 Fi
Dii
1D Fj
jj
reduzida; e, para conseguir tal fato, as entradas Fi e Fj devem ser prximas, ou seja,
necessitam ter os mesmos rtulos dominantes. Quanto ao segundo termo, com o intuito de minimiz-lo, fica claro que no constitui uma boa mudana, a priori, trocar
os rtulos dos vrtices que foram inicialmente rotulados, incorrendo no risco, caso os
troquem, de uma penalidade indicada por uma aumento desta funo de custo, j que,
neste caso, Fi = Yi .
Regularizador por Manifolds
A tcnica proposta por Belkin et al. (2006) baseia-se em uma famlia de algoritmos
de aprendizado fundamentados em uma nova forma de regularizao, que permite a
explorao da geometria da distribuio marginal dos dados. Em especfico, a principal contribuio do trabalho em comento a unificao de trs conceitos, antes tratados
independentemente, em um framework genrico. Tais conceitos so listados abaixo.
O primeiro deles se remete teoria espectral de grafos (Chung, 1997) que j foi
aplicada em uma ampla gama de tarefas de classificao e agrupamento. Tais
mtodos, tipicamente, reduzem-se anlise dos autovalores do laplaciano do
grafo.
O segundo conceito origina-se do ponto de vista geomtrico dos dados. Tal abordagem toma como hiptese a existncia de manifolds nos dados. Esses mtodos
tentam usar a distribuio de probabilidades gerada por essa geometria para a
construo de manifolds de Riemann (Weinberger e Saul, 2006).
O terceiro conceito embasa-se no conjunto de ideias que norteiam regularizadores em espaos de Hilbert (Smola e Kondor, 2003). Isto leva a uma classe de
algoritmos baseados em kernels para classificao e regresso.
Tecnicamente, os frameworks, at ento propostos, aliceravam-se apenas sobre dois
termos, em relao composio da funo de energia, quais sejam: a funo de perda
e a funo regularizadora (como, por exemplo, a tcnica que foi vista anteriormente).
J o framework em Belkin et al. (2006) inaugura um terceiro termo, o qual responsvel
40
pelo aprendizado baseado em manifolds. Manifold definido como um espao topolgico de dimenso menor que o espao original dos dados, cuja transformao feita
preservando as caractersticas locais dos dados. Matematicamente, a funo de energia
expressa por (Belkin et al., 2006):
1 l
V ( xi , yi , f ) + A f
f HK l i =1
f = arg min
2
K
+ I f
2
I,
(3.7)
Nesta seo, ser discutida uma tcnica recentemente proposta em Silva e Zhao
(2011). A principal ideia desse mtodo consiste em uma modificao estrutural do
algoritmo de otimizao de modularidade para o paradigma de aprendizado semissupervisionado, algoritmo o qual foi originalmente proposto para o aprendizado no
supervisionado (Clauset, 2005; Newman, 2006). Em termos gerais, o algoritmo cria
uma rede utilizando o conjunto de dados de entrada e, a partir de modificaes re-
41
Q=
ki k j
1
ei,j
2m i,j
2m
( c i , c j ),
(3.8)
Qij =
1
2m
0,
ki k j
,
(2m)2
se i e j estiverem conectadas
caso contrrio
(3.9)
No algoritmo original proposto em Clauset (2005), a cada iterao, duas comunidades, diga-se i e j, so fundidas, de tal forma que ocorra o maior incremento (ou menor
decremento) da modularidade da rede. Na sua configurao inicial, cada vrtice uma
comunidade. Uma propriedade interessante do processo de otimizao que, uma vez
que todas as entradas da matriz Q sejam negativas, fuses subsequentes sempre geraro novas matrizes Q com todas as entradas negativas. Neste processo de otimizao,
nenhuma restrio quanto s comunidades a serem fundidas estabelecido.
De forma a adaptar o algoritmo de otimizao de modularidade para o contexto de
aprendizado semissupervisionado, sero realizadas as seguintes modificaes:
Passo I Inicialmente, existem | L| vrtices rotulados na rede. A tarefa consiste em propagar esses rtulos para vrtices no rotulados. Uma vez que um vrtice no
rotulado recebe um rtulo, este no pode ser mais mudado.
Passo II A cada passo, sero fundidas as comunidades (no comeo, cada comunidade
engloba apenas um vrtice) de tal forma que a modularidade maximizada. Entretanto, tal fuso sujeita a algumas restries: com o intuito de imitar a propagao de rtulos na rede, uma fuso apenas ocorrer se pelo menos uma das
42
comunidades a serem fundidas j foi rotulada anteriormente. Suponha que as comunidades ci e c j foram selecionadas para serem fundidas no passo atual, cada
qual carregando os rtulos cil e clj (considere que denote uma classe sem rtulos), ento um dos quatro casos a seguir deve acontecer:
Caso 1 A fuso no ocorre se cil = clj , desde que cil = e clj = . Este caso representa um confronto entre os limites de duas comunidades diferentes que
foram anteriormente rotuladas.
Caso 2 A fuso ocorre se cil = e clj = , ou cil = e clj = . Este caso representa
a propagao de rtulos tradicional de uma comunidade rotulada a outra
comunidade sem rtulo. clj recebe o rtulo de cil no primeiro caso, e cil recebe
o rtulo de clj no segundo caso.
Caso 3 A fuso ocorre se cil = clj , desde que cil = e clj = . Neste caso, o processo
de fuso apenas coloca duas comunidades da mesma classe juntas, maximizando a modularidade.
Caso 4 A fuso no ocorre se cil = e clj = , uma vez que nenhum rtulo est
sendo propagado.
Se a fuso no ocorrer, ento as prximas duas comunidades que oferecerem o
segundo maior incremento de modularidade so selecionadas para serem potencialmente fundidas, i.e., o Passo II realizado novamente, e assim sucessivamente, at
que uma fuso vlida ocorra.
Tendo em vista que o coeficiente de modularidade tenta maximizar o nmero de
arestas entre vrtices da mesma comunidade, enquanto que, concomitantemente, tenta
minimizar esta quantidade entre diferentes comunidades, tal dinmica propagar os
rtulos de tal forma a manter a caracterstica supracitada. Aqui, estabelecido como
hiptese a suposio de clusters, a qual premedita que uma classe naturalmente um
cluster. Desta forma, o algoritmo modificado de otimizao de modularidade executa
o trabalho de propagar os rtulos de uma forma otimizada, i.e., as fuses e propagaes de rtulos ocorrem de forma que uma classe ou comunidade fique fortemente
conectada e classes ou comunidades diferentes fiquem esparsamente conectadas.
O algoritmo finaliza quando todos os vrtices no rotulados forem devidamente
rotulados, desconsiderando, para todos os efeitos, o valor da modularidade da rede
atual, j que no buscada uma boa diviso da rede, mas sim uma forma ordenada de
rotulao de vrtices, a qual satisfeita naturalmente pelo mecanismo de otimizao
da modularidade. Uma anlise da convergncia foi conduzida em Silva e Zhao (2011)
e foi provado que o algoritmo sempre converge. Em termos tcnicos, o algoritmo apresentado no paramtrico, o que uma vantagem sobre a maioria dos mtodos propostos na literatura. Mais ainda, simulaes foram conduzidas e foi demonstrado, de
43
forma positiva, a capacidade do modelo frente a dados de bases de dados reais. Por
fim, alm do classificador semissupervisionado guiado pela otimizao da modularidade, os autores em Silva e Zhao (2011) propuseram um esquema de reduo da rede,
de forma que o algoritmo possa ser aplicvel a redes de larga escala.
D-Walks
(3.10)
Heuristicamente, o aspecto crtico de um modelo de Markov que tal processo, conforme avana no tempo, o mesmo esquece sobre seus estados passados, com exceo
do imediatamente anterior.
Uma caminhada aleatria em uma cadeia de Markov pode ser definida da seguinte
forma: um caminhante aleatrio inicia em um estado q, de acordo com uma distribuio p0 conhecida. Logo aps, ele se move para algum estado q , respeitando a
matriz probabilstica de transio P. Repetindo esta ltima operao k vezes, resultase em uma caminhada aleatria de k passos. Em termos matemticos, a matriz que
representa a matriz de transio de k-passos representada por Pk , caso a caminhada
seja homognea (Szummer e Jaakkola, 2001). O conjunto destes passos no decorrer do
tempo em um processo estocstico denomina-se realizao do processo (Meyn e Tweedie, 2009). Em uma cadeia de Markov, um estado q dito ser absorvente se existe a
probabilidade de valor 1 de ir de q para ele mesmo. Em outras palavras, uma vez que o
estado absorvente seja atingido em uma caminhada aleatria, o caminhante no mais
sair daquele estado pelo resto dos passos subsequentes. Uma cadeia de Markov a qual
possui probabilidade 1 em terminar em um estado absorvente classificada como uma
cadeia de Markov absorvedora. Em tal modelo, o conjunto de estados pode ser dividido
em um conjunto de estados absorventes, denotado por A e seu conjunto complementar, denominado conjunto de estados transientes, denotado por T = \ A . A
funo tempo de passagem, medida de suma importncia nesta tcnica, conta o nmero de vezes que um dado vrtice foi visitado em uma caminhada aleatria (Callut
et al., 2008). Matematicamente, ela definida por:
44
(3.11)
45
B(q, y) E[ pt(q) | D L ],
(3.12)
onde D L representa todas as D-Walks limitadas at o tamanho L. A restrio de limitar o tamanho da caminhada introduz dois grandes benefcios, como j discutidos
anteriormente: (i) melhores resultados de classificao so sistematicamente obtidos
no que tange a caminhadas de tamanhos quaisquer (at o infinito), (ii) a medida de
betweenness pode ser calculada de maneira eficiente. O betweenness com caminhadas
sem limites de tamanho pode ser aproximado para um de caminhadas limitadas de
tamanho, considerando grandes, mas finitos, valores de L. Mais precisamente, podese provar que o betweenness de caminhadas limitadas no tamanho converge em tempo
geomtrico no que diz respeito ao parmetro L para o seu valor exato, ou seja, aquele
cujas caminhadas no possuem restries de tamanho (Callut et al., 2008).
A tcnica aplicada a todos os pares de vrtices da rede pr-rotulados. O clculo
do betweenness em D-Walks limitadas pode ser realizado utilizando variveis forward e
backward, similares quelas propostas pelo algoritmo de Baum-Welch (Zhai, 2006). Uma
vez calculados todos os betweenness dos vrtices no rotulados, estes so classificados
seguindo uma regra de deciso de maximizao da a priori do betweenness de cada
classe. Neste caso, a distribuio a priori P[y] utilizada ser a proporo estimada de
vrtices da classe y. Portanto, o rtulo de um vrtice q U classificado utilizando a
seguinte equao:
(3.13)
Os autores em Callut et al. (2008) realizaram vrias simulaes com bases de dados
reconhecidas na comunidade, tais como IMDb, CORA, WebKB e obtiveram, de maneira
geral, resultados de classificao superiores aos algoritmos clssicos da rea, como o
Regularized Laplacian (Zhu et al., 2003), Net Kit (Macskassy e Provost, 2005) e de Zhou
et. Al (Zhou e Schlkopf, 2004), para vrias propores iniciais de vrtices rotulados.
No entanto, verifica-se no trabalho original que o clculo do timo L feito apenas
empiricamente por meio de fora bruta, o que acaba por aumentar a complexidade
temporal do mtodo. Uma anlise terica do L timo ainda constitui um problema
interessante em aberto.
46
Os autores em Szummer e Jaakkola (2001) propuseram uma tcnica de classificao semissupervisionada baseada puramente em caminhadas aleatrias sem restries.
Neste contexto, a caminhada aleatria baseada em uma mtrica local apropriada.
Usualmente, tal mtrica faz uso da informao topolgica da rede, no caso, a vizinhana local do item de dado, aqui concebido como um vrtice. A partir dessa mtrica,
a matriz de transio probabilstica montada a partir da seguinte expresso:
P(i, j) =
ai,j
,
V
u=0 ai,u
(3.14)
(3.15)
47
timados. Com isto em mente, dado um item de dado k, o qual pode figurar como um
dado rotulado ou no, este interpretado como uma realizao de uma caminhada
aleatria Markoviana de t passos. Assim, a probabilidade a posteriori do rtulo y ser do
item de dado k dado por:
Ppost (y|k) =
(3.16)
i =0
(3.17)
k =1
k =1
i =1
(3.18)
3.4
Consideraes Finais
48
zendo a predio dos dados remanescentes. Alm disso, foram mostradas as principais
abordagens tomadas no aprendizado semissupervisionado, com uma nfase maior nos
mtodos baseados em grafos, suas limitaes e vantagens sobre as abordagens generativas e de baixa densidade. Estas limitaes incorrem devido aos altos custos de
inverso matricial e de otimizao das funes quadrticas de custos. Motivados por
esta razo, mtodos alternativos foram propostos, na tentativa de se desvencilharem
dessas operaes custosas. Especificamente, foram visto em detalhes cinco mtodos
de aprendizado semissupervisionado baseado em redes, quais sejam: classificador de
regularizao local e global, regularizador por manifolds, classificador semissupervisionado guiado pela medida de modularidade, D-Walks e caminhadas aleatrias sem restrio. Os dois primeiros se fundamentam na minimizao de um funo de energia;
o terceiro embasa-se no processo de otimizao da medida de modularidade, originalmente proposta para deteco de comunidades; e o quarto e quinto se aliceram sobre
a teoria de caminhadas aleatrias.
C APTULO
4
Resultados Obtidos
Nesta seo, sero descritos os resultados obtidos, quais sejam: (i) modelagem do
sistema de competio de partculas para o modo de aprendizado semissupervisionado via sistema dinmico estocstico; (ii) anlise matemtica do modelo proposto; e
(iii) simulaes computacionais. As sees seguintes seguem didaticamente estes tpicos. Vale ressaltar que todos os resultados obtidos nesta seo baseiam-se no artigo ?,
o qual encontra-se em processo de reviso.
4.1
Nesta seo, ser discorrido sobre a formalizao do sistema de competio de partculas. Especificamente, na Subseo 4.1.1, fornecida uma viso geral do modelo
competitivo; na Subseo 4.1.2, a matriz competitiva de transio demonstrada; na
Subseo 4.1.3, o sistema dinmico estocstico exibido; na Subseo 4.1.4, um conjunto de condies iniciais pertencente ao sistema dinmico elucidado; na Subseo
4.1.5, o algoritmo de competio de partculas discutido; e, finalmente, na Subseo
4.1.6, a anlise de complexidade computacional do mtodo proposto estudada.
4.1.1
50
inserido nos vrtices da rede de forma aleatria. Cada partcula pode ser considerada
como portadora de uma bandeira e seu objetivo precpuo resume-se em conquistar novos territrios - aqui representados pelos vrtices -, enquanto que, simultaneamente,
tambm defende seus territrios previamente conquistados. Observe que, como o territrio nesse modelo possui o papel de recurso escasso, um processo competitivo ir
se estabelecer naturalmente entre as partculas participantes. Quando uma partcula
visita um vrtice arbitrrio, ela fortalece seu nvel de dominao sobre aquele vrtice
e, concomitantemente, enfraquece todos os nveis de dominao das partculas rivais
sobre aquele mesmo vrtice, de tal maneira a imitar a competio por recursos que
ocorre em muitos processos sociais e naturais. De forma a se obter uma ideia concreta
do processo competitivo, ser considerado o problema de classificao semissupervisionada em redes complexas. esperado que este modelo, em um amplo perodo de
tempo, acabe por encontrando as classes na rede, de tal forma que cada partcula, ou
um time de partculas, domine inteiramente uma classe.
Nesse modelo, uma partcula pode estar em um dos seguintes estados: ativo ou
exausto. Quando a partcula estiver no estado ativo, ela navega pela rede segundo
uma poltica de movimentao que mescla comportamentos aleatrio e preferencial,
enquanto que, quando estiver no estado exausto, a partcula substitui esta mescla de
comportamentos por uma nova poltica de movimentao que a obriga a regressar
para seu territrio previamente conquistado, com o propsito de ser recarregada (e,
portanto, voltar a ficar ativa). O termo de movimentao aleatria responsvel pelo
comportamento aventureiro da partcula, i.e., ela visitar vrtices vizinhos sem se preocupar com os nveis de dominao impostos por outras partculas rivais. Por outro
lado, o termo de movimentao preferencial incumbido do comportamento defensivo da partcula, i.e., ela preferir reforar seu territrio j conquistado, ao invs de
visitar algum vrtice que ainda no esteja dominado por ela. De forma que estas propriedades possam ser materialmente realizadas, cada partcula carrega consigo um
nvel de energia que, quantitativamente, indica a capacidade exploratria da mesma.
Esta energia aumenta quando uma partcula est visitando um vrtice cuja proprietria a prpria partcula visitante, e decresce quando a mesma visita um vrtice que
est sendo dominado por outra partcula rival. Se esta energia atingir um patamar
mnimo pr-estabelecido, a partcula se torna exausta naquela iterao e, consequentemente, transportada de volta para territrio seguro, i.e., um dos vrtices dominados
por aquela partcula ora exausta. Nos prximos passos, a partcula possivelmente ser
recarregada por meio de visitas aos seus vrtices j conquistados. Com este mecanismo de confinamento artificial, espera-se que a regio de atuao de cada partcula
seja restringida, reduzindo, portanto, muitas visitas a vrtices longnquos da rede, aparentemente sem qualquer relao com aquela partcula.
No esquema semissupervisionado, um conjunto de vrtices pr-rotulados forne-
51
cido. Cada partcula representa um vrtice rotulado, que, por sua vez, associado a
uma determinada classe. As partculas so portadoras dos rtulos daqueles vrtices
os quais representam. Essas partculas representativas navegam pelos vrtices com o
propsito de propagar esse rtulo, utilizando apenas a topologia local da rede. No
permitida a troca de rtulos de vrtices pr-rotulados. O processo cooperativo
considerado na classificao da seguinte forma: cada vrtice mantm os nveis de dominao impostos por todas as partculas presentes na rede. No ato de classificao
de um vrtice no rotulado, calculado o nvel de dominao imposto por cada time
de partculas. O nvel de dominao do time sobre aquele vrtice dado pela soma
dos nveis de dominao impostos por cada membro pertencente quele time de partculas. Por fim, a classe de um vrtice no rotulado decidida pelo time que impor o
maior nvel de dominao sobre o mesmo.
Por convenincia, a Tabela 4.1 traz uma breve descrio de toda notao relevante
usada neste trabalho.
Tabela 4.1: Breve descrio das notaes mais relevantes utilizadas neste trabalho.
Notao
t
i, j
k
aij
(k)
Ni (t)
p(k) ( t )
E(k) ( t )
S(k) ( t )
min
max
(k)
Ptrans (t)
Paleat
(k)
Ppref (t)
(k)
Prean (t)
V
E
K
C
L
S
I
M
Descrio
ndice denotador do tempo.
ndices caracterizadores de vrtices na rede.
ndice indicador de uma partcula na rede.
O peso da aresta interligando os vrtices i e j.
Nmero de visitas realizado pela partcula k ao vrtice i.
Localizao da k-sima partcula na rede no instante t.
Energia da partcula k no instante t.
Indicator do estado da k-sima partcula no instante t: ativa ou exausta.
Energia mnima permitida a uma partcula.
Energia mxima permitida a uma partcula.
Frao de energia ganha/perdida de uma partcula.
Matriz de transio da partcula k no instante t.
Matriz de movimentao aleatria da partcula k (invariante no tempo).
Matriz de movimentao preferencial da partcula k.
Matriz de reanimao da partcula k
Contrabalanceador da quantidade de movimentao aleatria e preferencial.
Conjunto de vrtices da rede.
Conjunto de arestas da rede.
Conjunto de partculas inseridas na rede.
Conjunto de rtulos (classes).
Conjunto de vrtices pr-rotulados e seus correspondentes rtulos.
Conjunto correspondendo ao espao gerado por V K.
Conjunto contendo todas os elementos que satisfazem ao Lema 3.
Conjunto de todos N (t) cujas entradas esto em I .
52
4.1.2
(k)
Ptrans (t)
(k)
(k)
(k)
(4.1)
53
Paleat (i, j)
ai,j
V
u=1 ai,u
(4.2)
onde ai,j denota a (i, j)-sima entrada da matriz de adjacncia A do grafo. Observe
que a Equao (4.2) se assemelha com a matriz Markoviana tradicional para um nico
caminhante aleatrio, aqui simbolizado por uma partcula (inlar, 1975). Cumpre reforar tambm que a matriz Paleat invariante no tempo e idntica para todas as
partculas na rede. Em termos sucintos, caso a partcula esteja no vrtice i, a probabilidade de um vizinho adjacente j ser visitado, segundo esta poltica de movimentao,
proporcional ao peso da aresta que interliga os vrtices i e j.
Com o propsito de auxiliar no clculo da segunda matriz da Equao (4.1),
ser introduzido o seguinte vetor estocstico:
(k)
Ppref (t),
Ni (t)
(1)
(2)
(K )
[ Ni (t), Ni (t), . . . , Ni
(t)],
(4.3)
onde dim( Ni (t)) = 1 K e Ni (t) representa o nmero de visitas que o vrtice i rece(k)
beu de todas as partculas at o tempo t. Especificamente, a k-sima entrada, Ni (t),
fornece o nmero de visitas feito pela partcula k ao vrtice i at o tempo t. Agora,
essa noo estendida para todos os vrtices da rede por meio da definio da matriz
global que mantm o nmero de visitas realizado por todas as partculas a cada vrtice
da rede como:
N (t)
(4.4)
onde dim( N (t)) = V K. Formalmente, tambm define-se o vetor de nvel de domi i (t), de acordo com o seguinte vetor estocstico:
nao do vrtice i, N
i (t)
N
(1)
(2)
(K )
[ N i (t), N i (t), . . . , N i (t)],
(4.5)
i (t)) = 1 K e N
i (t) retrata a frequncia relativa de visitas de todas as paronde dim( N
( k ) ( t ),
tculas na rede ao vrtice i at o instante t. Particularmente, a k-sima entrada, N
i
54
(t)
N
(4.6)
(k) ( t )
N
i
(k)
Ni (t)
(u)
uK=1 Ni
(t)
(4.7)
(k)
luz dessas explanaes, pode-se definir Ppref (i, j, t), quantidade a qual caracteriza a probabilidade de uma nica partcula k realizar a transio do vrtice i ao j no
instante t, usando exclusivamente o termo de movimentao preferencial. Matematicamente, tem-se:
(k)
Ppref (i, j, t)
(k) ( t )
ai,j N
j
(k)
V
u=1 ai,u Nu ( t )
(4.8)
Claramente, a partir da Equao (4.8), observa-se que cada partcula possui uma
matriz de transio associada a sua movimentao preferencial, matriz a qual difere
de partcula para partcula. Mais ainda, ao contrrio da matriz relativa movimentao aleatria, a matriz em apreo variante no tempo com dependncia direta nos
(t)). vlido nonveis de dominao de todos os vrtices da rede no instante t ( N
tar que a abordagem aqui tomada para caracterizar a movimentao preferencial das
partculas a frequncia de visitas que cada partcula executa em cada vrtice, de tal
forma que, quanto mais visitas uma partcula especfica realiza em um vrtice arbitrrio, maior ser a chance da mesma repetidamente retornar ao mesmo vrtice. Como
ltimo ponto a ser destacado desse tipo de movimentao, importante verificar que
a Equao (4.8) produz duas caractersticas presentes em um modelo de competio
natural, quais sejam: (i) o fortalecimento do nvel de dominao que a partcula visitante impe ao vrtice o qual visita; e (ii) o consequente enfraquecimento do nvel
de dominao de todas as outras partculas rivais sobre aquele mesmo vrtice. Este
comportamento inerentemente representado em funo da abordagem frequencial.
55
Figura 4.1: Uma tpica situao em que a partcula vermelha, presentemente localizada no vrtice v1 , tem de selecionar o prximo vizinho a visitar. Neste exemplo, h 2 partculas, vermelha
e azul (a partcula azul no mostrada). A cor bege denota os vrtices que ainda no foram
dominados por quaisquer partculas at o instante t.
Exemplo 1. Considere a rede de 4 vrtices mostrada na Figura 4.1, em que existem duas partculas: a primeira indicada pela cor vermelha e a segunda, azul. Para fins ilustrativos, apenas
a localizao da partcula vermelha explicitada, a qual, no momento, visita o vrtice v1 . Neste
exemplo, ser claramente explanado o papel que o nvel de dominao possui no que tange
determinao da matriz de transio. Ainda na figura, didaticamente indicado o vetor nvel de
dominao de cada vrtice na rede no instante t. Observe que o proprietrio de um vrtice (na figura, marcado pela cor do vrtice) decidido de acordo com a partcula que est impondo o maior
nvel de dominao quele vrtice especfico. Por exemplo, no vrtice v1 , a partcula vermelha
impe uma dominao de 60%, enquanto que, a partcula azul, apenas 40%. A meta aqui derivar a matriz de transio da partcula vermelha, segundo as regras da Equao (4.1). Suponha
que, no tempo t, a partcula vermelha esteja ativa; logo, S(vermelha) (t) = 0 e, consequentemente, o segundo termo da combinao convexa na Equao (4.1) nulo. Arbitrariamente,
fixa-se = 0.8 para este exemplo. Com base na Equao (4.2), a matriz de movimentao
aleatria da partcula vermelha dada por:
(vermelha)
Paleat
0
1
1
1
1/3
1/3
1/3
0
0
0
0
0
0
0
0
0
(4.9)
56
(vermelha)
Ppref
(t)
1 0
0
0
.
1 0
0
0
1 0
0
0
(4.10)
(vermelha)
Ptrans
(t)
= 0.2
0
1
1
1
1/3
1/3
1/3
0
0
0
0
0
0
0
0
0
+ 0.8
1 0
0
0
.
1 0
0
0
1 0
0
0
1 0
0
0
1 0
0
0
1 0
0
0
(4.11)
Portanto, a partcula vermelha ter uma maior chance de visitar o vrtice v2 (52% de chance)
do que os outros vrtices na vizinhana. Este comportamento pode ser controlado por meio da
variao do parmetro . Um alto valor induz a partcula exclusivamente a realizar movimentos segundo o termo preferencial, i.e., continuar sempre visitando vrtices cuja proprietria
a prpria partcula. Em contraste, um valor baixo assegura um maior peso para o termo de movimentao aleatria, fazendo com que a partcula se assemelhe a um caminhante Markoviano
tradicional quando 0 (inlar, 1975). No caso extremo, i.e., = 0, o mecanismo de competio desligado e o modelo reduz-se a mltiplas caminhadas aleatrias sem interao entre
os caminhantes. Com isto em mente, o modelo aqui estudado generaliza a teoria de mltiplas
caminhadas aleatrias, dependendo da escolha do parmetro .
(k)
Agora, ser definida cada entrada de Prean (t). Tal matriz responsvel por transportar uma partcula exausta k K de volta ao seu territrio j conquistado, com o
propsito de revitalizar a energia da partcula (processo de reanimao). Suponha que
a partcula exausta k esteja visitando o vrtice i quando sua energia completamente
esgotada. Nesta situao, a partcula deve regressar para um vrtice arbitrrio j de seu
domnio no instante t, em acordo com a seguinte expresso:
1
(k)
Prean (i, j, t)
arg max
mK
V
u =1 1
(m) (t ) = k
N
j
57
(4.12)
u(m) (t) =k
N
arg max
mK
onde arg max(.) retorna o ndice m que maximiza o argumento e 1{.} a funo indimK
E(k) ( t ) =
min(
max , E
max(
onde proprietario(k, t) =
( k ) ( t 1) + ),
(k)
min , E ( t 1) ),
se proprietario(k, t)
se
)
(m
(t) = k
arg max N
(k)
mK
(t)
proprietario(k, t)
(4.13)
(t)
58
(4.14)
59
1
(i, j, t) = , i V , j {v1 , v2 , . . . , v9 },
9
(vermelha)
Ptrans
(i, j, t) = 0, i V , j V \ {v1 , v2 , . . . , v9 },
(vermelha)
Ptrans
(4.15)
(4.16)
1
(azul)
Ptrans (i, j, t) = , i V , j {v13 , v14 , . . . , v20 },
8
(azul)
Ptrans (i, j, t) = 0, i V , j V \ {v13 , v14 , . . . , v20 }.
(4.17)
(4.18)
Pode-se verificar que, dado que a partcula esteja exausta, no importa o lugar onde a partcula se encontre, ela ser transportada de volta para seu territrio (conjunto de vrtices cuja
proprietria essa partcula). A determinao de qual dos vrtices desse subconjunto que ser
visitado segue uma distribuio uniforme, i.e., cada vrtice j dominado possui chances iguais
de ser visitado pela partcula ora exausta.
Uma vez definida cada matriz associada a cada partcula no modelo, neste momento, agrupam-se todas essas matrizes em uma matriz de transio representativa
que engloba todas as partculas, intitulada aqui Ptrans (t), usando o seguinte fato:
60
quando uma partcula est ativa, sua movimentao independente de todas as partculas rivais, dado que se tenha conhecimento do estado presente. Em virtude disso, a
localizao das outras partculas no influencia na ao de escolher o prximo vrtice a
ser visitado pela partcula em apreo, j que todo o estado presente sabido e a matriz
de transio unicamente depende dele. A mesma ideia pode ser aplicada quando a
partcula est exausta. Em funo dessa propriedade, a matriz global de transio que
indica a transio do vetor estocstico p(t) para p(t + 1) pode ser descrita:
(1)
(K )
(4.19)
onde denota o operador produto tensor de Kronecker. Assim, a Equao (4.19) completamente especifica a matriz de transio de todas as partculas na rede.
Essencialmente, p(t + 1) visto como um processo estocstico discreto, cuja distribuio de probabilidade dada pela linha indicada pela forma escalar de p(t) (a ser
definida) da matriz Ptrans (t). Com o intuito de tornar este processo vivel, enumeramse os estados do vetor que guarda a localizao das partculas p(t), de tal forma a ser
possvel a sua utilizao com a matriz de transio global. Isto decorre do fato que,
para K 2, p(t) ser um vetor e no seria possvel convencionalmente definir a linha
p(t) da matriz Ptrans (t). Esta enumerao do vetor p(t) para sua forma escalar feita
respeitando ordem natural das tuplas, i.e., p(t) = [1, 1, . . . , 1, 1] (todas as partculas
no vrtice 1) denota o primeiro estado; p(t) = [1, 1, . . . , 1, 2] (todas as partculas no
vrtice 1, exceto a ltima partcula, a qual localiza-se no vrtice 2) o segundo estado;
e assim sucessivamente, at o estado escalar V K .
4.1.3
Em vista das consideraes tomadas na seo anterior, o sistema dinmico estocstico proposto para modelar este comportamento competitivo entre as partculas ser
analisado aqui. Primeiramente, o estado interno do sistema dinmico dado por:
X (t) =
N (t)
p(t)
E(t)
S(t)
61
(4.20)
(k)
(k)
min
S ( k ) ( t + 1) = 1
{ E(k) (t+1)=min }
(4.21)
N ( t + 1)
:
E ( t + 1)
S ( t + 1)
(4.22)
62
onde f N (.), f E (.) e f S (.) so funes matriciais, em que cada entrada dessa matriz
definida pelos termos escalares que aparecem na Equao (4.21). Esta forma alternativa
matricial ser utilizada para simplificar os clculos nas sees futuras.
4.1.4
(k)
Ni (0) =
,
1 + 1
(4.23)
caso contrrio
em que aplica-se a Equao (4.23) para todo (i, k ) S . Note que o escalar 1 introduzido na segunda expresso da Equao (4.23) com o fim de vrtices no visitados e no
inicialmente rotulados no tempo t tenham seu clculo bem definido, de acordo com a
Equao (4.7), j que o denominador no pode resultar em 0. Em relao s condies
iniciais de E(0), deseja-se uma competio justa entre as partculas, assim, seus valores
de energia iniciais so fixados como uma mesma constante, da seguinte forma:
max min
K
63
(4.24)
S(k) (0) = 0,
(4.25)
Figura 4.3: Diagrama de fluxo que indica, em alto nvel, como o sistema dinmico evolui no
tempo.
4.1.5
O Algoritmo
64
4.1.6
Na lista a seguir, ser discutida sobre a anlise de complexidade de todos os comandos relevantes apresentados no Algoritmo 1.
Passo 2: A cardinalidade do conjunto pode ser avaliada por uma nica passagem
pelo conjunto. Assim, a complexidade temporal O(K );
Passo 3: Construo da rede a partir do conjunto de dados de entrada. Este processo
possui complexidade temporal de O(V 2 ), uma vez que a matriz de distncia deve
ser calculada;
Passo 4: Gerao das K partculas na rede. Esse passo tem complexidade temporal
de O(K );
Passo 5: Neste passo, deve-se visitar todas as arestas da rede. Logo, esta operao
tem complexidade temporal de O( L), onde L denota o nmero de arestas na rede;
65
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
(k)
(k)
(k)
16
17
18
19
20
21
22
23
24
25
(k)
fim
Passos 6 e 7: Uma simples operao deve ser feita para cada uma das K V entradas
(0), respectivamente. Portanto, estes passos caracterizam-se
das matrizes N (0) e N
como tendo complexidade temporal de O(KV );
Passos 8 e 9: Outra simples operao realizada para cada uma das K entradas de
E(0) e S(0). Desta forma, a complexidade temporal O(K );
Passo 13: Suponha que k seja o grau mdio da rede. Ento, segue que este passo
pode ser completado em O( k );
Passo 14: Mantm-se uma hashtable para armazenar os vrtices que esto sendo dominados por cada partcula. Assim, consegue-se encontrar um vrtice dominado
por uma partcula exausta em tempo constante, i.e., O(1);
Passo 15: Multiplicao de escalares pelo nmero de vizinhos do vrtice que a partcula k est visitando. Isto concludo em O( k );
Passo 16: A partcula k escolhe o prximo vrtice a visitar. Utiliza-se uma funo
de probabilidade cumulativa seguindo a distribuio de probabilidade calculada no
Passo 15 e, a partir da gerao de um nmero aleatrio, realiza-se a transio da
partcula a um outro vrtice adjacente. Logo, tendo em vista que a matriz de tran-
66
67
4.2
Nesta seo, sero fornecidos: (i) uma anlise matemtica detalhada do modelo
proposto, (ii) um exemplo numrico mostrando o uso prtico dessa anlise, e (iii) uma
validao dos resultados tericos obtidos. Para todos os efeitos, considera-se a anlise
de grafos no direcionados.
4.2.1
Resultados Tericos
68
250
225
200
175
150
125
200
150
100
50
0
2000
4000
6000
8000
10000
P( X (t + 1) | X (t)) = P( N (t + 1), p(t + 1), E(t + 1), S(t + 1) | N (t), p(t), E(t), S(t))
= P(S(t + 1) | N (t + 1), p(t + 1), E(t + 1), N (t), p(t), E(t), S(t))
P( N (t + 1), p(t + 1), E(t + 1) | N (t), p(t), E(t), S(t))
= PS(t+1) P( E(t + 1) | N (t + 1), p(t + 1), N (t), p(t), E(t), S(t))
P( N (t + 1), p(t + 1) | N (t), p(t), E(t), S(t))
(4.26)
onde PS(t+1) = P(S(t + 1) | N (t + 1), p(t + 1), E(t + 1), X (t)), PE(t+1) = P( E(t + 1) |
N (t + 1), p(t + 1), X (t)), PN (t+1) = P( N (t + 1) | p(t + 1), X (t)) e Pp(t+1) = P( p(t + 1) |
X (t)). Agora, vital proceder para a determinao dos quatro termos que aparecem
ao fim da Equao (4.26).
Como primeiro termo a analisar, toma-se Pp(t+1) . Notando que, para ganhar conhecimento sobre p(t + 1), apenas necessrio o conhecimento de p(t) e N (t), e estas
duas ltimas quantidades fazem parte de X (t) que, por hiptese, dado, vlido concluir que a funo de transio do conjunto de partculas para um estado futuro da
rede, denotado, por Pp(t+1) , de fato a matriz de transio indicada na Equao (4.1).
Matematicamente, a seguinte equivalncia vale:
69
(4.27)
Neste momento, foi utilizada a notao Ptrans ( N (t), p(t)) para enfatizar a dependncia que a matriz de transio tem, no ato de sua construo, de N (t) e, no ato de
sua manipulao, de p(t) na sua forma escalar.
Procede-se, agora, para a avaliao de PN (t+1) . Neste caso, tem-se uma informao
adicional em relao ao caso anterior, a qual , alm do estado anterior do sistema X (t),
o conhecimento sobre p(t + 1). Uma rpida anlise da regra de atualizao de N (t),
que revelada pela primeira expresso do sistema , mostra que possvel completamente determinar N (t + 1), uma vez que p(t + 1) e N (t) so conhecidos por hiptese.
Em funo disso, a seguinte equao vale:
(4.28)
onde Q N ( p(t + 1)) uma matriz com dim( Q N ) = V K e com dependncia em p(t +
1), cuja expresso dada por:
1 (1)
1{ p(K) (t+1)=1}
{ p (t+1)=1}
1 (1)
{ p (t+1)=2} 1{ p(K) (t+1)=2}
Q N ( p(t + 1)) =
..
..
..
.
.
.
(4.29)
70
(4.30)
onde Q E ( p(t + 1), N (t + 1)) uma matriz com dim( Q E ) = 1 K e com dependncia
em N (t + 1) e p(t + 1). A k-sima entrada, k K, de tal matriz expressa por:
(k)
proprietario(k,t+1)} .
(4.31)
Observe que o argumento na funo indicadora na Equao (4.31) , essencialmente, a Equao (4.13) em uma forma compacta matricial. Foram utilizadas funes
indicadoras para descrever os dois comportamentos que essa varivel aleatria pode
mostrar: incremento ou decremento, de acordo com o proprietrio do vrtice que uma
partcula especfica est visitando. Supondo que a partcula k K esteja visitando um
vrtice cuja proprietria a mesma partcula, ento apenas a primeira funo indica(k)
dora da Equao (4.31) ativada, produzindo Q E ( p(t + 1), N (t + 1)) = 1. Similarmente, se a partcula k est visitando um vrtice de propriedade de partcula adversa,
(k)
ento a segunda funo indicadora ser ativada, resultando Q E ( p(t + 1), N (t + 1)) =
1. Esse comportamento, em conjunto com a Equao (4.30), exatamente a expresso
dada pela Equao (4.13), porm em forma matricial.
Em derradeiro, para o quarto e ltimo termo, PS(t+1) , existem mais informaes
dadas em relao aos trs termos anteriores. Especificamente, neste caso, E(t + 1),
N (t + 1), p(t + 1), e o estado anterior do sistema, X (t), so dados. Avaliando a Equao (4.14), verifica-se que o clculo da k-sima entrada de S(t + 1) completamente
caracterizado uma vez que seja conhecido o vetor estocstico E(t + 1). Logo, pode-se
completamente determinar PS(t+1) , similarmente aos dois casos anteriores. Matematicamente, tem-se que:
= 1{S(t+1)=QS (E(t+1))} ,
(4.32)
onde QS ( E(t + 1)) uma matriz com dim( QS ) = 1 K e com dependncia em E(t + 1).
A k-sima entrada, k K, de tal matriz calculada a partir da seguinte equao:
(k)
(4.33)
71
(4.34)
(4.35)
(4.36)
Aplicando o teorema de Bayes sucessivas vezes, como mostrado apenas uma vez
na Equao (4.36), chega-se a:
P( X (t 1) | X (0), . . . , X (t 2))
(4.37)
72
f N ( N ( t ), p t +1 )
: f E ( N ( t + 1 ), p t +1 ) X t +1 | X ( t ), . . . , X (0 ) .
P p t +1
(4.38)
f S ( E(t + 1))
Uma vez estabelecido o valor de pt+1 , o qual deve respeitar a distribuio probabilstica dada pela linha correspondente a forma escalar de p(t) da matriz que comporta todas as partculas, Ptrans ( N (t)), possvel determinar N (t + 1), o qual, por sua
vez, permite calcular E(t + 1). Essa informao, por ltimo, suficiente para calcular
S(t + 1). Logo, note que o clculo do estado presente no pode ser obtido de forma
concorrente. Desta forma, este clculo deve ser realizado de forma ordenada at a obteno do estado interno inteiro, X (t). Mais ainda, como j foi estudado anteriormente,
pt+1 independente do passado, em virtude de apenas necessitar de N (t) e p(t) para,
de forma probabilstica, determinar a distribuio para o estado subsequente imediato.
Usando esse fato, tem-se que:
P p t +1
f N ( N ( t ), p t +1 )
: f E ( N ( t + 1 ), p t +1 ) X t +1
f S ( E(t + 1))
f N ( N ( t ), p t +1 )
P p t +1 : f E ( N ( t + 1 ), p t +1 )
f S ( E(t + 1))
| X ( t ), . . . , X (0) =
X t +1 | X ( t ) =
P ( X (t + 1) Xt+1 | X (t)) .
(4.39)
73
(4.40)
Utilizando a funo probabilstica de transio que rege o sistema , tal como indicada na Equao (4.34), a cada termo deslocado na Equao (4.40), obtm-se:
t 1
(4.41)
u =1
onde P( X (0)) = P( N (0), p(0), E(0), S(0)). Porm, o principal interesse dessa anlise de obter a distribuio marginal N (t) quando t . Tal quantidade pode
ser recuperada a partir da distribuio conjunta calculada na Equao (4.41), fazendo
a soma de todas as variveis aleatrias sem relevncia em todo o seu domnio, i.e.,
N (t 1), . . . , N (0), p(t), . . . , p(0), E(t), . . . , E(0), S(t), . . . , S(0). Seguindo essa estratgia para obter N (t), essencial estudar os limites inferior e superior de N (t) para um t
arbitrrio, uma vez que o domnio de cada entrada da matriz N (t) [1, ). Com esse
estudo, espera-se encontrar limites superiores atingveis para um determinado tempo
t. Desta forma, valores que excedam esses limites so garantidos de ocorrerem com
probabilidade nula; logo, tal anlise ser responsvel por podar uma grande quantidade de valores impraticveis. Mais importante, a somatria sobre todos os valores
indesejados N (0), . . . , N (t 1) ser matematicamente assegurada de sempre existir,
tendo em vista que existiro um nmero finito de termos na somatria, todos os quais
limitados por um majorante finito, como ser visto. Esse majorante definido pelo
Lema 1, portanto, a convergncia garantida. Tal Lema provado a seguir.
(k)
Lema 1. O maior valor que uma entrada arbitrria de N (t) pode tomar, diga-se Ni (t), dado
que i representa um vrtice no rotulado, expresso por:
(k)
Nimax (t)
t +1
2
+ 1, se t > 0 e aii = 0
t + 2,
(4.42)
74
Figura 4.5: Uma rede construda para ilustrar a trajetria que uma partcula deve percorrer
para aumentar uma entrada arbitrria de N (t) o mais rpido possvel. (a) Rede sem autolaos;
(b) rede com autolaos.
com autolaos.
Para o primeiro caso, tem-se que i V : aii = 0. Por hiptese, a partcula k comea
no vrtice i no tempo 0 (como ilustrao, considere o vrtice 1 na Figura 4.5a). A forma
(k)
mais rpida de aumentar Ni (t) ocorre quando a partcula k visita um vizinho do
vrtice i, e.g., vrtices 2 ou 3 na Figura 4.5a, e imediatamente retorna para o vrtice i
(vrtice 1 na Figura 4.5a). Repetindo-se esta trajetria at o instante t, espera-se que
(k)
o maior valor de Ni (t) seja exatamente o exposto na primeira expresso da Equao
(4.42).
Para o segundo caso, i V : aii > 0. Considere que a partcula k comece exata(k)
mente nesse vrtice i com autolao. Fica claro que a forma de aumentar Ni (t) mais
rapidamente sempre revisitar i pela aresta de autolao (veja a Figura 4.5b). Em vista
(k)
disso, o maior valor que Ni (t), para um t arbitrrio, pode tomar exatamente aquele
mostrado na segunda expresso da Equao (4.42). O fator +2 ocorre em razo da
partcula inicialmente ser gerada no vrtice i, de acordo com a segunda expresso na
Equao (4.23).
75
Portanto, tal anlise matemtica sobre essa varivel deve ser feita com cuidado. O
Lema 2 fornece um resultado para auxiliar na resoluo deste detalhe.
Lema 2. O domnio atingvel por uma entrada arbitrria de E(t), diga-se E(k) (t), t N,
denotado aqui por D E , dado por:
DE
onde ni =
max min
+ n, n = { ni , . . . , nm }
K
max min
min + n, n = 1, 2, . . . ,
max min
,
max n, n = 1, 2, . . . ,
min +
max min
K
0 e nm =
max min
1
K
(4.43)
0.
Demonstrao. Esta prova dividida em trs partes, as quais so definidas pelos trs
conjuntos que aparecem na expresso do caput desse Lema.
O primeiro conjunto responsvel por fornecer os valores que so mltiplos de
min
tendo como offset a condio inicial de E(k) (0), i.e., E(k) (0) = min + max
,
K
(
k
)
tal como a Equao (4.24) revela. O mnimo valor atingvel de E (0) dado quando
n = ni , o qual calculado por:
ni =
min +
max min
K
min
max min
,
K
(4.44)
max min +
nm =
max min
K
max min
1
K
(4.45)
Depois de transcorrido um tempo, a partcula k poder atingir um dos dois possveis extremos de energia permitidos: min or max . Em razo do operador max(.) na
Equao (4.13), necessrio listar tambm todos os nmeros mltiplos de partindose desses dois offsets: min or max . O segundo conjunto no caput desse lema precisamente fornece estes mltiplos quando o offset tomado a partir de min e o terceiro
conjunto, quando tomado max . Uma vez atingido um desses dois ltimos conjuntos, a partcula no mais sai deles, i.e., o primeiro conjunto fica inatingvel. Portanto,
todos os valores de E(k) (t) foram apropriadamente mapeados.
Por ltimo, o limite superior de uma entrada arbitrria S(t) 1, j que os valores
que esta varivel pode tomar so {0, 1}. luz das anlises realizadas at ento, a
76
P( N (t)) =
(1)
N1 (0)=1
(2)
N1 (0)=1
...
...
i(2) (0)D
g(t1,V )
(K )
NV (t1)=1
i(K ) (t)DE
...
S(K ) (0)=0
...
i(K ) (0)D
...
(K )
NV (0)=1
p(K ) (t)=1
g(0,V )
g(0,1)
i(1) (0)D
...
p(K ) (0)=1
g(0,1)
...
...
E(K ) (t)=0
t 1
(4.46)
u =1
onde g(t, i ) uma funo por partes que indica o valor mximo de N (t) no instante t
para um vrtice i qualquer. Sua definio diretamente feita por intermdio do Lema
1:
g(t, i ) =
t +1
2
+ 1,
t + 2,
se aii = 0
se aii > 0
(4.47)
77
N (t) =
1 1 1
1 2 3
N (t) =
2 2 2
2 4 6
(4.48)
(t) =
N
1/3
1/3
1/3
1/6
1/3
1/2
(4.49)
(4.50)
1 + uK \ {k} g(t, u)
(k)
g(t, i )
g(t, i ) + (K 1)
(4.51)
78
outras K 1 partculas u K \ {k} visitam o vrtice i da maneira mais rpida possvel, i.e., seguindo o Lema 1. Assim, tal vrtice ser visitado uK \ {k} g(t, u) vezes
pelas outras partculas. Porm, tendo em vista a inicializao de N (0) mostrada na segunda expresso da Equao (4.23), deve-se adicionar 1 ao total de visitas, em funo
da existncia da partcula k. Em virtude disso, esperado que o total de visitas seja
1 + uK \ {k} g(t, u). Como a partcula k s visitou uma vez o vrtice i, em consonncia Equao (4.7), chega-se Equao (4.50).
(b) Por hiptese, o vrtice i no rotulado. O maior valor ocorre quando as seguintes condies so satisfeitas: (i) a partcula k gerada no vrtice i; (ii) a partcula
k visita i do jeito mais rpido possvel, i.e., seguindo a expresso no Lema 1; e (iii) as
outras partculas u K \ {k } nunca visitam o vrtice i. Desta forma, espera-se que
g(t, i ) + (K 1) visitas sejam feitas ao vrtice i, sendo que o segundo termo devido
inicializao de N (0) conforme a segunda expresso indicada na Equao (4.23) para
as K 1 partculas restantes. Esta informao, em conjunto com a Equao (4.7), implica a Equao (4.51).
(k) ( t ) =
N
i
min
1
.
1 + (K 1) g(t, i )
(4.52)
O Lema seguinte fornece subsdios para determinar todos os elementos que inte (t), entre os limites assegurados pelo Lema 3.
gram as entradas da matriz N
Lema 4. Considere as fraes irredutveis denotadas da seguinte forma num/den. O domnio
(t), diga-se N
(k) (t), denotado por I . Tal conjunto contm
atingvel de qualquer entrada de N
i
todos os valores que so satisfeitos pelas seguintes condies:
(i) Em relao aos vrtices no rotulados:
(a) A menor frao irredutvel dada pela expresso na Equao (4.50).
(b) A maior frao irredutvel dada pela expresso na Equao (4.51).
(c) As fraes irredutveis no intervalo satisfazendo aos itens (a) e (b) no caput desse Lema
tm a forma:
I. num, den N .
II. num g(t, i )
III. den uK g(t, u)
(ii) Em relao aos vrtices pr-rotulados:
79
80
( t ),
O Lema 4 fornece o domnio atingvel de I para um entrada especfica de N
(k) (t). A seguir, essa ideia simplesmente estendida para o espao gerado
diga-se N
i
(t), i.e., restringe-se cada entrada da matriz em apreo a pertencer a I .
pelas matrizes N
Matematicamente, o conjunto de valores gerados nesse espao ser denominado M,
i.e.:
(k)
{ N : N i I , (i, k) S}.
(4.53)
(t) = U : U M =
P N
L = uN (t) : L = U ,
(4.54)
u =1
4.2.2
Um Exemplo Numrico
Para fins de clareza, nesta seo, ser aplicado os resultados tericos derivados na
seo anterior a uma rede simples. Com propsito ilustrativo, apenas uma iterao
do sistema ser analisada, especificamente, a transio de t = 0 para t = 1. Considere o simples exemplo composto por uma rede regular de 3 vrtices, idntica quela
mostrada na Figura 4.5a. Nesta rede, considere que o vrtice v1 seja pr-rotulado como
sendo pertencente classe 1 e o vrtice v2 , classe 2, i.e., V = {v1 , v2 , v3 }, VL = {v1 , v2 }
e C = {1, 2}. Claramente, o vrtice v3 possui caractersticas de sobreposio entre as
classes 1 e 2. Agora, ser teoricamente mostrado este comportamento nesta seo. Suponha a seguinte configurao arbitrria: K = 2 partculas so inseridas na rede, i.e.,
K = {1, 2}, em que a partcula 1 representa o vrtice v1 (i.e., ela propagar o rtulo do
vrtice v1 ) e a partcula 2, o vrtice v2 , i.e., L = {(v1 , 1), (v2 , 2)}. Considere tambm
que exista certeza sobre a localizao das partculas no instante t = 0, cuja distribuio
81
satisfaz expresso:
(4.55)
i.e., existe 100% de certeza que as partculas 1 e 2 sero geradas nos vrtices v1 e v2 ,
respectivamente, no tempo t = 0. Observe que N (0), E(0) e S(0) foram escolhidos com
o fim de satisfazer s Equaes (4.23), (4.24) e (4.25), respectivamente; caso contrrio, a
probabilidade valeria 0, em vista da Equao (4.34).
A partir da Figura 4.5a, fcil deduzir a matriz de adjacncia A do grafo e, portanto, determinar a matriz associada movimentao aleatria para uma partcula
(lembrando que essa matriz idntica a todas as partculas). Ento, aplicando a Equao (4.2) matriz de adjacncia A, resulta em:
Paleat
0 0.50 0.50
= 0.50 0 0.50 .
0.50 0.50 0
(4.56)
1
0
(0) =
N
1 .
0
0.50 0.50
(4.57)
0 0 1
(1)
Ppref (0) = 0.67 0 0.33
1 0 0
0 0.67 0.33
(2)
Ppref (0) = 0 0
1
0 1
0
(4.58)
(4.59)
82
(4.60)
onde X (0) dado pela Equao (4.55). Alm disso, como foi fixado = 1, esperado
que a transio das partculas seja altamente dependente em relao aos nveis de dominao impostos sobre os vrtices da rede. Logo, dado que os vrtices pr-rotulados
constituem foras extremamente repulsivas que agem contra partculas rivais, o comportamento preferencial dessas partculas no ir se aventurar sobre estes tipos de vrtices. Isto serve como uma explicao natural de o estado p(1) = [v3 v3 ] ser o nico
estado atingvel na prxima iterao do sistema competitivo.
Antes de realizar o cmputo da distribuio marginal P( N (1)), necessrio fixar
um limite superior para um entrada arbitrria de um vrtice no rotulado da matriz
N (1). Tal quantidade pode ser prontamente avaliada a partir da Equao (4.42). Apli(k)
cando a referida equao, obtm-se g(1, i ) = Nimax (1) = 2, i V , implicando que s
necessrio tomar as combinaes numricas da matriz N (1) tal que cada entrada da
mesma deve figurar entre os valores {1, 2}, uma vez que, segundo o Lema 1, valores
maiores ocorrem com probabilidade nula. Adicionalmente, deve-se iterar o sistema
sobre os valores atingveis de E(0) e E(1). Para tanto, fixa-se, para efeitos didticos,
= 0.25, min = 0 e max = 1. Com isso, possvel utilizar o Lema 2, produzindo
E(t) {0, 0.25, 0.5, 0.75, 1}. Os limites das variveis do sistema remanescentes, i.e.,
S(0) e S(1), so triviais. Nas condies presentes, e tendo em vista os clculos anteriores, tem-se informao suficiente para calcular a distribuio marginal P( N (1)), em
consonncia com a Equao (4.46):
P N (1) = 1 = 1 1 = 1.
2 2
(4.61)
83
(1)). Segundo os
Como ltimo objetivo, a tarefa determinar a distribuio P( N
passos especificados na seo anterior, preciso encontrar todos os elementos ating (1). Tais elementos comporo o conjunto I . Isto
veis para um entrada arbitrria de N
(t) que contenham
significa que apenas necessrio considerar entradas da matriz N
(t) so inatingveis e, porelementos do conjunto I ; os valores remanescentes de N
tanto, ocorrem com probabilidade nula. Em vista das restries anteriormente listadas,
para calcular I , utilizam-se o Lema 3 e a Observao 2:
1
1
1
=
= ,
1 + (K 1) g(t, i )
1 + (2 1)2
3
2
2
g(t, i )
(k) ( t ) =
N
=
= .
imax
g(t, i ) + (K 1)
2 + (2 1)
3
(k) ( t ) =
N
imin
(4.62)
(4.63)
Assim, pelo Lema 4, tem-se I = {0, 1/3, 1/2, 2/3, 1}. de extrema valia notar que
os nicos valores que os vrtices 1 e 2 (pr-rotulados) podem tomar so {0, 1} I ,
como foi visto anteriormente. Observando que h conhecimento sobre a distribuio
(1)) a seguir:
completa de N (1), ento aplica-se a Equao (4.54) para encontrar P( N
1
0
P N
(1) = 0
1 = 1.
0.5 0.5
(4.64)
4.2.3
84
85
res so possveis, mas ocorrem mais raramente. Como pode-se visualmente verificar,
os resultados tericos modelam, mesmo que de forma aproximada, o comportamento
emprico das simulaes, confirmando, desta forma, a anlise terica conduzida na
seo anterior.
0.5
0.4
0.4
Distribuio Terica
Distribuio Emprica
Distribuio Terica
Distribuio Emprica
0.4
0.24
0.16
0
0
0.3
0.2
0.1
0.08
0.2
0.4
0.6
(vermelha) (1000)
N
4
(a)
0.8
0
0
Distribuio Terica
Distribuio Emprica
0.32
Probabilidade
Probabilidade
Probabilidade
0.32
0.24
0.16
0.08
0.2
0.4
0.6
(vermelha) (1000)
N
11
(b)
0.8
0
0
0.2
0.4
0.6
0.8
(vermelha) (1000)
N
16
(c)
Figura 4.6: Comparao entre as distribuies terica e emprica para trs vrtices distintos: v4 ,
v11 e v16 em relao ao nvel de dominao imposto pela partcula vermelha. Pode-se verificar
que o nvel de dominao mais provvel que a partcula vermelha impor ao vrtice v4 ser
aproximadamente de 0.88 com 34% de chance, ao vrtice v11 ser 0.53 com 47% de chance, e ao
vrtice v16 ser 0.14 com 33% chance.
4.3
Simulaes Computacionais
4.3.1
86
0.8
Acurcia
0.7
0.6
0.5
0.4
0.3
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Outro parmetro importante que precisa ser estudado , o qual entra em cena no
ato de atualizao da energia das partculas. Novamente, redes aleatrias clusterizadas sero empregadas para anlisar o comportamento desse parmetro. A Figura 4.8
retrata a acurcia de classificao atingida pelo algoritmo em funo de . Pode-se verificar que, para valores intermedirios de , no caso, 0.05 < < 0.4, o modelo no
muito sensvel a este parmetro. Entretanto, conforme fica maior, o desempenho do
algoritmo comea a ser prejudicado. Isto ocorre porque, para um max , fica extremamente difcil de uma partcula mudar o proprietrio de um vrtice anteriormente
dominado por outra partcula rival. A razo decorrente disso que, to logo uma partcula visite um vrtice no dominado por ela, sua energia atingir o patamar mnimo
instantaneamente, fazendo com que ela se torna exausta e volte ao seu territrio de
origem. Pode-se entender esse processo com um hard labeling artificial. Por outro
lado, para um min , as partculas estaro livres para viajar na rede sem quaisquer
penalidades sobre suas correspondentes energias. Assim, elas raramente se tornaro
exaustas. Em vista disso, todos os vrtices da rede estaro em constante competio e
as bordas das classes no sero estabelecidas.
Cumpre ressaltar que min e max no precisam ser analisados, j que apenas definem um intervalo. A anlise de j incorpora, de forma indireta, a anlise desses
dois parmetros. Por exemplo, suponha que = 0.25, min = 0 e max = 1. Caso
fosse desejado que a partcula se tornasse exausta duas vezes mais rapidamente, apenas dobraria-se para 0.5, ao invs de diminuir pela metade max . Em suma, diante
87
0.76
0.74
Acurcia
0.72
0.7
0.68
0.66
0.64
0.62
0.6
0
0.2
0.4
0.6
0.8
4.3.2
Com a inteno de facilitar o entendimento de como a tcnica aqui estudada funciona, sero projetadas bases de dados artificiais com apenas duas classes, cada qual
com 50 vrtices. K = 2 partculas so inseridas na rede, cada qual representando uma
classe. Com essa base de dados artificial, ser observado o comportamento evolucional das partculas proprietrias de cada vrtice. A Figura 4.9a indica a configurao
inicial da rede, onde os crculos coloridos simbolizam vrtices rotulados. Os dados
escuros denotam dados ainda no dominados por nenhuma partcula. A propriedade
de cada vrtice dada pela partcula que impe o maior nvel de dominao sobre
o mesmo e ser didaticamente indicada pelas cores dos vrtices (azul ou vermelho).
Para esta simulao, ser utilizado = 0.6. De acordo com a Equao (4.23), os vrtices pr-rotulados tm sua propriedade fixada como sendo a partcula a qual o representa. Conforme o sistema dinmico evolui, as partculas visitam os vrtices da rede
em consonncia com a funo probabilstica de transio dada na matriz Ptrans (t). A
Figura 4.9b mostra como os vrtices esto dominados para t = 100, a Figura 4.9c, para
t = 200, e a Figura 4.9d revela as partculas proprietrias dos vrtices no estado em
que j no h mais mudana de dominao entre os vrtices, o qual atingido quando
88
t = 300. Ainda para a mesma rede, ser verificado como o nvel de dominao mdio
dos vrtices de uma classe se comporta para as duas partculas no modelo. A Figura
4.10a indica o nvel de dominao mdio imposto pela partcula representando o vrtice pr-rotulado azul nos vrtices v1 ao v50 (classe azul) e v51 ao v100 (classe vermelha),
enquanto que a Figura 4.10b exibe a mesma informao para a partcula representando
o vrtice pr-rotulado vermelho. Claramente, conforme o tempo progride, pode-se verificar que as duas classes so, de maneira inequvoca, separadas pelo sistema competitivo.
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
(a)
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
(c)
0.75
0.75
(b)
0.5
0.75
0.25
0.5
(d)
89
0.9
0.8
0.9
Vertices 1 ao 50
Vertices 51 ao 100
(2)(t)
N
.
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
Vertices 1 ao 50
Vertices 51 ao 100
0.7
(1)(t)
N
.
0.7
0.8
300 600 900 1200 1500 1800 2100 2400 2700 3000
300 600 900 1200 1500 1800 2100 2400 2700 3000
tempo
tempo
(a)
(b)
Figura 4.10: Comportamento evolucional do nvel de dominao mdio imposto pelas partculas no modelo. (a) Nvel mdio de dominao imposto pela partcula 1; e (b) Mesma informao
para a partcula 2.
zado o pacote PRTools (?) que automaticamente gera distribuies no triviais e bem
conhecidas na literatura para problemas de classificao. Para todas as simulaes
realizadas com estes tipos de classe, h a necessidade de construo da rede a partir
do conjunto de dados de entrada. Neste caso, cada item de dado representado por
um vrtice. Arbitrariamente, ser escolhida a tcnica k-vizinhos mais prximos com
k = 5, i.e., cada vrtice conectado com os seus 5 vizinhos mais prximos segundo
uma medida de similaridade, a qual aqui tomada como sendo a Euclidiana. Para
cada 50 vrtices gerados, escolhe-se aleatoriamente um entre eles e o pr-rotula. Para
cada vrtice rotulado, uma partcula representante gerada. Note que, neste caso, haver cooperao entre partculas oriundas do mesmo time. Conforme j visto, para
obter o nvel de dominao agregado de um time de partculas sobre um vrtice, apenas somam-se os nveis de dominao de cada partcula constituinte do time sobre o
mesmo vrtice. O primeiro conjunto de dados, como mostrado na Figura 4.11a, consiste em 600 exemplos igualmente divididos em duas classes com formatos de banana.
O resultado exibido na Figura 4.11b. A segunda base de dados, a qual pode ser vista
na Figura 4.11c, composta de 600 exemplos igualmente divididos em duas classes
Highleyman. O resultado correspondente fornecido na Figura 4.11d. A terceira base
de dados, como retratada na Figura 4.11e, engloba 550 exemplos divididos em duas
classes Lithuanian. O resultado dado na Figura 4.11f. A quarta base de dados, como
pode ser visualizada na Figura 4.11g, construda a partir de 800 exemplos igualmente
dividos em quatro classes seguindo distribuies Gaussianas. O resultado indicado
na Figura 4.11h. Enfim, segundo os dados de entrada, todos os resultados obtidos
so visualmente satisfatrios, reforando o argumento de robustez da tcnica frente a
90
4.3.3
Base de Dados
g241c
g241d
Digit1
USPS
COIL
BCI
Text
Classes
Dimenso
Nmero de Exemplos
Tipo
2
2
2
2
6
2
2
241
241
241
241
241
117
11960
1500
1500
1500
1500
1500
400
1500
artificial
artificial
artificial
no balanceada
dados esparsos
O benchmark de Chapelle et al. (2006) utilizado da seguinte forma: para cada base
de dados citada na Tabela 4.2, dois tipos de experimentos sero realizados: 10 e 100
vrtices inicialmente pr-rotulados. A escolha dos vrtices pr-rotulados realizada de
tal forma a assegurar que exista pelo menos 1 vrtice pr-rotulado de cada classe para
cada configurao. Assim, para cada base de dados e configurao inicial de vrtices
pr-rotulados (10 ou 100), o benchmark fornece 12 conjuntos diferentes de vrtices prrotulados. Para cada um desses conjuntos, o modelo competitivo rodado 100 vezes
independentemente. Finalmente, o erro do conjunto de teste para cada base de dados
calculado tomando-se a mdia dessas 12 100 = 1200 execues do algoritmo.
Para fins de comparao, so tambm conduzidos experimentos com tcnicas representativas de classificao semissupervisionada. Os resultados obtidos para essas
tcnicas foram extrados de Chapelle et al. (2006), exceto para as tcnicas LGC, LP, and
LNP. Por questes de clareza, uma breve descrio de cada uma dessas tcnicas dada
na Tabela 4.3. A configurao paramtrica dos algoritmos pode ser consultada diretamente na descrio minuciosa em (Chapelle et al., 2006) e nas referncias mostradas
na tabela em comento. Em relao s tcnicas LGC, LP, and LNP, os seguintes par-
91
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
(a)
1
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
(c)
1
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
(e)
1
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
(g)
0.5
0.75
0.5
0.75
0.75
(f)
(d)
0.75
(b)
0.5
0.75
0.25
0.5
(h)
92
metros foram utilizados: (i) LGC: como sugerido pelos autores em (?), = 0.99 e
escolhido como o valor que resulta na melhor acurcia de classificao no intervalo
discretizado {0, 1, . . . , 100}; (ii) LP: o timo determinado da mesma forma que
na tcnica anterior no intervalo discretizado {0, 1, . . . , 100}; (iii) como sugerido pelos autores em (?), = 0.99 e k escolhido da mesma forma no intervalo discretizado
k {1, 2, . . . , 100}.
Quanto ao algoritmo competitivo, uma vez que ele baseado em redes, necessitase de uma tcnica de formao de redes. No caso, foi escolhida a tcnica k-vizinhos
mais prximos e o valor de k otimizado no intervalo discretizado k {1, 2, . . . , 10}.
Quanto aos parmetros internos do sistema dinmico, otimizado no intervalo discretizado {0.5, 0.51, . . . , 0.8}. O nmero de partculas inserido na rede igual ao
nmero de dados rotulados. A posio inicial das partculas fixada como o vrtice o
qual a mesma representante. Os valores obtidos pelo modelo so extrados da mdia
atingida pelo algoritmo em 100 realizaes em cada uma das 12 configuraes acima
explicadas. Os resultados obtidos para essas tcnicas, para o caso de apenas 10 vrtices pr-rotulados, so reportados na Tabela 4.4, enquanto que os resultados atingidos
pelos mesmos algoritmos em apreo, no caso de 100 vrtices pr-rotulados, so fornecidos na Tabela 4.5. Em ambas as tabelas, tambm indicada a posio mdia de
cada algoritmo, medida a qual calculada da seguinte forma: (i) para cada base de
dados, os algoritmos so ordenados segundo seu desempenho em relao ao erro cometido no conjunto de testes, i.e., o melhor algoritmo ordenado em primeiro lugar, o
segundo melhor, em segundo lugar, e assim sucessivamente; e (ii) para cada algoritmo,
a posio mdia dada pela mdia das posies atingidas em cada base de dados.
Uma anlise atenta das Tabelas 4.4 e 4.5 revela que a tcnica baseada em competio de partculas obteve resultados satisfatrios em relao aos outros mtodos. Especificamente, para o caso de poucos vrtices pr-rotulados (10 vrtices), a tcnica em
apreo atingiu melhores resultados em relao ao seu desempenho com 100 vrtices
inicialmente pr-rotulados. Isto uma caracterstica interessante, uma vez que a tarefa de rotulao de vrtices geralmente onerosa e propensa a erros, j que envolve a
participao de especialistas humanos.
De forma a analisar os resultados obtidos nas Tabelas 4.4 e 4.5 e verificar se o algoritmo proposto realmente apresenta relevncia estatstica, ser aplicado uma mtodo
estatstico conforme proposto em ? e ?. A tcnica descrita nos artigos ora citados utiliza
a informao da posio (rank) atingida por cada algoritmo para cada base de dados,
i.e., a posio mdia, j apresentada anteriormente. Essas posies mdias de cada
algoritmo so avaliadas segundo o Teste de Skillings-Mack (reduz-se ao Teste de Friedman quando no existem valores ausentes na tabela). Tal teste estatstico indicado
para verificar se as posies mdias dos algoritmos diferem da esperana da posio.
A hiptese nula que todos os algoritmos so idnticos, logo, suas posies mdias
93
94
Tabela 4.3: Tcnicas selecionadas para comparao no benchmark de Chapelle et al. (2006).
Abreviao
Tcnicas
Ref(s).
MVU + 1-NN
LEM + 1-NN
Laplacian Eigenmaps
QC + CMR
Discrete Reg.
Discrete Regularization
(?)
TSVM
(??)
SGT
(?)
Cluster-Kernel
Cluster Kernels
(?)
Data-Dep. Reg.
Data-Dependent Regularization
(?)
LDS
Low-Density Separation
(?)
Laplacian RLS
(?)
CHM (normed)
(?)
LGC
(?)
LP
Label Propagation
(?)
LNP
(?)
Tabela 4.4: Erros preditivos no conjunto de teste (%) com 10 vrtices rotulados no conjunto de
treinamento.
1-NN
SVM
MVU + 1-NN
LEM + 1-NN
QC + CMR
Discrete Reg.
TSVM
SGT
Cluster-Kernel
Data-Dep. Reg.
LDS
Laplacian RLS
CHM (normed)
LGC
LP
LNP
Mtodo Proposto
BCI
Text
Pos. Mdia
47,88
47,32
47,15
44,05
39,96
49,59
24,71
22,76
48,28
41,25
28,85
43,95
39,03
45,82
42,61
47,82
43,89
49,00
49,85
47,95
48,74
50,36
49,51
49,15
49,59
48,31
50,21
49,27
48,97
46,90
47,09
46,37
47,65
48,00
38,12
45,37
45,32
39,44
40,79
40,37
31,21
29,02
42,72
27,15
33,68
45,50
49,53
41,06
34,84
9,86
14,14
9,86
10,00
7,86
10,86
10,86
6,50
10,86
9,83
8,43
6,14
7,20
7,29
5,57
7,43
5,29
46,72
46,66
45,56
43,22
46,55
49,05
50,08
18,64
42,05
45,89
50,63
45,68
43,01
44,09
41,93
46,24
46,47
13,65
30,60
14,42
23,47
9,80
12,64
17,77
8,92
18,73
12,49
15,63
5,44
14,86
9,89
11,31
8,58
8,10
16,66
20,03
23,34
19,82
13,61
16,07
25,20
25,36
19,41
17,96
17,57
18,99
20,53
9,03
14,83
17,87
15,69
63,36
68,36
62,62
65,91
59,63
63,38
67,50
67,32
63,65
61,90
54,54
63,45
55,82
55,50
54,18
95
Tabela 4.5: Erros preditivos no conjunto de teste (%) com 100 vrtices rotulados no conjunto de
treinamento.
1-NN
SVM
MVU + 1-NN
LEM + 1-NN
QC + CMR
Discrete Reg.
TSVM
SGT
Cluster-Kernel
Data-Dep. Reg.
LDS
Laplacian RLS
CHM (normed)
LGC
LP
LNP
Mtodo Proposto
BCI
Text
Pos. Mdia
43,93
23,11
43,01
40,28
22,05
43,65
18,46
17,41
13,49
20,31
18,04
24,36
24,82
41,64
30,39
44,13
24,92
48,67
34,31
47,89
44,83
46,22
47,67
33,25
45,03
35,17
47,47
43,97
31,36
36,03
43,50
42,69
46,22
41,57
30,11
26,45
32,83
30,77
25,71
24,00
24,52
23,09
24,38
23,15
23,57
46,83
40,79
38,48
27,92
9,00
9,14
11,86
12,14
7,50
8,21
8,71
4,67
6,79
7,17
6,00
4,93
9,10
10,00
9,29
12,50
7,00
42,45
24,64
38,20
37,49
28,20
41,65
22,42
9,11
4,95
32,82
23,74
26,46
25,67
40,08
29,22
38,30
29,11
3,89
5,53
2,83
6,12
3,15
2,77
6,15
2,61
3,79
2,44
3,46
2,92
3,79
2,72
3,05
3,27
3,11
5,81
9,75
6,50
7,64
6,36
4,68
9,77
6,80
9,68
5,10
4,96
4,68
7,65
3,68
6,98
17,22
4,82
17,35
22,93
28,71
23,27
10,03
9,61
25,80
21,99
11,46
13,72
11,92
45,55
11,14
11,01
10,94
Como ltimo experimento, ser utilizada uma base de dados de larga escala, no
caso, a base de dados Letter Recognition disponvel no repositrio UCI. Esse conjunto
de dados compreende 20.000 exemplos de 26 letras maisculas do alfabeto, com cada
exemplo apresentando fonte diferentes e distores aleatrias. Na sua configurao
original, as imagens dos exemplos so convertidas em 16 descritores escalares. Sero
aplicadas duas tcnicas representativas baseadas em redes (LP e LNP), bem como a tcnica de competio de partculas. Todas as tcnicas seguem as mesmas configuraes
paramtricas discutidas em oportunidade anterior. Cada algoritmo executado utilizando 3 subconjuntos de dados pr-rotulados escolhidos aleatoriamente, cada qual
com tamanho 1%, 5%, and 10% do conjunto de dados. Cada algoritmo executado 10
vezes na base de dados em apreo e a mdia dessas 10 execues disponibilizada.
A Tabela 4.6 reporta os erros de predio no conjunto de teste para essas trs tcnicas.
Novamente, verifica-se que o mtodo de competio obteve bons resultados.
Tabela 4.6: Erros preditivos no conjunto de teste (%) obtidos para o conjunto de dados Letter
Recognition.
LP
LNP
Mtodo Proposto
10% Rotulados
5% Rotulados
1% Rotulado
10,94
24,22
12,09
18,99
34,08
15,51
46,94
54,61
38,24
96
4.3.4
Consideraes Finais
Neste trabalho, foi proposto um novo modelo matemtico para competio de partculas em redes complexas, biologicamente inspirado pelo processo competitivo que
ocorre em muitos sistemas naturais e sociais. Neste modelo, vrias partculas, cada
uma representando uma classe, navegam na rede para explorar novos territrios e, ao
mesmo tempo, tentam defender seus vrtices j dominados contra partculas rivais. Se
vrias partculas propagam o mesmo rtulo, ento um time formado, e um processo
cooperativo entre partculas do mesmo time verificado. Um mecanismo de confinamento foi proposto com o intuito de prevenir partculas de navegarem na rede sem
quaisquer penalidades, possivelmente prejudicando a acurcia do algoritmo. Consequentemente, o algoritmo de competio propaga os rtulos de uma maneira local, ao
invs do que ocorre em diversas tcnicas tradicionais semissupervisionadas de classificao, em que os rtulos so propagados de forma global.
O modelo proposto no linear e estocstico. Em virtude disso, uma anlise matemtica alternativa foi elaborada para descrever e predizer o comportamento do modelo
conforme o tempo progride. Expresses fechadas para descrever a distribuio probabilstica da matriz de nvel de dominao foram apresentadas. Com esta ferramenta,
possvel verificar como ser o comportamento do modelo frente a uma rede qualquer.
Para fins de clareza, um exemplo numrico foi introduzido. Ainda, uma validao dos
resultados tericos foi demonstrada, confirmando as predies estudadas na seo de
anlise matemtica.
Simulaes computacionais foram realizadas com o propsito de quantificar a robustez do mtodo proposto em conjuntos de dados reais e artificiais. Uma anlise
detalhada do comportamento evolucional da matriz de dominao revela que o modelo funciona bem em ambas situaes. Mais importante, este trabalho uma tentativa
de fornecer uma forma alternativa para o estudo de aprendizado competitivo.
Como trabalhos futuros, sero investigadas e propostas novas medidas para quantificar a natureza de sobreposio de vrtices ou sub-grafos na rede. Outro tpico de
suma importncia que ser estudado a propagao de rtulos errados. Neste cenrio,
ser utilizado o prprio processo competitivo para prevenir que esses rtulos errados
se propaguem pela rede. Com isso, espera-se aumentar a confiabilidade do resultado
final produzido pelo modelo. Tendo em vista que a tarefa de rotulao usualmente
envolve esforos humanos, os quais, por sua vez, so suscetveis a introduo de erros,
este um tpico importante para ser futuramennte estudado pelo modelo proposto.
C APTULO
5
Proposta de Pesquisa
Neste captulo, sero delineadas as atividades que sero desenvolvidas no transcorrer do projeto. Especificamente, na Seo 5.1, apresentado como cada objetivo do
projeto ser analisado e cumprido; na Seo 5.2, o cronograma de atividades fornecido; na Seo 5.3, indicado os recursos infra-estruturais disponveis e a metodologia
de pesquisa utilizada; e, finalmente, na Seo 5.4, a forma de anlise dos resultados
explicitada.
5.1
Estratgia de Desenvolvimento
Nesta seo, o contedo tcnico que o plano de pesquisa abrange ser detalhado.
Especificamente, na Subseo 5.1.1, discorrido sobre a modelagem do sistema competitivo semissupervisionado; na Subseo 5.1.2, a modelagem matemtica do sistema
desenvolvido na etapa anterior discutida; na Subseo 5.1.3, dada uma ideia inicial sobre a extenso do modelo competitivo semissupervisionado para o campo no
supervisionado, bem como uma estratgia para estimar o nmero de clusters e comunidades em uma base de dados; na Subseo 5.1.4, fornecido, em carter inicial,
um mtodo para detectar vrtices e comunidades sobrepostos; e, finalmente, na Subseo 5.1.5, apresentado o assunto de confiabilidade dos dados, crucial para alguns
sistemas de dados, tpico o qual possui razes ligadas aos processos inerentes de propagao de erros em razo de rotulaes erradas.
97
98
5.1.1
Esta etapa de pesquisa j foi desenvolvida, conforme foi visto no captulo de Resultados Obtidos (Seo 4.1). Vale destacar alguns pontos importantes que foram realizados, a partir desta modelagem:
Foi desenvolvida uma descrio rigorosa do modelo competitivo por meio da
utilizao de um sistema dinmico estocstico no linear. Tal caracterstica indita, dado que, no trabalho original proposto por Quiles et al. (2008), apenas um
procedimento, sem qualquer rigor matemtico, introduzido.
Generalizao da teoria de caminhada aleatria simples para um modelo de mltiplas caminhadas aleatrias com interao por meio de competio. A generalizao ocorre a partir da escolha do parmetro do modelo, o qual responsvel por contrabalancear a proporo de caminhadas aleatrias e preferenciais.
Quando = 0, o modelo reduz-se a mltiplas caminhadas aleatrias sem interao. No entanto, quando > 0, o modelo descreve mltiplas caminhadas
aleatrias com interao, via competio de partculas.
Ao contrrio do modelo procedimental proposto em Quiles et al. (2008), em que
partcula somente permitido ora fazer uma movimentao aleatria, ora preferencial; no modelo proposto, uma combinao estocstica entre as duas movimentaes implementada, conforme a Equao (4.1) revela. Simulaes realizadas, conforme informadas na Seo 4.3, exibem a robustez e eficcia do modelo.
5.1.2
Esta etapa tambm j foi completada e foi discutida no captulo de Resultados Obtidos (Seo 4.2). A lista abaixo discorre, resumidamente, sobre os pontos importantes
dessa anlise:
Expresses probabilsticas foram deduzidas a partir do sistema dinmico estocstico. Isto permite prever o comportamento do sistema competitivo para um
tempo arbitrariamente alto.
Uma validao das equaes tericas obtidas, contra o resultado emprico do modelo, foi conduzida. Resultados mostram que, de forma aproximada, a predio
terica aproxima o comportamento emprico do modelo.
O modelo competitivo, bem como a anlise matemtica, aqui descritos baseiamse no artigo ?, o qual est em processo de reviso.
5.1.3
99
(k)
Ni (0) =
2,
1,
caso contrrio
(5.1)
R(t) =
1
V
max
mK
u(m) (t) ,
N
(5.2)
u =1
u(m) (t) indica o nvel de dominao que a partcula m est impondo no vrtice
onde N
u(m) (t) resulta no nvel de dominao mximo imposto no
u no instante t e max N
mK
vrtice u no instante t. Para uma rede que apresenta algumas comunidades, diga-se K
comunidades, por exemplo, se forem inseridas K partculas, espera-se que cada uma
domine uma comunidade distinta. Logo, uma partcula no interferir na regio de
atuao das outras partculas. Consequentemente, R(t) ser alto. No caso extremo,
cada vrtice completamente dominado por apenas uma partcula, da R(t) atinge
1. Entretanto, se forem colocadas mais de K partculas, inevitavelmente, ocorrer que
mais de uma partcula compartilhar a mesma comunidade. Neste caso, elas disputaro o mesmo grupo de vrtices. Em virtude disso, uma partcula ir diminuir o nvel
de dominao das outras partculas, e vice-versa. Como resultado, R(t) ser baixo.
100
5.1.4
O modelo competitivo analisado neste projeto carrega uma gama rica de informao, informao esta gerada pelo prprio processo competitivo. Por intermdio dela,
ser derivada uma medida para detectar comunidades ou vrtices sobrepostos em uma
(t) pode ser utirede. Para tanto, cumpre notar que a matriz de nvel de dominao N
lizada para indicar quais vrtices so membros de uma ou vrias comunidades, da
seguinte forma: se o nvel de dominao mximo imposto por uma partcula arbitrria
k em um vrtice i muito maior que o segundo maior nvel de dominao imposto ao
mesmo vrtice, ento pode-se concluir que este vrtice est sendo fortemente dominado pela partcula k. Por outro lado, quando estas duas quantidades so similares,
pode-se deduzir que o vrtice i apresenta caractersticas que o qualificam como membro de mais de uma comunidade. luz dessas consideraes, pode-se matematicamente modelar este comportamento a seguir: seja Mi ( x, t) o x-simo maior nvel de
dominao imposto ao vrtice i no instante t. Desta forma, o ndice de sobreposio
para o vrtice i, Oi (t) [0, 1], dado por:
101
(5.3)
i.e., o ndice de sobreposio Oi (t) mensura o intervalo entre os dois maiores nveis
de dominao impostos por quaisquer pares de partculas ao vrtice i. Sucintamente,
quando este intervalo grande, uma forte dominao est ocorrendo sobre o vrtice i;
logo, Oi (t) produz um valor pequeno. Por outro lado, quando uma competio est
ocorrendo de forma intensa entre duas ou mais partculas em relao ao vrtice i, alguns desses nveis de dominao so esperados de serem semelhantes, em termos de
magnitude. Consequentemente, o intervalo entre os dois maiores nveis de dominao provavelmente ser pequeno, produzindo, assim, um valor alto para o ndice de
sobreposio Oi (t).
Para validar a medida proposta, simulaes em bases de dados conhecidas na literatura sero conduzidas, tais como rede de karat de Zachary (Zacharys karate club
network) (Zachary, 1977), rede social de golfinhos (dolphin social network) (Lusseau,
2003), rede da novela Les Misrables (Les Misrables network) (Knuth, 1993), rede representando uma liga de futebol americano (American college football network) (Girvan e
Newman, 2002) e rede de colaborao cientfica (scientific collaboration network) (Newman, 2006).
5.1.5
Na prxima fase, ser tratado do assunto de confiabilidade dos dados no aprendizado semissupervisionado. Especificamente, a tcnica a ser desenvolvida gozar das
seguintes caractersticas:
I. Gerao de Nvel de Pertinncia para Cada Vrtice: A tcnica a ser desenvolvida
ser capaz de oferecer nvel de pertinncia de cada item de dado a cada classe
(soft-label), ao invs de s oferecer rtulo de classe (hard-label).
II. Deteco de Outliers: A tcnica a ser desenvolvida ser capaz de detectar outliers
e consequentemente tentar impedir sua propagao. Outliers referem-se a itens
de dados de uma determinada classe localizados em regies de outras classes.
No modelo de cooperao/competio de partculas, uma partcula, cujo vrtice
representado um outlier, tem dificuldade de defender seus vizinhos, pois ela
est longe de suas colegas do time e consequentemente recebe menos ajuda do
time. Desta forma, uma partcula, cujo vrtice de casa um outlier, pode eventualmente abandonar sua casa e migrar para uma vizinhana de partculas do
102
mesmo time. Portanto, neste modelo, um outlier pode ser identificado via medida de distncia mdia de uma partcula ao seu vrtice representado ao longo
do tempo.
Alm disso, sero conduzidos estudos e anlises de propagao de erros (dados erroneamente rotulados) junto propagao de rtulos em redes. Ou seja, certa percentagem de erros introduzida antes do processo de propagao de rtulos. Pretende-se
identificar, com isso, o ponto crtico de percentagem de erros introduzidos, o que leva
a uma preciso de classificao drasticamente decada. Esse tipo de estudo muito
importante no s para obter uma classificao segura, mas tambm para um entendimento melhor de conjunto de dados em processamento.
5.2
Atividades e Cronograma
Proposta de Pesquisa
103
Atividade
Semestre
II
III
IV
VI
VII
VIII
IX
1S/2010
2S/2010
1S/2011
2S/2011
1S/2012
2S/2012
1S/2013
2S/2013
5.3
5.4
Os resultados das investigaes sero analisados a partir de comparaes da preciso, complexidade e eficincia da aplicao dos algoritmos e tcnicas desenvolvidas
com outros semelhantes. Os modelos matemticos sero avaliados quanto preciso
na previso dos processos descritos. Alm disso, mtodos estatsticos devem ser envolvidos para medir e validar o desempenho das tcnicas a serem desenvolvidas.
104
Proposta de Pesquisa
Referncias Bibliogrficas
Albert et al.(1999) Reka Albert, Hawoong Jeong, e Albert-Laszlo Barabasi. The diameter of the world wide web. Nature, 401:130131. Citado na pg. 3, 13
Albert et al.(2004) Rka Albert, Istvn Albert, e Gary L. Nakarado. Structural vulnerability of the north american power grid. Physical Review E, 69(2):025103. Citado na pg. 3,
12, 13
Alpaydin(2004) Ethem Alpaydin. Introduction to Machine Learning (Adaptive Computation and Machine Learning). The MIT Press. Citado na pg. 33, 36
Amorim et al.(2007) D. G. Amorim, M. F. Delgado, e S. B. Ameneiro. Polytope ARTMAP: Pattern classification without vigilance based on general geometry categories.
IEEE Trans. Neural Networks, 18(5):13061325. Citado na pg. 2
Arenas et al.(2006) Alex Arenas, Albert D. Guilera, e Conrad J. Prez Vicente. Synchronization reveals topological scales in complex networks. Physical Review Letters, 96
(11):114102. Citado na pg. 20
Athinarayanan et al.(2002) R. Athinarayanan, M. R. Sayeh, e D. A. Wood. Adaptive
competitive self-organizing associative memory. IEEE Trans. Systems, Man and Cybernetics , Part A, 32(4):461471. Citado na pg. 2
Bacciu e Starita(2008) D. Bacciu e A. Starita. Competitive repetition suppression (core)
clustering: A biologically inspired learning model with application to robust clustering. IEEE Trans. Neural Networks, 19(11):19221940. Citado na pg. 2
Barabasi e Albert(1999) Albert-Laszlo Barabasi e Reka Albert. Emergence of scaling in
random networks. Science - New York, 286(5439):509512. Citado na pg. xi, 3, 12, 17, 18
Belkin et al.(2005) M. Belkin, Niyogi P., e V. Sindhwani. On manifold regularization.
Em Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics (AISTAT 2005), pginas 1724, New Jersey. Society for Artificial Intelligence and
Statistics. Citado na pg. 29
Belkin e Niyogi(2003) Mikhail Belkin e Partha Niyogi. Laplacian eigenmaps for dimensionality reduction and data representation. Neural Comp., 15(6):13731396. Citado
na pg. 8, 94
105
106
Referncias Bibliogrficas
Belkin et al.(2004) Mikhail Belkin, Irina Matveeva, e Partha Niyogi. Regularization and
semi-supervised learning on large graphs. Em In COLT, pginas 624638. Springer.
Citado na pg. 8, 29, 94
Belkin et al.(2006) Mikhail Belkin, Partha Niyogi, e Vikas Sindhwani. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples.
Journal of Machine Learning Research, 7:23992434. Citado na pg. 29, 39, 40
Bishop(2007) Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer, segunda edio. Citado na pg. 1
Blum e Mitchell(1998) Avrim Blum e Tom Mitchell. Combining labeled and unlabeled
data with co-training. Em Proceedings of the 11th Annual Conference on Computational
Learning Theory, pginas 92100. Citado na pg. 32
Boccaletti et al.(2007) Stefano Boccaletti, Mikhail V. Ivanchenko, Vito Latora, Alessandro. Pluchino, e Andrea Rapisarda. Detecting complex network modularity by dynamical clustering. Physical Review E, 75(4):045102. Citado na pg. 4, 7
Bornholdt e Schuster(2003) Stefan Bornholdt e Heinz G. Schuster. Handbook of Graphs
and Networks: From the Genome to the Internet. Wiley-VCH. Citado na pg. 3, 12
Breve et al.(2010) Fabrcio Breve, Liang Zhao, Marcos G. Quiles, Witold Pedrycz, e
Jiming Liu. Particle competition and cooperation in networks for semi-supervised
learning. IEEE Transaction on Data and Knowledge Engineering. Citado na pg. 29
Callut et al.(2008) Jrme Callut, Kevin Franoise, Marco Saerens, e Pierre Duppont.
Semi-supervised classification from discriminative random walks. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, LNAI 5211:162177. Citado na pg. 29, 43, 45
Carpenter e Grossberg(1987) G. A. Carpenter e S. Grossberg. Self-organization of stable category recognition codes for analog input patterns. Applied Optics, 26(23):4919
4930. Citado na pg. 2
Chapelle et al.(2006) Olivier Chapelle, Bernhard Schlkopf, e Alexander Zien. SemiSupervised Learning. The MIT Press. Citado na pg. 2, 25, 26, 28, 29, 30, 31, 32, 33, 34, 36,
46, 85, 90, 93, 94
Chen et al.(2005) M. Chen, A. A. Ghorbani, e V. C. Bhavsar. Incremental communication
for adaptive resonance theory networks. IEEE Trans. Neural Networks, 16(1):132144.
Citado na pg. 2
Chung(1997) Fan R. K. Chung. Spectral Graph Theory (CBMS Regional Conference Series
in Mathematics, No. 92). American Mathematical Society. Citado na pg. 39
inlar(1975) E. inlar. Introduction to Stochastic Processes. Prentice-Hall, Englewood
Cliffs, N. J. Citado na pg. 44, 46, 53, 56, 72
Clauset et al.(2004) A. Clauset, M. E. J. Newman, e C. Moore. Finding community structure in very large networks. Physical Review E, pginas 16. doi: 10.1103/PhysRevE.
70.066111. Citado na pg. 41
Referncias Bibliogrficas
107
108
Referncias Bibliogrficas
Referncias Bibliogrficas
109
Kaylani et al.(2010) A. Kaylani, M. Georgiopoulos, M. Mollaghasemi, G. C. Anagnostopoulos, C. Sentelle, e M. Zhong. An adaptive multiobjective approach to evolving
ART architectures. IEEE Trans. Neural Networks, 21(4):529550. Citado na pg. 2
Kiss et al.(1973) G. R. Kiss, C. Armstrong, R. Milroy, e J. Piper. An associative thesaurus
of English and its computer analysis. Em The computer and literary studies. University
Press. Citado na pg. 8, 20
Knuth(1993) Donald E. Knuth. The Stanford GraphBase: a platform for combinatorial computing. ACM, New York, NY, USA. Citado na pg. 6, 101
Kohonen(1990) T. Kohonen. The self-organizing map. Proceedings of the IEEE, 78(9):
14641480. Citado na pg. 2
Kosko(1991) B. Kosko. Stochastic competitive learning. IEEE Trans. Neural Networks, 2
(5):522529. Citado na pg. 2
Lancichinetti et al.(2009) Andrea Lancichinetti, Santo Fortunato, e Jnos Kertsz. Detecting the overlapping and hierarchical community structure in complex networks.
New Journal of Physics, 11(3):033015. Citado na pg. 20, 21
LeCun et al.(1998) Y. LeCun, L. Bottou, Y. Bengio, e P. Haffner. Gradient-based learning
applied to document recognition. Proceedings of the IEEE, 86(11):22782324. Citado na
pg. 6, 100
Liang et al.(2009) J. Liang, Z. Wang, e X. Liu. State estimation for coupled uncertain stochastic networks with missing measurements and time-varying delays: The discretetime case. IEEE Trans. Neural Networks, 20(5):781793. Citado na pg. 2
Lim e Park(2009) Gaksoo Lim e Cheong Hee Park. Semi-supervised dimension reduction using graph-based discriminant analysis. Em CIT 1, pginas 913. IEEE
Computer Society. Citado na pg. 25, 26
Liu et al.(2008) D. Liu, Z. Pang, e S. R. Lloyd. A neural network method for detection
of obstructive sleep apnea and narcolepsy based on pupil size and EEG. IEEE Trans.
Neural Networks, 19(2):308318. Citado na pg. 2
Liu et al.(2004) H. Liu, S. Shah, e W. Jiang. On-line outlier detection and data cleaning.
28th Computers and Chemical Engineering, pginas 16351647. Citado na pg. 25, 26
Lu et al.(2003) Chang-Tien Lu, Dechang Chen, e Yufeng Kou. Algorithms for spatial outlier detection. Em Proceedings of the 3rd IEEE International Conference on Data Mining
(ICDM 2003). IEEE Computer Society. Citado na pg. 25
Lu e Ip(2009) Z. Lu e H. H. S. Ip. Generalized competitive learning of gaussian mixture
models. IEEE Trans. Systems, Man and Cybernetics , Part B, 39(4):901909. Citado na pg. 2
Lusseau(2003) D. Lusseau. The emergent properties of a dolphin social network. Proc
Biol Sci, 270 Suppl 2:S186S188. Citado na pg. 6, 101
Lpez-Rubio et al.(2009) E. Lpez-Rubio, J. M. Ortiz de Lazcano-Lobato, e D. LpezRodrguez. Probabilistic PCA self-organizing maps. IEEE Trans. Neural Networks, 20
(9):14741489. Citado na pg. 2
110
Referncias Bibliogrficas
McGraw-Hill Sci-
Referncias Bibliogrficas
111
Palla et al.(2005) Gergely Palla, Imre Derenyi, Illes Farkas, e Tamas Vicsek. Uncovering
the overlapping community structure of complex networks in nature and society.
Nature, 435(7043):814818. Citado na pg. 8, 20, 21
Papadopoulos et al.(2009) Symeon Papadopoulos, Andre Skusa, Athena Vakali, Yiannis Kompatsiaris, e Nadine Wagner. Bridge bounding: A local approach for efficient
community discovery in complex networks. Relatrio tcnico. Citado na pg. xi, 19
Piatetsky-Shapiro(1991) G. Piatetsky-Shapiro. Discovery, Analysis, and Presentation of
Strong Rules. AAAI/MIT Press, Cambridge, MA. Citado na pg. 25, 26
Principe e Miikkulainen(2009) J. C. Principe e Risto Miikkulainen. Advances in SelfOrganizing Maps - 7th International Workshop, WSOM 2009, Lecture Notes in Computer
Science, Vol. 5629. Springer. Citado na pg. 2
Quiles et al.(2008) M. G. Quiles, L. Zhao, R. L. Alonso, e R. A. F. Romero. Particle
competition for complex network community detection. Chaos, 18(3):033107. Citado na
pg. 4, 7, 20, 21, 23, 98
Ratsaby e Venkatesht(1995) Joel Ratsaby e Santosh S. Venkatesht. Learning from a
mixture of labeled and unlabeled examples. Em Proc. 33rd Allerton Conference on
Communication Control and Computing, pginas 412417. ACM Press. Citado na pg. 32
Reichardt e Bornholdt(2004) Jrg Reichardt e Stefan Bornholdt. Detecting fuzzy community structures in complex networks with a potts model. Physical Review Letters,
93(21):218701(14). Citado na pg. 4, 7, 20
Schaeffer(2007) S. Schaeffer. Graph clustering. Computer Science Review, 1(1):2764.
Citado na pg. 4
Scott(2000) John P. Scott. Social Network Analysis: A Handbook. SAGE Publications. Citado
na pg. 3, 13
Shahshahani e Landgrebe(1994) B. Shahshahani e D. Landgrebe. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes
phenomenon. IEEE Transactions on Geoscience and Remote Sensing, 32(5):10871095.
Citado na pg. 32
Shen et al.(2009) Huawei Shen, Xueqi Cheng, Kai Cai, e Mao-Bin Hu. Detect overlapping and hierarchical community structure in networks. Physica A: Statistical Mechanics and its Applications, 388(8):1706 1712. Citado na pg. 21
Silva e Zhao(2011) Thiago Christiano Silva e Liang Zhao. Semi-supervised learning
guided by the modularity measure in complex networks. Neurocomputing, aceito.
Citado na pg. 40, 42, 43
Singh et al.(2008) Aarti Singh, Robert D. Nowak, e Xiaojin Zhu. Unlabeled data: Now
it helps, now it doesnt. Em NIPS, pginas 15131520. Citado na pg. 29
Smola e Kondor(2003) Alexander J. Smola e Risi Kondor. Kernels and regularization
on graphs. Learning Theory and Kernel Machines. Citado na pg. 38, 39
112
Referncias Bibliogrficas
Sporns(2002) Olaf Sporns. Networks analysis, complexity, and brain function. Complexity, 8(1):5660. Citado na pg. 3, 13
Strogatz(2001) S. H. Strogatz. Exploring complex networks. Nature, 410(6825):268276.
Citado na pg. 3, 13
Sun et al.(2011) Peng Gang Sun, Lin Gao, e Shan Shan Han. Identification of overlapping and non-overlapping community structure by fuzzy clustering in complex
networks. Inf. Sci., 181:10601071. Citado na pg. 21
Szummer e Jaakkola(2001) Martin Szummer e Tommi Jaakkola. Partially labeled classification with markov random walks. Em Advances in Neural Information Processing
Systems, volume 14. Citado na pg. 43, 46, 47
Tan et al.(2008) A.-H. Tan, N. Lu, e D. Xiao. Integrating temporal difference methods
and self-organizing neural networks for reinforcement learning with delayed evaluative feedback. IEEE Trans. Neural Networks, 19(2):230244. Citado na pg. 2
Vapnik(1999) Vladimir Vapnik. The Nature of Statistical Learning Theory (Information
Science and Statistics). Springer-Verlag, segunda edio. Citado na pg. 31
Vapnik(1998) Vladimir N. Vapnik. Statistical Learning Theory. Wiley-Interscience. Citado
na pg. 28, 31, 33
Wagsta et al.(2001) Kiri Wagsta, Claire Cardie, Seth Rogers, e Stefan Schroedl. Constrained k-means clustering with background knowledge. Em Proceedings of 18th International Conference on Machine Learning (ICML-01), pginas 577584. Citado na pg. 31
Wang et al.(2009) C.-H. Wang, C.-N. Lee, e C.-H. Hsieh. Variants of Self-Organizing Maps:
Applications in Image Quantization and Compression. Lambert Academic Publishing.
Citado na pg. 2, 99
Watts(2003) Duncan J. Watts. Small Worlds: The Dynamics of Networks between Order and
Randomness (Princeton Studies in Complexity). Princeton University Press, primeira
edio. Citado na pg. 15, 16
Watts e Strogatz(1998) Duncan J. Watts e Steven H. Strogatz. Collective dynamics of
small-world networks. Nature, 393(6684):440442. Citado na pg. xi, 3, 12, 15, 16
Weinberger e Saul(2006) Kilian Q. Weinberger e Lawrence K. Saul. Unsupervised
learning of image manifolds by semidefinite programming. Int. J. Comput. Vision, 70:
7790. ISSN 0920-5691. Citado na pg. 39, 94
West et al.(1999) G. B. West, J. H. Brown, e B. J. Enquist. A general model for the
structure, and algometry of plant vascular systems. Nature, 400:122126. Citado na pg.
3, 13
Xu e II(2005) R. Xu e D. Wunsch II. Survey of clustering algorithms. IEEE Trans. Neural
Networks, 16(3):645678. Citado na pg. 2
Yarowsky(1995) David Yarowsky. Unsupervised word sense disambiguation rivaling
supervised methods. Em Meeting of the Association for Computational Linguistics, pginas 189196. Citado na pg. 28, 29
Referncias Bibliogrficas
113
114
Referncias Bibliogrficas