Sie sind auf Seite 1von 77

Nelson Carvalho Sandes

Projeto da camada oculta de uma rede neural RBF:


Uma abordagem baseada no valor de Shapley
Fortaleza CE
Novembro de 2013
Nelson Carvalho Sandes
Projeto da camada oculta de uma rede neural RBF:
Uma abordagem baseada no valor de Shapley
Dissertao apresentada ao Programa de Ps-
Graduao em Informtica Aplicada (PPGIA)
da Universidade de Fortaleza (UNIFOR), como
requisito parcial para obteno do ttulo de
Mestre em Informtica Aplicada.
Orientador: Prof. Dr. Andr Lus Vasconcelos
Coelho
Fortaleza CE
Novembro de 2013




























___________________________________________________________________________

S216p Sandes, Nelson Carvalho.
Projeto da camada oculta de uma rede neural RBF: uma abordagem
baseada no valor de Shapley / Nelson Carvalho Sandes. - 2013.
76 f.

Dissertao (mestrado) Universidade de Fortaleza, 2013.
Orientao: Prof. Dr. Andr Lus Vasconcelos Coelho.

1. Redes neurais. 2. Algoritmos. 3. Teoria dos jogos. I. Ttulo.

CDU 681.3:621.391
___________________________________________________________________________
AGRADECIMENTOS
Aos meus pais Jos Anderson Freire Sandes e Jane Lane Carvalho Sandes, por todo apoio que
me deram.
Aos meus orientadores, Prof. Andr Lus Vasconcelos Coelho e Prof. Jos Everardo Bessa
Maia, pelos conhecimentos compartilhados durante a criao desta dissertao.
A toda equipe de professores da Universidade de Fortaleza.
Aos membros da banca, Prof. Ricardo Prudencio e Prof. Pedro Porfrio Farias, por aceitarem o
convite e pelas crticas e sugestes ao trabalho.
Ao pesquisador Dr. Jing Deng, por ter disponibilizado os conjuntos de dados usados nos expe-
rimentos.
Capes, pelo apoio nanceiro via bolsa de mestrado.
Aos meus amigos que me acompanharam nessa jornada.
minha namorada, Priscila de Almeida Ponte, por estar sempre ao meu lado.
RESUMO
Redes neurais de funo de base radial (redes RBF) so modelos neurais compostos de uma
camada de entrada, uma camada escondida e uma camada de sada de neurnios. Por exibirem a
propriedade de aproximao universal de funes contnuas, tais modelos so muito utilizados
para resolver problemas de regresso. A escolha do tipo e dos parmetros (notadamente, centro
e disperso) das funes de base radial que compem a camada oculta de uma rede RBF pode
afetar sobremaneira a sua acurcia, sendo que algoritmos tais como orthogonal least squares
(OLS), fast recursive algorithm (FRA) e two-stage selection (TSS), vm sendo desenvolvidos
para resolver essa tarefa de forma automtica. Neste contexto, o presente trabalho tambm
aborda o problema de seleo de centros de redes RBF, porm lanando mo de conceitos da
rea de teoria dos jogos cooperativos (TJC). Esse campo de pesquisa investiga solues formais
para o problema de se dividir a recompensa adquirida por uma coalizo de jogadores entre os
seus membros, levando-se em considerao a contribuio de cada um deles. Em particular,
na abordagem proposta aqui, a camada oculta de uma rede neural RBF modelada como uma
coalizo ao passo que os centros dos neurnios que a compem so tratados como jogadores.
A contribuio de cada candidato a centro aos desempenhos das redes em que ele participa
mensurada mediante o valor de Shapley, que um dos conceitos de soluo mais investigados
na TJC, dadas as propriedades tericas relevantes que ele apresenta. Dois algoritmos so pro-
postos com base no valor de Shapley para ranquear os centros, sendo que a seleo da ordem do
modelo nal de rede RBF feita com base nesse ranqueamento e adota o critrio de informao
de Akaike. Enquanto o primeiro algoritmo de ranqueamento avalia a qualidade dos centros em
uma nica iterao, o segundo algoritmo de natureza construtiva, sendo que o centro recrutado
na iterao k inuencia nas avaliaes dos demais neurnios nas prximas iteraes. No estudo
experimental realizado, o desempenho da nova abordagem foi avaliado com base em quatro
problemas de regresso bem conhecidos, comparando-se a qualidade preditiva das redes RBF
produzidas pelos dois algoritmos propostos com aquela gerada pela redes produzidas pelos al-
goritmos OLS, FRA e TSS. Os resultados obtidos mostram que a abordagem baseada na TJC
ecaz, considerando particularmente o algoritmo construtivo, que apresentou resultados com-
petitivos aos algoritmos estado-da-arte. Por outro lado, os dois algoritmos propostos perdem no
quesito ecincia, possuindo um custo computacional mais elevado.
Palavras-chave: Redes Neurais RBF, Funo de Base Radial, Seleo de Centros, Teoria
dos Jogos Cooperativos, Valor de Shapley, Regresso.
ABSTRACT
Radial basis function (RBF) neural networks are feedforward neural models that typically
have three layers of neurons: an input layer, a hidden layer, and an output layer. These models
are widely used due to their property of universal approximation. The neurons within the hidden
layer are represented by radial basis functions, and the choice of the parameters (center and
width) of each RBF might have a great impact on the accuracy of the model. Algorithms, such
as the orthogonal least squares (OLS), fast recursive algorithm (FRA) and two-stage selection
(TSS), have been developed to select the RBF centers automatically. This work also tackles
the center selection problem, but cooperative game theory (CGT) concepts are used instead.
The CGT investigates formal solutions to the problem of sharing resources between players
who belong to a coalition. In our approach, the hidden layer of a RBF network is modeled as a
coalition and the centers of the hidden neurons are treated as players of a cooperative game. The
contribution of a center candidate to the networks it takes part in is measured by the Shapley
value, which is one of the most investigated CGT solution concepts. Two algorithms were
developed based on the Shapley value for ranking the centers, whereas the nal RBF neural
model selection is conducted based on this ranking and on the Akaike information criterion
(AIC). The rst ranking algorithm evaluates the quality of the center candidates in a single
iteration, whereas the second algorithm, which is constructive, needs more than one iteration,
and as such, the center recruited in iteration k inuences the evaluation of the neurons in the
next iterations. The proposed approach is applied in four benchmark regression problems and
compared with OLS, FRA, and TSS algorithms. The results demonstrate that the proposed
approach is effective, with the second algorithm, in particular, obtaining competitive results
when compared to the state-of-the-art algorithms. On the other hand, the proposed algorithms
have a higher computational cost compared to the others.
Keywords: Radial Basis Functions, RBF Neural Networks, Center Selection, Cooperative
Game Theory, Shapley Value, Regression.
SUMRIO
Lista de Figuras
Lista de Tabelas
Lista de Acrnimos e Abreviaes
1 Introduo p. 21
2 Redes Neurais RBF p. 27
2.1 Conceitos introdutrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27
2.2 O problema de regresso e sua resoluo via redes neurais RBF . . . . . . . . p. 28
2.3 Algoritmos OLS, FRA e TSS . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31
2.3.1 OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32
2.3.2 FRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34
2.3.3 TSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37
2.4 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38
3 Teoria dos Jogos Cooperativos p. 39
3.1 Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 39
3.2 Valor de Shapley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41
3.3 Clculo alternativo do valor de Shapley . . . . . . . . . . . . . . . . . . . . p. 42
3.4 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 42
4 Seleo de centros em redes neurais RBF via valor de Shapley p. 45
4.1 Abordagem de seleo inspirada no valor de Shapley . . . . . . . . . . . . . p. 45
4.2 Pr-seleo dos jogadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 48
4.3 Algoritmos de ranqueamento baseados no valor de Shapley . . . . . . . . . . p. 49
4.3.1 Algoritmo RBF Center Ranking 1 (RCR1) . . . . . . . . . . . . . . . p. 49
4.3.2 Algoritmo RBF Center Ranking 2 (RCR2) . . . . . . . . . . . . . . p. 50
4.4 Determinao da ordem do modelo nal . . . . . . . . . . . . . . . . . . . . p. 51
4.5 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53
5 Validao Experimental p. 55
5.1 Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55
5.1.1 Comparao de desempenho . . . . . . . . . . . . . . . . . . . . . . p. 56
5.1.2 RCR1: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 57
5.1.3 RCR2: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 58
5.2 Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 59
5.2.1 Comparao de desempenho . . . . . . . . . . . . . . . . . . . . . . p. 60
5.2.2 RCR1: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 61
5.2.3 RCR2: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 62
5.3 Experimento 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62
5.3.1 Comparao de desempenho . . . . . . . . . . . . . . . . . . . . . . p. 63
5.3.2 RCR1: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 66
5.3.3 RCR2: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 66
5.4 Experimento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 67
5.4.1 Comparao de desempenho . . . . . . . . . . . . . . . . . . . . . . p. 67
5.4.2 RCR1: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 69
5.4.3 RCR2: Inuncia dos parmetros d, t e J . . . . . . . . . . . . . . . p. 70
5.5 Inuncia dos parmetros t e d no tempo de execuo . . . . . . . . . . . . . p. 70
5.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71
6 Concluso p. 73
Referncias Bibliogrcas p. 75
LISTA DE FIGURAS
2.1 Exemplo de rede neural RBF. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27
2.2 Exemplo de funo gaussiana. . . . . . . . . . . . . . . . . . . . . . . . . . p. 28
2.3 Exemplo de sada de uma rede neural RBF. . . . . . . . . . . . . . . . . . . p. 31
2.4 Efeito da escolha dos centros sobre o modelo de regresso de uma rede RBF. p. 31
4.1 Conjuntos de validao para q = 3. . . . . . . . . . . . . . . . . . . . . . . . p. 46
4.2 Etapas do processo de seleo de centros da abordagem baseada no valor de
Shapley. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47
4.3 Curva tpica do AIC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52
5.1 Pontos do conjunto de treinamento do Experimento 1. . . . . . . . . . . . . . p. 56
5.2 Aplicao do critrio de informao de Akaike: RCR1 e RCR2 - Experi-
mento 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57
5.3 Comparao entre a funo do Experimento 1 e as curvas aproximadas ge-
radas pelas melhores redes RBF obtidas com os algoritmos RCR1 e RCR2,
respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57
5.4 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30 e 40 - RCR1, pr-seleo de jogadores: OLS, Experimento 1. . . . . . p. 58
5.5 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30, 40 - RCR2, pr-seleo de jogadores: OLS, Experimento 1. . . . . . . p. 59
5.6 Pontos do conjunto de treinamento do Experimento 2. . . . . . . . . . . . . . p. 60
5.7 Aplicao do critrio de informao de Akaike: RCR1 e RCR2. . . . . . . . p. 61
5.8 Comparao entre a funo do Experimento 2 e as curvas geradas pelas me-
lhores redes RBF obtidas pelos algoritmos RCR1 e RCR2, respectivamente. . p. 61
5.9 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30, 40 - RCR1, pr-seleo de jogadores: k-means, Experimento 2. . . . . p. 62
5.10 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30, 40 - RCR2, pr-seleo de jogadores: k-means, Experimento 2. . . . . p. 63
5.11 Pontos do conjunto de treinamento (azul) e de teste (vermelho) do Experi-
mento 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 64
5.12 Aplicao do critrio de informao de Akaike: RCR1 e RCR2. . . . . . . . p. 64
5.13 Comparao entre a srie temporal do Experimento 3 e as aproximaes ge-
radas pelas melhores redes RBF obtidas pelos algoritmos RCR1 e RCR2. . . p. 65
5.14 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30, 40 - RCR1, pr-seleo de jogadores: k-means, Experimento 3. . . . . p. 65
5.15 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30, 40 - RCR2, pr-seleo de jogadores: k-means, Experimento 3. . . . . p. 66
5.16 Pontos do conjunto de treinamento do Experimento 4. . . . . . . . . . . . . . p. 67
5.17 Aplicao do critrio de informao de Akaike: RCR1 e RCR2. . . . . . . . p. 68
5.18 Comparao entre a srie temporal do Experimento 4 e as aproximaes ob-
tidas pelas melhores redes RBF geradas pelos algoritmos RCR1 e RCR2. . . p. 68
5.19 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30, 40 - RCR1, pr-seleo de jogadores: k-means, Experimento 4. . . . . p. 69
5.20 Grcos da mdia dos erros de teste com variao de d e t, usando |J| =
20, 30, 40 - RCR2, pr-seleo de jogadores: k-means, Experimento 4. . . . . p. 70
5.21 Relao do parmetro d com o custo computacional. |J| = 20 e t = 5. . . . . p. 71
5.22 Grcos da relao do parmetro t com o custo computacional. |J| = 20 e
d = 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71
LISTA DE TABELAS
2.1 Funes de base radial (BUHMANN, 2003; SNCHEZ, 2002) . . . . . . . . p. 28
5.1 Comparao de desempenho entre os algoritmos OLS, FRA, TSS, RCR1 e
RCR2. Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56
5.2 Comparao entre os algoritmos OLS, FRA, TSS, RCR1 e RCR2. Experi-
mento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60
5.3 Comparao entre os algoritmos OLS, FRA, TSS, RCR1 e RCR2. Experi-
mento 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 64
5.4 Comparao entre os algoritmos OLS, FRA, TSS, RCR1 e RCR2. Experi-
mento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 68
LISTA DE ACRNIMOS E
ABREVIAES
OLS - Orthogonal Least Squares
RBF - Radial Basis Function
RNA - Redes Neurais Articiais
TJC - Teoria dos Jogos Cooperativos
TSS - Two Stage Selection
21
1 INTRODUO
As Redes Neurais Articiais (RNA) so modelos computacionais inspirados no sistema ner-
voso de seres vivos (HAYKIN, 1999). Tais modelos possuem a capacidade de manuteno e
aquisio do conhecimento e podem ser denidos como um conjunto de unidades de proces-
samento, denotadas como neurnios articiais, que so interligados em geral por um grande
nmero de interconexes.
Para Haykin (1999), redes neurais possuem dois aspectos conceituais importantes:
O conhecimento obtido pela rede diretamente a partir dos dados atravs de um processo
de aprendizagem; e
Foras de conexes entre os neurnios, conhecidas como pesos sinpticos, so utilizadas
para armazenar o conhecimento adquirido.
O mtodo computacional empregado para realizar o processo de aprendizado chamado
de algoritmo de aprendizado, cujo objetivo modicar os pesos sinpticos da rede de uma
forma ordenada para alcanar um objetivo desejado. Em geral, os algoritmos de aprendizado
podem ser classicados em supervisionados, no-supervisionados, semissupervisionados e por
reforo (MARSLAND, 2009), sendo os dois primeiros tipos mais comumente empregados no
contexto de RNA.
Em particular, um algoritmo de aprendizado supervisionado recebe um conjunto de treina-
mento rotulado como entrada. O conjunto de treinamento composto por instncias que so
associadas a uma resposta. Durante a fase de treinamento, o algoritmo gera um modelo que,
se espera, seja capaz de generalizar, ou seja, produzir a resposta correta para qualquer nova
instncia apresentada. J um algoritmo de aprendizado no-supervisionado tambm recebe um
conjunto de treinamento como entrada, porm as instncias no esto previamente rotuladas.
O algoritmo tenta identicar similaridades entre as instncias do conjunto de treinamento de
tal forma que as instncias que possuem caractersticas em comum so categorizadas conjun-
tamente. Esse algoritmo tambm gera um modelo, em que novas instncias apresentadas so
22
categorizadas em um grupo de instncias que possuem caractersticas similares.
Silva, Spatti e Flauzino (2010) armam que a arquitetura de uma RNA mais simples de-
nida por uma camada de entrada e uma camada de sada de neurnios. A arquitetura tambm
pode ser mais complexa, sendo composta por uma camada de entrada, uma ou mais camadas
escondidas e uma camada de sada. Redes com uma ou mais camadas escondidas so conheci-
das como redes de mltiplas camadas. A camada de entrada responsvel por receber os dados
de entrada (atributos) e a camada de sada por produzir o resultado desejado, dependendo do
tipo de problema que a rede foi projetada para resolver.
Quanto ao tipo de propagao dos sinais entre os neurnios, as redes neurais podem ser
classicadas emredes alimentadas adiante ou redes recorrentes. Nas redes alimentadas adiante,
a direo do uxo de informao segue da camada de entrada para a camada de sada. Em uma
rede recorrente, a sada de um neurnio pode ser utilizada como entrada do prprio neurnio
e/ou em outros neurnios de camadas anteriores.
Um tipo particular de rede neural alimentada adiante a rede neural de funo de base
radial, tambm conhecida como rede RBF (do ingls, radial basis function) (ORR, 1996; HAY-
KIN, 1999). Tipicamente, as redes neurais RBF possuem uma camada de entrada, uma nica
camada oculta e uma camada de sada. Dada a sua capacidade de aproximao universal (BRO-
OMHEAD; LOWE, 1988; HAYKIN, 1999), tais redes so muito utilizadas para resolver pro-
blemas de regresso.
Em um problema de regresso multivariada tpico (SAHA; WU; TANG, 1993), busca-se
por um modelo generalizvel que seja capaz de realizar um mapeamento entre um espao de
entrada X e um espao de sada Y, sendo ambos os espaos contnuos. Mediante dados de
treinamento, deseja-se induzir o mapeamento h : X Y que melhor aproxime a verdadeira
funo geradora dos dados. O problema de regresso tambm conhecido como problema de
interpolao ou de aproximao de funes.
Cada neurnio da camada escondida de uma rede neural RBF representado por uma fun-
o de base radial (BUHMANN, 2003; SNCHEZ, 2002). Em geral, tais funes possuem
dois parmetros a serem congurados, denominados de centro e disperso. Os valores gera-
dos por funes RBF dependem da distncia entre o valor de entrada x e o seu centro t, bem
como do seu grau de disperso (tambm chamado de raio). O fato que o desempenho de uma
rede neural RBF est fortemente associado escolha adequada dos valores desses parmetros,
particularmente dos centros. Embora seja possvel escolher os centros a partir de qualquer sub-
conjunto do domnio X, prtica comum que os centros sejam selecionados a partir do conjunto
de dados de treinamento (ORR, 1996; CHEN; COWAN; GRANT, 1991).
23
O modo mais simples de selecionar os centros faz-lo arbitrariamente. Esse mtodo
consiste em selecionar um conjunto de centros aleatoriamente do conjunto de treinamento e
us-los como membros da camada escondida. Infelizmente, esse mtodo geralmente produz
resultados pouco satisfatrios (CHEN; COWAN; GRANT, 1991).
Uma denio mais formal para o problema de seleo de centros dada como: seja T =
{t
1
, t
2
, . . . , t
N
} o conjunto de centros que podem fazer parte da camada oculta de uma rede RBF.
Qual o conjunto S T que faa a rede apresentar o melhor desempenho possvel em termos
de aprendizado e generalizao?
A literatura trata essa questo como um problema de seleo de subconjuntos. Este tipo de
problema de natureza combinatria e, portanto, complexo de se resolver de forma tima para
grandes valores de N. Isso porque o nmero de solues possveis exponencial, mais preci-
samente, de ordem O(2
N
). Essa complexidade torna invivel uma busca exaustiva da soluo
tima. No contexto de redes RBF, esse problema de seleo de subconjuntos (de centros) ge-
ralmente tratado via trs abordagens (DENG, 2011): forward selection, backward elimination
e stepwise selection.
A abordagem forward selection inicia o conjunto-soluo vazio e adiciona, iterativamente,
os centros mais signicativos de acordo com algum critrio de avaliao. J a abordagem
backward elimination inicia o modelo neural com todos os centros do conjunto T. A cada
iterao, o centro menos signicativo removido, at restar o conjunto de centros desejados.
Dado o custo computacional mais elevado, essa abordagem no to popular quanto a ante-
rior. Finalmente, o mtodo stepwise selection uma combinao dos anteriores. O conjunto
soluo inicialmente vazio. A cada iterao, um novo centro adicionado de acordo com
sua signicncia para a rede. Aps a parte de seleo forward ser nalizada, aplicada uma
etapa de backward elimination, de modo a remover alguns centros inseridos que no sejam to
signicativos, considerando agora todo o conjunto selecionado.
Um exemplo bem conhecido de algoritmo que usa a abordagem forward selection aquele
proposto por Chen, Cowan e Grant (1991) e denominado de Orthogonal Least Squares OLS.
De acordo com esse algoritmo, a avaliao da signicncia de cada centro dada pela taxa
de reduo do erro que este proporciona rede neural. Esse clculo viabilizado atravs da
ortogonalizao dos vetores pertencentes a T.
Outro exemplo de algoritmo do tipo forward selection apresentando resultados satisfatrios
para problemas de identicao de sistemas aquele projetado por Li, Peng e Irwin (2005) e
denominado fast recursive algorithm (FRA). Esse algoritmo seleciona tanto a ordem do modelo
neural (nmero de centros) como tambm estima os parmetros lineares (pesos da camada de
24
sada). Ao contrrio do OLS, o FRA resolve o problema de quadrados mnimos recursivamente
sem requerer operaes de decomposio ou transformao da matriz de regresso.
Por outro lado, mais recentemente, Li, Peng e Bai (2006) investigaram o problema de se-
leo de centros utilizando o algoritmo Two Stage Selection TSS, o qual adota uma aborda-
gem stepwise selection. Esse algoritmo seleciona primeiramente os centros via algoritmo FRA.
Em seguida, os centros escolhidos so reanalisados e aqueles menos signicativos so possi-
velmente substitudos por outros que no foram selecionados anteriormente, almejando-se um
incremento do desempenho, mas sem prejuzo da complexidade do modelo nal.
Esta dissertao tambm trata do problema de seleo de centros, porm sob um ponto de
vista diferente. Prope-se uma abordagem inspirada na teoria dos jogos cooperativos (TJC)
para avaliar a contribuio de um neurnio e para obter um subconjunto de neurnios que faa
com que o modelo de rede nal apresente um desempenho (quase-)timo. At onde se saiba,
a primeira vez que um algoritmo inspirado na TJC usado para resolver esse problema.
Dentre outros aspectos, a TJC estuda conceitos de soluo que distribuam, de uma ma-
neira justa, a recompensa adquirida por um grupo (coalizo) entre os seus membros (jogado-
res) (BARRON, 2013). Seja J = 1, 2, ..., j uma coalizo de jogadores que recebe uma recom-
pensa pela realizao de alguma tarefa, sendo essa recompensa dada pela funo v(J). Como
distribuir v(J) de maneira justa entre os indivduos i J, levando-se em conta a contribuio
de cada um para o sucesso do grupo? Um dos conceitos de soluo mais investigados nesse
contexto aquele conhecido como valor de Shapley (SHAPLEY, 1953; SHAPLEY; SHUBIK,
1954), que possui algumas propriedades tericas relevantes (KISELEV, 2005).
Alguns trabalhos tm utilizado conceitos da TJC para resolver problemas de aprendizado
de mquina. Por exemplo, Torkaman, Charkari e Aghaeipour (2009) se inspiraram na TJC para
propor uma nova abordagem para o problema de classicao. A atribuio do rtulo da classe
a uma instncia dada de acordo com a contribuio dessa instncia para a classe. Os autores
utilizaram como estudo experimental uma base de dados que contm informaes de diferentes
tipos de leucemia. Altas taxas de acerto em dados de teste foram obtidas, conforme relato dos
autores.
Por outro lado, Cohen, Dror e Ruppin (2007) propuseram um framework baseado na TJC
para resolver o problema de seleo de atributos (feature selection). Esse problema consiste em
selecionar os atributos mais relevantes de uma base de dados, tendo em vista um aumento da
eccia e/ou ecincia do estimador nal (no caso estudado, um classicador). Para medir a
contribuio dos atributos, os autores adotaram o valor de Shapley.
25
Sun et al. (2012) tambmutilizarama teoria dos jogos cooperativos para abordar o problema
de seleo de atributos. Porm, os autores lanaram mo do ndice de Banzhaf (que outro
conceito de soluo da TJC) para identicar os atributos mais relevantes.
J Suri, Srinivas e Murty (2007) propuseram uma soluo para o problema de seleo de
prottipos para o algoritmo dos K vizinhos mais prximos (do ingls K nearest neighbors
KNN) utilizando conceitos da TJC. Esse problema visa selecionar as instncias mais represen-
tativas que serviro de prottipos para a classicao de novas amostras. O objetivo reduzir
os requisitos de memria e processamento do algoritmo KNN e, ao mesmo tempo, obter uma
maior taxa de acurcia e generalizao.
Em particular, esta dissertao mapeia o problema de seleo de centros em redes neurais
RBF no problema de distribuio de recursos entre indivduos de uma coalizo, conforme es-
tudado pela TJC. Neste contexto, os candidatos a centros de uma rede neural RBF so tratados
como jogadores de um jogo cooperativo. O valor de Shapley ento usado para determinar a
importncia de um centro para as camadas escondidas das redes neurais RBF de que ele parti-
cipa.
Dois algoritmos so propostos nesta dissertao com base nessa abordagem para realizar
um ranqueamento dos centros, sendo o seu desempenho investigado em quatro problemas de
regresso bem conhecidos
1
. Enquanto o primeiro algoritmo avalia os candidatos a centros em
uma nica iterao, o segundo algoritmo de natureza construtiva, sendo que o centro recrutado
na iterao k inuencia nas avaliaes dos demais centros nas prximas iteraes. Com base no
ranqueamento produzido, a seleo da ordem do modelo nal de rede RBF feita, a qual adota
o critrio de informao de Akaike (AKAIKE, 1974). No estudo experimental realizado, foram
feitas comparaes dos algoritmos propostos com os algoritmos OLS, FRA e TSS, haja vista
que estes so alguns dos mais referenciados na literatura.
O restante do documento est estruturado da seguinte forma. O Captulo 2 trata sobre redes
neurais RBF. Inicialmente, dada uma breve explicao sobre o modo de operao desse tipo
de rede, apresentando-se o conceito de funo de base radial e seus parmetros associados. Em
seguida, apresentado de maneira mais formal o problema de regresso, sendo mostrado como
uma rede neural RBF pode ser utilizada para resolver esse problema. No nal do captulo, o
problema de seleo de centros denido e os algoritmos OLS, FRA e TSS so apresentados
como alternativas para soluo do problema.
1
Um terceiro algoritmo baseado na TJC, mas que segue a estratgia backward elimination, tambm foi proje-
tado e avaliado. Porm, como os resultados de acuidade apresentados por esse algoritmo em testes preliminares
foram inferiores queles obtidos pelos outros dois algoritmos de forward selection, incorrendo ainda em maior
demanda computacional, optou-se por no investig-lo mais a fundo e, portanto, no apresent-lo aqui.
26
O Captulo 3 abrange os conceitos da TJC. Inicialmente, os conceitos de coalizo, funo
caracterstica, imputao e conceito de soluo de um jogo so apresentados. Em seguida,
d-se nfase ao conceito de soluo conhecido como valor de Shapley. O captulo se encerra
apresentando uma maneira computacionalmente vivel, adotada no trabalho de Cohen, Dror e
Ruppin (2007), para calcular, de forma aproximada, o valor de Shapley.
No Captulo 4, apresenta-se a abordagem baseada no valor de Shapley para avaliar e seleci-
onar os centros dos neurnios que iro compor a camada escondida da rede RBF. Inicialmente,
explicado como se pode mensurar a contribuio de um centro (jogador) para as redes (co-
alizes) de que participa. Em seguida, as trs etapas da abordagem proposta so discutidas,
dando-se nfase aos dois algoritmos concebidos para ranquear os centros com base no valor
de Shapley. Nesse contexto, tambm explicado como o critrio de informao de Akaike
(AKAIKE, 1974) usado para denir de forma automtica o nmero de centros do modelo
nal de rede RBF.
O Captulo 5 apresenta quatro experimentos de regresso, em que os algoritmos propostos
so aplicados e comparados com os algoritmos OLS, FRA e TSS. Nesse captulo, tambm
realizado um estudo do impacto dos parmetros de controle dos algoritmos de ranqueamento
propostos e avaliado o seu custo temporal.
O Captulo 6 reporta as concluses obtidas e sugere trabalhos futuros a serem realizados no
tema.
27
2 REDES NEURAIS RBF
Este captulo tem como objetivo mostrar conceitos sobre redes neurais RBF e sua aplicao
ao problema de regresso. Este captulo tambm expe a questo da escolha de bons neurnios
para a camada oculta da rede, apresentando trs algoritmos de estado-da-arte.
2.1 Conceitos introdutrios
As redes neurais RBF so bastante utilizadas em problemas de classicao e regresso.
Como mencionado anteriormente, tais redes so compostas por trs camadas, sendo alimentadas
adiante. Assim, os dados de entrada so propagados pela camada de entrada, processados na
camada escondida e o resultado nal da rede produzido na camada de sada. A Figura 2.1
apresenta uma rede neural RBF com trs neurnios na camada de entrada, cinco neurnios na
camada escondida (incluindo um neurnio de bias) e um neurnio na camada de sada. O valor
deste ltimo a combinao linear das funes de base radial que representam os neurnios
da camada escondida, sendo que os pesos sinpticos w
i
, i = 0, . . . , 4 atuam como os pesos da
combinao. O neurnio de bias um neurnio especial cuja sada de ativao xa em 1.
Figura 2.1: Exemplo de rede neural RBF.
28
Funes de base radial so aquelas que apresentam simetria radial, ou seja, dependem da
distncia ||x t|| entre o centro da funo t e um ponto qualquer x, podendo escrever-se ge-
nericamente na forma (x) (BUHMANN, 2003). Existem diferentes tipos de funes de base
radial. A Tabela 2.1 mostra alguns exemplos de funes.
Tabela 2.1: Funes de base radial (BUHMANN, 2003; SNCHEZ, 2002)
Lmina spline na (x) =
||xt||

2
log

||xt||

Multi-quadrtica (x) =

||xt||
2
+
2
Multi-quadrtica inversa (x) =
1

||xt||
2
+
2
Gaussiana (x) = exp

||xt||
2
2
2

O parmetro representa a disperso de cada funo. interessante observar que a funo


gaussiana monotonicamente decrescente (ou seja, (x) 0 medida que x ). A Figura
2.2 mostra o grco de uma funo gaussiana tpica.
Figura 2.2: Exemplo de funo gaussiana.
2.2 O problema de regresso e sua resoluo via redes neu-
rais RBF
Segundo Haykin (1999), as redes neurais RBF so bastante apropriadas para tratar do pro-
blema de interpolao (aproximao de funes). Sob esse ponto de vista, o aprendizado de uma
rede RBF passa a ser equivalente a encontrar uma superfcie em um espao multidimensional
que melhor se ajuste ao conjunto de dados de treinamento.
David (1963, citado por Haykin (1999)) descreve o problema de interpolao da seguinte
maneira: Dado um conjunto de N pontos diferentes {x
i
R
n
|i = 1, 2, . . . , N} e um conjunto
29
correspondente de N nmeros reais {d
i
R|i = 1, 2, . . . , N}, encontre uma funo f : R
n
R
que satisfaa a condio de interpolao:
f (x
i
) = d
i
, i = 1, 2, . . . , N. (2.1)
Uma possvel soluo para o mapeamento escolher uma funo F tal que
F(x) =
N

i=1
w
i
(||xx
i
||), (2.2)
em que (||xx
i
||) uma funo de base radial, tendo x
i
como centro.
Considerando as condies de interpolao (2.1) em (2.2), obtemos o conjunto de equaes
lineares para poder obter os pesos sinpticos:

11

12
. . .
iN

21

22
. . .
iN
. . . .
. . . .

N1

N2
. . .
NN

w
1
w
2
.
.
w
N

d
1
d
2
.
.
d
N

, (2.3)
em que

ji
= (||x
j
x
i
||), ( j, i) = 1, 2, . . . , N, (2.4)
d = [d
1
, d
2
, . . . , d
N
]
T
, (2.5)
w = [w
1
, w
2
, . . . , w
N
]
T
. (2.6)
Seja a matriz das funes de base radial, podemos calcular o vetor w atravs da equao:
w =
1
d. (2.7)
De acordo como teorema de Miccheli (1986, citado por Haykin (1999)), existe a garantia de
que a matriz admite uma inversa quando todos os pontos do conjunto de treinamento {x
i

R
n
|i = 1, 2, . . . , N} so diferentes e os elementos da matriz estejam na forma:
ji
= (||x
j

x
i
||). Vrias funes de base radial atendem essas condies. Entre elas esto as gaussianas,
multiquadrticas e multiquadrticas inversas.
Encontrar os pesos sinpticos w atravs de (2.7) tende ser muito custoso computacional-
mente, pois esse mtodo utiliza todas as N instncias de treinamento como centros dos neur-
nios da rede neural RBF. Alm de custoso, ele tambm suscetvel ao problema de overtting
(BROOMHEAD; LOWE, 1988).
30
Uma soluo para esse problema permitir que nem todos os vetores de entrada (conjunto
de treinamento T) {x
i
R
n
|i = 1, 2, . . . , N} tenham uma funo de base radial associada. De
acordo com essa nova abordagem, passamos a ter um novo problema que tem como objetivo
procurar uma soluo em um espao de menor dimensionalidade. Ou seja, devemos encontrar
uma funo F(x) calculada como a seguir:
F(x) =
m

i=1
w
i
(||xt
i
||), (2.8)
em que {(t
i
)|i = 1, 2, . . . , m} o novo conjunto de funes de base radial. O nmero de fun-
es menor que o nmero de instncias (m < N) e os valores {w
i
|i = 1, 2, . . . , m} constituem
um novo conjunto de pesos. Porm, nesse caso, o conjunto de centros {t
i
|i = 1, 2, . . . , m} e a
disperso associada tambm precisam ser determinados.
Aps a determinao dos centros e da disperso , necessrio encontrar o conjunto de
pesos {w
i
|i = 1, 2, . . . , m} de tal forma que o erro produzido por F(x) seja mnimo. O erro
produzido pela funo F(x) pode ser calculado por:
EQM =
1
N

x
i
N
(d
i
F(x
i
))
2
, (2.9)
em que EQM signica erro quadrtico mdio.
Para criao das rede neurais RBF, Haykin (1999) recomenda que o clculo da disperso
seja dado como
=
d
max

2m
, (2.10)
em que d
max
a distncia mxima entre os centros dos neurnios escolhidos e m a quantidade
de neurnios.
Com os centros e a disperso das funes de base radial denidas, os pesos sinpticos w
que minimizam o erro quadrtico mdio podem ser obtidos atravs da seguinte equao:
w = (
T
)
1

T
d, (2.11)
em que, neste caso, possui m colunas.
A Figura 2.3a ilustra oito gaussianas ponderadas pelos pesos sinpticos j otimizados w.
Nesta gura consta tambm o valor ponderado da sada de ativao xa do neurnio de bias
(linha tracejada). A Figura 2.3b mostra a funo gerada pela sada da rede neural RBF dada
pela combinao linear das funes gaussianas.
31
(a) Funes gaussianas ponderadas (b) Combinao linear das gaussianas
Figura 2.3: Exemplo de sada de uma rede neural RBF.
2.3 Algoritmos OLS, FRA e TSS
O desempenho de uma rede neural RBF tem uma forte relao com a escolha adequada
dos centros. A Figura 2.4 apresenta um exemplo para um problema de regresso simples, y =
f (x), que evidencia esse fato. Nesse exemplo, objetiva-se selecionar os centros do conjunto de
treinamento T para trs neurnios da camada escondida. Assumindo que os respectivos pesos da
camada de sada (w
i
, i =1, . . . , 3) e as disperses associadas aos neurnios da camada escondida
estejam pr-xados, pode-se perceber o efeito da escolha dos centros (c
i
, i = 1, . . . , 3) sobre o
perl da curva de regresso gerada pela rede RBF. Nesse contexto, uma questo fundamental
que surge : como selecionar o subconjunto de centros S T que ir proporcionar o melhor
desempenho em termos de acurcia e generalizao?
(a) (b)
Figura 2.4: Efeito da escolha dos centros sobre o modelo de regresso de uma rede RBF.
Os centros so geralmente escolhidos dentre os vetores de entrada {x
i
}
N
i=1
, muito embora
seja possvel adotar algoritmos no-supervisionados (como o algoritmo k-means) para a extra-
o de novos centros (MARSLAND, 2009). Essa ltima abordagem, porm, no investigada,
32
pois o foco deste trabalho escolher os centros a partir do conjunto de treinamento. Para reali-
zar uma comparao adequada, so investigados algoritmos que adotam o mesmo princpio de
seleo. Os algoritmos descritos a seguir selecionam centros a partir do conjunto T de N pontos
de treinamento.
2.3.1 OLS
Chen, Cowan e Grant (1991) propuseram o algoritmo OLS, que seleciona centros de T de
acordo com a taxa de reduo de erro de um neurnio. De acordo com os autores, considerando
F em vez de f , a Equao (2.1) pode ser revista da seguinte maneira:
d
i
= F(x
i
) +e
i
, (2.12)
sendo e
i
= d
i
F(x
i
) o erro residual.
A Equao (2.12) pode ser reescrita na forma matricial, considerando (2.2) e assumindo M
centros disposio (tipicamente, M = N):
d =w+E, (2.13)
sendo
d = [d
1
, d
2
, . . . , d
N
]
T
, (2.14)
= [
1
,
2
, . . . ,
M
],
i
= [
i1
,
i2
, . . . ,
iN
]
T
, 1 i M, (2.15)
w = [w
1
, w
2
, . . . , w
M
]
T
, (2.16)
E = [e
1
, e
2
, . . . , e
N
]
T
. (2.17)
Uma propriedade interessante que os vetores
i
geram um espao vetorial. Segundo
Steinbruch e Winterle (1990), um espao vetorial um conjunto sobre o qual esto denidas
as operaes de adio de vetores e multiplicao por escalar. Assim, seja V um conjunto no
vazio, ele ser considerado um espao vetorial se as seguintes condies forem atendidas:
u, v V, u+v V, (2.18)
Ru V, u V. (2.19)
Alm disso, diz-se que um conjunto A = {v
1
, v
2
, . . . , v
n
} V gera V, quando qualquer vetor
u V pode ser escrito na forma:
u = a
1
v
1
+a
2
v
2
+. . . +a
n
v
n
. (2.20)
33
Por outro lado, quando o conjunto A = {v
1
, v
2
, . . . , v
n
} gera V e a nica soluo para a
1
v
1
+
a
2
v
2
+. . . +a
n
v
n
= 0 a
1
= 0, a
2
= 0, . . . , a
n
= 0, diz-se que o conjunto A uma base de V.
Chen, Cowan e Grant (1991) observaram que a soluo w encontrada usando (2.11) satisfaz
a condio de que o produto matricial w a projeo de d no espao gerado pelos vetores-base

i
. Da, o algoritmo OLS transforma o conjunto {
i
} em um conjunto de vetores ortogonais que
geram o mesmo espao vetorial de {
i
}.
De acordo com os autores, possvel calcular a contribuio da energia de sada individual
de cada vetor
i
. Para isso, a matriz pode ser decomposta da seguinte maneira:
= ZA, (2.21)
em que A uma matriz triangular MM dada como

1
12

13
. . .
1M
0 1
23
. . .
2M
0 0 1 . . . .
. . . . . . . . .
. . . . . . . .
(M1)M
0 . . . 0 0 1

(2.22)
e Z uma matriz NM com colunas ortogonais z
i
tal que
Z
T
Z = H. (2.23)
Portanto, a matriz H uma matriz diagonal cujos elementos h
i
so dados como:
h
i
= z
T
i
z
i
=
N

t=1
z
it
z
it
, 1 i M. (2.24)
Vale notar que o espao gerado pelo conjunto de vetores ortogonais z
i
o mesmo gerado
pelos vetores
i
. Logo, (2.13) pode ser reescrita como
d = Zg+E, (2.25)
sendo g o novo vetor correspondente a w.
Segundo Chen, Cowan e Grant (1991), a soluo g pode ser encontrada atravs de
g = H
1
Z
T
d (2.26)
34
ou, em termos dos componentes g
i
,
g
i
=
z
T
i
d
(z
T
i
z
i
)
, 1 i M, (2.27)
sendo que g e w satisfazem o sistema triangular
A w =g. (2.28)
Por z
i
e z
j
serem ortogonais, os autores calculam a energia total devido a todos os d
i
como
sendo:
d
T
d =
M

i=1
g
2
i
z
T
i
z
i
+E
T
E. (2.29)
Da, a taxa de reduo de erro associada somente ao vetor ortogonal z
i
pode ser denida como:
[err]
i
= g
2
i
z
T
i
z
i
/(d
T
d), 1 i M. (2.30)
Esta taxa utilizada pelo OLS como critrio para realizar a seleo do subconjunto nal de
centros das funes RBF (i.e., o subconjunto de m centros). Quanto maior o valor de [err]
i
,
melhor o desempenho do vetor (centro) correspondente (SHERSTINSKY; PICARD, 1996).
O pseudocdigo do algoritmo OLS dado pelo Algoritmo 1. Nos passos 2 a 5, verica-se
a taxa de reduo de erro de cada vetor pertecente matriz . Nos passos 7 a 9, seleciona-se o
vetor que apresenta a maior taxa de reduo de erro. Nos passos 13 a 16, vericam-se todos os
vetores que compem a matriz e que ainda no foram selecionados. Durante esse processo,
so ortogonalizados os vetores no selecionados em relao aos j escolhidos. medida que
cada vetor ortogonalizado, a sua taxa de reduo de erro calculada e armazenada no passo 16.
Os passos 17 a 20 selecionam o vetor que produziu a maior taxa de reduo de erro. O algoritmo
continua ortogonalizando e selecionando vetores at a condio do passo 10 ser atendida. Ou
seja, quando o valor 1
p

j=1
[err]
j
atingir uma tolerncia . A tolerncia um parmetro que
precisa ser calibrado e pode variar para cada problema.
2.3.2 FRA
Como mencionado anteriormente, o algoritmo Fast Recursive Algorithm (FRA), assim
como o OLS, do tipo forward selection. Porm, Li, Peng e Irwin (2005) demonstraram ex-
perimentalmente que, geralmente, o FRA apresenta melhores resultados que o OLS em termos
de custo computacional e acurcia. O critrio de avaliao adotado para seleo de centros
dado pela contribuio lquida de cada centro segundo uma funo de custo. J os pesos da ca-
35
Algoritmo 1: OLS
Entrada: Conjunto de treinamento N, tolerncia
Sada: Conjunto de neurnios que compem a camada oculta de uma rede RBF
1 p 1
2 para 1 i m faa
3 z
(i)
1

i
4 g
(i)
1
= (z
(i)
1
)
T
d/((z
(i)
1
)
T
z
(i)
1
)
5 [err]
(i)
1
= (g
(i)
1
)
2
(z
(i)
1
)
T
z
(i)
1
/(d
T
d)
6 [err]
(i
1
)
1
= max{[err]
(i)
1
, 1 i m}
7 z
1
= z
(i
1
)
1
=
i
1
8 enquanto 1
p

j=1
[err]
j
faa
9 p p+1
10 para i m, (i = i
1
, i = i
2
. . . i = i
p1
) faa
11
(i)
j p
= z
T
j
/(z
T
j
z
j
), 1 j < p
12 z
(i)
p
=
i

p1

j=1

(i)
j p
z
j
13 g
(i)
p
= (z
(i)
p
)
T
d/((z
(i)
p
)
T
z
(i)
p
)
14 [err]
(i)
p
= (g
(i)
p
)
2
(z
(i)
p
)
T
z
(i)
p
/(d
T
d)
15 [err]
(i
p
)
p
= max{[err]
(i)
p
, 1 i m, i = i
1
, i = i
2
, . . . , i = i
p1
}
16 z
p
= z
(i
p
)
p
=
i
p

p1

j=1

j p
z
j
em que:
j p
=
(i
p
)
j p
mada de sada podem ser obtidos resolvendo o problema dos quadrados mnimos (least squares)
recursivamente (LI; PENG; IRWIN, 2005; DENG, 2011).
Seja a matriz recursiva M
k
R
kk
, com k = 1, 2, . . . m, que tem a forma
M
k
=
T
k

k
, (2.31)
sendo que
k
R
Nk
contm as primeiras k colunas da matriz dada em (2.15).
A partir dessa matriz, os pesos w
k
e a funo de custo E
k
podem ser denidos para o FRA
como sendo (LI; PENG; BAI, 2006):
w
k
= M
1
k

T
k
d, (2.32)
E
k
= d
t
d w
t
k

T
k
d, (2.33)
em que w
k
R
k
. Por outro lado, a matriz residual R
k
, utilizada pelos autores para o clculo da
36
contribuio lquida de cada centro, denida como
R
k
= I
k
M
1
k

T
k
, (2.34)
em que I representa a matriz identidade e R
0
= I.
Uma das propriedades que a matriz residual tem que R
k+1
pode ser calculada simples-
mente em funo de R
k
. Mais precisamente:
R
k+1
= R
k

R
k

k+1

T
k+1
R
T
k

T
k+1
R
k

k+1
, (2.35)
com k = 1, 2. . . , M1.
Usando (2.32), (2.33) e (2.35), a funo de custo para o o (k +1)-simo centro passa a ser
denida em funo da funo de custo para o k-simo centro:
E
k+1
= d
T
R
k+1
d = E
k

d
T
R
k

k+1

T
k+1
R
T
k
d

T
k+1
R
k

k+1
, (2.36)
em que E
0
= d
T
d.
Denindo

k
i
= R
k

i
, i = 1, 2, . . . , M, k = 1, 2, . . . , M, (2.37)
possvel vericar que
(0)
i
= R
0

i
=
i
(LI; PENG; IRWIN, 2005).
A contribuio lquida do centro
k+1
para a funo de custo passa a ser dada por:
E
k+1
=
(d
T

(k)
k+1
)
2
((
(k)
k+1
)
T

(k)
k+1
)
, (2.38)
com k = 1, . . . , M1. Esse clculo pode ser simplicado denindo-se uma matriz auxiliar
A R
mM
e um vetor b R
M
, com elementos dados por
a
i, j
= (
(i1)
k
)
T

j
, 1 i j, 1 j M, (2.39)
b
j
= (
j1
j
)
T
d, (2.40)
em que, assim como assumido para o OLS, M representa o nmero de centros candidatos para
a seleo, e m << M.
Por sua vez, os valores a
i, j
e b
j
podem ser atualizados via
a
i, j
=
T
i

j

i1

l=1
a
l,i
/a
l,l
, (2.41)
37
b
j
=
T
i
d
j1

l=1
a
l, j
b
l
/a
l,l
. (2.42)
Agora, substituindo (2.39) e (2.40) em (2.38), a funo de custo pode ser expressa por
E
k+1
=
b
2
k+1
a
k+1,k+1
. (2.43)
Atravs de (2.43), possvel nalmente selecionar o conjunto (quase)-timo de centros nal
(DENG, 2011).
2.3.3 TSS
O algoritmo TSS, como mencionado anteriormente, trabalha em duas etapas. Na primeira
etapa, utiliza-se o algoritmo FRA para realizar a seleo de centros. Denotemos por S esse
conjunto. J na segunda etapa, aplica-se o procedimento backward para possvel substituio
de alguns centros.
Notando que o ltimo centro selecionado sempre otimizado em relao ao modelo inteiro,
o renamento backward realizado, por sua vez, em duas etapas. Primeiramente, so feitas
trocas de posio entre os centros da matriz de regresso. Seja c um dos centros selecionados
na primeira etapa ocupando a q-sima (q = 1, . . . , m1) posio da matriz de regresso (ou
seja c =
q
). Esse centro passa a trocar vrias vezes de posio, cada vez com o centro da
posio adjacente direita na matriz, at atingir a m-sima posio da matriz. A primeira troca,
portanto, seria dada como:
c =
q+1
,
q+1
= c. (2.44)
Acada troca, necessrio atualizar a matriz residual. Porm, possvel observar que apenas
o elemento R
q
precisa ser alterado nessa matriz, sendo esse processo realizado da seguinte
forma (DENG, 2011):
R
q
= R
q1

R
q1

q
(
q
)
T
R
T
q1
(p
q
)
T
R
q1

q
. (2.45)
Com a alterao na matriz residual, tambm preciso fazer as devidas atualizaes na matriz
auxiliar A e no vetor b (vide (2.41) e (2.42)) em relao aos elementos q e q+1.
Aps o centro c atingir a m-sima posio, a sua contribuio recalculada como a seguir:
E
m
(c) = (b
m
)
2
/a
m,m
. (2.46)
Da, a contribuio de cada centro de ndice j, j =m+1, . . . , M, no selecionado na primeira
38
etapa (ou seja, que no est em S) tambm recalculada em relao ao subconjunto de centros
S {c}. Ou seja, a contribuio de
j
recalculada assumindo que esse centro estivesse no
lugar de c na m-sima posio. Isso feito como a seguir:
E
m
(
j
) = (b
j
)
2
/a
j, j
. (2.47)
Se c possuir contribuio inferior a algum centro
j
no pertencente a S, ento c substi-
tudo por esse novo centro, que passa a integrar S. Esse processo se repete para todos os centros
de S (DENG, 2011; LI; PENG; BAI, 2006).
2.4 Resumo
Este captulo descreveu o funcionamento de uma rede neural RBF e em seguida deniu o
problema de interpolao. Mostrou-se formalmente que uma rede neural RBF, apesar de possuir
uma topologia simples, capaz de resolver esse problema de modo automtico. A relevante
questo da seleo dos centros de uma rede neural RBF foi levantada e os algoritmos OLS,
FRA e TSS foram apresentados como possveis alternativas para a soluo desse problema. O
prximo captulo explica conceitos da teoria dos jogos cooperativos, os quais serviram de base
para o desenvolvimento dos algoritmos de ranqueamento de centros propostos nesta dissertao.
39
3 TEORIA DOS JOGOS
COOPERATIVOS
Este captulo tem como objetivo introduzir os conceitos bsicos da teoria dos jogos coope-
rativos que serviram de fundamentao para a concepo da nova abordagem de ranqueamento
e seleo de centros de redes RBF.
3.1 Conceitos
Imagine uma situao em que um grupo de pessoas trabalha em um projeto. Aps a conclu-
so do projeto, a pergunta que resta : como recompensar cada pessoa de uma maneira justa?
Ou seja, como saber a importncia de cada pessoa para o grupo? Ateoria dos jogos cooperativos
aborda conceitos que ajudam a responder essas questes.
Seja J = {1, 2, ..., j} um conjunto de jogadores. Uma coalizo qualquer subconjunto
S J, sendo J chamada de grande coalizo. Cada coalizo recebe uma recompensa que de-
pende dos jogadores que a compe. Como existem 2
j
subconjuntos de J, existem portanto 2
j
coalizes que podem ser formadas pelos jogadores. A teoria dos jogos cooperativos tenta distri-
buir de maneira justa a recompensa adquirida por uma coalizo para cada jogador que a compe
(BARRON, 2013; DRIESSEN, 1988).
De acordo com Barron (2013), o maior problema para a TJC a denio do termo dis-
tribuio justa. Essa denio ir determinar a maneira como os benefcios recebidos pela
coalizo sero alocados para cada membro.
Antes de tudo, necessrio quanticar a recompensa de uma coalizo atravs de uma fun-
o especca relacionada ao problema, denominada funo caracterstica. A funo caracte-
rstica possui um conjunto de coalizes S J como domnio e o contra-domnio representado
pelo conjunto dos reais. Seja 2
J
o conjunto de todas as coalizes possveis de J, sendo que
qualquer coalizo S = {i} denotada simplesmente por i. Qualquer funo v : 2
J
R que
40
satisfaa
v(/ 0) = 0 (3.1)
e
v(J)
j

i=1
v(i) (3.2)
pode ser considerada uma funo caracterstica. Um jogo cooperativo composto pelo conjunto
J de jogadores e pela funo caracterstica v comumente referido por (J, v).
Segundo Barron (2013), uma propriedade desejvel de uma funo caracterstica que ela
satisfaa a condio v(S T) v(S) +v(T), para todo S, T J e S T = / 0. Se essa condio
atendida, armamos que a funo caracterstica superaditiva. Para o autor, a condio de
superaditividade interessante, pois incentiva os jogadores a fazerem parte da grande coalizo
J. Supondo que a funo caracterstica superaditiva, dizemos que um jogo no-essencial se
e somente se v(J) =
j

i=1
v(i). Por outro lado, um jogo dito essencial quando v(J) >
j

i=1
v(i).
Seja p
i
um nmero real associado a cada jogador i = 1, 2, ..., j. O vetor p = [p
1
, p
2
, ...p
j
]
uma imputao se as condies
p
i
v(i) (3.3)
e
j

i=1
p
i
= v(J) (3.4)
forem satisfeitas. Cada valor p
i
representa a parte do total v(J) recebida pelo jogador i. O
conceito de imputao tambm pode ser chamado de alocao ou vetor de recompensa.
Seja P o conjunto de todas as imputaes possveis, a teoria dos jogos cooperativos procura
por uma imputao p P que seja a soluo do jogo. Uma imputao uma soluo do jogo
quando o valor p
i
calculado da maneira mais justa possvel, de acordo com uma denio
formal de justia. A soluo de um jogo pode ser diferente dependendo do conceito de justia
adotado. Por exemplo, o mtodo do nuclolo tenta minimizar a insatisfao dos jogadores.
Quanto menor for p
i
, mais insatisfeito ser o jogador i (BARRON, 2013). Por outro lado, ao
se transpor um jogo para sua forma simples, em que v(S) = 1 ou v(S) = 0, S J, possvel
calcular a importncia (poder) dos jogadores a partir de vrios ndices. Os mais conhecidos so
o ndice de Banzhaf e o ndice de Shapley-Shubik.
Um dos conceitos de soluo mais adotados e que possui uma denio clara de justia
o valor de Shapley (SHAPLEY, 1953; SHAPLEY; SHUBIK, 1954), o qual discutido na
sequncia.
41
3.2 Valor de Shapley
Segundo Kiselev (2005), o valor de Shapley uma imputao que reconhece o valor que
cada jogador adiciona para uma coalizo. Jogadores que, ao entrarem em uma coalizo no
adicionam nada a ela, passam a possuir um valor de imputao nulo, ao passo que jogadores
que contribuem bastante para a coalizo tero um alto valor de imputao.
Uma alocao p = [p
1
, p
2
, ...p
j
] dita ser um valor de Shapley para um jogo com funo
caracterstica v se a imputao p
i
=
i
(v) for calculada como:

i
(v) =

S
i
[v(S) v(Si)]
(|S| 1)!(|J| |S|)!
|J|!
, i = 1, 2, 3, ..., j, (3.5)
em que
i
o conjunto de todas as coalizes S J que possui i como membro (i S), |S| o
nmero de membros de S e |J| = j.
Para compreender melhor a denio, xemos um jogador i e considere que a varivel
aleatria Z
i
possa assumir qualquer coalizo contida em 2
J
. Z
i
representa uma coalizo S em
que i o ltimo jogador a entrar, sendo que os demais j |S| jogadores s iro compor a grande
coalizo J aps a sua entrada. possvel vericar que existem (|S| 1)!( j |S|)! maneiras do
jogador i fazer parte da grande coalizo J entrando como ltimo jogador de S. Logo, pode-se
deduzir que Z
i
possui distribuio de probabilidade dada por (BARRON, 2013):
Prob(Z
i
= S) =
(|S| 1)!( j |S|)!
j!
. (3.6)
Da, possvel observar que v(Z
i
) v(Z
i
i) representa o valor que o jogador i acrescenta
coalizo S.
O valor de Shapley satisfaz trs axiomas relevantes (KISELEV, 2005):
1. Participantes que no contribuem em nenhuma coalizo no recebem contribuio al-
guma, ou seja,
i
(v) = 0 para cada i que no realiza nenhum tipo de contribuio.
2. Renomear os jogadores no muda a imputao deles. O operador dito ser annimo.
3. O valor de Shapley aditivo. Se os jogadores jogam dois jogos seguidos, a imputao
nal aos jogadores dada pela soma dos valores obtidos separadamente nos dois jogos.
Ou seja, para dois jogos (J, v) e (J, w),
i
(v +w) =
i
(v) +
i
(w), i J.
Alm dos trs axiomas, o valor de Shapley tambm tem a seguinte atrativa propriedade (KI-
SELEV, 2005):
42
4. O valor do operador zero-independente, ou seja, se um novo jogo (J, w) com w(S) =
v(S) +
iS
c
i
obtido a partir do jogo (J, v) atravs de constantes c
i
, i = 1, ..., j, ento

i
(w) =
i
(v) +c
i
, para todo i = 1, ..., j.
3.3 Clculo alternativo do valor de Shapley
Segundo Cohen, Dror e Ruppin (2007), um modo alternativo para calcular o valor de Sha-
pley pode ser denido da seguinte maneira. Seja a importncia marginal de um jogador i para
uma coalizo S, com i / S, denida como

i
(S) = v(Si) v(S). (3.7)
Usando a denio acima, o valor de Shapley pode ser redenido como sendo:

i
(v) =
1
j!

i
(S
i
()), (3.8)
sendo que o conjunto de todas as permutaes sobre J e S
i
() o conjunto de jogadores
aparecendo antes do jogador i na permutao .
Para calcular o valor de Shapley precisamente, necessrio considerar todos os subcon-
juntos S possveis do conjunto de jogadores J. De acordo com Cohen, Dror e Ruppin (2007),
tal procedimento pode ser computacionalmente invivel para valores elevados de j, visto que o
nmero de elementos do conjunto 2
j
.
Para resolver esse problema, os autores sugeriram calcular o valor de Shapley para estimar
a contribuio de um jogador da seguinte maneira aproximada:

i
(v) =
1
|
d
|

i
(S
i
()), (3.9)
em que
d
o conjunto de permutaes em de tamanho at d e |
d
| o nmero dessas
permutaes. O valor de |
d
| predenido e precisa ser calibrado dependendo do problema.
No trabalho de Cohen, Dror e Ruppin (2007), a varivel t foi utilizada para representar |
d
|.
3.4 Resumo
Este captulo introduziu conceitos da teoria dos jogos cooperativos. Foram apresentadas as
denies de coalizo, funo caracterstica e jogo cooperativo. Propriedades desejveis das
funes caractersticas foram exibidas e o conceito de imputao foi introduzido. O valor de
43
Shapley, em particular, uma imputao considerada soluo de um jogo cooperativo, alocando
de maneira justa os recursos entre os jogadores. O prximo captulo mostrar uma abordagem
baseada no valor de Shapley para resolver o problema de seleo de centros de uma rede neural
RBF.
44
45
4 SELEO DE CENTROS EM
REDES NEURAIS RBF VIA
VALOR DE SHAPLEY
Dois algoritmos so apresentados neste captulo como parte da abordagem proposta para
resolver o problema de seleo de centros em redes neurais RBF. A camada escondida de uma
rede RBF modelada como uma possvel coalizo e os centros de seus neurnios so tratados
como jogadores. O objetivo medir a importncia de cada candidato a centro, atravs do valor
de Shapley, de modo a se compor um modelo nal com apenas os melhores centros na camada
escondida.
4.1 Abordagem de seleo inspirada no valor de Shapley
Como dito anteriormente, a abordagem proposta neste trabalho modela os centros das fun-
es de base radial como jogadores de um jogo cooperativo (J, v), cujas contribuies so calcu-
ladas a partir do valor de Shapley. Assume-se, nessa abordagem, que o conjunto de treinamento
T, que composto por pares na forma (x
i
, d
i
), com i = 1, 2, ..., N, seja dividido em dois subcon-
juntos mutuamente exclusivos, denominados J e (T J).
O conjunto J o de jogadores do jogo (J, v), ou seja, de possveis candidatos a centros do
modelo nal. A avaliao da contribuio de cada jogador mensurada sobre o conjunto (T
J), considerando as redes neurais RBF induzidas a partir das coalizes de que ele participa. Para
mensurar o erro de uma rede, o conjunto (T J) dividido, por sua vez, em dois subconjuntos.
O primeiro, denominado V, representa o conjunto de validao utilizado para avaliar a acurcia
da rede treinada sobre o segundo subconjunto, (T J V).
Seja S J um conjunto qualquer de centros de neurnios escondidos de uma rede RBF e
seja i um desses neurnios. Esse conjunto de centros modelado aqui como uma coalizo, ao
passo que o centro i seria um jogador dessa coalizo. Para avaliar a contribuio de i para S
46
(conforme discutido abaixo), o erro de generalizao dessa rede RBF necessita ser calculado, e
isso feito atravs do processo de validao cruzada (MARSLAND, 2009). Segundo esse pro-
cesso, treina-se o mesmo modelo de rede q vezes, sendo q o nmero de conjuntos de validao
V diferentes extrados do conjunto (T J). A Figura 4.1 exemplica como o conjunto (T J)
dividido em conjunto de validao e conjunto de treinamento, para q = 3 (por questes de
ecincia, esse foi o valor adotado nos experimentos discutidos no prximo captulo).
Figura 4.1: Conjuntos de validao para q = 3.
Seja V
i
, i = 1, 2, . . . , q os conjuntos de validao obtidos, o erro quadrtico mdio de valida-
o cruzada da rede RBF com uma camada escondida S dado por:
EQM
S
cv
=

q
i=1
1
|V
i
|

(x
i
,d
i
)V
i
(d
i
F(x
i
))
2
q
. (4.1)
Desse modo, assume-se que o valor da funo caracterstica para a coalizo S simples-
mente v(S) =EQM
S
cv
. Para o caso de se ter uma coalizo vazia, v(/ 0) corresponde ao erro produ-
zido por uma rede contendo somente o neurnio de bias na camada escondida. J a contribuio
marginal de qualquer centro i J, em relao a S, obtida pela equao:

i
(S) = v(S) v(S{i}). (4.2)
Uma peculiaridade da funo caracterstica adotada que os melhores jogadores so os que
mais contribuem para reduzir o seu valor, visto que ela representa o erro produzido. Essa viso
contrape-se aquela mais comum que avalia um jogador de acordo com a sua capacidade de
contibuir para umaumento do valor da funo caracterstica. Essa diferena torna-se perceptvel
ao se comparar as Equaes (3.7) e (4.2).
Atravs de (4.2), podemos observar que, se o erro da rede RBF diminuir ao se acrescentar
o jogador i em S, ento
i
(S) ser positivo e medir o benefcio que o jogador i trar para
a coalizo S; caso contrrio, medir o quanto o jogador i est sendo prejudicial, ou mesmo
47
indiferente, capacidade de generalizao da rede. Com base em
i
(S), passa a ser possvel
calcular o valor de Shapley aproximado, vericando a contribuio do jogador i em t coalizes
S J. Esse clculo aproximado dado pela Equao (3.9).
Com base nessas denies, ca denido formalmente o jogo cooperativo (J, v) estudado
aqui, cuja funo caracterstica v : 2
J
R. Por conta do clculo aproximado do valor de Sha-
pley, podemos armar que a abordagem proposta de natureza heurstica, visto que no h
garantia de que a funo caracterstica denida acima satisfaa as condies (3.1) e (3.2). Alm
disso, no possvel garantir a condio de superaditividade, que tambm desejvel para
uma funo caracterstica. Porm, essa mesma situao ocorreu no trabalho de Cohen, Dror e
Ruppin (2007), no impactando no desempenho da abordagem proposta pelos autores.
Com base em (4.2), pode-se realizar um ranqueamento dos centros, sendo que aqueles mais
bem avaliados passaro a compor a camada oculta do modelo de rede neural RBF nal. Em
geral, o processo por trs da nossa abordagem heurstica de ranqueamento e seleo de centros
dividido em trs etapas, mostradas na Figura 4.2.
Figura 4.2: Etapas do processo de seleo de centros da abordagembaseada no valor de Shapley.
Visto que o conjunto-soluo nal J

um subconjunto de J, uma etapa importante do pro-


cesso selecionar os elementos do conjunto de jogadores, etapa essa chamada de pr-seleo.
Se J estiver mal representado, a abordagem inspirada na TJC poder apresentar resultados in-
satisfatrios. J para a etapa de ranqueamento de centros, so apresentados dois algoritmos,
denominados RBF Center Ranking 1 (RCR1) e RBF Center Ranking 2 (RCR2), que utilizam
(4.2). A sada deles um ranking dos jogadores R(J). Por outro lado, na terceira etapa, o
critrio de informao de Akaike (do ingls, Akaike information criterion AIC) usado para
realizar a seleo do modelo nal. O AIC considera tanto o erro produzido pelo modelo quanto
a sua complexidade (AKAIKE, 1974), sendo usado como critrio para encontrar a ordem do
48
modelo nal d

(ou seja, a quantidade (quase-) tima de centros). Finalmente, com base em


d

que gerado o conjunto-soluo nal J

, sendo este composto pelos d

centros mais bem


ranqueados na segunda etapa. O modelo de rede RBF nal contendo J

como centros da ca-


mada oculta treinado sobre o conjunto (T J) de pontos e estar pronto para ser aplicado aos
dados de teste.
As prximas sees mostram com mais detalhes as trs etapas da Figura 4.2.
4.2 Pr-seleo dos jogadores
Para obter uma boa representatividade do conjunto J, este trabalho adota dois mtodos para
a seleo de jogadores. Oprimeiro deles consiste emaplicar o algoritmo k-means ao conjunto de
treinamento T, fazendo k =|J|. O k-means um algoritmo no-supervisionado que agrupa, no
nal de sua execuo, os dados em k grupos (clusters) distintos. Uma das possveis aplicaes
do algoritmo est na classicao de novos elementos, no vistos na etapa de treinamento, em
um dos k grupos gerados pelo algoritmo para os dados de treinamento (MARSLAND, 2009).
Porm, este trabalho utiliza o k-means para extrair um jogador de cada cluster. Ao adotar essa
medida, espera-se que os elementos do conjunto J estejam bem distribudos sobre o espao de
entrada.
Na execuo do k-means, cada cluster gerado est associado a um centroide, que ini-
cialmente escolhido aleatoriamente entre os elementos de T. Depois da seleo aleatria, o
algoritmo calcula a distncia euclidiana entre os pontos i T, i = 1, ..., N e os centroides esco-
lhidos. Aps essa etapa, cada ponto i associado ao grupo cujo centroide est a uma distncia
mnima de i. Depois de cada elemento i ser agregado a um grupo, as posies dos centroides
so recalculadas atravs da mdia dos pontos que pertencem ao grupo do centroide. Depois
disso, a distncia entre os pontos i T e os centroides so recalculadas e os pontos i so no-
vamente associados ao grupo dos centroides mais prximos de i. Esse processo de atualizao
dos centroides se repete at as suas posies no se alterarem mais. Em cada cluster produzido,
o ponto que estiver mais prximo do centroide ser adicionado ao conjunto J. O pseudocdigo
do algoritmo k-means apresentado no Algoritmo 2 (MARSLAND, 2009).
O segundo mtodo adotado neste trabalho para selecionar os jogadores usa os J pontos mais
bem avaliados pelo algoritmo OLS, que foi explicado no Captulo 2. Visto que o OLS j produz
uma soluo para o problema de seleo de centros, consideramos que os jogadores extrados
do OLS sero bons candidatos. Utilizando essa abordagem, os algoritmos inspirados na TJC
podem ser vistos como um complemento do algoritmo OLS.
49
Algoritmo 2: K-MEANS
Entrada: Conjunto de treinamento T, nmero de clusters k
Sada: k clusters
1 Escolher k elementos aleatrios em T
2 Gerar k clusters e associar o centroide de cada cluster aos respectivos elementos
escolhidos de T
3 repita
4 para cada x T faa
5 Computa a distncia entre x e cada centroide
6 Associa x ao cluster mais prximo
7 para cada centroide faa
8 Atualiza a posio do centroide, associando a sua posio com a mdia dos
pontos que pertencem ao cluster T
c
, sendo que centroide T
c
. A nova posio
do centroide dada por: centroide
1
T
c

iTc
x
i
9 at as posies dos centroides no mudarem
10 retorna clusters
4.3 Algoritmos de ranqueamento baseados no valor de Sha-
pley
Esta seo apresenta dois algoritmos que utilizama Equao (4.2) para avaliar umcandidato
a centro. O primeiro algoritmo ranqueia os centros em uma nica iterao, enquanto o segundo
avalia os centros iterativamente.
4.3.1 Algoritmo RBF Center Ranking 1 (RCR1)
Aps a seleo dos J jogadores ser realizada, o algoritmo RCR1 estima a importncia de
cada jogador i J. No nal do algoritmo, um ranking R(J) dos jogadores produzido, de tal
forma que os melhores centros se encontram nas primeiras posies de R.
Inicialmente, o algoritmo gera t permutaes dos elementos de J. Cada jogador avali-
ado uma vez para cada permutao , ou seja, cada jogador avaliado t vezes. Para uma
permutao , a contribuio do jogador i calculada em relao coalizo S
i
() formada por
todos os jogadores que antecedem i na permutao. A contribuio nal de i, C
i
, dada ento
pela mdia das contribuies desse jogador a todas as coalizes relativas s t permutaes. O
Algoritmo 3 traz o pseudocdigo do RCR1.
A inteno do ranqueamento ordenar os jogadores de acordo com a sua contribuio m-
dia, para que, futuramente, os d

mais bem ranqueados possam formar a camada escondida da


50
Algoritmo 3: RCR1
Entrada: Conjunto de treinamento N, nmero de permutaes t
Sada: Ranqueamento R dos candidatos a centros da camada oculta da rede RBF
1 J selecionar(J N)
2 Gera t permutaes sobre J, ={
1
,
2
, ...,
t
}
3 para cada faa
4 para i 1 at || faa
5 S S
i
()
6
i
(S) = v(S) v(S{i})
7 C
i
C
i
+
i
(S)
8 para cada i J faa
9 C
i

C
i
||
10 R ranking(C)
11 retorna R
rede RBF nal (vide prxima seo). Uma das questes centrais neste trabalho : uma coali-
zo formada pelos jogadores mais bem ranqueados de acordo com o valor de Shapley realmente
produzir a melhor rede neural RBF possvel? Essa questo ser respondida experimentalmente
no Captulo 5.
O algoritmo RCR1, em particular, ranqueia os jogadores, mas no verica se os melhores
jogadores jogam bem entre si, ou seja, no verica se eles, em conjunto, formam realmente
uma coalizo (camada oculta da rede RBF) satisfatria. Outro algoritmo proposto neste tra-
balho, o RCR2, leva em considerao este trabalho em equipe dos jogadores para realizar o
ranqueamento. O RCR2 abordado com mais detalhes na prxima subseo.
4.3.2 Algoritmo RBF Center Ranking 2 (RCR2)
O algoritmo RCR2 usa vrias iteraes para ranquear o conjunto dos jogadores J. Inicial-
mente, o ranking R vazio, sendo que, na iterao k, o jogador que ir ocupar a posio k ser
escolhido.
Cada jogador i (J R) ser avaliado de acordo com a sua contribuio em t coalizes,
que so subconjuntos de centros selecionados aleatoriamente do conjunto (J R{i}). Os
jogadores que j esto no conjunto R, adicionados em iteraes anteriores, so inseridos nas co-
alizes geradas nas prximas iteraes. Essa estratgia faz com que o conjunto R seja formado
por jogadores que possuem uma boa contribuio em coalizes que contm jogadores previa-
mente escolhidos. Ou seja, os primeiros colocados no ranking R tendem a trabalhar bem em
equipe, sendo que o jogador na (k +1)-sima posio complementa os k jogadores introduzi-
51
dos nas k primeiras iteraes. Pode-se armar, portanto, que o algoritmo RCR2 de natureza
incremental.
O algoritmo RCR2 recebe como entrada uma estimativa do tamanho da camada oculta da
rede RBF nal, ou seja, d. Esse parmetro necessrio para gerar as coalizes ao longo das
iteraes, sendo que cada coalizo tem tamanho igual a d. Isso ocorre porque, ao contrrio de
RCR1, no so geradas permutaes de todos os jogadores para a denio das coalizes.
O Algoritmo 4 traz o pseudocdigo do RCR2, sendo que o operador max
i
retorna a maior
contribuio armazenada no vetor C.
Algoritmo 4: RCR2
Entrada: Conjunto de treinamento N, tamanho das permutaes d, nmero de coalizes
t
Sada: Ranqueamento R dos candidatos a centros da camada oculta da rede RBF
1 J seleciona(J N)
2 R / 0
3 enquanto |R| < d faa
4 para cada i (J R) faa
5 Gera t coalizes, subconjuntos de J, com tamanho d |R|, ={
1
,
2
, ...,
t
}
6 para cada faa
7 S R
8
i
(S) = v(S) v(S{i})
9 C
i
C
i
+
i
(S)
10 C
i

C
i
||
11 R Rmax
i
(C)
12 C
i
= 0, i (J R)
13 retorna R
4.4 Determinao da ordem do modelo nal
Uma das questes envolvidas no problema de seleo de centros de uma rede neural RBF
a da denio da quantidade tima de centros que devem integrar o modelo nal. Assim como
Deng (2011), ns utilizamos o critrio de informao de Akaike (AKAIKE, 1974) para realizar
essa tarefa.
O AIC avalia a qualidade de um modelo de predio considerando a sua complexidade e a
sua eccia, ou seja:
AIC = Nlog(RQEQM) +2d, (4.3)
em que RQEQM o erro de treinamento mdio do modelo de predio dado pela raiz quadrada
52
do EQM (vide abaixo) e d representa o nmero de centros desse modelo.
No nosso caso, o modelo de predio uma rede RBF. Com base no ranqueamento pro-
duzido por RCR1 ou RCR2, diferentes valores de d so considerados incrementalmente, sendo
que para cada valor de d um novo modelo de rede RBF treinado e o valor de AIC recalcu-
lado, conforme (4.3). O valor (quase-)timo, d

, ser aquele relativo ao ponto de mnimo da


curva d AIC. A Figura 4.3 mostra um exemplo tpico. Neste caso, o mnimo encontrado de
AIC foi para d

= 9.
Figura 4.3: Curva tpica do AIC.
Seja uma rede neural RBF que possui a camada escondida representada pelos d neurnios
mais bem ranqueados pelos algoritmos RCR1 ou RCR2. Para o clculo da parcela RQEQM da
Equao (4.3), necessrio que essa rede seja treinada sobre o conjunto de treinamento (T J),
de modo a se calcular o valor da raiz quadrada do EQM:
RQEQM
T
=

1
|T J|

(x
i
,d
i
)(TJ)
(d
i
F(x
i
))
2
. (4.4)
Por conta dos algoritmos inspirados em TJC serem heursticos, so gerados 30 modelos para
cada congurao dos parmetros t, d e J para cada algoritmo. Assim, a parcela RQEQM da
Equao (4.3) dada pela mdia dos valores de RQEQM
T
obtidos para as 30 redes RBF.
Finalmente, aps se determinar o valor de d

e assumindo a existncia do conjunto de teste


G, pode-se vericar o desempenho do modelo nal de rede RBF. Assim como no clculo do
AIC, o erro de teste nal calculado pela medida da raiz quadrada do EQM (assim como feito
53
em (DENG, 2011)):
RMSE
G
=

1
|G|

(x
i
,d
i
)(G)
(d
i
F(x
i
))
2
. (4.5)
4.5 Resumo
Este captulo mostrou como o problema de seleo de centros pode ser modelado como um
jogo cooperativo. O processo de seleo dos centros para compor a camada escondida de uma
rede RBF foi dividido em trs partes: pr-seleo de jogadores; ranqueamento de jogadores;
e determinao do nmero de centros nal. Para a pr-seleo de jogadores, foram apresen-
tadas duas abordagens, uma baseada no k-means e outra no OLS. As duas abordagens visam
selecionar pontos que sejam bem representativos no espao de entrada. Para ranquear os jo-
gadores, foram propostos dois algoritmos, RCR1 e RCR2. O primeiro ranqueia os jogadores
em apenas uma iterao, enquanto o segundo avalia os melhores jogadores em vrias iteraes.
Este captulo tambm descreveu o AIC, que foi utilizado para determinar o nmero de centros
(quase-)timo para compor a camada oculta da rede RBF nal.
No prximo captulo, este trabalho avalia o desempenho da abordagem inspirada na TJC
em quatro problemas de regresso, que tambm foram estudados por Deng (2011).
54
55
5 VALIDAO EXPERIMENTAL
O captulo anterior descreveu os passos da nova abordagem baseada em conceitos da TJC
para a seleo de centros em redes neurais RBF. Nesse contexto, dois algoritmos foram propos-
tos para o ranqueamento dos centros com base no valor de Shapley.
Este captulo mostra os resultados obtidos pela abordagem proposta, considerando os dois
algoritmos de ranking separadamente, ao ser aplicada a quatro problemas de regresso. Es-
ses problemas de benchmark foram tambm investigados por Deng (2011) para avaliao de
desempenho dos algoritmos OLS, FRA e TSS. Para realizar uma comparao justa de desem-
penho com esses algoritmos de estado-da-arte, os mesmos conjuntos de treinamento e teste
foram utilizados, os quais foram disponibilizados pelo autor.
5.1 Experimento 1
Este experimento utiliza uma rede neural RBF para resolver o problema de interpolao a
partir de um conjunto de dados extrados da funo (HONG; SHARKEY; WARWICK, 2003;
TIPPING, 2001):
f (u) =
sen(u)
u
, 10 u 10. (5.1)
A mesma base de dados utilizada por Deng (2011) tambm foi adotada aqui. O autor ge-
rou 400 pontos livres de rudo variando u no intervalo [10, 10]. Uma sequncia de rudos
gaussianos N(0.05
2
) foi adicionada aos primeiros 200 exemplos. Como mencionado ante-
riormente, a funo de base radial utilizada neste trabalho a funo gaussiana, cuja disperso,
neste exemplo, foi pr-determinada como sendo = 3. A Figura 5.1 mostra o grco de (5.1)
com os 200 primeiros pares de exemplos com rudo.
Neste exemplo, o conjunto T representado pelos 200 pontos ruidosos. O conjunto J
extrado de T na etapa de pr-seleo de jogadores, em que possvel utilizar o k-means ou
o OLS para essa tarefa. Aps encontrar o nmero de neurnios do modelo, as duas verses
56
Figura 5.1: Pontos do conjunto de treinamento do Experimento 1.
da abordagem (usando os algoritmos RCR1 e RCR2) so comparadas com os algoritmos OLS,
FRA e TSS.
5.1.1 Comparao de desempenho
A Tabela 5.1 mostra os resultados obtidos pela abordagem proposta em termos de taxa de
erro de treino e de teste. considerada somente a melhor congurao para os dois algoritmos,
RCR1 e RCR2. A tabela mostra que os algoritmos OLS e k-means so satisfatrios na pr-
seleo de jogadores. Ambos permitem um bom desempenho de ranqueamento dos algoritmos
RCR1 e RCR2. Neste experimento, a abordagem proposta apresentou resultados, em mdia,
prximos aos obtidos pelos algoritmos OLS, FRA e TSS. Essa proximidade ocorre tanto para o
nmero de centros quanto para os erros de aprendizado e generalizao. A congurao RCR2
+ OLS gerou resultados levemente superiores em comparao com as outras abordagens, tanto
para o erro mdio de teste quanto para o nmero de centros encontrados.
Tabela 5.1: Comparao de desempenho entre os algoritmos OLS, FRA, TSS, RCR1 e RCR2.
Experimento 1
Algoritmo n
o
de centros Erro de Treino Erro de Teste Seleo de J t |J|
OLS 15 0.0451 0.0220
FRA 11 0.0469 0.0196
TSS 9 0.0469 0.0199
RCR1 15 0.04720.001 0.02240.005 k-means 25 20
RCR1 15 0.04640.0001 0.01990.002 OLS 25 20
RCR2 11 0.04650.0003 0.01970, 001 k-means 5 20
RCR2 9 0.04780.0004 0.01880.003 OLS 25 20
57
As Figuras 5.2a e 5.2b mostram os grcos relativos aplicao do critrio de informao
de Akaike, sendo obtidos pela variao do parmetro d sobre os rankings gerados pelos algo-
ritmos RCR1 e RCR2, respectivamente. O valor mnimo do AIC, correspondente ordem do
modelo nal, d

, est destacado com a cor vermelha. O algoritmo OLS foi utilizado para a
pr-seleo dos jogadores em ambos os casos.
(a) AIC - RCR1, t = 25, J =|20|. (b) AIC - RCR2, t = 25, J =|20|.
Figura 5.2: Aplicao do critrio de informao de Akaike: RCR1 e RCR2 - Experimento 1.
As Figuras 5.3a e 5.3b mostram uma comparao entre a funo dada por (5.1) e as funes
aproximadas obtidas pelas melhores redes neurais RBF que foram induzidas pelos algoritmos
RCR1 e RCR2, respectivamente.
(a) RCR1 (b) RCR2
Figura 5.3: Comparao entre a funo do Experimento 1 e as curvas aproximadas geradas
pelas melhores redes RBF obtidas com os algoritmos RCR1 e RCR2, respectivamente.
5.1.2 RCR1: Inuncia dos parmetros d, t e J
Esta subseo faz uma anlise do erro mdio de teste produzido pelas redes neurais RBF
induzidas pelo RCR1 ao se variar os parmetros d, t e |J|. Para cada congurao de d, t e
58
J, so gerados 30 modelos com o conjunto de treinamento. Aps isso, os modelos gerados
so aplicados ao conjunto de teste e a mdia dos 30 valores de erro de teste representada no
grco.
Os grcos da Figura 5.4 mostram que, medida que d aumenta, o erro mdio de teste
diminui para |J| = 20, |J| = 30 e |J| = 40. possvel observar que as curvas obtidas para t = 5,
t = 25 e t = 45 so bastante prximas. Em muitos casos a escolha de t = 5 mais satisfatria
do que t = 25 e t = 45. Este fato interessante, pois o tempo computacional do RCR1 depende
do parmetro t. De acordo com os grcos, possvel escolher pequenos valores para t sem
prejudicar a acurcia e a capacidade de generalizao da rede induzida pelo algoritmo.
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.4: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30 e 40
- RCR1, pr-seleo de jogadores: OLS, Experimento 1.
5.1.3 RCR2: Inuncia dos parmetros d, t e J
Esta subseo mostra o estudo do impacto dos parmetros d, t e J para o algoritmo RCR2.
Atravs da Figura 5.5, possvel observar a queda do erro mdio de teste medida que o valor
de d aumenta. Os erros produzidos pelos diferentes valores de t, assim como para o RCR1, so
59
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.5: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30, 40
- RCR2, pr-seleo de jogadores: OLS, Experimento 1.
muito prximos. Este fato evidencia que a escolha de pequenos valores para t tambm pode ser
satisfatria para o algoritmo RCR2. Em comparao com a Figura 5.4, o erro mdio de teste cai
com maior rapidez para o algoritmo RCR2, sendo geralmente menor do que o do RCR1 quando
d assume pequenos valores.
5.2 Experimento 2
Esta seo trata a resoluo de umproblema de interpolao compontos extrados da funo
(CHEN; WANG; BROWN, 2005; WANG; CHEN; HARRIS, 2006):
f (u) = 0.1+
sen(u)
u
+sen(0.5u), 10 u 10. (5.2)
Neste caso foram gerados 1000 pontos. Os 500 primeiros so utilizados para treinamento
e os restantes so usados para teste. Aos 500 primeiros pontos foi adicionado rudo gaussiano
com variao de 0.01. Neste exemplo, a disperso das gaussianas tambm pr-determinada,
60
Figura 5.6: Pontos do conjunto de treinamento do Experimento 2.
com = 3. A Figura 5.6 ilustra a funo denida em (5.2).
Tabela 5.2: Comparao entre os algoritmos OLS, FRA, TSS, RCR1 e RCR2. Experimento 2
Algoritmo n
o
de centros Erro de Treino Erro de Teste Seleo de J t |J|
OLS 9 0.1024 0.0128
FRA 11 0.1020 0.0135
TSS 9 0.1022 0.0119
RCR1 14 0.10210.0002 0.01150.001 k-means 45 40
RCR1 15 0.10190.0003 0.01340.002 OLS 25 40
RCR2 9 0.10190.0002 0.01250.001 k-means 25 30
RCR2 9 0.10190.0003 0.01350.001 OLS 25 40
5.2.1 Comparao de desempenho
Atravs da Tabela 5.2, possvel observar que, em mdia, o algoritmo RCR1, com pr-
seleo de jogadores realizada pelo k-means, induziu redes com erro de teste melhor do que as
dos outros algoritmos. Porm, sua aplicao incorre em uma quantidade maior de neurnios em
sua camada escondida. O algoritmo RCR2 induz redes que, em mdia, apresentam um valor de
erro de teste bastante prximo s redes induzidas pelos algoritmos OLS, FRA e TSS. O RCR2
apresenta a vantagem de ter induzido um modelo com apenas nove neurnios na camada escon-
dida, a mesma quantidade de neurnios obtida pelos algoritmos OLS e TSS. Neste exemplo,
tambm possvel notar que o algoritmo k-means gerou amostras melhores de jogadores.
As Figuras 5.7a e 5.7b exibem o valores de AIC, obtidos pela variao do parmetro d.
O valor mnimo destacado com a cor vermelha corresponde ordem do modelo nal, d

. O
algoritmo k-means foi utilizado para a pr-seleo dos jogadores.
61
(a) AIC - RCR1, t = 45 , |J| = 40. (b) AIC - RCR2, t = 25 , |J| = 30.
Figura 5.7: Aplicao do critrio de informao de Akaike: RCR1 e RCR2.
(a) RCR1 (b) RCR2
Figura 5.8: Comparao entre a funo do Experimento 2 e as curvas geradas pelas melhores
redes RBF obtidas pelos algoritmos RCR1 e RCR2, respectivamente.
A Figura 5.8 mostra a comparao entre a funo denida em (5.2) e as curvas geradas
pelas melhores redes neurais RBF obtidas pelos algoritmos RCR1 e RCR2, respectivamente.
5.2.2 RCR1: Inuncia dos parmetros d, t e J
O comportamento de d e t continua semelhante ao obtido para o Experimento 1, vide Fi-
gura 5.9. O erro de teste, em mdia, diminui ao se incrementar d. As curvas de t = 5, t = 25
em t = 45 so bastante semelhantes. No caso de |J| = 20, as curvas esto quase sobrepostas,
indicando que a escolha de um t pequeno pode ser feita de tal forma que melhore a eccia do
RCR1 e no haja uma grande perda de desempenho.
62
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.9: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30, 40
- RCR1, pr-seleo de jogadores: k-means, Experimento 2.
5.2.3 RCR2: Inuncia dos parmetros d, t e J
O comportamento o mesmo dos grcos exibidos na Figura 5.9, vide Figura 5.10. Neste
caso, possvel observar que o algoritmo RCR2 converge mais rpido. O erro mdio de teste,
para d com valores pequenos, menor para o RCR2 do que para o RCR1. possvel notar no
grco de |J| = 40 que os erros mdios de teste so menores do que os erros apresentados pelo
algoritmo RCR1.
5.3 Experimento 3
Este experimento sobre a srie temporal no-linear da Figura 5.11a, cujo diagrama de fase
dado na Figura 5.11b. A equao que dene a srie (LI; PENG; BAI, 2009):
y(t) = (0.80.5e
y
2(t1)
)y(t 1) (0.3+0.9e
y
2(t1)
)y(t 2) +0.1sen(y(t 1)). (5.3)
63
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.10: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30, 40
- RCR2, pr-seleo de jogadores: k-means, Experimento 2.
As condies iniciais para gerao dessa srie so: y(1) = y(0) = 0.1. Foram gerados 500
exemplos com rudo para serem usados como conjunto de treinamento e 500 pontos livres de
rudo para serem utilizados como teste. O rudo foi gerado por uma srie gaussiana N(0, 0.1
2
).
A disperso das funes gaussianas pr-determinada e dada como
2
= 0.81.
5.3.1 Comparao de desempenho
Neste experimento, os algoritmos propostos induzem redes que apresentam erros, em m-
dia, prximos aos erros obtidos pelas redes induzidas pelos algorimos OLS, FRA e TSS (vide
Tabela 5.3). RCR1 e RCR2 induzem modelos que possuem mais neurnios na camada oculta
em comparao com os outros algoritmos. Tambm possvel observar que os erros produzidos
pelas redes induzidas pelos algoritmos propostos so um pouco piores do que os erros relativos
s redes geradas pelos algoritmos OLS, FRA e TSS.
As Figuras 5.12a e 5.12b exibem o valores de AIC, obtidos pela variao do parmetro d.
O valor mnimo destacado com a cor vermelha corresponde ordem do modelo nal, d

. O
64
(a) (b)
Figura 5.11: Pontos do conjunto de treinamento (azul) e de teste (vermelho) do Experimento 3.
Tabela 5.3: Comparao entre os algoritmos OLS, FRA, TSS, RCR1 e RCR2. Experimento 3.
Algoritmo n
o
de centros Erro de Treino Erro de Teste Seleo de J t |J|
OLS 11 0.1200 0.0286
FRA 11 0.1200 0.0286
TSS 10 0.1197 0.0273
RCR1 16 0.12350.002 0.03400.003 k-means 5 30
RCR1 17 0.12040.001 0.03130.004 OLS 5 20
RCR2 15 0.12130.0002 0.02940.003 k-means 5 20
RCR2 12 0.12020.0005 0.03190.001 OLS 5 20
(a) AIC - RCR1, t = 5 , |J| = 20. (b) AIC - RCR2, t = 5 , |J| = 20.
Figura 5.12: Aplicao do critrio de informao de Akaike: RCR1 e RCR2.
algoritmo OLS foi utilizado para a pr-seleo dos jogadores.
A Figura 5.13 mostra a comparao entre a srie denida em (5.3) e a srie reproduzida
pelas melhores redes neurais RBF geradas pelos algoritmos propostos.
65
(a) RCR1 (b) RCR2
Figura 5.13: Comparao entre a srie temporal do Experimento 3 e as aproximaes geradas
pelas melhores redes RBF obtidas pelos algoritmos RCR1 e RCR2.
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.14: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30, 40
- RCR1, pr-seleo de jogadores: k-means, Experimento 3.
66
5.3.2 RCR1: Inuncia dos parmetros d, t e J
Os parmetros d e t apresentaram o mesmo comportamento dos exemplos anteriores. As
curvas de t esto bem prximas e o erro continua diminuindo medida que d cresce. A Figura
5.14 exibe os grcos de t para |J| = 20, 30 e 40.
5.3.3 RCR2: Inuncia dos parmetros d, t e J
Os grcos exibem o mesmo comportamento dos exemplos anteriores. A Figura 5.15 mos-
tra a convergncia mais rpida do algoritmo RCR2. Comparando com a Figura 5.14, possvel
notar que, para valores iniciais de d, o RCR2 induz a redes com erros menores, principalmente
para |J| = 40. Este exemplo tambm mostra a proximidade das curvas de erro para diferentes
valores de t. Neste exemplo, foi possvel ento atribuir valores menores para t sem prejudicar a
eccia do modelo nal.
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.15: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30, 40
- RCR2, pr-seleo de jogadores: k-means, Experimento 3.
67
5.4 Experimento 4
Finalmente, uma segunda srie temporal foi estudada neste trabalho, sendo esta a srie de
Mackey-Glass (MACKEY; GLASS, 1977), dada por:
x(t) =
ax(t )
1+x
c
(t )
bx(t). (5.4)
Os parmetros dessa srie so: a = 0.2, b = 0.1, c = 10 e = 17. Deng (2011) gerou esta
srie iniciando com x(0) = 1.2. Foram gerados 2000 pontos, em que 1000 foram extrados para
serem aplicados nos algoritmos propostos e nos algoritmos estado-da-arte. Os primeiros 500
pontos foram utilizados como conjunto de treinamento, enquanto os demais foram utilizados
para teste. Os atributos de entrada para a rede neural RBF esto no formato [x(t 18), x(t
12), x(t 6), x(t 1)]. O modelo construdo tem a tarefa de predizer o valor de x(t +6). A
Figura 5.16 ilustra os pontos de treinamento da funo denida em (5.4).
Figura 5.16: Pontos do conjunto de treinamento do Experimento 4.
5.4.1 Comparao de desempenho
Neste exemplo, ambos os algoritmos, RCR1 e RCR2, apresentam resultados melhores que
o do OLS, porm nenhum deles tem resultados melhores que o do FRA e o do TSS (vide
Tabela 5.4). Apesar disso, ambos obtiveram resultados satisfatrios. A melhor congurao
da abordagem proposta foi RCR2 com jogadores pr-selecionados pelo k-means, que apresenta
um erro mdio de teste prximo ao obtido pelo algoritmo TSS. A maioria das conguraes
da nova abordagem baseada em TJC necessitou de mais centros na camada escondida da rede
neural RBF, com exceo da congurao RCR2 + OLS.
68
Tabela 5.4: Comparao entre os algoritmos OLS, FRA, TSS, RCR1 e RCR2. Experimento 4
Algoritmo n
o
de centros Erro de Treino Erro de Teste Seleo de J t |J|
OLS 20 0.0303 0.0293
FRA 21 0.0141 0.00157
TSS 21 0.0079 0.0078
RCR1 25 0.01160.0005 0.01120.0005 k-means 5 30
RCR1 23 0.01790.0003 0.01770.0003 OLS 25 30
RCR2 23 0.00980.0001 0.00950.0001 k-means 25 40
RCR2 21 0.01390.0001 0.01380.0001 OLS 40 45
(a) AIC - RCR1, t = 5, |J| = 30. (b) AIC - RCR2, t = 45, |J| = 40.
Figura 5.17: Aplicao do critrio de informao de Akaike: RCR1 e RCR2.
(a) RCR1 (b) RCR2
Figura 5.18: Comparao entre a srie temporal do Experimento 4 e as aproximaes obtidas
pelas melhores redes RBF geradas pelos algoritmos RCR1 e RCR2.
As Figuras 5.17a e 5.17b exibem o valores de AIC, obtidos pela variao do parmetro d.
O valor mnimo destacado com a cor vermelha corresponde ordem do modelo nal, d

. O
algoritmo k-means foi utilizado para a pr-seleo de jogadores para o RCR1, ao passo que o
OLS foi utilizado para a pr-seleo dos jogadores para o RCR2.
69
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.19: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30, 40
- RCR1, pr-seleo de jogadores: k-means, Experimento 4.
Na Figura 5.18, a srie denida em (5.4) comparada com as aproximaes geradas pelas
melhores redes neurais RBF obtidas pelos algoritmos RCR1 e RCR2. Os resultados obtidos
pelas redes neurais esto em vermelho, enquanto os resultados da srie original esto em azul.
Pela Figura 5.18, podemos observar que os pontos esto quase sobrepostos, indicando que
os resultados dos algoritmos inpirados em TJC so satisfatrios, apesar de eles no terem apre-
sentado resultados melhores que os do FRA e do TSS.
5.4.2 RCR1: Inuncia dos parmetros d, t e J
O mesmo comportamento dos experimentos anteriores ocorre com o Experimento 4 (Fi-
gura 5.19). A proximidade das curvas de erro para t = 5, t = 25 e t = 45 mostra mais uma vez
que pequenos valores de t podem ser utilizados no algoritmo RCR1. O erro de teste mdio da
rede continua decrescendo medida que d incrementado.
70
(a) |J| = 20 (b) |J| = 30
(c) |J| = 40
Figura 5.20: Grcos da mdia dos erros de teste com variao de d e t, usando |J| = 20, 30, 40
- RCR2, pr-seleo de jogadores: k-means, Experimento 4.
5.4.3 RCR2: Inuncia dos parmetros d, t e J
A Figura 5.20 mostra a inuncia dos parmetros d, t e J sobre o algoritmo RCR2. O
comportamento exibido qualitativamente o mesmo, como erro diminuindo quando d aumenta.
5.5 Inuncia dos parmetros t e d no tempo de execuo
Nesta seo, realiza-se o estudo do impacto dos parmetros d e t nos algoritmos RCR1 e
RCR2. Para estudar a inuncia de d, os parmetros t e |J| foram xados com valores 5 e 20,
respectivamente. O conjunto de dados para realizar esse estudo o mesmo utilizado no Experi-
mento 1. Como o algoritmo RCR1 ranqueia os neurnios em uma iterao, no existe inuncia
entre o tempo do algoritmo e o parmetro d. O tempo de execuo do RCR1 , em mdia, de
1.20 segundos. J no algoritmo RCR2, o parmetro d apresenta inuncia, exatamente pelo fato
de apenas um neurnio ser selecionado em cada iterao. Quanto maior o valor do parmetro
d, mais iteraes o algoritmo RCR2 ir precisar para encontrar o conjunto de centros desejados.
A Figura 5.21 mostra o custo computacional do algoritmo RCR2 em relao ao parmetro d.
71
Figura 5.21: Relao do parmetro d com o custo computacional. |J| = 20 e t = 5.
(a) RCR1 (b) RCR2
Figura 5.22: Grcos da relao do parmetro t com o custo computacional. |J| = 20 e d = 10.
A Figura 5.22 mostra o impacto do parmetro t sobre RCR1 e RCR2. Observa-se que
t inuencia linearmente o tempo de execuo de ambos, j que t coalizes so usadas para
avaliar a qualidade valor de cada jogador.
5.6 Resumo
Este captulo aplicou a abordagem baseada no valor de Shapley a quatro problemas de
regresso, comparando os resultados obtidos com outros algoritmos conhecidos da literatura:
OLS, FRA e TSS. A anlise foi feita separadamente considerando os dois algoritmos de ran-
queamento, RCR1 e RCR2. Em todos os experimentos, os algoritmos inspirados em TJC apre-
sentaram resultados satisfatrios e bastante prximos das outras abordagens. Os algoritmos
propostos apresentaram resultados superiores nos Experimentos 1 e 2. Tambm foi realizado
um estudo da inuncia dos parmetros d, t e J sobre o modelo nal de rede neural. Vericou-se
que a escolha de pequenos valores dos atributos pode ser til para se obter um melhor desem-
penho computacional sem ocorrer grandes perdas na capacidade de generalizao da rede.
72
6 CONCLUSO
Este trabalho mostrou uma nova abordagem, baseada na teoria dos jogos cooperativos,
para selecionar um conjunto de centros de neurnios da camada escondida de uma rede neural
RBF. a primeira vez que uma abordagem que utiliza TJC usada para resolver este tipo de
problema.
Neste trabalho, um conjunto de centros visto como uma coalizo. O valor de Shapley
reponsvel por mensurar a importncia de um centro para uma coalizo (camada oculta). Dois
algoritmos foram propostos baseados nessas ideias para ns de ranqueamento de candidatos a
centros: RCS1 e RCS2. O RCS1 ranqueia os candidatos sem se preocupar se os mais bem po-
sicionados no ranking formam, de fato, um bom grupo. O algoritmo RCS2 avalia os candidatos
de tal forma que no nal eles trabalhem bem em equipe.
Os algoritmos propostos foram aplicados a quatro problemas de regresso e vericou-se
que os resultados obtidos foram bastante competitivos com os resultados de trs algoritmos de
estado-da-arte para o mesmo problema: OLS, FRA e TSS. Observou-se que na maioria dos
experimentos o algoritmo RCS2 apresentou resultados levementes superiores ao RCS1. Isso
indica que levar em considerao o trabalho em grupo dos neurnios pode ser relevante para
um incremente de desempenho da rede neural.
Para pr-selecionar os centros candidatos foram utilizados dois mtodos: i) selecionar pon-
tos de diferentes regies geradas pelo algoritmo k-means; ou ii) adotar pontos selecionados pelo
algoritmo OLS. Ambas as abordagens apresentaram boas amostragens para serem usadas pelos
algoritmos RCS1 e RCS2. A diferena entre os erros produzidos pelos dois mtodos no foi
alta.
Os parmetros t e J exerceminuncia no tempo de execuo dos algoritmos RCS1 e RCS2.
Foi vericado, em todos os exemplos, que o erro provocado por diferentes valores de t no tem
grandes variaes. Logo, a escolha de pequenos valores para t no prejudica o desempenho dos
algoritmos e ao mesmo tempo ameniza o custo computacional.
O criterio de informao de Akaike foi utilizado para determinar a ordem do modelo nal,
73
74
d

, com base nos rankings produzidos por ambos os algoritmos. O AIC uma abordagem que
leva em considerao o erro e a complexidade do modelo. Essa caracterstica torna o AIC uma
boa opo para achar um modelo que apresente um baixo erro e ao mesmo tempo no apresente
muitos neurnios na camada escondida.
Por ser um trabalho pioneiro, ainda existem pontos que podem ser explorados em trabalhos
futuros. Este trabalho testou os algoritmos propostos apenas em problemas de regresso. inte-
ressante que no futuro essa nova abordagem tambm seja aplicada a problemas de classicao.
Outra questo a ser investigada o mtodo de avaliao da contribuio de um centro. O valor
de Shapley no a nica forma de encontrar uma imputao para um jogo cooperativo. Ser
que mudar o clculo de imputao tem algum impacto no desempenho da rede neural? Outra
abordagem conhecida para encontrar uma imputao justa o ncleo de um jogo. O ndice de
Bhanzaf tambm pode ser utilizado para mensurar a importncia de um indivduo (BARRON,
2013).
As funes gaussianas tambm dependem da disperso . Este trabalho adotou disperses
xas para cada problema. O estudo da variao deste parmetro nas funes RBF pode levar a
resultados mais satisfatrios.
Investigaes tericas e prticas sugerem que a escolha do tipo de funo de base radial
no , em geral, to crucial para o desempenho de uma rede neural RBF (POWELL, 1988). De
todo modo, um estudo investigando o uso simultneo de diferentes funes de base radial pode
trazer ganhos, sendo esse mais um caminho a ser explorado, considerando a nova abordagem
inspirada em TJC.
75
REFERNCIAS BIBLIOGRFICAS
AKAIKE, H. A new look at the statistical model identication. IEEE Transactions on
Automatic Control, v. 19, n. 6, p. 716723, 1974.
BARRON, E. N. Game Theory: An Introduction. 2a.. ed. [S.l.]: John Wiley & Sons, 2013.
BROOMHEAD, D.; LOWE, D. Multivariable functional interpolation and adaptive networks.
Complex systems, v. 2, p. 321355, 1988.
BUHMANN, M. D. Radial Basis Functions: Theory and Implementations. [S.l.]: Cambridge
university press, 2003.
CHEN, S.; COWAN, C. F. N.; GRANT, P. M. Orthogonal least squares learning algorithm for
radial basis function networks. IEEE Transactions on Neural Networks, v. 2, n. 2, p. 302309,
1991.
CHEN, S.; WANG, X.; BROWN, D. Sparse incremental regression modeling using correlation
criterion with boosting search. IEEE Signal Processing Letters, v. 12, n. 3, p. 198201, 2005.
COHEN, S.; DROR, G.; RUPPIN, E. Feature selection via coalitional game theory. Neural
Computation, v. 19, n. 7, p. 19391961, 2007.
DENG, J. Advanced data-driven approaches for modelling and classication. Tese (Doutorado)
School of Electronics, Electrical Engineering and Computer Science, Queens University
Belfast, 2011.
DRIESSEN, T. Cooperative Games, Solutions and Applications. [S.l.]: Kluwer, 1988.
HAYKIN, S. Neural Networks: A Comprehensive Foundation. [S.l.]: Prentice Hall PTR, 1999.
HONG, X.; SHARKEY, P.; WARWICK, K. Automatic nonlinear predictive model-construction
algorithm using forward regression and the press statistic. IEE ProceedingsControl Theory
and Applications, v. 150, n. 3, p. 245254, 2003.
KISELEV, V. Y. Cooperative games: historical problems, modern theory. The Mathematical
Intelligencer, v. 27, n. 3, p. 3340, 2005.
LI, K.; PENG, J.-X.; BAI, E.-W. A two-stage algorithm for identication of nonlinear dynamic
systems. Automatica, v. 42, n. 7, p. 11891197, 2006.
LI, K.; PENG, J.-X.; BAI, E.-W. Two-stage mixed discretecontinuous identication of radial
basis function (RBF) neural models for nonlinear systems. IEEE Transactions on Circuits and
Systems I, v. 56, n. 3, p. 630643, 2009.
LI, K.; PENG, J.-X.; IRWIN, G. W. A fast nonlinear model identication method. IEEE
Transactions on Automatic Control, v. 50, n. 8, p. 12111216, 2005.
76
MACKEY, M. C.; GLASS, L. Oscillation and chaos in physiological control systems. Science,
v. 197, n. 4300, p. 287289, 1977.
MARSLAND, S. Machine Learning: An Algorithmic Perspective. [S.l.]: CRC Press, 2009.
ORR, M. J. L. Introduction to radial basis function networks.
http://www.anc.ed.ac.uk/rbf/rbf.html, 1996.
POWELL, J. D. Radial basis function approximations to polynomials. In: GRIFFITHS, D. F.;
WATSON, G. A. (Ed.). Numerical Analysis 1987. [S.l.]: Longman Publishing Group, 1988. p.
223241.
SAHA, A.; WU, C.-L.; TANG, D.-S. Approximation, dimension reduction, and nonconvex
optimization using linear superpositions of gaussians. IEEE Transactions on Computers, v. 42,
n. 10, p. 12221233, 1993.
SNCHEZ, V. D. Searching for a solution to the automatic rbf network design problem.
Neurocomputing, v. 42, n. 1, p. 147170, 2002.
SHAPLEY, L. S. A value for n-person games. In: KUHN, H. W.; TUCKER, A. W. (Ed.).
Contributions to the Theory of Games, Vol. II. [S.l.]: Princeton University Press, 1953, (Annals
of Mathematical Studies, v. 28). p. 307317.
SHAPLEY, L. S.; SHUBIK, M. A method for evaluating the distribution of power in a
committee system. American Political Science Review, v. 48, n. 3, p. 787792, 1954.
SHERSTINSKY, A.; PICARD, R. W. On the efciency of the orthogonal least squares training
method for radial basis function networks. IEEE Transactions on Neural Networks, v. 7, n. 1,
p. 195200, 1996.
SILVA, I. N. da; SPATTI, D. H.; FLAUZINO, R. A. Redes Neurais Articiais para Engenharia
e Cincias Aplicadas. [S.l.]: Artliber, 2010.
STEINBRUCH, A.; WINTERLE, P. Introduo lgebra Linear. [S.l.]: McGraw-Hill, 1990.
SUN, X. et al. Feature evaluation and selection with cooperative game theory. Pattern
Recognition, v. 45, n. 8, p. 29923002, 2012.
SURI, N. R.; SRINIVAS, V. S.; MURTY, M. N. A cooperative game theoretic approach
to prototype selection. In: Proceedings of the 11th European conference on Principles and
Practice of Knowledge Discovery in Databases. [S.l.]: Springer, 2007. p. 556564.
TIPPING, M. E. Sparse bayesian learning and the relevance vector machine. The Journal of
Machine Learning Research, JMLR. org, v. 1, p. 211244, 2001.
TORKAMAN, A.; CHARKARI, N. M.; AGHAEIPOUR, M. A new classication approach
based on cooperative game. In: Procs. of 14th International CSI Computer Conference (CSICC
2009). [S.l.: s.n.], 2009. p. 458463.
WANG, X.-X.; CHEN, S.; HARRIS, C. J. Using the correlation criterion to position and shape
RBF units for incremental modelling. International Journal of Automation and Computing,
Springer, v. 3, n. 4, p. 392403, 2006.

Das könnte Ihnen auch gefallen