Sie sind auf Seite 1von 6

Informática

UFRGS Prof. Paulo Martins Engel

Redes RBF: Função de Base Radial


• O MLP é baseado em unidades que calculam uma função não-linear do produto
Redes Neurais escalar do vetor de entrada e um vetor de peso.
• A rede RBF pertence a uma classe de modelos de redes neurais na qual a ativação de
uma unidade oculta é determinada pela distância entre o vetor de entrada e um vetor
protótipo.
A Rede RBF
• As redes RBF unificam diversas teorias importantes envolvendo aproximação de
funções, regularização, interpolação ruidosa, estimação de densidade, classificação
ótima e funções de potencial.
• Como conseqüência, os procedimentos de treinamento destas redes podem ser muito
mais rápidos que os métodos usados para treinar redes MLP.
Prof. Paulo Martins Engel
• As unidades ocultas formam representações internas interpretáveis o que leva a um
treinamento em dois estágios:
• Primeiro, são determinados os parâmetros das funções de base (não-supervisionado).
• Segundo, são determinados os pesos da camada de saída (problema linear).

Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Redes RBF: Radial-Basis Functions Regressão não paramétrica


• O projeto de uma rede neural é visto como um problema de ajuste de curva. • Na regressão não paramétrica, não se assume conhecimento a priori sobre a forma
• Aprendizado é equivalente a encontrar uma superfície no espaço multidimensional do da função que se quer estimar.
mapeamento que resulta no melhor ajuste aos dados de treinamento. • A função é estimada usando uma equação contendo parâmetros livres mas numa
• Generalização corresponde a interpolar dados nesta superfície multidimensional. forma que permite ao modelo representar uma classe muito ampla de funções.
• Tipicamente a regressão não paramétrica envolve um grande número de parâmetros
• A camada de entrada é constituída de nós sensoriais. sem significado físico em relação ao problema.
• As unidades ocultas fornecem um conjunto de funções que constituem uma base • As redes neurais, e particularmente as redes de função de base radial (RBF) são
arbitrária para vetores de entrada, quando eles são projetados no espaço das unidades modelos não paramétricos e seus pesos não têm um significado particular em
ocultas. relação aos problemas aos quais elas estão sendo aplicadas.
• Estas funções são denominadas Funções de Base. • Neste caso, o objetivo principal não é estimar os valores dos parâmetros (pesos) e
sim estimar a função subjacente, ou no mínimo as suas saídas para certos valores
• A transformação do espaço de entrada para o espaço das unidades ocultas é não-linear.
desejados de entrada.
• A camada de saída fornece a resposta da rede para os padrões de ativação apresentados • A rede RBF implementa uma combinação linear de funções de base radiais, elas
na entrada. mesmo não lineares:
• A transformação do espaço das unidades ocultas para o espaço de saída é linear. N

• O problema é resolvido transformando-o na tarefa de classificação em um espaço h(x) = Σ wj φj (x)


j=1
multidimensional.
3 4
Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Topologia da Rede RBF Funções Radiais


• A rede RBF típica tem uma camada de entrada para distribuir o sinal de entrada, • As funções radiais são uma classe especial de funções.
uma camada oculta, composta de nós de funções radiais, e uma camada de saída • A sua característica principal é que sua resposta diminui (ou aumenta)
com um nó linear. monotonamente com a distância de um ponto central.
+1 • O centro, a escala de distância e a forma da função radial são parâmetros do modelo.
x1 φ1(x) N
h(x) = Σ wjφj (x) • Uma função radial típica é a gaussiana, que no caso esférico tem a forma:
w0
w1

[ ]
j=0
wj (x − cj) 2
xi φj(x)
Σ
h(x)
φj (x) = exp − 2σ 2
j
wN onde c corresponde ao centro da função e σ controla a suavidade da interpolação.
xp φN(x)

• Tipicamente, numa rede RBF, a forma das funções de base é escolhida a priori,
de modo que ela tenha um comportamento adequado ao problema de regressão: a
sua resposta deve decrescer (ou crescer) monotonamente com a distância em
relação a um ponto central.
• O problema consiste então em localizar os centros e outros parâmetros das
funções de base e ajustar os pesos em relação ao arquivo de treinamento.
5 6

Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Gaussiana multivariada Algumas funções radiais de base


multiquádrica inversa φ (ν ) = (ν + β )
−1 / 2
gaussiana φ (ν ) = exp(−ν 2 / β 2 )
2 2
• A função radial gaussiana pode ser generalizada para permitir matrizes de
covariâncias arbitrárias Σj.
 1 
φ j (x) = exp− (x − µ j ) T ∑ −1 (x − µ j )
 2 
σ σ 12 
∑ =  11 
σ 12 σ 22 

multiquádrica φ (ν ) = (ν + β )
2 2 −1 / 2
thin-plate spline φ (ν ) = ν 2 log(ν )

7 8
Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Funcionamento da rede O Problema de Interpolação exata


• A rede RBF é projetada para realizar um mapeamento não linear do espaço de • Os métodos de funções de base radiais têm origem em técnicas para realizar
entrada para o espaço oculto, seguido de um mapeamento linear do espaço oculto interpolação exata de um conjunto de dados num espaço multidimensional.
para o espaço de saída.
• O problema da interpolação exata requer que cada vetor de entrada seja mapeado
• Considerando que a rede tenha p entradas, N unidades ocultas e uma saída,
exatamente para o seu vetor de saída correspondente.
podemos pensar que a rede represente um mapeamento s de um espaço p para um
espaço unidimensional: • Considere um mapeamento do espaço de entrada x de dimensão d para um espaço de
saída t unidimensional.
s: Rp R1
• O conjunto de dados consiste de N vetores de entrada xn, com os seus alvos tn.
• O mapeamento s representa uma hiper-superfície (gráfico) Γ⊂ Rp+1 • O objetivo é encontrar uma função h(x) tal que
• A rede opera em duas fases: treinamento e generalização: h(xn) = tn, n = 1, ..., N
• Fase de treinamento: procedimento de ajuste otimizado da superfície Γ, de • A abordagem RBF para interpolação exata introduz um conjunto de N funções de
mapeamento da entrada para a saída, baseado nos pontos de dados base, uma para cada dado, da forma φ(||x – xn||), onde φ(.) é uma função não linear.
apresentados à rede na forma de exemplos de padrões entrada-saída. • A saída do mapeamento é uma combinação linear das funções de base:
• Fase de generalização: interpolação entre dados, sendo realizada ao longo da
superfície gerada pelo processo de ajuste. (
h ( x ) = ∑ wn φ x − x n )
n
9 10

Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Solução do problema de interpolação exata Interpolação exata


• A condição de interpolação, h(xn) = tn, pode ser então escrita na forma matricial: • A interpolação passando exatamente por todos os pontos do arquivo de dados
tende a gerar uma função de interpolação oscilatória para dados ruidosos.
Φw=t
• No MATLAB, a função newrbe(X,D,spread) gera uma rede RBF com um
onde t ≡ (tn), w ≡ (wn) e a matriz quadrada Φ tem elementos Φnn´ = φ (||xn – xn’||). neurônio para cada vetor de entrada, com uma largura das funções de base
(
 φ x1 − x1 ) φ( x 1
− x2 ) ( )
L φ x1 − x N   w1   t 1 
determinada por spread.

(
φ x − x
2 1
) φ( x 2
−x 2
) ( )
    
L φ x 2 − x N   w2   t 2 
 M M M M ∗ M  =  M 
     
(
φ x N − x1 ) φ( x N
− x2 ) ( )
L φ x N − x N   wN  t N 

• Desde que exista a matriz inversa Φ−1, pode-se resolver para w:


w = Φ−1 t
• Pode-se mostrar que para uma ampla classe de funções φ(.), a matriz Φ é não-singular,
desde que os pontos de dados sejam distintos.
• A função h(x) resultante é uma superfície contínua diferenciável passando pelos dados.
RBF: 31 neurônios
11 12
Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

RBF incremental A Rede GRNN – Generalized Regression Network


• No MATLAB, a função newrb(X,D,goal,spread) gera uma rede RBF de • A rede GRNN (do MATLAB), é uma alternativa à rede RBF exata, onde a camada
maneira incremental, acrescentando um neurônio por vez, até que o erro da rede oculta se conecta à de saída por meio de pesos de valor igual aos valores desejados:
satisfaça o EMQ dado por goal. w=t

x1 φ1(x) i1

w1
ij wj
xi φj(x) y

wN
xp φN(x) iN

• O valor de saída é dado pela média ponderada das ativações intermediárias.


• A rede responde com a média ponderada dos vetores alvo mais próximos ao vetor
de entrada:
i
y = w⋅
RBF final: 24 neurônios ∑i
j
j

13 14

Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Interpolação por GRNN Estratégias de Aprendizado


• A interpolação por GRNN tende a ser mais suave. 1. Seleção das funções radiais:
1.1 Assumir M funções fixas gaussianas esféricas, centradas em pontos cj escolhidos
aleatoriamente do arquivo de treinamento. Sendo d a distância máxima entre os
centros, cada gaussiana terá a forma:

φj (x) = exp (− M(x−cj)2


d2
)
Com isso, o desvio padrão de todas as gaussianas é dado por:
d
σ=
√2M
1.2 Os centros podem ser escolhidos por clusterização dos vetores de treinamento.

2. Cálculo dos pesos:


• No MATLAB, a função newgrnn(X,D,spread) gera uma rede GRNN com 2.1 Inversão da matriz de interpolação;
um neurônio para cada vetor de entrada, com uma largura das funções de base 2.2 Aplicação do algoritmo LMS como regra de correção do erro na saída da rede.
determinada por spread.
15 16
Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Comparação com o MLP Comparação com o MLP


1. A ativação de uma unidade oculta (UO) de um MLP é constante
sobre um hiperplano (dimensão d – 1) no espaço de entrada 3. MLP tem uma arquitetura mais complexa, podendo ter várias
(dimensão d). camadas ocultas (CO) e um padrão de conectividade complexo, onde
A ativação de uma unidade oculta de uma rede RBF é constante nem todos os pesos estão presentes. Além disso, usa-se mais de uma
sobre um hiper-elipsóide. função de ativação na mesma rede;

2. Um MLP forma uma representação distribuída no espaço dos Uma rede RBF tem arquitetura mais simples, apenas uma CO.
valores de ativação das UO; para um vetor de entrada muitas UO 4. Todos os parâmetros de um MLP são ajustados simultaneamente,
contribuem para a determinação do valor de saída. como parte de uma estratégia única de treinamento supervisionado.
Uma rede RBF com funções de base localizadas forma uma Uma rede RBF é treinada em duas etapas de ajuste: parâmetros das
representação local no espaço das unidades ocultas; para um vetor funções de base a partir dos dados de entrada (não supervisionado),
de entrada, apenas algumas UO têm ativação significativa. pesos encontrados por métodos lineares supervisionados.
Isto faz com que seja mais fácil treinar uma rede RBF.
17 18

Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Exemplo de rede RBF: O Problema do XOR ϕ1(x) = exp(– ||x – t1||2) , t1 = [1, 1]T ϕ2(x) = exp(– ||x – t2||2) , t2 = [0, 0]T

Utilizando as duas FBR gaussianas abaixo, especifique uma rede RBF, para resolver ϕ2(x)
o problema do XOR (unipolar). 0,1353
ϕ2(x)

+1
x1 x2 di ϕ1(x)
x1 φ1(x) w1 w0 0 0 0
ϕ1(x) 0,3678
0 1 1
Σ y(x)
1 0 1
x2 φ2(x) w2
1 1 0
ϕ1(x) ϕ2(x)

ϕ1(x) = exp(– ||x – t1||2) , t1 = [1, 1]T


ϕ2(x) = exp(– ||x – t2||2) , t2 = [0, 0]T 0,3678

0,1353

1 1,4142 2
19 20
Informática Informática
UFRGS Prof. Paulo Martins Engel UFRGS Prof. Paulo Martins Engel

Solução do problema do XOR Mapeamento de entrada-saída da rede RBF


Transformação de entrada-saída calculada para as FBR escolhidas
x1 x2 φ1(x1, x2) φ2(x1, x2) dj (1,1)
x2 = 0
0 0 0,1353 1,0000 0
(0,1) (1,0)
0 1 0,3678 0,3678 1
1 0 0,3678 0,3678 1 (0,0)

1 1 1,0000 0,1353 0

+1
w1 φ1(x) + w2 φ2(x) + w0 = y(x) x1 = x2
x1 φ1(x) w1 w0
0,1353 w1 + 1,0000 w2 + w0 = 0 F(x1, x1) F(x1, 0)
0,3678 w1 + 0,3678 w2 + w0 = 1
Σ y(x)
0,3678 w1 + 0,3678 w2 + w0 = 1
x2 φ2(x) w2 1,0000 w1 + 0,1353 w2 + w0 = 0

∴ w1 = w2 = –2,5018; w0 = 2,8404 (1,0)


(0,0)
(0,0) (1,1)
21 22

Informática
UFRGS Prof. Paulo Martins Engel

Superfícies de regressão para o problema do XOR obtidas com a rede BP

23

Das könnte Ihnen auch gefallen