Sie sind auf Seite 1von 24

Procesado y Anlisis de Datos Ambientales.

Curso 2009-2010.
Jos D. Martn, Emilio Soria, Antonio J. Serrano

TEMA 2: MODELOS
CLASIFICADORES

NDICE
Introduccin.
Clasificadores lineales.
rboles de decisin.
Clasificador basado en redes neuronales:
El perceptrn multicapa.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

NDICE
Introduccin.
Clasificadores lineales.
rboles de decisin.
Clasificador basado en redes neuronales:
El perceptrn multicapa.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

INTRODUCCIN
Los problemas de clasificacin son fundamentales en el
anlisis de datos ambientales.
Bondad en la clasificacin Vs. Complejidad de los modelos.
Es importante analizar el nmero de clases y el de patrones
dentro de cada clase.
Clasificacin no supervisada: agrupamiento (clustering).
Clasificacin supervisada.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

NDICE
Introduccin.
Clasificadores lineales.
rboles de decisin.
Clasificador basado en redes neuronales:
El perceptrn multicapa.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

CLASIFICADORES LINEALES (I)


VENTAJA
FUNDAMENTAL

SENCILLEZ

Aproximacin probabilstica:
Clasificacin binaria: dos clases con probabilidades asociadas p y 1-p.
Probabilidad de pertenencia de la observacin i a la clase A definida por una
respuesta unidad (salida=1):
+ x +....+ x

J Ji
e 0 1 1i
pi =
+ x +....+ J xJ i
1 + e 0 1 1i

Muy parecido a UNA neurona dentro de


una estructura de red neuronal artificial!!
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

CLASIFICADORES LINEALES (II)


Los parmetros del modelo se estiman para maximizar la funcin de verosimilitud
(iteracin generalizada de Newton-Raphson, similar a unos mnimos cuadrados
generalizados).
Regresin logstica con repeticiones:
e 0 + 1x1i +....+ J xJ i
E yi x1 = x1 i ,...., x J = xJ i = ni pi = ni
0 + 1x1i +....+ J xJ i
1
e
+

Modelo logstico multinomial (K-clases):

pik =

0 + 1 x1 i +....+ J x J i

K 1

1+ e

0 + 1 x1 i +....+ J x J i

, k = 1,2...., (K 1)

k =1

piK =

1
K 1

1+ e

0 + 1 x1 i +....+ J x J i

, k=K

k =1

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

NDICE
Introduccin.
Clasificadores lineales.
rboles de decisin.
Clasificador basado en redes neuronales:
El perceptrn multicapa.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

RBOLES DE DECISIN (I)


El clasificador se representa grficamente por un rbol de
decisin.
El objetivo es tener buenos clasificadores a partir de
rboles lo ms sencillos posibles.
A partir de los rboles ms sencillos, pueden explorarse
rboles ms complejos hasta llegar a un compromiso entre
exactitud y complejidad.

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

RBOLES DE DECISIN (II)


Un rbol de decisin es un rbol donde:

Los nodos que no son hojas se etiquetan con atributos.


Las ramificaciones que salen del nodo etiquetado con el
atributo A se etiquetan con los posibles valores de ese
atributo.
Las hojas del rbol se etiquetan con las clasificaciones.

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

RBOLES DE DECISIN (III)

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

RBOLES DE DECISIN (IV)


Un rbol de decisin puede representar cualquier funcin
discreta de las entradas.

Hace falta aplicar un bias para decidir el rbol con el que


nos quedamos: rbol ms pequeo, menos profundo, menos
nodos, mejor predictor.

Para construir un rbol de decisin hay que tener en cuenta


que el espacio de rboles de decisin es demasiado grande
para llevar a cabo una bsqueda sistemtica, as que habr
que tomar alguna medida alternativa.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

RBOLES DE DECISIN (V)


Para construir el rbol necesitamos un conjunto de patrones,
unos atributos de entrada y uno de salida (clasificacin).

Si todos los ejemplos pertenecen a la misma clase no hay


que construir nada!!

En caso contrario, se selecciona un atributo, y se construye


un subrbol diferente para cada uno de los diferentes valores
que toma el atributo, que comprender a aquellos patrones que
muestren ese valor del atributo.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

RBOLES DE DECISIN (VI)


Los atributos pueden presentar ms de dos valores, lo cual
complica los rboles.
Se asume que los atributos son adecuados para representar
el problema, as que es necesario un adecuado
preprocesado!!
Hay que ir con cuidado con el overfitting!
El atributo a seleccionar para generar el rbol se define
utilizando conceptos de Teora de la Informacin
(habitualmente medidas de entropa).
Afortunadamente tenemos la instruccin treefit en
Matlab!!
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

NDICE
Introduccin.
Clasificadores lineales.
rboles de decisin.
Clasificador basado en redes neuronales:
El perceptrn multicapa.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

REDES NEURONALES. El MLP (I)


Modelos no lineales: prdida de sencillez a costa de una
mayor exactitud.
La naturaleza no es lineal.
Inspirados en las redes neuronales biolgicas ya que
incorporan capacidad de aprendizaje.
El MLP es un aproximador universal de funciones!!
Mapea cualquier conjunto de entrada conexo en un
conjunto de salida conexo.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

REDES NEURONALES. El MLP (II)


Capas de entrada y salida definidas
por el problema.
Capas ocultas deben ser
optimizadas.
Hay que controlar el sobreajuste y el
sobreentrenamiento.
El conocimiento se almacena en los
pesos sinpticos.
Sesgo

x0=1

wm0
x1

PERCEPTRN
MULTICAPA CON DOS
CAPAS OCULTAS
NEURONA NO LINEAL

wm1

x2
Entrada

.
.
.

vm

wm2

wmn

Unin

Funcin
no
lineal

xn
Pesos

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

Salida
ym

REDES NEURONALES. El MLP (III)


1
J=
2M

FUNCIN DE COSTE CUADRTICA

e j (i)
2

i =1 j =1

(Distribucin de errores de tipo Normal)

F.C. ENTRPICA
(Distribucin Binomial)

1
J=
M

1 + d j (i )
1 d j (i )

+
+

(
1
d
(
i
))
ln
(
1
d
(
i
))
ln

j
j

i =1 j =1
1 + o j (i )
1 o j (i )
M

vm (t ) = wmi (t ) xi

PROPAGACIN
HACIA
DELANTE (UNA
CAPA OCULTA)

i =0

ym (t ) = m (vm (t ))
r

z p (t ) = hpj (t ) y j (t )

Existe una seal deseada


que se compara con la salida
obtenida por la red
(aprendizaje supervisado).

j =0

o p (t ) = p ( z p (t ))

y son funciones de activacin no


lineales

El aprendizaje se basar
en la minimizacin de la
funcin de coste.

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

REDES NEURONALES. El MLP (IV)


100

Regla Delta
(Backpropagation)

90
80
70
60

( t ) =

50

J
( t )

40
30

: cte. Adaptacin
: pesos sinpticos

20
10
0
0

10

15

20

h pj (t ) = 2 e p (t ) p ' ( z p (t )) y j (t )
h p 0 (t ) = 2 e p (t ) p ' ( z p (t )) 1
wmi (t ) = 2 e p (t ) p ' ( z p (t )) h pm (t ) m ' (vm (t )) xi

25
0

10

15

20

25

ACTUALIZACIN
PESOS
SINPTICOS

(x ) =

a
' ( x) = ab (1 )
1 + e ( b x )

(Sigmoide, entre 0 y 1)

1 e b x
1
( x ) = a
' ( x) = ab(1 2 )
b x
1+ e
2

(Tangente hiperblica, entre -1 y +1)

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

REDES NEURONALES. El MLP (V)


Inconvenientes del Backpropagation:
Saturacin de las neuronas debido a la dependencia con la derivada de la
funcin de activacin.
Solucin: (x)=x+(1-)(x) donde 10 (=1 al principio del entrenamiento).
Inicializacin de los pesos sinpticos puede hacer caer el sistema en un
mnimo local, provocar saturacin de las neuronas y afectar al tiempo de
convergencia.
Solucin: Algoritmo ERA (Expanded Range Approximation)

d ent = d + [d d

Zonas planas de la superficie de error implican no actualizacin.


Solucin: Aadir trmino a la derivada (posibles inestabilidades) o incluir
informacin sobre la superficie de error considerando la segunda derivada.
Eleccin de la constante de adaptacin.
Solucin de compromiso o algoritmos que aceleran la convergencia lejos del
mnimo y la ralentizan cerca.
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

REDES NEURONALES. El MLP (VI)


Parada del aprendizaje.
Solucin: Controlar sobreentrenamiento a partir de Early-stopping,
validacin cruzada, v-fold, leave-one-out, .
Eleccin de la arquitectura.
Solucin: Controlar sobreajuste, mtodos de poda y crecimiento.
Eleccin de los patrones de entrenamiento.
Solucin: Conjunto representativo.
Funciones de error.
Solucin: base estadstica para su eleccin. Pueden aadirse trminos
para simplificar la red (trminos de penalizacin) y aportar
conocimiento a priori sobre el problema!!
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

REDES NEURONALES. El MLP (VII)


Variantes del Backpropagation.
Variante de momento. Acelera la convergencia lejos del mnimo y la ralentiza
cerca.

wmi (t ) = J + wmi (t 1)
Silva-Almeida (d<1 y u>1).

(
(

)(
)(

)
)

(t 1) u wij (t ) J wij (t 1) J > 0


(t ) =
(t 1) d wij (t ) J wij (t 1) J < 0
DELTA-BAR-DELTA. Evita inestabilidades del mtodo de Silva-Almeida y es
ms inmune al ruido.

(
(

)
)

(t 1) + u wij (t ) J ( ij (t 1) ) > 0
(t ) =
(t 1) d wij (t ) J ( ij (t 1) ) < 0

0<<1

ij ( t 1) = (1 ) w ij ( t 1) J + ij ( t 2)
Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

REDES NEURONALES. El MLP (VIII)


RPROP.

w ij ( t ) = ( t ) signo w ij ( t ) J

(
(

)(
)(

)
)

min( (t ) u, max ) wij ( t ) J wij ( t 1) J > 0


(t ) =
max( (t ) d , min ) wij (t ) J wij (t 1) J < 0

(u>1 y d<1)

Se evitan valores muy altos de para evitar inestabilidades


y muy bajos para evitar ralentizar demasiado la
convergencia

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

CONCLUSIONES FINALES
Deben utilizarse siempre mtodos lo ms sencillos posibles. Si
un algoritmo sencillo funciona, no vale la pena complicarlo con
variantes pero si tenemos problemas s!!
Es fundamental realizar una buena definicin del problema y
un preprocesado adecuado.
El MLP es una herramienta muy potente que debe manejarse
con cautela, evitando sus inconvenientes ms comunes.
Debe llegarse a un compromiso entre estabilidad y plasticidad,
y entre complejidad e interpretabilidad.
Para decidir el mtodo a emplear hemos de plantearnos el
objetivo que queremos alcanzar y el problema a resolver.

Procesado y Anlisis de Datos Ambientales. Curso 2009-2010. Jos D. Martn, Emilio Soria, Antonio J. Serrano

Das könnte Ihnen auch gefallen