Sie sind auf Seite 1von 36

REDES NEURONALES EN

PERCEPCIÓN REMOTA
(Articulo de Eligio Amthauer, Facultad de Ingeniería
Eléctrica. Universidad de Concepción. Chile)
Percepción remota
Comprende un conjunto de conocimientos y técnicas utilizadas para determinar
características físicas, químicas y biológicas de los objetos a través de
mediciones realizadas a distancia, sin un contacto material con ellos.

El rango espectral comprendido entre los 300


y los 1100 nm tiene como principal aplicación
la caracterización de componentes orgánicos
e inorgánicos de las aguas así como en la
caracterización de organismos vegetales.

08/28/2020 2
Caracterización y validación

La caracterización radiométrica es un proceso a través


del cual se determina características específicas de los
objetos mediante el análisis de su espectro
radiométrico como señal de radiancia o de reflectancia.

La validación radiométrica en terreno es el


procedimiento que permite evaluar el resultado de un
algoritmo de procesamiento o clasificación y calibrar los
datos obtenidos de un radiómetro aeroespacial.

08/28/2020 3
Radiometría aplicada a problemas
fitosanitarios forestales

El espectro radiométrico de un árbol puede cambiar según su estado sanitario y es diferente en


árboles sanos y estresados
• El espectro radiométrico se obtiene a través de un
radiómetro
• La radiancia depende tanto de las características del
objeto como de las condiciones ambientales
Por lo tanto, una misma muestra puede tener diferentes
espectros de radiancia si se le toma en:

 diferentes épocas del año,


 diferentes horas del día o
 bajo condiciones variantes de luminosidad

08/28/2020 4
CORRECCION DEL ESPECTRO

  𝜌0 ( λ)
𝜑 ( λ 𝑖) =
𝜌𝑟𝑏 ( λ)

“La naturaleza errática de estas variaciones hace que sea conveniente pensar en
soluciones de tipo
 estadístico o
 neuronal
para abordar el problema de clasificación”
08/28/2020 5
Espectro de reflectancia
Para el análisis de estrés hídrico han resultado de
particular interés la zona de transición
representada por la sigmoide entre los 680 nm, los
750 nm y la zona comprendida entrelos 730 nm y
los 870 nm.

La zona del verde visible debida a la reflexión de


clorofila, entre los 500 nm y los 600 nm con un
máximo alrededor de los 550 nm no ha sido de mayor
importancia en la clasificación.

08/28/2020 6
El problema de clasificación
de espectros fotónicos
La clasificación de espectros de pino para determinar estrés no es un problema simple, principalmente por las
siguientes causas:

a) Las curvas espectrales a analizar son todas representativas de la misma especie vegetal.

b) Es necesario clasificar situaciones levemente diferentes.

c) Los patrones a reconocer no están necesariamente bien definidos.

d) Hay problemas de instrumentación.

08/28/2020 7
SOLUCIÓN

Clasificación de espectros de
Clasificación de espectros de
pino radiata: Comparación entre
pino radiata con redes
métodos neuronales y
neuronales autoorganizantes
estadísticos

08/28/2020 8
CLASIFICACIÓN DE ESPECTROS DE PINO
RADIATA CON MAPAS AUTOORGANIZADOS

Teoría de reconocimiento y clasificación de patrones

3. extracción
2. pre-
1. Obtención de
procesamiento 4. clasificación.
de los datos, características
,
y

En la etapa de pre-procesamiento destacan el uso de normalizaciones, modificaciones geométricas


(rotaciones, desplazamientos, cambios de escala, etc.) y transformaciones (Fourier, Wavelet, etc.).

Para la extracción de características destacan los métodos estadísticos, como el análisis de discriminante (DA) y
el análisis de componente principal (PCA).

La clasificación puede ser con métodos estadísticos o redes neuronales

08/28/2020 9
CLASIFICACIÓN DE ESPECTROS DE PINO
RADIATA CON MAPAS AUTOORGANIZADOS

Redes neuronales…ventajas frente a los métodos tradicionales


· No necesitan conocimiento previo de la distribución estadística de los
datos y sus clases.
· No necesitan conocimiento a priori de los parámetros internos del
clasificador.
· Son más rápidos y sus algoritmos se adaptan mejor a máquinas con
procesamiento paralelo.

Dentro de los modelos neuronales existen dos esquemas principales:

aprendizaje aprendizaje
supervisado no supervisado

08/28/2020 10
CLASIFICACIÓN DE ESPECTROS DE PINO
RADIATA CON MAPAS AUTOORGANIZADOS

Últimamente se ha comenzado a utilizar esquemas basados en redes de aprendizaje


no supervisado, tales como las redes competitivas y los mapas auto-organizantes
(SOM), entre otros.

Estos esquemas tienen la ventaja de que no necesitan de un conjunto de muestras


para entrenamiento, son más rápidos y generalmente no presentan problemas de
convergencia.

Si bien el problema de reconocimiento de patrones se puede enfrentar utilizando uno


u otro modelo, es común que el resultado final sea un sistema híbrido, que englobe
múltiples técnicas.

08/28/2020 11
Planteamiento del problema

3. otros.
2. pino
estresado
1. Pino
sano

08/28/2020 12
Espectros de reflectancia

Todas las muestras fueron tomadas :

 entre las 12:00 y las 16:00 horas para aprovechar la máxima energía solar
 con la punta de captura del radiómetro a 1 metro de la muestra.
 Se tomó muestras en el rango espectral comprendido entre los 300 nm y los 1100 nm
 resolución de 2 nm

08/28/2020 13
Pre-procesamiento

Normalización de los
vectores dividiendo
por el valor en 870
[nm].

Se restringen los datos


a utilizar a los valores
comprendidos entre
los 670 y 770 [nm]

08/28/2020 14
Extracción de características
El proceso de extracción de características, previo a una clasificación, es una
reducción de dimensión utilizando una transformación que destaque las variables
relevantes.

Entre los diferentes métodos y transformaciones existentes para realizar una


reducción se encuentra el análisis de componentes principales PCA, también
conocido como transformación de Karhunen-Loeve

Dado un vector de datos X, de dimensión n, que debe ser transformado o truncado a un vector de
características Y, de dimensión m, donde m<n, siendo E el error cuadrático medio igual a la suma de las
varianzas de los elementos eliminados de X, el PCA consiste en encontrar la transformación lineal inversible T
tal que

Y=T·X

08/28/2020 15
Extracción de características
Para encontrar los componentes principales, se deben encontrar los vectores propios Fi y los
valores propios Li de la matriz de covarianza Sx. Con esto, el vector n-dimensional X se puede
expresar en términos de sus componentes principales como:

Y = FT · X

con componentes
yi = FT · xi

En el contexto de reconocimiento de patrones, cada componente yi puede ser visto como una
característica del vector patrón X

Un aspecto importante a considerar es cuántos componentes principales es necesario considerar como


suficientes. Si se consideran muchos componentes, la dimensión de Y crece y la transformación pierde
utilidad. Si se consideran muy pocos, el modelo puede resultar demasiado simple y excluir información
relevante. Existen mecanismos de optimización que permiten obtener el número adecuado de
componentes

08/28/2020 16
PCA

se ha utilizado como criterio un valor de


umbral. Componentes mayores a ese
umbral son considerados significativos,
mientras que los componentes menores
son desechados.

08/28/2020 17
Clasificación
Ventajas de redes auto-organizantes

· Las redes auto-organizantes y los algoritmos asociados son, en general, más


simples.
· El aprendizaje es más rápido.

· Se adaptan mejor a nuevos vectores o a nuevos tipos de datos.

· No necesitan grandes conjuntos de datos para el aprendizaje.

· No tienen problemas de convergencia.

Desventajas: El usuario no puede controlar la manera en que la red realiza el agrupamiento o


clustering, esto es, no puede definir las clases.

08/28/2020 18
Clasificación
Cuantización Vectorial Supervisada (LVQ)

Engloba algoritmos de aprendizaje supervisado que trabajan sobre redes de tipo auto-
organizadas

08/28/2020 19
Clasificación
Algoritmos LVQ

LVQ con
LVQ1 LVQ3
“conciencia”

08/28/2020 20
RESULTADOS
Algoritmos LVQ

08/28/2020 21
CONCLUSIONES

Todos los algoritmos probados presentan buenas características de generalidad debido a la poca diferencia
mostrada entre los resultados obtenidos utilizando los vectores de entrenamiento y los vectores de prueba.

En casi todos los casos el algoritmo de LVQ con conciencia resulto ser levemente superior, siendo sólo
igualado o superado algunas veces por el algoritmo LVQ3 ·

Sólo las pruebas realizadas con los vectores correspondientes a la sigmoide y su derivada arrojan
resultados considerados como buenos, cercanos al 90%. ·

PCA no aporta mejorando los resultados, pero si mantiene los resultados obtenidos a partir de los vectores
originales utilizando vectores varias veces menores.

08/28/2020 22
CLASIFICACIÓN DE ESPECTROS DE
PINO RADIATA: COMPARACIÓN ENTRE
MÉTODOS NEURONALES Y
ESTADÍSTICOS.

08/28/2020 23
Como técnicas de clasificación se escogieron las
• estadísticas paramétricas (Morrison, 1967) y
• redes neuronales, consideradas como semi-paramétricas

El software inicial de trabajo es Matlab, en el cual se programó los algoritmos de


clasificación estadísticos.

Para las redes neuronales se utilizó el programa SNNS (Stuttgart Neural Network
Simulator) versión 4.1 de la Universidad de Stuttgart, Alemania

08/28/2020 24
Datos espectrales a utilizar

El banco de datos utilizado posee 788 observaciones, con 293 para una clase y 495 para la otra, con un total
de 300 variables. Para la reducción de datos se utilizó la transformada wavelet.

08/28/2020 25
Transformada Wavelet
La Transformada Wavelet (WT) es una transformación lineal sobre los datos, consistente en una descomposición
dependiendo de la distribución de éstos en el dominio de la frecuencia. La función se descompone como una
combinación lineal de vectores bases. La WT de una señal s se calcula como

donde m es la esperanza y s es la desviación estándar. Si X es de dimensión n la distribución gaussiana toma la


forma (Morrison, 1967)

donde Si es la matriz de covarianza de la clase i y |Si | su determinante, m i es el vector medio de la clase i


y p(X|Ci) representa la probabilidad de que X pertenezca a la clase Ci. Observe que la expresión (3.11) es la
distancia de Mahalanobis (Gnanadesikan, 1977),

08/28/2020 26
Clasificación
Métodos estadísticos paramétricos de clasificación

Cada clase es modelada mediante una función de probabilidades conocida que generalmente es una
distribución normal. En el caso unidimensional se la define por la ecuación (3.9)

donde m es la esperanza y s es la desviación estándar. Si X es de dimensión n la distribución gaussiana toma la


forma (Morrison, 1967)

donde Si es la matriz de covarianza de la clase i y |Si | su determinante, m i es el vector medio de la clase i


y p(X|Ci) representa la probabilidad de que X pertenezca a la clase Ci. Observe que la expresión (3.11) es la
distancia de Mahalanobis (Gnanadesikan, 1977),

08/28/2020 27
Clasificación
Métodos estadísticos paramétricos de clasificación

Si Si es la matriz identidad, la ecuación (3.11) es la distancia Euclidiana. El método consiste en determinar los
parámetros m y S de la distribución de probabilidades a partir de los elementos de cada clase. En un espacio de
muestras de dos dimensiones, por ejemplo, la clasificación se realizará según la probabilidad de pertenecer a una
clase o a otra. Como función discriminante se elige a ln{P(C i|X)}:

El criterio de clasificación es el siguiente:


X pertenece a la clase Ci si y sólo si gi(X) ³ gj(X) para todo j = 1, ... ,m.
este criterio se le conoce como Análisis Discriminante Cuadrático (ADC) y es el caso más general ya que
considera la matriz de covarianza de cada grupo. Una aproximación lineal puede obtenerse si éstas son iguales
para todos los grupos, obteniendo el Análisis Discriminante Lineal (ADL) dado por (3.13)

08/28/2020 28
Clasificación
Clasificadores neuronales

Las redes neuronales han sido utilizadas en una gran cantidad y variedad de aplicaciones con resultados
satisfactorios. Básicamente consiste en una estructura que se compone de diferentes unidades que procesan
información, donde cada nodo se interconecta con los demás. Este nodo es la parte más básica de una red (Cortijo,
1995) y se representa por la ecuación (3.14)

donde F es una función no lineal (de activación), w son los


pesos y q es un valor de desplazamiento o bias. La función de
activación puede ser una función discreta de dos estados o
continua como la función tangente hiperbólica o logística
(Freeman y Skapura, 1985). En el caso de neuronas binarias
estamos frente a una red cuya estructura se observa en la Fig.
3.8.

08/28/2020 29
Clasificación
Clasificadores neuronales

Nótese que no hay realimentaciones y los niveles se identifican sin problemas. Si se desea utilizar este modelo
para clasificación, asignando un 1 para indicar que pertenece a una determinada clase y un 0 en caso contrario,
se tiene que

La arquitectura de la red neuronal queda determinada por la cantidad de neuronas de entrada y salida, y
las capas ocultas o niveles intermedios

08/28/2020 30
Estrategia de clasificación
Eliminación del valor medio y tendencia

Al trabajar con espectros radiométricos es conveniente


eliminar la información de baja frecuencia común en patrones
de ambas clases y que tienden a enmascarar las características
propias de cada grupo. En este caso se elimina la componente
continua y la función escalón o sigmoide presente en las
señales espectrales de pinos sanos y enfermos, seguido de un
proceso de normalización. De esta forma se obtienen las
modificaciones mostradas en la Fig. 3.9. Para conseguir esto
se aplica la transformada wavelet a los datos originales, dado
que es una transformación capaz de eliminar la información de
baja frecuencia. Para extraer las componentes con la
información de interés se utiliza filtros Daubechies de 20
coeficientes.

08/28/2020 31
Eliminación del valor medio y tendencia

08/28/2020 32
Estimación del error
de clasificación
El error de clasificación es estimado a partir de las muestras disponibles utilizando dos técnicas: un conjunto de
entrenamiento y prueba y validación cruzada. Para el primer caso se divide el conjunto original en dos subconjuntos
en una proporción del 70% para entrenamiento y un 30% para probar y estimar el error de clasificación. Para el
segundo, se divide el banco de datos en tres conjuntos, A, B y C. En una primera iteración se calcula el error EC para el
clasificador entrenado con A y B utilizando C como conjunto de prueba. De manera análoga se calcula EA y EB, por lo
que el error total del clasificador será el promedio

Para caracterizar el clasificador, se utilizará el error de mayor valor de estos dos métodos. La regla de clasificación
se establecerá utilizando las siguientes técnicas:

 Métodos paramétricos: Análisis discriminante lineal y cuadrático

 Método semi-paramétrico : Redes neuronales FeedForward

08/28/2020 33
Resultados
De la base de datos total, de 788 observaciones divididas en 293 y 495 por clase, se crea los conjuntos de
entrenamiento y prueba. Para el conjunto de entrenamiento se destinan 551 ejemplos, con 205 y 346 por
clase y para el conjunto de prueba, 237 ejemplos, con 88 y 149 por clase. Se utiliza el ADL y el ADC junto
a una red neuronal del tipo feedforward (NNET) de 75 (o 35) neuronas de entrada y una de salida, con
función de activación logísitca. Para este caso se obtienen los resultados de la tabla 3.3.

08/28/2020 34
Resultados
Método de validación cruzada

Para este caso se divide la base de datos en tres conjuntos, como se observa en la tabla 3.4 de los cuales se utiliza
dos para entrenar y el tercero para validar el método, generando tres combinaciones diferentes, obteniendo los
resultados de la tabla 3.5

08/28/2020 35
Conclusiones
Para el problema presentado, ambas técnicas entregaron resultados similares.

Si bien el clasificar una nueva observación mediante una red neuronal es menos costoso computacionalmente que
un método estadístico, ocurre lo contrario en la etapa de entrenamiento, ya que para el primero este proceso puede
significar horas y/o días de cálculo.

Mediante redes neuronales se encuentra varias soluciones debido a modificaciones en el proceso de entrenamiento,
como diferentes valores de los pesos iniciales o de la tasa de aprendizaje.

La eliminación de la componente continua (valor medio y tendencia) que corresponde a la información de muy baja
frecuencia, permitió mejorar la separación lineal desde 37.18 % a 3.17%, aplicando un ADL. En este caso, la
transformada wavelet resultó ser la técnica más apropiada para el tratamiento de este tipo de datos.

Por un lado, por implementarse mediante un banco de filtros en octavas (San Martín, 1997), por sí sólo permite
extraer la componente continua y al mismo tiempo reducir la dimensión hasta una razón de 8.57.

Lo anterior permitió que al construir un modelo lineal para clasificar una nueva medición de pino radiata, el error de
clasificación sea de 2.14 % para una técnica estadística y de 2.53 % para una red neuronal del tipo FeedForward.
08/28/2020 36

Das könnte Ihnen auch gefallen