Beruflich Dokumente
Kultur Dokumente
de Generalizacin
M Llamedo Soria1,2,3 , JP Martnez Corts1,3
1
Resumen
En este trabajo estudiamos el desempeo de modelos de caractersticas seleccionados mediante un algoritmo de bsqueda flotante, cuyo objetivo fue la capacidad de generalizacin. Las caractersticas utilizadas se relacionan con el ritmo cardaco y la
morfologa de cada latido. Los experimentos de clasificacin se
realizaron en bases de datos pblicas, disponibles en Physionet,
siguiendo las recomendaciones AAMI-EC57. El mejor modelo
encontrado consta de 8 caractersticas y fue entrenado y evaluado en conjuntos de datos completamente disjuntos. Los resultados obtenidos fueron: exactitud global de 93 %; para la clase
de latidos normales, sensibilidad (S) 95 %, valor predictivo positivo (P + ) 98 %; para la clase de latidos supraventriculares S
77 %, P + 39 %; para los latidos ventriculares S 81 %, P + 87 %.
Este modelo de clasificacin contiene menos caractersticas y su
rendimiento es mejor que otros mtodos actuales.
1.
Introduccin
2.
2.1.
Metodologa
Bases de datos de ECG
En este trabajo hemos utilizado la base de datos (BD) MITBIH Arrhythmia (MIT-BIH-AR), tanto para entrenamiento
como para evaluacin del desempeo. Adicionalmente hemos utilizado la BD MIT-BIH Supraventricular Arrhythmia (MIT-BIH-SUP) para propsitos de validacin. Ambas
bases de datos se pueden obtener de manera libre en Physionet [6]. En MIT-BIH-AR se adopt la misma divisin de
entrenamiento (DS1) y evaluacin (DS2) utilizada en [2]
para facilitar la comparacin de resultados. La clase Q ha
sido descartada en este trabajo debido a que se encuentra marginalmente representada en ambas bases de datos.
Una limitacin similar ocurre con la clase F, que est pobremente representada en ambas bases de datos, razn por
la cual se plante un etiquetado alternativo al AAMI (denominado AAMI2 en este trabajo). El mismo consiste en
considerar a las clases de fusin (entre un latido normal y
ventricular) y ventricular como la misma clase ventricular
extendida (V). La divisin de los datos y la presencia de
Conj. de datos
DS1
DS2
MIT-BIH-SUP
MIT-BIH-AR Arrhythmia
prop.
N
S
V
entr.
45673
929
3755
eval.
44053
1833 3202
val.
161902 12083 9897
MIT-BIH-AR registros
101, 106, 108, 109, 112, 114, 115, 116, 118, 119, 122,
124, 201, 203, 205, 207, 208, 209, 215, 220, 223, 230
100, 103, 105, 111, 113, 117, 121, 123, 200, 202, 210,
212, 213, 214, 219, 221, 222, 228, 231, 232, 233, 234
Conj. de datos
F
412
388
193
#Reg.
22
22
78
DS1
DS2
Tabla 1. Esquema de la divisin de las BD MIT-BIH-AR y MIT-BIH-SUP. Los registros con latidos marcapaseados fueron excluidos. Las
clases de latidos son Normales (N), Supraventriculares (S), Ventriculares (V) y de Fusin (F). Tambin se observa en la otra tabla
la presencia de registros en los conjuntos de entrenamiento (DS1) y evaluacin (DS2).
Procesado de seales
La frecuencia de muestreo de la MIT-BIH-SUP fue primero convertida a 360 Hz para igualarla a la MIT-BIH-AR.
El remuestreo se realiz con un filtro pasa-bajos FIR de
dcimo orden. Todos los registros han sido primero preprocesados para la eliminacin de ruidos segn se describe
en [2]. Algunas de las caractersticas extradas se calculan
de la transformada discreta wavelet (DWT) del ECG. Como funcin prototipo usamos la derivada de una funcin
de suavizado (spline cuadrtica), de esta manera se obtiene
la derivada suavizada del ECG para cada escala analizada
en la DWT. Por este motivo, la DWT contiene en forma de
mximos y cruces por cero la informacin importante del
ECG. Referimos a [7] para los detalles en la implementacin de la DWT para delineacin de ECG. Siguiendo las
conclusiones de [7], el anlisis de la DWT permite un anlisis robusto a las interferencias tpicas presentes en registros de ECG, por lo tanto las caractersticas extradas de la
DWT podran heredar dichas propiedades.
2.3.
gi (x)
1 T 1
1
T 1
= xT 1
i x + i i x i i i
2
2
1
log(|i |) + log(P (i )).
(1)
2
PC
=
i=1
wi
PMi
i )T
(2)
La posibilidad de asignar ms relevancia a algunas clases
es de mucha importancia en esta aplicacin dado que la
clase normal por lo general est al menos un orden de magnitud ms representada que el resto. En el resto del trabajo
referiremos al clasificador LDC cuando wi = wj , i 6= j,
en cualquier otra situacin lo denominaremos clasificador
lineal compensado (LDC-C).
Siguiendo las conclusiones de trabajos anteriores [1,2], estudiamos la utilidad de caractersticas de ritmo y morfologa. Como caractersticas de ritmo estudiamos aquellas obtenidas de la secuencia de intervalos RR, como RR[i 1],
RR[i] y RR[i + 1] para describir la evolucin local del
ritmo cardaco. Para estudiar la variacin
P1 local del ritmo,
se defini la caracterstica RRV [i] = j=1 |dRR[i j]|
(siendo dRR[i] = RR[i]RR[i1]) . Tambin incluimos
estimaciones del ritmo local y global mediante el intervalo
medio en los ltimos 1, 5, 10 y 20 minutos (RRP siendo
P {1, 5, 10, 20} el tiempo de promediado ).
Como caractersticas morfolgicas consideramos primeramente la anchura del complejo QRS. A partir del loop del
vectocardiograma (VCG) construido con las dos derivaciones disponibles, calculamos el ngulo y mdulo del mximo vector hallado en el complejo QRS. Otras caractersticas morfolgicas fueron calculadas de la cuarta escala de la
DWT, debido a la buena proyeccin que tiene el complejo
QRS en esta escala (comprende desde 12.25 a 22.5 Hz). A
partir de esta escala, se calcul la secuencia de autocorrelacin para cada derivacin (rx (k) y ry (k)) y la correlacin
cruzada entre ellas (rxy (k)), en una ventana que comienza
130 ms antes y termina 200 ms despus, del punto fiducial. Luego para rxy (k) se extrajeron dos caractersticas,
el mximo absoluto y su posicin, mientras que para rx y
ry el primer cruce por cero, y la posicin y amplitud del
primer mximo de mdulo, como se ilustra en la Figura 1.
Estas caractersticas morfolgicas tienen la particularidad
que estarn sincronizadas en tiempo an en el caso que el
punto fiducial no est localizado con precisin.
El conjunto completo consta de 39 caractersticas relacionadas con el ritmo y la morfologa del complejo QRS. Es
sabido que aquellos modelos con muchas caractersticas
tienden a sobre-ajustarse a los ejemplos presentados durante el entrenamiento, perdiendo capacidad de generalizacin. Por este motivo, utilizaremos un algoritmo secuencial de bsqueda de caractersticas flotante (SFFS) [8] para
encontrar el modelo de caractersticas ms pequeo y con
el mejor desempeo.
Figura 2. La figura muestra un esquema de los experimentos realizados en este trabajo. En el panel a) se resume la
bsqueda de caractersticas, indicando el conjunto de
entrenamiento y validacin, como tambin los parmetros para guiar la bsqueda. En el panel b) se muestra
cmo se obtiene el modelo final entre los obtenidos en
a). Finalmente en c) el mejor modelo es evaluado en el
conjunto de evaluacin.
3.
Figura 1. Caractersticas calculadas de las secuencias de autocorrelacin de escala 4 de la DWT del ECG, para un
latido normal y uno ventricular. Se muestran las seales de autocorrelacin para ambas derivaciones (rx y
ry ), como tambin la correlacin cruzada (rxy ) en la
parte inferior. Las caractersticas calculadas de cada
seal se indican con un asterisco.
2.4.
Esquema experimental
Resultados
Los resultados de los experimentos descriptos en la seccin anterior se presentan en las Tablas 2 y 3. En la tabla 3,
la evaluacin del desempeo balanceada significa que las
filas de la matriz de confusin fueron escaladas de manera
tal que todas sumen lo mismo, es decir cada clase tenga
igual representacin. El mejor modelo encontrado consta
de 8 caractersticas, usando un clasificador LDC-C; dichas
caractersticas son ln(RR[i]), ln(RR[i + 1]), ln(RR1 ),
y
y
x
x
y kM
.
, kZ
, kM
ln(RR20 ), kZ
4.
Discusin y conclusiones
Configuracin de bsqueda
Crit.
Clasificador
Opt.
LDC-C
JP +
QDC
JP +
LDC
JS
QDC
JS
de Chazal et al. [2]
# Caract.
8
7
10
9
48
Normal
S P+
93 98
80 98
92 98
87 98
87 98
Modo de
evaluacin
Desbalanceado
Balanceado
Este trabajo
v
1677
169
2529
4375
Referencia
Referencia
Tabla 2. Resumen de los modelos que tuvieron mejor desempeo separando las 3 clases AAMI2 durante la bsqueda SFFS, segn la Figura
2b. El mejor modelo ha sido resaltado en negrita y se utilizar para la evaluacin final. Los resultados estn en porcentajes.
Total
44258
1837
3609
49704
Clasificador
Este trabajo
de Chazal et al. [2]
# Caract.
8
48
Este trabajo
de Chazal et al. [2]
8
48
N
S
V
Total
Algoritmo
n
s
41950 2002
216
1422
473
222
42639 3646
v
236
197
2911
3344
Total
44188
1835
3606
49629
Normal
S P+
95 98
92 99
Suprav.
S P+
77 39
74 33
Ventr.
S P+
81 87
70 58
A
93
90
Total
S P+
84 75
79 63
95
92
77
74
81
70
84
79
84
79
79
80
88
73
88
84
85
79
Tabla 3. Comparacin del desempeo del modelo sugerido en este trabajo y [2] separando las 3 clases AAMI2 en DS2 de MIT-BIH-AR.
Ambos modelos fueron entrenados en DS1 de MIT-BIH-AR. Arriba se muestran las dos matrices de confusin obtenidas por
ambos modelos, y debajo se resume el desempeo obtenido. El desempeo est en porcentajes para ambos tipos de evaluacin.
Agradecimientos
Este trabajo fue financiado por los proyectos TEC2010-21703C03-02 de CICYT y GTC T-30 de la DGA. El CIBER de Bioingeniera, Biomateriales y Nanomedicina es una iniciativa de ISCIII.
Referencias
[1] Hu YH, Palreddy S, Tompkins W. A patient-adaptable
ecg beat classifier using mixture of experts approach.
IEEE Transactions on Biomedical Engineering 1997;
44:891899.