Sie sind auf Seite 1von 3

1

Clasificadores Disenados por Boosting


Manuel Tesla-Lopez, Miguel Rodriguez-Pique, Carlos Fourier-Garca.
Universidad Catolica San Pablo

Y OBJETIVO GENERAL
I. I NTRODUCCI ON
Los conjuntos de Maquinas de Aprendizaje (CMAs) han despertado gran interes en los dos u ltimos decenios, y
constituyen un a mbito de muy activa investigacion, debido a las buenas prestaciones que suelen ofrecer cuando se
consideran problemas complejos, manteniendo una dificultad de diseno relativamente moderada y ofreciendo posibilidades de interpretacion relativamente mejores que las de grandes MAs u nicas. Los textos [1][3] proporcionan
versiones generales sobre CMAs.
Entre las diferentes familias de algoritmos para construir CMAs, los metodos de boosting han merecido muy
particular atencion por sus excelentes caractersticas, desde la introduccion del AdaBoost (AB) [4] y su extension
Real AdaBoost (RAB) [5]. Entre las dichas caractersticas se encuentran la resistencia al sobreajuste [6][11], que
algunos autores atribuyen a la relacion de los algoritmos con el Maximo Margen (MM) [5] [12], mientras que otros
la creen debida a la diversidad inducida por las sucesivas reponderaciones [13], [14]. Sea como sea, se ha podido
comprobar que, en problemas con datos ruidosos se producen sobreajuste [15][18]; lo que verosmilmente se debe
a un exceso de atencion a muestras difciles de clasificar.
Existen varias propuestas para limitar los efectos de este posible exceso de atencion [14] [19], [20][22] [23].
En todo caso, debe senalarse que el hecho de que los algoritmos de boosting utilicen combinaciones lineales para
agregar los aprendices puede constituir una de las razones para la limitacion resenada, ya que tal combinacion no
permite reducir el efecto de las muestras clasificadas de forma decididamente erronea.
De otro lado, otra familia de CMAs, las Mezclas de Expertos (MoEs) [24][28], se caracterizan por emplear una
red compuerta para realizar la fusion o agregacion de los aprendices. Si se piensa en la posibilidad de una puerta
local, la introduccion en los disenos por boosting podra, segun lo dicho, reducir sus limitaciones.
Contemplando desde una perspectiva opuesta al problema, resulta claro que una agregacion global (como la
combinacion lineal tpica de los metodos de boosting) podra ser adecuada si los aprendices fueran locales.
El proyecto que sera presentado, caso de ser aceptado, tiene como objetivos:

primero, proponer y evaluar disenos de tipo boosting modificadas para incluir elementos locales sea como
puerta, sea como aprendices, con objeto de mejorar las prestaciones de esta familia de CMAs;

segundo, indagar desde este punto de vista, la inmediatez en las potenciales ventajas de las combinaciones de
clasificadores globales y locales.

March 28, 2014

DRAFT

II. P LAN DE TRABAJO TRAZADO Y GRADO ACTUAL DE REALIZACI ON


El desarrollo del proyecto se ha planificado en cuatro fases:

1 (Abril):
- Revision y estudio del estado del arte.

2 (Mayo):
- Seleccion y evaluacion de algoritmos RAB con puertas locales

3 (Junio):
- Seleccion y evaluacion de algoritmos RAB con aprendices locales

4 (Julio-Agosto):
- Preparacion, presentacion y defensa del proyecto.
III. R ESULTADOS ALCANZADOS HASTA EL MOMENTO

Se ha obtenido disenos que mejoran las prestaciones de los algoritmos RAB estandar, al tiempo que, en buena
parte de los caso, reduce la carga computacional en operacion.
IV. D ESARROLLO Y ALCANCE FUTURO
El proyecto a presentar esta permitiendo establecer filosofas de diseno de CMAs con boosting que alivian
las dificultades que tales algoritmos encuentran ocasionalmente, al tiempo que alivian en carga computacional en
operacion.
Son posibles alternativas mejorar, bien refinando las aproximaciones definidas, bien combinadolas con otras
modificaciones de los algoritmos de boosting que ya se han mostrado ventajosas.
Se espera ademas que los experimentos y sus analisis arrojen luz sobre el importante tema de como combinar
disenos de clasificadores de tipos global y local para aprovechar convenientemente las caractersticas y propiedades
de cada uno de estos tipos.
Referencias
[1] A. J. Sharkey, (ed.), Combining Artificial Neural Nets: Ensemble and Modular Multi-Net Systems.
[2] L. I. Kuncheva, Combining Pattern Classifiers: Methods and Algorithms.
[3] L. Rokach, Pattern Classification Using Ensemble Methods.

London, UK: Springer-Verlag, 1999.

Hoboken, NJ: Wiley, 2004.

Singapore: World Scientific, 2010.

[4] Y. Freund and R. E. Schapire, A decision-theoretic generalization of on-line learning and an application to boosting, J. of Computer and
System Sciences, vol. 55, pp. 119 139, 1997.
[5] R. E. Schapire and Y. Singer, Improved boosting algorithms using confidence-rated predictions, Machine Learning, vol. 37, pp. 297336,
1999.
[6] H. Drucker, R. E. Schapire, and P. Simard, Boosting performance in neural networks, Intl. J. of Pattern Recognition and Artificial
Intelligence, vol. 7, pp. 705719, 1993.
[7] Y. LeCun, L. D. Jackel, H. A. Eduard, N. Bottou, C. Cortes, J. S. Denker, H. Drucker, E. Sackinger, P. Simard, and V. Vapnik, Learning
algorithms for classification: A comparison on handwritten digit recognition, in Neural Networks: The Statistical Mechanics Perspective,
J. H. Oh, C. Kwon, and S. Cho, Eds.

March 28, 2014

Singapore: World Scientific, 1995, pp. 261276.

DRAFT

[8] H. Drucker and C. Cortes, Boosting decision trees, in Advances in Neural Information Proc. Sys. 8, D. S. Touretzky, M. Mozer, and
M. E. Hasselmo, Eds.

Cambridge, MA: MIT Press, 1996, pp. 479485.

[9] H. Schwenk and Y. Bengio, Adaboosting neural networks, in Proc. 7th Intl. Conf. on Artificial Neural Networks (LNCS 1327), W. Gerstner,
A. Germond, M. Hasler, and J. D. Nicoud, Eds.

Berlin: Springer, 1997, pp. 967972.

[10] L. Breiman, Randomizing outputs to increase prediction accuracy, Machine Learning, vol. 40, pp. 229242, 2000.
[11] D. Mease and A. Wyner, Evidence contrary to the statistical view of boosting, J. Machine Learning Res., vol. 9, pp. 131156, 2008.
[12] R. E. Schapire, P. Bartlett, Y. Freund, and W. S. Lee, Boosting the margin: a new explanation for the effectiveness of voting methods,
The Annals of Statistics, vol. 26, pp. 16511686, 1998.
[13] L. Breiman, Arcing classifiers, The Annals of Statistics, vol. 26, pp. 801824, 1998.
[14] L. Breiman, Prediction games and arcing algorithms, Neural Computation, vol. 11, pp. 14931517, 1999.
[15] J. R. Quinlan, Boosting first-order learning, in Proc. 7th Intl. Workshop Algorithmic Learning Theory (LNCS 1160), S. Arikawa and
A. Sharma, Eds.

Berlin: Springer, 1996, pp. 143155.

[16] E. Bauer and R. Kohavi, An empirical comparison of voting classification algorithms: Bagging, boosting, and variants, Machine Learning,
vol. 36, pp. 105139, 1999.
[17] T. G. Dietterich, Approximate statistical tests for comparing supervised classification learning algorithms, Neural Computation, vol. 10,
pp. 18951923, 1998.
[18] T. G. Dietterich, An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and
randomization, Machine Learning, vol. 40, pp. 139157, 2000.
[19] Y. Freund, An adaptive version of the boost by majority algorithm, Machine Learning, vol. 43, pp. 293318, 2001.
[20] G. Ratsch, T. Onoda, and K. R. Muller, Regularizing adaboost, in Proc. Advances in Neural Information Proc. Sys. 11, M. Kearns,
S. Solla, and D. Cohn, Eds.

Cambridge, MA: MIT Press, 1999, pp. 564570.

[21] G. Ratsch, T. Onoda, and K. R. Muller, Soft margins for adaboost, Machine Learning, vol. 42, pp. 287320, 2001.
[22] G. Ratsch and M. K. Warmuth, Efficient margin maximizing with boosting, J. Machine Learning Res., vol. 6, pp. 21312152, 2005.
[23] G. Lugosi and N. Vayatis, On the Bayes-risk consistency of regularized boosting methods, The Annals of Statistics, vol. 32, pp. 3035,
2004.
[24] R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton, Adaptive mixtures of local experts, Neural Computation, vol. 3, pp. 7987,
1991.
[25] M. I. Jordan and R. A. Jacobs, Hierarchical mixtures of experts and the EM algorithm, Neural Computation, vol. 6, pp. 181214, 1994.
[26] M. I. Jordan and L. Xu, Convergence results for the EM approach to mixtures of experts architectures, Neural Networks, vol. 8, pp.
14091431, 1995.
[27] F. Peng, R. A. Jacobs, and M. A. Tanner, Bayesian inference in mixtures-of-experts and hierarchical mixtures-of-experts models with an
application to speech recognition, J. of the American Statistical Association, vol. 91, pp. 953960, 1996.
[28] R. A. Jacobs, F. Peng, and M. A. Tanner, A Bayesian approach to model selection in hierarchical mixtures-of-experts architectures,
Neural Networks, vol. 10, pp. 231241, 1997.

March 28, 2014

DRAFT

Das könnte Ihnen auch gefallen