Sie sind auf Seite 1von 2

UOC Posgrado en BI

Data Mining: Fundamentos y Metodologas

Julio Rodriguez Brieschke

Conclusiones de los 3 Debates de Data Mining: Fundamentos y Metodologas. A modo introductorio quera comentar que me ha parecido que los aportes a todos los debates han sido muy buenos, desde mi modesto conocimiento del tema. Esto es muy importante para m, dado que encuentro que es muy enriquecedor poder conocer no solo nuevos conceptos o conocimientos, sino lo que me parece ms importante es como cada uno lo va incorporando a sus conocimientos previos que posee y los pone en juego en cada explicacin o aportacin. Ya he hecho mi propio aporte a cada Debate, por lo tanto, aqu me referir a aspectos mas globales de los mismos que he ido observando a lo largo de los 3 Debates. Creo que los artculos elegidos como disparadores de temas han sido excelentes, tanto la entrevista de Riedl como la ancdota de los aviones de la WW II. Permitieron, en mi opinin, poner de manifiesto la importancia de los datos y de la informacin, de lo relevante que se han convertido, especialmente porque ha habido un crecimiento exponencial de los datos (segn indican en los 2 ltimos aos). Creo que el debate ha servido para poner mas en primer plano esta abundancia de informacin y de la imposibilidad material de abordarla sin nuevas tecnologas o paradigmas (hay un articulo muy bueno que nos acerca el compaero Frutos, respecto a lo difcil que se les esta haciendo leer gente actual desde el uso de Internet, que me parece muestra que tambin nosotros estamos cambiando al respecto de la abundancia de la informacin, algo que antes no exista). El tema de la Relevancia de los Datos y la Cantidad, esta manifiesto no solo en los Debates 1 y 2 sino tambin en el 3, ya que Google Analytics, nos muestra la increble cantidad de datos que puede almacenar de un Website y de sus visitantes, adems de mostrarnos novedosas formas de visualizacin. Encuentro que en los 3 primeros temas de cada una de las actividades, hemos visto ejemplos que implican un impacto a nivel de la sociedad del uso de DM, es decir, ver en el campo de la realidad, la acumulacin de informacin y su tratamiento y el impacto en nuestras vidas (Debate 1, incluso se ven algunos avances en el terreno de la tica, que lamentablemente no ahondamos en el debate), las dificultades en la practica de seleccionar los atributos o clasificadores relevantes para un problema (Debate 2) y las posibilidades que ofrece el Web Mining como una de las actividades mas novedosas y que permiten explicarnos como los visitantes de un sitio navegan por el mismo y analizar el comportamiento de los mismos (Debate 3). En este sentido, la herramienta Google Trends, me pareci increble para obtener datos a nivel pblico para incorporar en temas de Business Intelligence. En cuanto a los 2 segundos temas de cada una de las actividades, me parece que estn claramente vinculados con los datos: cantidad o abundancia (Debate 1), Reduccin de la Dimensionalidad (Debate 2) y Entropa & Ganancia (Debate 3). Creo que esta lnea, es conceptualmente muy importante, dado que permiten mostrar como trabajar con los datos, es especialmente de orden mas prctico (aunque las hayamos visto desde la perspectiva terica pero son de aplicacin) prctica).

UOC Posgrado en BI

Data Mining: Fundamentos y Metodologas

Julio Rodriguez Brieschke

En general, me parece que las aportaciones han sido muy buenas, especialmente se han homogeneizado mas en los Debates 2 y 3, lo cual me parece marca una dinmica de elaboracin de los conceptos mas pareja en el grupo. En lo personal, la aplicacin del concepto de entropa como medida de la predictibilidad de una probabilidad, me pareci realmente ingeniosa, al igual que el criterio de la ganancia para los algoritmos ID3 y C4.5. La mayora de las tcnicas de visualizacin ya las conoca. En cuanto a tcnicas, tambin me sorprendi el anlisis de secuencias y la relacin con patrones de aparicin. En el Debate 2 se pudo apreciar la importancia de la Reduccin de la Dimensionalidad, para no crear modelos redundantes y parsimoniosos, se plantearon el uso de varias tcnicas para reducir la dimensionalidad (Anlisis Factorial, Multi-colinealidad, Anlisis de Componentes Principales). En el debate 1, me pareci muy interesante la clasificacin sobre los tipos de modelos que se utilizan en DM (Predictivos y Clasificacin), de la misma forma que los tipos de aprendizajes (Supervisado, No Supervisado y Reforzado) as como tambin las tcnicas que podemos emplear para estos modelos: Agrupamiento, Regresiones, Clasificacin. Tambin me pareci muy efectiva la definicin de Riedl respecto a encontrar patrones inusuales en los datos, creo que fue un disparador muy polmico y sobre el cual se debati mucho en el foro. En este sentido, felicitaciones por la eleccin del tema, fue muy efectiva. En mi opinin, creo que nos falto cerrar con un debate sobre un la Evaluacin de los Modelos, si bien entiendo que lo veremos en la actividad 4, pero creo que permiten cerrar un circulo bsico con una visin sobre el proceso de Datos, Modelo y Evaluacin.

Das könnte Ihnen auch gefallen