Sie sind auf Seite 1von 11

2009

Universidad Tecnolgica de Izcar de Matamoros Sergio Valero Orea

[APLICACIN DE TCNICAS DE MINERA DE DATOS PARA PREDECIR DESERCIN]


La desercin escolar es un problema complejo que enfrentan las Instituciones de Educacin Superior (ANUIES, 2001). Se han hecho una gran cantidad de esfuerzos para combatir este problema como programas de tutoras, asesoras, talleres, entre otros, sin lograr mejorar esta situacin. El caso de la Universidad Tecnolgica de Izcar de Matamoros es nuestro objeto de estudio para identificar las causas que motivan la desercin de nuestros estudiantes desde que ingresan. Mediante tcnicas de minera de datos, podemos encontrar relaciones entre atributos acadmicos para identificar y predecir la probabilidad de desercin, previendo los factores que indicen para que deserten, mejorando la eficiencia terminal y brindndoles una oportunidad de vida como consecuencia de su permanencia en nuestra Institucin. Finalizaremos nuestra investigacin proponiendo una herramienta para el tutor que le permitir predecir la probabilidad de desercin de cualquier alumno en cualquier momento de su estancia escolar.

1. Antecedentes de la investigacin
La desercin, el rezago estudiantil y los bajos ndices de eficiencia terminal se encuentran entre los problemas ms complejos y frecuentes que enfrentan las Instituciones de Educacin Superior del pas, en la actualidad son reconocidos prcticamente por todas ellas (ANUIES, 2001). La desercin escolar, es un problema que caracteriza a la mayora de las instituciones mexicanas de educacin superior. La mayora de las instituciones han hecho algn tipo de esfuerzos por disminuir estos ndices realizando y estableciendo programas de tutoras, asesoras, congresos, talleres, eventos para que los alumnos se involucren directamente y aumente su compromiso y una serie de actividades ms. Sin embargo, muchos de estos esfuerzos no han sido suficientes y el fenmeno se sigue repitiendo constantemente. En ese sentido, el estudio de los factores e ndices que afectan a la desercin ha cobrado mayor importancia en los ltimos aos. La necesidad de identificar y predecir la desercin de los estudiantes en los primeros cuatrimestres es indispensable para tomar las acciones pertinentes y poder disminuir este ndice, y no menos importante, predecir su desercin en cualquier momento para su correcto seguimiento tutoral. La minera de datos orientada a la educacin permite predecir cualquier tipo de factor o caracterstica de un caso, fenmeno o situacin. De esta forma, utilizando las tcnicas que nos ofrece la minera, podemos predecir, con un porcentaje muy alto de credibilidad, la probabilidad de desertar de cualquier alumno con la ventaja de que se puede pronosticar en los primeros cuatrimestres. La minera de datos en la educacin no es un tpico nuevo y ha venido utilizndose considerablemente en los ltimos aos. Sobre este tema se han hecho algunas investigaciones muy similares, tal es el caso de la Universidad de La Sabana en Colombia (Restrepo, 2008), en donde el objetivo era seleccionar, de una base de datos de estudiantes, los atributos que tuvieran mayor incidencia en la desercin de la Universidad en los ltimos cuatro aos, para ste proyecto se utiliz una tcnica de minera de datos llamada Rough Sets. Se han realizado estudios sobre minera de datos en sistemas educativos basados en tecnologas web, como educacin a distancia o asistida por computadora. Agathe Merceron y Kalina Yacef, de la Universidad Leonardo Da Vinci en Francia y la Universidad de Sydney en Australia (Merceron, 2004), respectivamente, mostraron cmo utilizar los algoritmos de minera de datos para descubrir conocimiento pedaggico relevante que se almacenaba en bases de datos. Estos descubrimientos ayudaron, tanto a docentes como administrativos y directivos a entender el aprendizaje de sus estudiantes y ofrecer sus enseanzas de una mejor manera hacia ellos. En Chile, Eduardo Quiroga realiz un modelo de alerta acadmica (Quiroga, 2001), aplicado a la educacin superior utilizando tcnicas de minera de datos para identificar problemas dentro del mbito educativo. En los Estados Unidos, Jing Luan desarroll un modelo predictivo de minera de datos para predecir la posibilidad de regreso a clases de cada alumno que se encontraba matriculado en Silicon Valley (Luan, 2002). En el mismo pas, William Veitch (Veitch, 2004) utiliz tcnicas de minera de datos para identificar patrones que permitan relacionar los factores y variables que afectan a la desercin de los alumnos, entre ellas las econmicas, sociales y psicolgicas. Los ejemplos anteriores solo son una pequea muestra de lo que se puede hacer con la minera de
2

datos enfocados a la docencia y educacin: desde el descubrimiento pedaggico, los sistemas de enseanza basada en Web hasta anlisis predictivo para determinar el porcentaje de probabilidad de desertar que tiene un alumno, este ltimo es un tema de gran inters el cual trabajaremos durante el desarrollo de este trabajo de tesis.

2. Justificacin de la investigacin
La Universidad Tecnolgica de Izcar de Matamoros (UTIM) naci para responder a las necesidades de Educacin Superior en la regin mixteca del Estado de Puebla y la determinacin expresada en el Plan Nacional de Desarrollo. La UTIM ofrece nivel Tcnico Superior Universitario (TSU), nivel 5B con una formacin de 3150 horas, en 6 cuatrimestres a lo largo de 2 aos. Con poco ms de 11 aos de vida, la UTIM tiene como visin ofrecer educacin de calidad en sus 6 Programas Educativos (PE): Agrobiotecnologa, Tecnologa de Alimentos, Administracin, Contadura, Paramdico y Tecnologas de la Informacin y Comunicacin rea Sistemas Informticos (TIC-SI). Se puede observar que a travs de los aos existen muchos factores que influyen para que nuestros alumnos deserten, puesto que generalmente no se le da el seguimiento adecuado y no se hace un diagnstico a tiempo antes de que esto suceda, ni siquiera cuando el alumno aun no deserta. Como se mencion anteriormente, la desercin escolar es un problema de mbito y magnitudes nacionales y mundiales. En la UTIM no es la excepcin y el problema lo encontramos periodo a periodo. Nuestros alumnos desertan como en cualquier Institucin Educativa y los tutores no pueden hacer mucho al respecto. La tabla 1, muestra el concentrado de alumnos que han desertado desde el ao 2004, segn los reportes del departamento de servicios escolares de la Universidad. Periodo Sep-Dic 2004 Ene-Abr 2005 May-Ago 2005 Sep-Dic 2005 Ene-Abr 2006 May-Ago 2006 Sep-Dic 2006 Ene-Abr 2007 May-Ago 2007 Sep-Dic 2007 Ene-Abr 2008 May-Ago 2008 Sep-Dic 2008 Ene-Abr 2009 Matricula 881 779 706 742 665 610 789 711 681 871 801 754 1104 1036
Tabla 1. Concentrado de bajas por periodo

Nmero de bajas 102 73 37 77 55 20 78 30 30 70 47 33 68 86

Como se puede observar en la tabla, en el periodo Septiembre-Diciembre es cuando ms deserciones se acumulan, sin menospreciar a los dems periodos, que tambin presentan valores importantes a considerar. Los principales factores por los que se presenta este fenmeno son:
3

reprobacin, incumplimiento de expectativas, problemas econmicos, motivos personales y una gran cantidad de causas desconocidas, todas estas conclusiones estn basadas en datos que proporcion el departamento de servicios escolares. Aqu recae la importancia de predecir la posibilidad de desercin de un alumno, desde que ingresa y se inscribe a nuestra Universidad, con la finalidad de que pueda concluir sus estudios, evitar que se vaya y poder modificar los factores que pudieran estar causando su desercin. Los tutores, son profesores de tiempo completo que guan u orientan a los alumnos de un curso o asignatura (Gonzlez, 2006). Histricamente, identifican a los alumnos que desertarn en el momento en que ellos solicitan su baja, sin encontrar claramente las causas. Con este trabajo construiremos una herramienta que permitir encontrar el mayor nmero de factores que provocan la desercin y entregaremos al personal de UTIM un medio que permita predecir cules alumnos, nuevos o que estn realizando sus estudios, son candidatos a desertar de la universidad. Respecto a la herramienta que queremos construir, hemos investigado sobre software que nos permiten descubrir comportamientos, patrones recurrentes, segmentar datos y otras funcionalidades relacionadas con el anlisis de datos, estos son los mineros de datos. Con una herramienta como esta, podremos obtener conocimiento a partir de un conjunto de datos y consideramos que con este conocimiento empezaremos a tomar decisiones que permitan disminuir el ndice de desercin en UTIM. As, usando un minero de datos podemos identificar y calcular el porcentaje de probabilidad de que un alumno pueda desertar, desde que inicia su vida estudiantil en la Universidad. De esta manera podemos proponer las estrategias necesarias con mucha anticipacin para disminuir el ndice de desercin. Es de vital importancia conocer desde los primeros cuatrimestres cules alumnos son candidatos a desertar, cul es su probabilidad de hacerlo y sobre qu factor inciden las causas de que lo haga (factores acadmicos, personales, econmicos, entre otros). Al no realizar este tipo de investigaciones se tiene como consecuencia que los tutores, sigan sin identificar a los alumnos que sean candidatos a desertar y solamente los identifiquen hasta cuatrimestres avanzados cuando posiblemente ya no sea posible ayudarlos. El resultado de nuestro trabajo, ser una herramienta que les permitir a los tutores determinar la probabilidad de desercin de cualquier alumno en cualquier momento, desde que inicia o cuando se encuentra cursando algn cuatrimestre ms avanzado. Esta herramienta mejorar el proceso educativo como se marca en los lineamientos de titulacin para el convenio SEP-UPAEP, ya que un tutor podr identificar un alumno candidato a desertar para darle el seguimiento adecuado a travs de esta herramienta didctica. Este trabajo de investigacin se desarrollar en equipo. Por un lado, una persona ser la encargada de realizar el trabajo que abarca la recoleccin de datos histricos y actuales, depuracin, limpieza y extraccin de datos, hasta construir un almacn de datos, que servir de base para realizar el modelo predictivo. Por el otro, un segundo participante, trabajar con la creacin del modelo predictivo, para que posteriormente desarrolle la interfaz que permitir determinar la probabilidad de desercin de los alumnos. Ambos actores participaremos activamente en cada una de las etapas del desarrollo de la tesis, sin embargo consideramos importante aclarar los motivos por los cuales trabajaremos de esta manera.
4

3. Objetivos de investigacin
Desarrollar una herramienta de anlisis de datos a partir de la generacin de un modelo predictivo que surja de la aplicacin de las tcnicas de minera de datos para predecir la probabilidad de desercin de los alumnos del PE de TIC-SI de la UTIM. Revisar las causas que afectan a la desercin escolar a nivel superior Reunir todos los datos existentes de cada alumno para generar el modelo predictivo Integrar, seleccionar y limpiar los datos para prepararlos para su anlisis Crear un repositorio de datos para almacenar los datos obtenidos Analizar las distintas tcnicas de minera de datos para elegir la adecuada de acuerdo al problema planteado Generar el modelo predictivo a partir de los datos obtenidos Analizar los datos generados por la minera de datos y prepararlos para la toma de decisiones Disear una interfaz web que permita alimentar con datos de los alumnos al modelo

4. Preguntas de Investigacin (incluir hiptesis inicial si aplica)


Cul es la probabilidad de desercin de un alumno del PE de TIC-SI de la UTIM? Cules son los factores que inciden en la desercin de los alumnos del PE de TIC-SI de la UTIM? De qu manera nos puede ayudar la minera de datos para predecir esta desercin? Cmo construir un modelo predictivo que me permita identificar a los alumnos vulnerables al inicio de su estancia en la Universidad? Cmo generar una interfaz que me permita determinar la probabilidad de desercin de un alumno a partir de un conjunto de variables?

Hiptesis principal
Con la construccin de un modelo predictivo utilizando tcnicas de minera de datos que interacte, mediante una interfaz de software, con la informacin personal, acadmica y socioeconmica de cada alumno, el tutor podr predecir la probabilidad de desercin de dicho alumno.

5. Alcances y limitaciones del proyecto


Los datos con los que se trabajar correspondern a los alumnos inscritos desde el periodo Septiembre/Diciembre del 2003 al periodo Enero/Abril del 2009 del PE de TIC, momentneamente los otros PE quedan fuera de nuestro objeto de estudio y su participacin se propone al corto plazo, una vez analizados los datos de este cuerpo acadmico.

6. Viabilidad de la Investigacin
La puesta en marcha de la investigacin resulta bastante viable desde los puntos de vista econmico, material y humano. Desde el punto de vista econmico, no se genera gastos por el desarrollo del modelo predictivo, ya que no es necesaria la adquisicin de alguna licencia de software, ni de equipo, ni de cualquier otra herramienta. Desde el punto de vista material se requiere una PC para la captura y seleccin de datos, una hoja electrnica, un motor de bases de datos y el software para el modelo predictivo, contamos con dichas herramientas y no generarn un costo adicional ni para nosotros ni para la UTIM. Los recursos humanos necesarios tampoco sern obstculo para el proyecto, con el equipo de trabajo creado, ser suficiente para alcanzar el objetivo planteado, los datos sern tomados desde las fuentes descritas anteriormente y los departamentos participantes se encuentran en la disposicin de participar para proporcionrnoslos.

7. Esbozo del Marco Terico


La desercin escolar Entre los problemas ms complejos y frecuentes que enfrentan las Instituciones de Educacin Superior (IES) del pas, en el nivel superior, se encuentran la desercin, el rezago estudiantil y los bajos ndices de eficiencia terminal. Tanto la desercin como el rezago son condiciones que afectan el logro de una alta eficiencia terminal en las instituciones (ANUIES, 2002). Los fenmenos de la retencin y de la desercin tienen que estudiarse de manera obligada en el marco de la compleja dinmica de la educacin superior. La trayectoria escolar es un proceso durante el cual cada alumno est sometido a un conjunto de reglas que le permiten avanzar de forma diferenciada, en la medida en la que cumpla o no los requerimientos establecidos (ANUIES, 2007). La desercin, entendida como una forma de abandono de los estudios superiores, adopta distintos comportamientos en los estudiantes que afecta la continuidad de sus trayectorias escolares. Estos comportamientos se caracterizan por: Abandono o suspensin voluntaria y definitiva de los estudios y del sistema de educacin superior por parte del alumno Salida de los alumnos debido a las deficiencias acadmicas y consecuente bajo rendimiento
6

escolar Cambio de carrera o de institucin Baja de los alumnos que alteran el orden y la disciplina institucional

Se ha detectado que la desercin responde a una multiplicidad de factores que afectan a los estudiantes (ANUIES, 2002). Entre ellos se encuentran: Las condiciones econmicas desfavorables de los estudiantes El deficiente nivel cultural de la familia al que pertenece Las expectativas del estudiante con respecto a la importancia de la educacin La incompatibilidad del tiempo dedicado al trabajo y a los estudios La responsabilidad que implica el matrimonio Las caractersticas personales del estudiante, por ejemplo, la falta de actitud de logro El poco inters por los estudios en general, por la carrera y la institucin Las caractersticas previas del estudiante, como los bajos promedios obtenidos en la educacin media superior que reflejan la insuficiencia de los conocimientos y las habilidades con que egresan los estudiantes, en relacin con los requeridos para mantener las exigencias acadmicas del nivel superior La deficiente orientacin vocacional recibida, antes de ingresar a la educacin superior, que provoca que los alumnos se inscriban en las carreras profesionales sin sustentar su decisin en una slida informacin sobre la misma

En resumen, se puede considerar a la desercin como el abandono o suspensin temporal o definitiva, voluntaria o forzada de sus estudios, marcada por alguna de las causas mencionadas anteriormente, o una combinacin de ellas. Minera de datos Minera de datos es el proceso mediante el cual generamos un modelo que sirva para la prediccin, este modelo se genera con base en los datos que se encuentran en un almacn de datos o una base de datos aplicndoles algn algoritmo que construya el modelo (Gonzlez, 2005). La existencia de voluminosas bases de datos conteniendo grandes cantidades de datos, que exceden en mucho las capacidades humanas de reduccin y anlisis a fin de obtener informacin til, actualmente son una realidad en muchas organizaciones. Debido a esto, frecuentemente las decisiones importantes se toman en base a la intuicin y experiencia en lugar de tomar como referencia la riqueza de estos datos almacenados, provocando que seamos vistos como ricos en datos, pero pobres en informacin (Han y Kamber, 2006), debido a la problemtica planteada anteriormente. Esta situacin se intenta solucionar a travs del proceso de KDD (Knowledge Discovery from Databases por sus siglas en ingles). Este proceso consta de 5 fases (Hernndez, 2005) como se puede apreciar en la siguiente figura:

Datos iniciales

1. Integracin y recopilacin

Almacn de datos

2. Seleccin, limpieza y transformacin

Datos seleccionados

3. Minera de datos
+ + + - Patrones

4. Evaluacin e interpretacin

Conocimiento

5. Difusin y uso

Decisiones

Fig. 1. El proceso KDD

Cada fase tiene sus objetivos claramente definidos y sus actividades perfectamente delimitadas. A continuacin, las mencionaremos brevemente. Integracin y recopilacin de datos. Integrar mltiples bases de datos en un almacn de datos (data warehouse coleccin de datos de las bases de datos transaccionales y otras fuentes diversas). Se determinan las fuentes de informacin que pueden ser tiles y dnde conseguirlas. Seleccin, limpieza y transformacin. El objetivo es mejorar la calidad de los datos. Algunos datos son irrelevantes o necesarios para la tarea de minera que se desea realizar. Se eliminan o corrigen los datos incorrectos. Minera de datos. El objetivo es producir conocimiento nuevo que pueda utilizar el usuario, realizando un modelo predictivo basado en los datos recopilados para tal efecto. Evaluacin e interpretacin. Se evalan los patrones y se analizan por los expertos para que, de ser necesario, se vuelva a las fases anteriores para una nueva iteracin. Difusin y uso. Una vez construido y validado el modelo, es usado por los analistas para
8

recomendar acciones y se hace partcipe de l a todos los posibles usuarios. En sntesis, las tcnicas de minera de datos, nos van a permitir construir modelos predictivos, basados en datos histricos almacenados en distintas fuentes: bases de datos, archivos de texto plano, documentos impresos, reportes, entre otros. Usando todos estos datos, es posible predecir un fenmeno dado, a partir de las herramientas que la minera nos ofrece, obteniendo conocimiento que nos ayuda en la toma de decisiones.

8. Metodologa de investigacin
El tipo de investigacin ser descriptivo, ya que buscamos especificar las propiedades importantes de un grupo de personas para su anlisis, en este caso, su informacin acadmica y personal. El enfoque de la misma, ser cuantitativo. En la primera fase, se estudiarn las causas de desercin y su parte terica, as como las diferentes tcnicas de minera de datos para poder llevar a cabo la investigacin, es decir, la revisin bibliogrfica del tema de estudio. En la segunda fase, se har el concentrado de los datos histricos sobre los estudiantes: informacin personal, acadmica y socioeconmica. En la tercera fase, se pasar al anlisis de la informacin y generacin del modelo de minera de datos para determinar el porcentaje de desercin que presentan nuestros alumnos, a travs de una interfaz web que permita determinar a cada uno de los tutores esta informacin para tomar las medidas necesarias.

9. Resultados (a priori) esperados


El resultado de la investigacin y trabajo de tesis, mostrar y propondr una interfaz de software que trabajar con el modelo predictivo, efecto de la aplicacin de las tcnicas de minera de datos y que le permita a cada tutor, capturar algunas variables o datos de sus alumnos para predecir y determinar la probabilidad de desertar que tienen desde los primeros cuatrimestres para tomar las acciones preventivas o remediales y en cualquier cuatrimestre, segn sea el caso, y mejorar nuestros ndices de eficiencia terminal.

10. Contribuciones originales esperadas


Como resultado de nuestra investigacin, propondremos una herramienta que permitir predecir el porcentaje de desercin de cualquier alumno inscrito en cualquier periodo. Este tipo de herramientas no existe en Mxico. Hemos encontrado un trabajo similar en Grecia en la Universidad de Patras (Kotsiantis, 2003) en donde predicen el porcentaje de desercin de un alumno o desempeo en cursos de aprendizaje a distancia, nico en el mundo. Podemos concluir argumentando la originalidad de nuestra investigacin, ya que sera pionera dentro de nuestro pas, trabajando exclusivamente con datos de nuestros estudiantes, con las variables que les afectan y causan su abandono de estudios. Adems, de que todo ello lo pueden consultar de manera indefinida para cualquier alumno en cualquier periodo, resultando un trabajo original.

11. Impacto Social Esperado


El impacto esperado dentro de nuestra Universidad sera muy alto. Una vez que realicemos el estudio y obtengamos los primeros resultados sobre el PE de TIC-SI para mejorar los ndices de eficiencia terminal disminuyendo la desercin al detectar la vulnerabilidad de algn alumno candidato a desertar, podemos ampliar la aplicacin de nuestra herramienta a todos los PEs de la UTIM. De esta forma, tendremos menos desertados y nuestros alumnos tendrn una preparacin acadmica ms adecuada para enfrentar los obstculos encontrados en su vida diaria. Con esta herramienta entonces, podremos evitar que un alumno deserte al identificar las causas por las cuales lo hara, detectndolo a tiempo y proponiendo las estrategias adecuadas para su correcto seguimiento. As, cada uno de estos alumnos tendr ms probabilidades de finalizar sus estudios de educacin superior y contar con mejores oportunidades laborales en el futuro al estar mejor preparados.

10

12. Cronograma
CRONOGRAMA DE ACTIVIDADES
Nov Dic Ene Feb Mar Abr May Jun Jul Ago Sep 1 Revisin bibliogrfica Aplicacin de encuestas y 2 entrevistas 3 Recoleccin de datos 4 Preprocesamiento de datos 5 Anlisis de datos Aplicacin de tcnicas de minera 6 de datos 7 Desarrollo del modelo predictivo 8 Desarrollo de interfaz grfica 9 Pruebas 10 Propuestas

14. Referencias
ANUIES (2001), Desercin, rezago y eficiencia terminal en la IES. Propuesta metodolgica para su estudio, Mxico. ANUIES (2002), Programas Institucionales de Tutoras. Una propuesta de la ANUIES para su organizacin y funcionamiento en las IES, Mxico. ANUIES (2007), Retencin y desercin en un grupo de Instituciones Mexicanas de Educacin Superior, Mxico Frawley, W. (1992), Knowledge discover in databases, USA. Gonzlez, A. (2006), Manual de tutoras en la UTIM, Mxico. Gonzlez, L (2005), Zombi, una arquitectura para el anlisis de informacin que integra procesamiento analtico en lnea con minera de datos, Mxico. Han, J., Kamber M. (2006), Data mining: concepts and techniques, USA. Hernndez J. (2005), Introduccin a la minera de datos, Espaa. Jing, L. (2002), Data mining and Knowledge management in higher education, Presentacin en el foro AIR, Toronto, Canada. Kotsiantis, S., Pintelas, P. (2003), A decision support prototype tool for predicting student performance in an ODL environment, Grecia. Merceron A., Yacef K. (2004), Educational Data Mining: a case of study, Universidad de Sydney, Australia. Quiroga, E. (2008), Minera de datos en educacin superior aplicada a un modelo de alerta acadmica, Chile. Restrepo, M. (2000), Uso de la metodologa Rough Sets para la identificacin de atributos en una base de datos sobre desercin, Universidad de La Sabana, Colombia. Veitch, W. (2004), Identifying characteristics of high school dropouts: data mining with a decision tree model, San Diego California, USA.

11

Das könnte Ihnen auch gefallen