Sie sind auf Seite 1von 7

Modelo de rboles de descin para pronosticar la morosidad de los alumno de la

Universidad Peruana Unin.


Vargas, Hovanna; Ccapa, Lesly
Dr. Palza Vargas, Edgardo; Dr. Mamani Apaza, Guillermo.

Resumen

La presente investigacin tiene por objetivo determinar un Modelo de rboles de decisin que permite
el pronstico de las caractersticas de morosidad de los alumnos de la Universidad Peruana Unin. La
metodologa utilizada es CRISP-DM, creada por especialistas para proyectos de minera de datos. Al
aplicar el modelo de rboles de decisin se logr identificar las caractersticas de un alumno moroso;
distribuidas en cinco variables predominantes: Ayuda Institucional, Ingreso de los padres, Monto de
Crdito, Tarjetas de crdito y la Situacin laboral del padre.

Palabras clave: rboles de clasificacin, riesgo crediticio.

Classification Trees Model for Identifying the Students Profile according to Credit Risk of
Universidad Peruana Unin

Abstract

Present investigation aims to determine a decision tree model that allows prediction of the
characteristics of late payment by students of the Universidad Peruana Union. The methodology used
is CRISP-DM, created by specialists for mining projects. In applying the decision tree model was able
to identify the characteristics of a delinquent student, divided into five predominant variables:
Institutional Support, Income of parents, amount of credit, credit cards and the Father's work status.

Keywords: Classification trees, credit risk.

I. INTRODUCCION crediticio es el nivel de morosidad de la entidad,


es decir, la proporcin de su cartera que se
Actualmente en el mundo cada ao aumentan las
entidades crediticias, el mercado es cada vez ms encuentra en calidad de incumplimiento.
competitivo; por lo tanto una entidad crediticia Una institucin que tenga altas tasas de
debe ejercer control efectivo sobre el proceso de morosidad y de prstamos incobrables no es
evaluacin de sus clientes con el fin de otorgarle o viable en la perspectiva futura. La morosidad y el
negarle el crdito solicitado. incumplimiento de los clientes de la devolucin de
La cartera de crdito al consumo implica el los crditos otorgados, ocasionan a las empresas
manejo de un gran nmero de clientes. Las costos y los convierte en empresas ineficientes,
afectando su situacin financiera y econmica.
entidades financieras requieren procesar un gran
nmero de solicitudes de crdito, por tanto es Establecer cual son las causas o determinantes
importante que la administracin deba conocer el del ndice de morosidad, no es problema sencillo
comportamiento de sus clientes.
de resolver, dado que no existen muchos estudios
con evidencia emprica. De acuerdo con el punto
El riesgo de crdito es el tipo de riesgo ms
de vista tradicional, el cliente incumple sus pagos
importante al que debe hacer frente cualquier
porque el uso indebido del prstamo lo coloca en
entidad financiera. Un indicador del riesgo

Revista de Busisness IntelligenceMAYO 2011 26


incapacidad de pagar. Sin embargo el herramienta que se utiliz fue el SQLServer 2008
incumplimiento generalizado es frecuentemente un de Microsoft.
reflejo de la renuencia a pagar por parte del
Para el testeo del modelo de rbol de decisin
prestatario.
para la morosidad se trabaj con el 70% de la
En el Per la Universidad Peruana Unin tiene poblacin.
como clientes a sus alumnos, y los servicios que
rboles de Decisin. (Segn Departamento de
brinda son esencialmente educativos de formacin
Informtica Universidad Nacional de San Luis
profesional y especializacin a nivel de pregrado y
(UNSL) San Luis. Argentina Octubre de 2006.) El
posgrado brindados a travs de sus Facultades
aprendizaje de rboles de decisin es un mtodo
Pre- grado y Posgrado.
que ha sido utilizado en numerosas tareas de
La Universidad se encuentra con un porcentaje aprendizaje inductivo. Es un mtodo de
alto de alumnos morosos en las diferentes aproximacin de funciones robusto a la presencia
facultades y escuelas, lo cual est provocando una de datos errneos y es capaz de aprender
gran preocupacin en el directorio general, debido expresiones disyuntivas.
a que est alterando el pago a tiempo a su
Existe toda una familia de algoritmos de
personal, los recursos destinados al
aprendizaje de rboles de decisin que incluye a
mantenimiento de su infraestructura y las
algoritmos muy conocidos como ID3, ASSISTANT
ganancias a la institucin, esto sucede debido que
y C4.5. Esta familia de algoritmos, referenciada a
no se est controlando la morosidad en los
veces como TDIDT (Top-Down Induction of
alumnos en el departamento de finanzas.
Decision Trees) se caracteriza por buscar en un
Es por esto la necesidad de generar un modelo espacio de hiptesis completamente expresivo
que muestre el pronstico de los alumnos que evita las dificultades de los espacios de
morosos de la Universidad Peruana Unin y hiptesis restringidos. Su sesgo inductivo es un
apoye a la toma de decisiones al rea de sesgo de preferencia por rboles pequeos sobre
Finanzas; lo cual es una ventaja en el negocio. rboles grandes.

Con esta investigacin se contribuir a establecer (Crossland M.D, 1995), menciona que los rboles
la automatizacin de las actividades relacionadas de decisin son herramientas excelentes para
con la morosidad de la universidad, ayudara a ayudar a realizar elecciones adecuadas entre
definir el comportamiento crediticio de los alumnos muchas posibilidades. Su estructura permite
de la universidad. Los datos detallados de los seleccionar una y otra vez diferentes opciones,
alumnos morosos permitirn tomar un mejor que pueden tener diferentes alternativas que al ser
control del problema de la morosidad y aplicar las exploradas pueden ser una posible decisin.
precauciones para evitarlas en el futuro.
El algoritmo de rboles de decisin de Microsoft es
II. MODELO DE PREDICCION un algoritmo de clasificacin y regresin
Para el pronstico de morosidad de los alumnos proporcionada por Microsoft SQL Server Analysis
de la Universidad Peruana Unin se construy y Services para el modelado de prediccin de
valid una encuesta para la recoleccin de datos, atributos discretos y continuos.
la cual fue tomada a los alumnos de las diferentes
El algoritmo genera un modelo de minera de
escuelas de la Universidad.
datos mediante la creacin de una serie de
El modelo fue construido con 800 datos divisiones en el rbol. Estas divisiones se
recolectados mediante la encuesta, teniendo representan como nodos. El algoritmo agrega un
diferentes variables que permitieron identificar las nodo al modelo cada vez que una columna de
caractersticas de morosidad de los alumnos. La entrada tiene una correlacin significativa con la
columna de prediccin. La forma en que el

Revista de Busisness IntelligenceMAYO 2011 27


conocemos de antemano que la moneda fue
algoritmo determina una divisin vara en funcin
de si predice una columna continua o una columna
discreta. alterada para que siempre caiga , la entropa

El algoritmo utiliza la seleccin de caractersticas (informacin) del resultado del experimento


para guiar la seleccin de los atributos ms tiles. ser:
La seleccin de caractersticas es importante para
evitar que los atributos irrelevantes utilicen tiempo
de procesador. Si utiliza demasiados atributos de
prediccin o de entrada al disear un modelo de Este resultado significa que, dado que ya sabemos
minera de datos, el modelo puede tardar mucho
tiempo en procesarse o incluso quedarse sin que la moneda caer , la informacin que
memoria. Entre los mtodos que se usan para obtengamos al conocer el resultado del
determinar si hay que dividir el rbol figuran experimento ser nula. Si en cambio utilizamos
mtricas estndar del sector para la entropa y las una moneda totalmente balanceada, que produce
redes Bayesianas. cualquiera de los dos resultados en forma
equiprobable, tendremos que:
Un problema comn de los modelos de minera de
datos es que el modelo se vuelve demasiado
sensible a las diferencias pequeas en los datos
de entrenamiento, en cuyo caso se dice que est
sobre-ajustado o sobreentrenado. Un modelo Como podemos observar la entropa tiene su valor
sobre-ajustado no se puede generalizar a otros ms bajo (0) cuando existe total certeza en el
conjuntos de datos. Para evitar sobre-ajustar un resultado del experimento, mientras que el mayor
conjunto de datos determinado, el algoritmo de valor de entropa es alcanzado en el caso de
rboles de decisin de Microsoft utiliza tcnicas mayor incertidumbre (eventos equiprobables).
para controlar el crecimiento del rbol. (Microsoft, Entre estos dos valores extremos tendremos toda
2008). una serie de distribuciones de probabilidad vlidas
Teora de la Informacin: Segn (Rodilla, 2005) caracterizadas por tener una entropa baja cuando
existen eventos altamente probables. As por
Determinando la (im) pureza de una particin por ejemplo, si la moneda es alterada para caer cara
entropa: en un 99% de los casos, tendremos que I( 99 100 ;
1 100 ) = 0;08.

Un experimento puede tener resultados Metodologa de investigacin: La metodologa


que se utiliz para esta investigacin fue el modelo
distintos ,, que pueden ocurrir con de CRISP-DM que es un modelo de minera de
datos, el cual est estructurado en seis fases.
probabilidades ,, , entonces la

cantidad de informacin que se obtiene al


conocer el resultado real del experimento es:

Para ejemplificar esta idea, consideremos el Figura 1. Modelo CRISP-DM


experimento de arrojar una moneda, el cual tiene

como resultados posible y . Si

Revista de Busisness IntelligenceMAYO 2011 28


Da Cielo Temperatura Humedad Viento Jugar_tenis
Fases del modelo CRISP-DM:
D1 Soleado Alta Alta Dbil No
1. Comprensin del Negocio: establecimiento D2 Soleado Alta Alta Fuerte No
de los objetivos del negocio, evaluacin de
la situacin, generacin del plan del D3 Lluvioso Alta Alta Dbil S
proyecto. D4 Lluvioso Media Alta Dbil S
D5 Lluvioso Fra Normal Dbil S
2. Comprensin de los Datos: recopilacin
D6 Lluvioso Fra Normal Fuerte No
inicial de datos; descripcin, exploracin y
verificacin de la calidad de datos. D7 Lluvioso Fra Normal Fuerte S
D8 Soleado Media Alta Dbil No
3. Preparacin de Datos: seleccin de datos
D9 Soleado Fra Normal Dbil S
construccin e integracin de los datos.
D10 Lluvioso Media Normal Dbil S
4. Modelado: Aplicacin de las tcnicas de D11 Soleado Media Normal Fuerte S
minera de datos; seleccin y diseo de la
D12 Lluvioso Media Alta Fuerte S
evaluacin, construccin del modelo de
rboles de decisin y la evaluacin D13 Lluvioso Alta Normal Dbil S
respectiva. D14 Lluvioso Media Alta Fuerte No
Entropa ([9+,5-])= - (9/14) log2 (9/14) -(5/14) log2
5. Evaluacin: Evaluacin de los resultados del (5/14) = 0940.
modelo, de acuerdo a las necesidades del
negocio y establecimiento de los pasos a Supongamos que S es un conjunto de
seguir. entrenamiento con 14 ejemplos

6. Despliegue: Integracin el resultado del A.9 ejemplos positivos y 5 negativos ([9+,5-]).


modelo a las actividades del negocio, B.Unos de los atributos, Viento, puede tomar los
planificacin, monitorizacin y revisin del valores Dbil y Fuerte.
proyecto.
C.La distribucin de ejemplos positivos y negativos
III. ANLISIS DEL MODELO UTILIZADO segn los valores de Viento son.

Anlisis de la eficiencia del modelo de arboles de


decisin.
Positivos Negativos
Dbil 6 2
Fuerte 3 3
La
ganancia de informacin que obtenemos si
clasificamos los 14 ejemplos segn el atributo
Viento es:

Ganancia(S, A) = Entropa(S) -

Figura Nro. 02. Ejemplo de Jugar Tenis. = Entropa (S) -


Este ejemplo de rboles de decisin, se trata de
decidir si vamos a jugar tenis dependiendo, de las
condiciones atmosfricas siguientes: nubosidad,
humedad y viento.(cielo=soleado,
temperatura=caliente,humedad=alta, = 0.940- 0.811-
viento=fuerte )
=0.048

Revista de Busisness IntelligenceMAYO 2011 29


En la Figura 3. Se observa el porcentaje de los
Hume- datos analizados con pronstico de morosidad
donde el 72.40% de los alumnos no son morosos y
el 27.60% son morosos, estos datos se analizaron
Alta Normal en un 70% de toda la data.

La variable predomnate en las caractersticas de


los alumnos morosos es el sueldo de los padres, el
cual se divide en dos porcentajes: menores y
[3+,4- [6+,1- mayores igual de 1600 soles. En la figura 4 se
] ] muestra como resultado de la principal
caracterstica un total de 419 registros, donde el
36.09% de los alumnos tienen las caractersticas
Viento de morosidad.

Dbil Fuer-

[6+,2- [3+,3-
] ]

Ganancia(S, Humedad) Ganancia(S, Viento)


Figura 4. Modelo de morosidad, variable sueldo de
= 0.940(7/14)*0.985 = 0.940(8/14)*0.811 padres.

(7/14)*0.592 (6/14)*1.00 La caracterstica de morosidad ingreso de padres


se divide en tres nodos, se observa en la figura 5,
= 0.151 = 0.048 que la mayor cantidad de morosos con un
porcentaje de 65.44% se encuentran en el nodo de
ingreso de padres de un rango entre 1160 y 1490
Aplicacin Del Modelo De Arboles De Decisin: soles; el cual cuenta con un total de 139 casos.
El pronstico de las caractersticas de morosidad
del alumno se mide en dos escalas: Moroso y No
moroso. Para identificar las caractersticas de
morosidad del alumno se ha considerado cinco
variables predominantes: Ayuda Institucional,
Ingreso de los padres, Monto de Crdito, Tarjetas
de crdito y la Situacin laboral del padre.

Figura 5. Modelo de morosidad, variable sueldo de


padres.

En la Figura 6. Se aprecia otra ramificacin del


rbol con la variable ayuda econmica; con 106
casos, donde el 81.07% de los alumnos morosos
tiene esa caracterstica.
Figura 6. Modelo de morosidad, variable ayuda econmica.
Figura 3. Cuadro de Pronostico.

Revista de Busisness IntelligenceMAYO 2011 30


Figura 6. Modelo de morosidad, variable ayuda econmica.

Otra caracterstica de morosidad de los alumnos


es la variable tarjetas de crdito, en la Figura 7, se
observa que 41.68% de alumnos con un total de
12 casos presenta esta caracterstica.
Figura 9. Estructura de Minera de Datos.

IV. CONCLUSION

Usando el algoritmo de rboles de decisin se


detectaron patrones para los morosos y los no
morosos. El principal patrn detectado es que el
ingreso econmico de los padres sea menor a
1600 nuevos soles, que no tenga ayuda de la
universidad, que la situacin de los padres es
independiente (jubilado), y que tengan un monto
creditico 1201 y 1600 nuevos soles con la
Figura 7. Modelo de morosidad, variable tarjetas de crdito. universidad. Este patrn caracteriza al 33,75% de
los alumnos son morosos.
La ultima caracterstica predominante en la
morosidad de los alumnos es la situacin laboral Aplicando, este tipo de investigaciones en este el
independiente de los padres con un total de 76 rubro, que es el brindar crditos educativos,
casos, con el 73.63% de los alumnos morosos. estaremos previniendo futuros endeudamientos y
Figura 8. falta de pagos en las instituciones. Adems
sabremos a qu tipo de clientes podremos
otorgarle un crdito de acuerdo a las variables
definidas de acuerdo al anlisis realizado.

El estudio realizado posee un margen de error, no


se puede afirmar del todo que un cliente que no
posee la cantidad requerida de ingresos tienda a
ser deudor, pero posee los indicios. Adems los
que poseen una elevada cantidad de ingreso
econmico, tiendan a ser deudores por ms que el
modelo de estudio diga lo contrario.

REFERENCIAS

Breiman L, Friedma J, Olshen R, Stone C. 1984.


Figura 8. Modelo de morosidad, variable laboral de padres. Classification and regression trees. Editorial Pacific
Grovic. 485p.
En la Figura 9. Se aprecia la estructura de minera
de datos de PRUEBAHO, que nos muestra que de
un 30% de la poblacin, el 79.37% tienen
caractersticas de morosidad con un 36.58% de
probabilidad de prediccin.

Revista de Busisness IntelligenceMAYO 2011 31


Microsoft. 2008. Algoritmo de rboles de decisin
Vallejos Soa. 2006. Diseo y Administracin de
Datos. Argentina: Editorial Corrientes. 352p. de Microsoft. [Consultado el 15 de Octubre]
Formato html. Disponibilidad libre en: http://
Lara G. 2008. La Tcnica del rbol para la toma de technet.microsoft.com/es-es/library/
decisiones. Mxico: Univalle. 350p. ms175312.aspx

Rodilla, V. 2005. Inteligencia Artificial e Ingeniera MicroStrategy, Corp. 2009. Microstrategy en la


del Conocimiento. Mxico. Mc Graw Hill. 550p. versiona 8i [http://www.microstrategy.com/]
(Consultado el 25 de Octubre del 2010).
Prez C. 2007. Data mining: Soluciones con
Enterprise Miner. Editorial. Paraninfo. 455p.

Vitt Elizabeth, L.M., Misner Stacia. 2002. Business Agradecimientos


Intelligence: Tcnicas de anlisis para la toma de
decisiones estratgicas. Se agradece al equipo de trabajo Nils Ferro
Quintanilla, Jonahtan Ander Marlo Salazar por
Matich, D. J. (marzo del 2001). Redes Neuronales: haber mejorado el articulo Modelo de rboles de
Conceptos Bsicos y Aplicaciones. Informatica Clasificacin para pronosticar la morosidad de los
Aplicada a la Ingenieria de Procesos - Orientacion alumnos de la Universidad Peruana Unin.
I (pgs. 12-13). Univercidad Tecnolgica Nacional
- Facultad Regional Rosario Depart de Ingen y
Quimica.

Martinez Gonzlez, D. (2004-2005). Redes


Neuronales Artificiales y Mapas Auto Organisados.
Curso (Sistemas Expertos e Inteligencia Artificial)
2004-2005 . Ciudad Univercitaria de Burgos,
Burgos.

Departamento de Informtica Universidad Nacional


de San Luis (UNSL) San Luis. Argentina Octubre
de 2006. Aprendizaje de rboles de decisin y
Minera de Datos.

Referencias electrnicas

GrupoAnts. 2009. Arboles de Induccin. [Articulo


en linea] SlideShare. [Consultado en 18 de
Octubre de 2010] Formato html. Disponibilidad
libre en: http://www.slideshare.net/EliteAstarothJG/
arboles-de-induccion.

Grupo de Estudios en Metodologas de Ingeniera


de Software. 2009. Ingeniera de Proyectos de
Explotacin de Informacin. [Articulo en linea]
SlideShare. [Consultado el 20 de octubre del 2010]
Formato html. Disponibilidad libre en: http://
posgrado.frba.utn.edu.ar/investigacion/articulos-y-
comunicaciones/WICC-2010-172-176.pdf

Revista de Busisness IntelligenceMAYO 2011 32

Das könnte Ihnen auch gefallen