Sie sind auf Seite 1von 20

Modelo de Propensión a Riesgo de Impago Mediante

Random Forest

Johan Alejandro Corpus Gaitán

Universidad Santo Tomás- BBVA Colombia


johancorpus@usantotomas.edu.co

Director: Camilo JoséTorres Jimenez

Diciembre 2019

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Contenido

1 introducción

2 Objetivos
Objetivo General
Objetivos Específicos

3 Marco Teórico

4 Metodología

5 Resultados

6 Conclusiones y Recomendaciones

7 Referencias

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Introducción

Banco Bilbao Vizcaya Argentaria BBVA, una entidad bancaria de


primer nivel con un claro y ambicioso proyecto empresarial. Hace parte
de un grupo financiero global, con un negocio diversificado que ofrece
servicios financieros en más de 30 países a 53 millones de Clientes.

BBVA está desarrollando un proceso de transformación necesario


para adaptarse al nuevo entorno en la industria financiera, dada la
competencia en el sector financiero, es un banco que se encuentra en
el diseño de nuevos modelos estadísticos que permitan determinar los
diferentes riesgos que el día a día trae consigo. Caso puntual los
modelos attrition.

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Introducción

El principal objetivo delproyecto:

Detectar factores críticos de riesgo de impago y nuevas oportunidades de


negocio, mediante el análisis de datos históricos y, sobre todo, actuales, en
tiempo real, mientras selleva acabo una determinada operacióno proceso.

• Entender la situación actual de Mora de los clientes del Banco.

• Determinar y Entender cuáles son las variables que mejor


explican el fenómeno de incumplimiento.

• Desarrollar un modelo de Data Mining que permita predecir los


clientes que entraran en mora dentro de los próximos meses.

• Analizar la fiabilidad y la validez del modelo escogido según su


probabilidad de mora.

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Marco Teórico: Árboles de Decisión

Los árboles de decisión se definen como un procedimiento recursivo,


en el cual un número ‘N’ de instancias se dividen progresivamente en
grupos, de acuerdo a una regla de división que permita maximizar la
homogeneidad o pureza de la variable de respuesta o variable clase
(Giudici Figni, 2009).

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Marco Teórico: Árboles de Decisión

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Marco Teórico: Random Forest

Los Random Forests, como su nombre indica, son bosques


aleatorios formados por un conjunto de árboles de clasificación
o regresión.

Estos Árboles son construidos mediante un algoritmo que trata


de reducir la correlación entre ellos. Una vez construido el
Forest, este genera una predicción promediando las
predicciones individuales de cada árbol.

Esta técnica de clasificación funciona muy bien en comparación


con otras técnicas similares como Boosting o las redes
neuronales.

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Marco Teórico: Algoritmo de formación del Random Forest

El algoritmo de formación del Forest es el siguiente:

Para cada uno de los árboles, dada la muestra inicial con N


observaciones diferentes, se eligen de forma aleatoria N datos de
la muestra con reemplazamiento. Esto se conoce como
bootstrapping.

En cada nodo de cada árbol, se eligen de forma aleatoria Mi p


variables candidatas para la partición (siendo P el número de
variables explicativas del modelo).

Se deja crecer cada árbol sin podar hasta la máxima extensión


posible.

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Metodología: Modelo Mora
ESQUEMA GENERAL

Determinar las fuentes de


Información.

Identificación de las principales variables


que definen/ caracterizan a los clientes
propensos a mora.

Identificar los Clientes con mayor


valor real y potencial para el Banco;
e implementar de estrategias
apropiadas para los clientes en
riesgo de impago.

Johan Alejandro Corpus Gait´an Modelo Mora December 2019


Metodología: Modelo Mora

Para lograr los resultados de este trabajo se realizó el


siguiente procedimiento:

Como primera instancia la construcción del ABT (Analytical Base


Table) con las variables para obtener el tablón de entrenamiento
(Train) a partir de diferentes bases de datos a través de 4 etapas y
como segunda instancia la construcción del tablón de prueba (Test)
para validar la eficiencia del modelo.

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Metodología: Modelo Mora
ETAPAS DEL TRABAJO- Concepto del KDD (Knowledge Discovery in Databases)

Integración Pre-procesamiento Data Mining Validación

• Fuentes de • Valores ausentes • Secuencias, • Métricas de


información • Imputación de Patrones rendimiento
• Análisis de datos valores • Modelo de • Recall
• IT • Outliers clasificación, • AUC
• Data Wharehouse • Duplicados, predicción • Curva Roc
• Identificación mes registros • Confiabilidad • Matriz de confusión
Mora incoherentes • Usabilidad
• Formatos • Nuevas Variables • Escalabilidad
diferentes • Transformación de • Robustez
• Frecuencia de variables • Estacionalidad de
extracción los datos

• Descubrimiento
• Patrones • Evaluación técnica

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34


Metodología: Creación de nuevas variables – Feature Engineering

1. Identificar primero el mes que el cliente ingresa a Mora para luego


realizar la creación de las variables de la siguiente manera:

Derivadas de Variable existente Número de cliente, tipo de producto,


Buró, Crossell

Variables Flag (0-1) Tenencia de Producto Consumo


Vehículo, Estado de Mora,
Refinanciados o Restructurados

Variable Ratio Variación de Gastos, ingreso, salud


Financiera, score, productos ext.
endeudamiento entre otros.

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34


Metodología: Creación de nuevas variables – Feature Engineering

Una vez identificado Mes de Mora, traemos información de los cuatro


meses anteriores

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34


Metodología: Principales variables seleccionadas con el modelo

Se presentan 22 variables y debido a los datos y rezagos para la


Variables Input:
gestión del modelo se utilizo M3 Y M4 pasando a 64 variables de ingreso en aras
de mejorar el desempeño del modelo.
VARIABLE REZAGOS NOMBRE DE LA VARIABLE
NUMCLIEN NUMCLIEN ID DEL CLIENTE

CONSUMOS_ M2_M3_M4 PRODUCTO VIGENTE DE CONSUMO Y/O VEHICULO


TASA FIJO TASA DE INETRES PACTADA
DESEMBOLSO FIJO MONTO DEL VALOR DEL CREDITO

MESES_RESTANTES ÚLTIMO REGISTRO MESES PENDIENTES A LA FECHA


BURO_ M2_M3_M4 SCORE, PUNTAJE EN EL SECTOR FINANCIERO
VAR_PORC_SB_ M2_M3_M4 PORCENTAJE VARIACION DEL SCORE
SM_CR_ M2_M3_M4 SALDO MEDIO DE CREDITOS
SM_PL_ M2_M3_M4 SALDO MEDIO DE PASIVO LIQUIDO
SM_TJ_ M2_M3_M4 SALDO MEDIO TARJETAS DE CREDITO
SM_FD_ M2_M3_M4 SALDO MEDIO FONDOS DE INVERSION
RAT_ENDEU_ M2_M3_M4 RATIO DE ENDEUDAMIENTO
PROD_COMP_ M2_M3_M4 RATIO PRODUCTOS COMPETENCIA
SM_ST_ M2_M3_M4 SALDO MEDIO SECTOR FINANCIERO
APROX_SSF_ M2_M3_M4 SALUD FINANCIERA APROXIMADA
VAR_PORC_SSF_ M2_M3_M4 PORCENTAJE DE VARIACION SSF
GASTOS_ M2_M3_M4 GASTOS MENSUALES
VAR_PORC_GS_ M2_M3_M4 PORCENTAJE VARIACION DE GASTOS
LIQ_M2 M2_M3_M4 LIQUIDEZ
VAR_PORC_LQ_ M2_M3_M4 PORCENTAJE DE VARIACION DE LIQUIDEZ
ABN_NOM_ M2_M3_M4 ABONO DE NOMINA EMISOR
CROSS_SELL_ M2_M3_M4 CANTIDAD DE PRODUCTOS QUE TIENE CON EL BANCO
MORA 0 ESTADO DEL PRODUCTO A LA FECHA

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34


Resultados: Evaluación del Modelo
Partición de los datos Base Entrenamiento

30%
228,664 Clientes:
70% 169,734 No mora
58,930 Morosos

Train Test
Relevancia de las variables

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Resultados: Evaluación del Modelo
Métricas de Rendimiento
BACK TEST
PREDICCIÓN
TOTAL Validación de los modelos
NO MORA MOROSO
NO MORA
con datos a Marzo 2019
224.600 9.657 234.257
MOROSO
Recall = True Positive / (True Positive + False Negative)
11.137 7.107 18.244
precisión = True Positive / (True Positive + False Positive)
TOTAL
235.737 16.764 252.501

42%
AUC- Área bajo la curva ROC

PRECISIÓN

39%

RECALL

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Conclusiones

• El modelo a corto plazo no presenta buenos resultados, sin embargo la


predicción de morosos a largo plazo su precisión aumenta.

• Se observa que al haber datos faltantes reduce la base de entrenamiento.

• La inclusión de las mimas variables en los modelos attrition no siempre


determina el mismo comportamiento en el modelo de riesgo a impago.

• Debido a los diferentes requerimientos que se necesitan para la


implantación de modelos de riesgo su aplicación es compleja de ajustar.

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Recomendaciones de Trabajo Futuro

• Inclusión de nuevas variables

• Revisión de los algoritmos utilizados

• Optimización de parámetros de los modelos

• Implementación de nuevos algoritmos

• Afinar supuestos de CustomerLifeTime Value

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


Referencias

FAWCETT, T. An introduction to ROC Analysis. Pattern Recognition [En línea]. 2006. 27(8),
861-874. [cit. 12 de febrero de 2016]. DOI: https://doi.org/10.1016/j.patrec.2005.10.010
Disponible en: http://www.sciencedirect.com/science/article/pii/S016786550500303X

FEELDERS, A., DANIELS, H and HOLSHEIMER. M. Methodological and practical aspects of


data mining. Information & Management. [En línea]. 2000, 37(5), 271-281. [cit. 12 de febrero
de 2016]. DOI: https://doi.org/10.1016/S0378-7206(99)00051-8 http://www.sciencedirect.
com/science/article/pii/S0378720699000518

GIUDICI, P AND FIGNI, S. Applied Data Mining for Business and Industry. s.l. : Wiley, DOI:
https://doi.org/10.1002/9780470745830.index , 2009.

HADDEN, J., TIWARI, A., ROY, R and RUTA, D. Churn Prediction: Does Technology Matter?
International Journal of Intelligent Technology [En línea]. 2006,1(2), 104-110. [Citado el: 05
de febrero de 2016.] Disponible: https://www.waset.org/Publications/churn-prediction-doestechnology-
matter-/1793

HERNÁNDEZ O, J., RAMIREZ QUINTANA, MJ., FERRI RAMIREZ, C. Introducción a la


Minería de Datos. Madrid : Pearson Prentice Hall, 2004.

HUNG, SY., YEN, D.C., WANG, H.UY. Applying data mining to telecom churn management.
Expert Systems with Applications. [En línea]. 2006. 31(3), 515-524. [cit. 12 de febrero
de 2016]. DOI: https://doi.org/10.1016/j.eswa.2005.09.080 Disponible en: http://www.
sciencedirect.com/science/article/pii/S0957417405002654

Johan Alejandro Corpus Gaitan Modelo Mora December 2019


GRACIAS!

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Das könnte Ihnen auch gefallen