Modelo Riesgo Impago

Modelo de Propensión a Riesgo de Impago Mediante
Random Forest
Johan Alejandro Corpus Gaitán
Universidad Santo Tomás- BBVA Colombia

johancorpus@usantotomas.edu.co
Director: Camilo JoséTorres Jimenez
Diciembre 2019
Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Contenido
1 introducción
2 Objetivos
Objetivo General
Objetivos Específicos
3 Marco Teórico
4 Metodología
5 Resultados
6 Conclusiones y Recomendaciones
7 Referencias

Introducción
Banco Bilbao Vizcaya Argentaria BBVA, una entidad bancaria de

primer nivel con un claro y ambicioso proyecto empresarial. Hace parte
de un grupo financiero global, con un negocio diversificado que ofrece
servicios financieros en más de 30 países a 53 millones de Clientes.
BBVA está desarrollando un proceso de transformación necesario

para adaptarse al nuevo entorno en la industria financiera, dada la
competencia en el sector financiero, es un banco que se encuentra en
el diseño de nuevos modelos estadísticos que permitan determinar los
diferentes riesgos que el día a día trae consigo. Caso puntual los
modelos attrition.

Introducción
El principal objetivo delproyecto:
Detectar factores críticos de riesgo de impago y nuevas oportunidades de

negocio, mediante el análisis de datos históricos y, sobre todo, actuales, en
tiempo real, mientras selleva acabo una determinada operacióno proceso.
• Entender la situación actual de Mora de los clientes del Banco.
• Determinar y Entender cuáles son las variables que mejor

explican el fenómeno de incumplimiento.
• Desarrollar un modelo de Data Mining que permita predecir los

clientes que entraran en mora dentro de los próximos meses.
• Analizar la fiabilidad y la validez del modelo escogido según su

probabilidad de mora.

Marco Teórico: Árboles de Decisión
Los árboles de decisión se definen como un procedimiento recursivo,

en el cual un número ‘N’ de instancias se dividen progresivamente en
grupos, de acuerdo a una regla de división que permita maximizar la
homogeneidad o pureza de la variable de respuesta o variable clase
(Giudici Figni, 2009).

Marco Teórico: Árboles de Decisión

Marco Teórico: Random Forest
Los Random Forests, como su nombre indica, son bosques

aleatorios formados por un conjunto de árboles de clasificación
o regresión.
Estos Árboles son construidos mediante un algoritmo que trata

de reducir la correlación entre ellos. Una vez construido el
Forest, este genera una predicción promediando las
predicciones individuales de cada árbol.
Esta técnica de clasificación funciona muy bien en comparación

con otras técnicas similares como Boosting o las redes
neuronales.

Marco Teórico: Algoritmo de formación del Random Forest
El algoritmo de formación del Forest es el siguiente:
Para cada uno de los árboles, dada la muestra inicial con N

observaciones diferentes, se eligen de forma aleatoria N datos de
la muestra con reemplazamiento. Esto se conoce como
bootstrapping.
En cada nodo de cada árbol, se eligen de forma aleatoria Mi p

variables candidatas para la partición (siendo P el número de
variables explicativas del modelo).
Se deja crecer cada árbol sin podar hasta la máxima extensión

posible.

Metodología: Modelo Mora
ESQUEMA GENERAL
Determinar las fuentes de

Información.
Identificación de las principales variables

que definen/ caracterizan a los clientes
propensos a mora.
Identificar los Clientes con mayor

valor real y potencial para el Banco;
e implementar de estrategias
apropiadas para los clientes en
riesgo de impago.
Johan Alejandro Corpus Gait´an Modelo Mora December 2019

Para lograr los resultados de este trabajo se realizó el

siguiente procedimiento:
Como primera instancia la construcción del ABT (Analytical Base

Table) con las variables para obtener el tablón de entrenamiento
(Train) a partir de diferentes bases de datos a través de 4 etapas y
como segunda instancia la construcción del tablón de prueba (Test)
para validar la eficiencia del modelo.

ETAPAS DEL TRABAJO- Concepto del KDD (Knowledge Discovery in Databases)
Integración Pre-procesamiento Data Mining Validación
• Fuentes de • Valores ausentes • Secuencias, • Métricas de

información • Imputación de Patrones rendimiento
• Análisis de datos valores • Modelo de • Recall
• IT • Outliers clasificación, • AUC
• Data Wharehouse • Duplicados, predicción • Curva Roc
• Identificación mes registros • Confiabilidad • Matriz de confusión
Mora incoherentes • Usabilidad
• Formatos • Nuevas Variables • Escalabilidad
diferentes • Transformación de • Robustez
• Frecuencia de variables • Estacionalidad de
extracción los datos
• Descubrimiento
• Patrones • Evaluación técnica
Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34

Metodología: Creación de nuevas variables – Feature Engineering
1. Identificar primero el mes que el cliente ingresa a Mora para luego

realizar la creación de las variables de la siguiente manera:
Derivadas de Variable existente Número de cliente, tipo de producto,

Buró, Crossell
Variables Flag (0-1) Tenencia de Producto Consumo

Vehículo, Estado de Mora,
Refinanciados o Restructurados
Variable Ratio Variación de Gastos, ingreso, salud

Financiera, score, productos ext.
endeudamiento entre otros.

Metodología: Creación de nuevas variables – Feature Engineering
Una vez identificado Mes de Mora, traemos información de los cuatro

meses anteriores

Metodología: Principales variables seleccionadas con el modelo
Se presentan 22 variables y debido a los datos y rezagos para la

Variables Input:
gestión del modelo se utilizo M3 Y M4 pasando a 64 variables de ingreso en aras
de mejorar el desempeño del modelo.
VARIABLE REZAGOS NOMBRE DE LA VARIABLE
NUMCLIEN NUMCLIEN ID DEL CLIENTE
CONSUMOS_ M2_M3_M4 PRODUCTO VIGENTE DE CONSUMO Y/O VEHICULO

TASA FIJO TASA DE INETRES PACTADA
DESEMBOLSO FIJO MONTO DEL VALOR DEL CREDITO
MESES_RESTANTES ÚLTIMO REGISTRO MESES PENDIENTES A LA FECHA

BURO_ M2_M3_M4 SCORE, PUNTAJE EN EL SECTOR FINANCIERO
VAR_PORC_SB_ M2_M3_M4 PORCENTAJE VARIACION DEL SCORE
SM_CR_ M2_M3_M4 SALDO MEDIO DE CREDITOS
SM_PL_ M2_M3_M4 SALDO MEDIO DE PASIVO LIQUIDO
SM_TJ_ M2_M3_M4 SALDO MEDIO TARJETAS DE CREDITO
SM_FD_ M2_M3_M4 SALDO MEDIO FONDOS DE INVERSION
RAT_ENDEU_ M2_M3_M4 RATIO DE ENDEUDAMIENTO
PROD_COMP_ M2_M3_M4 RATIO PRODUCTOS COMPETENCIA
SM_ST_ M2_M3_M4 SALDO MEDIO SECTOR FINANCIERO
APROX_SSF_ M2_M3_M4 SALUD FINANCIERA APROXIMADA
VAR_PORC_SSF_ M2_M3_M4 PORCENTAJE DE VARIACION SSF
GASTOS_ M2_M3_M4 GASTOS MENSUALES
VAR_PORC_GS_ M2_M3_M4 PORCENTAJE VARIACION DE GASTOS
LIQ_M2 M2_M3_M4 LIQUIDEZ
VAR_PORC_LQ_ M2_M3_M4 PORCENTAJE DE VARIACION DE LIQUIDEZ
ABN_NOM_ M2_M3_M4 ABONO DE NOMINA EMISOR
CROSS_SELL_ M2_M3_M4 CANTIDAD DE PRODUCTOS QUE TIENE CON EL BANCO
MORA 0 ESTADO DEL PRODUCTO A LA FECHA

Resultados: Evaluación del Modelo
Partición de los datos Base Entrenamiento
30%
228,664 Clientes:
70% 169,734 No mora
58,930 Morosos
Train Test
Relevancia de las variables

Resultados: Evaluación del Modelo
Métricas de Rendimiento
BACK TEST
PREDICCIÓN
TOTAL Validación de los modelos
NO MORA MOROSO
NO MORA
con datos a Marzo 2019
224.600 9.657 234.257
MOROSO
Recall = True Positive / (True Positive + False Negative)
11.137 7.107 18.244
precisión = True Positive / (True Positive + False Positive)
TOTAL
235.737 16.764 252.501
42%
AUC- Área bajo la curva ROC
PRECISIÓN
39%
RECALL

Conclusiones
• El modelo a corto plazo no presenta buenos resultados, sin embargo la

predicción de morosos a largo plazo su precisión aumenta.
• Se observa que al haber datos faltantes reduce la base de entrenamiento.
• La inclusión de las mimas variables en los modelos attrition no siempre

determina el mismo comportamiento en el modelo de riesgo a impago.
• Debido a los diferentes requerimientos que se necesitan para la

implantación de modelos de riesgo su aplicación es compleja de ajustar.

Recomendaciones de Trabajo Futuro
• Inclusión de nuevas variables
• Revisión de los algoritmos utilizados
• Optimización de parámetros de los modelos
• Implementación de nuevos algoritmos
• Afinar supuestos de CustomerLifeTime Value

Referencias
FAWCETT, T. An introduction to ROC Analysis. Pattern Recognition [En línea]. 2006. 27(8),
861-874. [cit. 12 de febrero de 2016]. DOI: https://doi.org/10.1016/j.patrec.2005.10.010
Disponible en: http://www.sciencedirect.com/science/article/pii/S016786550500303X
FEELDERS, A., DANIELS, H and HOLSHEIMER. M. Methodological and practical aspects of

data mining. Information & Management. [En línea]. 2000, 37(5), 271-281. [cit. 12 de febrero
de 2016]. DOI: https://doi.org/10.1016/S0378-7206(99)00051-8 http://www.sciencedirect.
com/science/article/pii/S0378720699000518
GIUDICI, P AND FIGNI, S. Applied Data Mining for Business and Industry. s.l. : Wiley, DOI:
https://doi.org/10.1002/9780470745830.index , 2009.
HADDEN, J., TIWARI, A., ROY, R and RUTA, D. Churn Prediction: Does Technology Matter?
International Journal of Intelligent Technology [En línea]. 2006,1(2), 104-110. [Citado el: 05
de febrero de 2016.] Disponible: https://www.waset.org/Publications/churn-prediction-doestechnology-
matter-/1793
HERNÁNDEZ O, J., RAMIREZ QUINTANA, MJ., FERRI RAMIREZ, C. Introducción a la

Minería de Datos. Madrid : Pearson Prentice Hall, 2004.
HUNG, SY., YEN, D.C., WANG, H.UY. Applying data mining to telecom churn management.
Expert Systems with Applications. [En línea]. 2006. 31(3), 515-524. [cit. 12 de febrero
de 2016]. DOI: https://doi.org/10.1016/j.eswa.2005.09.080 Disponible en: http://www.
sciencedirect.com/science/article/pii/S0957417405002654

GRACIAS!

Modelo Riesgo Impago

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Modelo Riesgo Impago

Hochgeladen von

Copyright:

Verfügbare Formate

Modelo de Propensión a Riesgo de Impago Mediante

Johan Alejandro Corpus Gaitán

Universidad Santo Tomás- BBVA Colombia

Director: Camilo JoséTorres Jimenez

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Banco Bilbao Vizcaya Argentaria BBVA, una entidad bancaria de

BBVA está desarrollando un proceso de transformación necesario

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

El principal objetivo delproyecto:

Detectar factores críticos de riesgo de impago y nuevas oportunidades de

• Entender la situación actual de Mora de los clientes del Banco.

• Determinar y Entender cuáles son las variables que mejor

• Desarrollar un modelo de Data Mining que permita predecir los

• Analizar la fiabilidad y la validez del modelo escogido según su

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Los árboles de decisión se definen como un procedimiento recursivo,

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Los Random Forests, como su nombre indica, son bosques

Estos Árboles son construidos mediante un algoritmo que trata

Esta técnica de clasificación funciona muy bien en comparación

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

El algoritmo de formación del Forest es el siguiente:

Para cada uno de los árboles, dada la muestra inicial con N

En cada nodo de cada árbol, se eligen de forma aleatoria Mi p

Se deja crecer cada árbol sin podar hasta la máxima extensión

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Determinar las fuentes de

Identificación de las principales variables

Identificar los Clientes con mayor

Johan Alejandro Corpus Gait´an Modelo Mora December 2019

Para lograr los resultados de este trabajo se realizó el

Como primera instancia la construcción del ABT (Analytical Base

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Integración Pre-procesamiento Data Mining Validación

• Fuentes de • Valores ausentes • Secuencias, • Métricas de

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34

1. Identificar primero el mes que el cliente ingresa a Mora para luego

Derivadas de Variable existente Número de cliente, tipo de producto,

Variables Flag (0-1) Tenencia de Producto Consumo

Variable Ratio Variación de Gastos, ingreso, salud

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34

Una vez identificado Mes de Mora, traemos información de los cuatro

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34

Se presentan 22 variables y debido a los datos y rezagos para la

CONSUMOS_ M2_M3_M4 PRODUCTO VIGENTE DE CONSUMO Y/O VEHICULO

MESES_RESTANTES ÚLTIMO REGISTRO MESES PENDIENTES A LA FECHA

Johan Alejandro Corpus Gait´an Modelo Mora Diciembre 201915 / 34

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

• El modelo a corto plazo no presenta buenos resultados, sin embargo la

• Se observa que al haber datos faltantes reduce la base de entrenamiento.

• La inclusión de las mimas variables en los modelos attrition no siempre

• Debido a los diferentes requerimientos que se necesitan para la

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

• Inclusión de nuevas variables

• Revisión de los algoritmos utilizados

• Optimización de parámetros de los modelos

• Implementación de nuevos algoritmos

• Afinar supuestos de CustomerLifeTime Value

Johan Alejandro Corpus Gaitan Modelo Mora December 2019

FEELDERS, A., DANIELS, H and HOLSHEIMER. M. Methodological and practical aspects of