Beruflich Dokumente
Kultur Dokumente
1
Jélvez Caamaño, Arnaldo 2
Moreno Echeverría, Mauricio 3
Ovalle Retamal, Víctor
1
Torres Navarro, Carlos 1
Troncoso Espinosa, Fredy
1
Académico Departamento de Ingeniería Industrial, Universidad del Bío-Bío.
Av. Collao 1202, Concepción, Chile.
2
Masonite Chile S.A. - Ruta 5, Cabrero, Chile
3
Distribuidora Loncomilla Ltda. Avenida Chorrillos # 1107, San Javier, Chile.
Resumen: Este trabajo muestra una aplicación de un modelo de fuga de clientes para una empresa
de telecomunicaciones que compite en dos mercados, Concepción y Temuco, de Chile. Se utilizan
como metodologías el análisis de cluster para generar perfiles de clientes fugados y la técnica
de regresión logística multivariable para generar un modelo de ocurrencia de fuga de servicios.
La base de datos incluyó productos contratados, variables socio demográficas, sistemas de pago,
número y tipo de reclamos, entre otros. Se generan modelos de regresión logística multivariable
para las dos plazas. Para la plaza Concepción el modelo clasifica en forma correcta el 71% de
los casos analizados. Para la plaza Temuco clasifica en forma correcta el 72%. La información
obtenida permitiría proponer planes de acción para disminuir la fuga a través de actividades de
capacitación y promoción y publicidad.
Palabras Claves: Análisis de grupos, Fuga de clientes, Minería de datos, Regresión logística
multivariable.
Abstract: This works shows an application of a churn model for a company of the
telecommunications industry in Chile with two major markets. Cluster analysis and multivariate
logistic regression were used as data mining methodologies to generate the churn model. Data base
considered the period January 2009 and June 2011, and variables such as products, demographic
data, payment systems, number and types of complaints filled were used. Two models using
regression analysis were developed were generated for both markets. For the Concepción market
the model estimates successfully 71% of the total cases, and for Temuco market was 72%. The
above informations allows the company for the proposal of promotional efforts and training of
the sales force primarily.
Key Words: Cluster analysis, Churn model, Data mining, Multivariate logistic regression.
101
UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014
102
Jélvez, A., Moreno, M., Ovalle, V., Torres, C., Troncoso, F., Mineria de datos.
Como medida de distancia para el agrupamiento, de contingencia las variables independientes con
se utilizó el estadístico chi-cuadrado según la la variable dependiente mediante la prueba chi-
recomendación de los autores para variables de cuadrado. Posteriormente, se realizó un análisis
tipo categóricas [15]. Se eligieron tres criterios de de regresión logística simple permitiendo ver la
agrupación, para comparar resultados que ayudaron existencia de relación entre la variable dependiente
a determinar el número de agrupaciones en cada y la independiente por medio del estadístico de
plaza. Los criterios de aglomeración utilizados Wald. En ambos casos, si el nivel de significancia
fueron: su vinculación fuera de grupos, vecino es menor a 5%, la hipótesis nula es rechazada.
más lejano y agrupación de centroides. Utilizando
métodos de agrupamiento no jerárquicos se Para la evaluación de posibles interacciones
obtuvieron los perfiles de clientes fugados. o modificaciones de tipo efecto y/o confusión
se eligió como base de estudio la variable
independiente PERMA_MESES y la variable
2. Regresión Logística Multivariante dependiente ESTAD_SERV (Estados Activo/
Fuga), para luego explorar el papel de las
La regresión logística multivariante se define restantes variables independientes sobre las
por la existencia de una variable dependiente anteriores [15].
con dos estados y múltiples variables de tipo
independiente que pueden ser de carácter Dentro de los resultados, se detallarán los niveles
categóricas o cuantitativas, obteniendo una de sensibilidad y especificidad para los modelos
estimación no sesgada o ajustada de la relación generados de ambas plazas, y también su porcentaje
entre la variable dependiente (o resultado) y global de acierto. Para la validación del modelo, se
múltiples variables independientes que se estime utilizó una muestra aleatoria simple de 50 casos de
importantes para el estudio. servicios fugados para los meses de Abril, Mayo y
Junio de 2011, en ambas plazas.
Para el trabajo desarrollado, la variable dependiente
dicotómica se define como [16]:
RESULTADOS Y DISCUSIÓN
1. Análisis Grupos
La población de datos utilizada en esta técnica fue Luego de aplicar los criterios de agrupación se
aproximadamente de 35.000 datos en conjunto estableció que para la plaza de Concepción, el
para ambas plazas. Se lograron obtener nueve número de conglomerados a utilizar en esta plaza
variables a priori importantes las cuales se fuese de cuatro, y que el número de conglomerados
detallan con un (*) según se indica más arriba, a utilizar en la plaza de Temuco fuese de tres. Luego
para facilitar el manejo de información dentro de se procedió a utilizar el método de las K-medias
la investigación. para interpretar los resultados del análisis cluster
para cada plaza o ciudad en estudio.
En relación al análisis univariado, se realizó una
comparación de distribución de cada una de las
variables independientes en función de la variable 1.1 Plaza Concepción
dependiente (Activo/Fuga). Se estableció como
importante cualquiera que presentara una diferencia El número total de desconexiones estudiadas fue de
absoluta igual o mayor a 5% en la comparación 63.850, donde el conglomerado más representativo,
de ambas distribuciones. Con respecto a las con un 37%, corresponde al conglomerado número
relaciones bivariantes, se analizó mediante tablas 4 como se muestra en el gráfico de la Figura 1.
103
UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014
104
Jélvez, A., Moreno, M., Ovalle, V., Torres, C., Troncoso, F., Mineria de datos.
105
UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014
de Concepción. Del mismo análisis se establece que de forma correcta 1142 casos (de los 2064
las variables GSE, DEUDA, EDAD_C, PERMA_ totales) activos (y=0), por lo que su especificidad
MESES, RECLAM, CPAGO y PERMA_MESES es de 55,3%, porcentaje más bajo que el de
* RECLAM deben ser incluidas en el modelo sensibilidad. Finalmente el modelo de forma
para la plaza de Temuco. global clasifica de forma correcta al 72,1% de
los casos analizados.
106
Jélvez, A., Moreno, M., Ovalle, V., Torres, C., Troncoso, F., Mineria de datos.
forma con la plaza de Concepción, a medida que esta técnica, y por ende darle un mayor sentido a
disminuye el nivel de corte, se observa que hay todo el fruto de esta investigación.
un mayor número de aciertos.
V. REFERENCIAS
Tabla V: Validación del modelo de RLM con tres [1] Hernández O, J. Introducción a la minería de
niveles de corte – Plaza Temuco datos. España, Pearson. 2004. 680p.
Abril Mayo Junio [2] Pérez, C. & Santínz, D. Minería de datos. Técnicas
Fugas (M. A. S) 50 50 50 y Herramientas. Madrid: Ed. Thomson, 2007.
Nº Aciertos (N.C. 0,3) 28 26 28
Nº Aciertos (N.C. 0,4) 22 21 21 [3] Hernández, J.; Ramírez, M.J. & Ferri, C.
Nº Aciertos (N.C. 0,5) 17 14 18 Introducción a la Minería de Datos. Madrid:
Nº Aciertos promedio 22 20 22 Pearson. Prentice Hall, 2005.
El modelo generado con la metodología de data [6] Gordillo, J. L.; Martínez, E. & Stephens, C.
mining permitió generar perfiles de clientes Develando estrategias de mercado: minería de datos
potencialmente fugables para la empresa, aplicada al análisis de mercados financieros. Comp. y
estableciéndose números de conglomerados y Sist.; 16(2); 221-231; 2012-06. Recuperado de: http://
porcentajes de representación de estos últimos www.scielo.org.mx/pdf/cys/v16n2/v16n2a8.pdf
para las plazas de Concepción y Temuco y con
esta información, la empresa podrá tener distintos [7] Molina, S. Aplicación de técnicas de minería de
perfiles de conglomerados en donde a cada uno datos para predicción del churn de clientes en una
de ellos se le podrá asignar un nivel de riesgo, lo empresa de telecomunicaciones. Tesis de maestría,
que ayudará a tomar decisiones de marketing y/o Escuela de Ingeniería de la Pontificia Católica de
planes de acción para disminuir la tasa de fuga de Chile. 2009. 114p.
clientes a lo largo del tiempo.
[8] Barrientos, F. & Ríos, S. Aplicación de minería
Utilizando regresión logística multivariante de datos para predecir fuga de clientes en la industria
permitió identificar los factores de riesgo que de Telecomunicaciones. Revista Ingeniería
influyen en la fuga de servicios para cada plaza Industrial, Volumen XXVII, Septiembre, 2013.
y de esta forma se establece la probabilidad de
fuga de los clientes actuales, como por ejemplo, [9] Weber, R. & Miranda, J. Caso de Estudio,
los que cumplan con los perfiles o patrones de Sistemas de predicción de fugas de clientes.
fuga realizado en análisis de agrupaciones, lo que Instituto Sistemas Complejos de Ingeniería,
permitiría ser aún más exacto en la aplicación de Universidad de Chile. 2010. 6p.
107
UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014
[11] Ganesh, J.; Mark A. & Reynolds, K. E. [15] Pérez, C. Técnicas estadísticas con SPSS 12.
Understanding the customer base of service Madrid. Pearson Prentice Hall. 2008. 802p.
providers: an examination of the differences
between switchers and stayers." Journal of [16] Hair J.; Anderson, R.; Tatham, R. & Black, W.
marketing 64(3). 2000. pp 65-87. Análisis Multivariante. España, Pearson Education.
2007. 799p.
[12] Reichheld, F. & Sasser, E. J. Zero defections:
quality comes to services. Harvard business review [17] Marcano, Y.J. & Talavera, R. Minería de Datos
68(5). 1989. pp 105-111. como soporte a la toma de decisiones empresariales.
Opcion; 23(52); 104-118; 2007-01. Recuperado de:
[13] Glady, N.; Bar. & Croux, C. Modeling churn http://www.scielo.org.ve/scielo.php?pid=S1012-
using customer lifetime value. European Journal of 15872007000100008&script=sci_arttext
108
RESUMEN BIOGRÁFICO
109
UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014