Paper Minería de Datos 2015-Jélvez Et Al.

MODELO PREDICTIVO DE FUGA DE CLIENTES
UTILIZANDO MINERÍA DE DATOS PARA UNA EMPRESA

DE TELECOMUNICACIONES EN CHILE
1
Jélvez Caamaño, Arnaldo 2
Moreno Echeverría, Mauricio 3
Ovalle Retamal, Víctor
1
Torres Navarro, Carlos 1
Troncoso Espinosa, Fredy
1
Académico Departamento de Ingeniería Industrial, Universidad del Bío-Bío.
Av. Collao 1202, Concepción, Chile.
2
Masonite Chile S.A. - Ruta 5, Cabrero, Chile
3
Distribuidora Loncomilla Ltda. Avenida Chorrillos # 1107, San Javier, Chile.
(Recibido 05/08/14 - Aceptado 15/10/14)
Resumen: Este trabajo muestra una aplicación de un modelo de fuga de clientes para una empresa
de telecomunicaciones que compite en dos mercados, Concepción y Temuco, de Chile. Se utilizan
como metodologías el análisis de cluster para generar perfiles de clientes fugados y la técnica
de regresión logística multivariable para generar un modelo de ocurrencia de fuga de servicios.
La base de datos incluyó productos contratados, variables socio demográficas, sistemas de pago,
número y tipo de reclamos, entre otros. Se generan modelos de regresión logística multivariable
para las dos plazas. Para la plaza Concepción el modelo clasifica en forma correcta el 71% de
los casos analizados. Para la plaza Temuco clasifica en forma correcta el 72%. La información
obtenida permitiría proponer planes de acción para disminuir la fuga a través de actividades de
capacitación y promoción y publicidad.
Palabras Claves: Análisis de grupos, Fuga de clientes, Minería de datos, Regresión logística
multivariable.
PREDICTIVE MODEL OF LEAK OF CUSTOMERS USING DATA

MINING FOR A TELECOMMUNICATION COMPANY IN CHILE
Abstract: This works shows an application of a churn model for a company of the
telecommunications industry in Chile with two major markets. Cluster analysis and multivariate
logistic regression were used as data mining methodologies to generate the churn model. Data base
considered the period January 2009 and June 2011, and variables such as products, demographic
data, payment systems, number and types of complaints filled were used. Two models using
regression analysis were developed were generated for both markets. For the Concepción market
the model estimates successfully 71% of the total cases, and for Temuco market was 72%. The
above informations allows the company for the proposal of promotional efforts and training of
the sales force primarily.
Key Words: Cluster analysis, Churn model, Data mining, Multivariate logistic regression.
100 UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014

Jélvez, A., Moreno, M., Ovalle, V., Torres, C., Troncoso, F., Mineria de datos.
INTRODUCCIÓN productos contratados por clientes, datos

sociodemográficos, sistemas de pago, número
y tipos de reclamos, entre otras informaciones,
El origen del tema es resultado del aumento ocupando para el análisis de la información
paulatino en las fugas de clientes en una empresa software especializados para data mining como
de telecomunicaciones en los últimos años Excel 2010, Access 2010 y SPSS v19.
de operación, producto principalmente de la
fuerte competencia en el sector. Estas empresas
manejan grandes cantidades de información, ANTECEDENTES
que si no es procesada correctamente, sólo es un
conjunto de datos. Esto motiva la utilización de
técnicas como data mining (minería de datos) Molina (2009) [7] señala que la minería
para transformar dichos datos en información de datos se refiere al proceso de extraer
útil, la cual permite tomar decisiones importantes conocimiento de base de datos. Su objetivo es
para seguir siendo competitivos [1, 2 ,3]. descubrir situaciones anómalas y/o interesantes,
tendencias, patrones y secuencia en los datos.
Este trabajo muestra una aplicación de la Su insumo son los datos pre-procesados en las
técnica de minería de datos a una empresa fases anteriores de la metodología, el objetivo
de telecomunicaciones con dos mercados es construir un modelo a partir de ellos, el cual
relevantes, Concepción y Temuco y pueda producir nuevo conocimiento que sea útil
desarrollado en extenso por Moreno y Ovalle para el usuario.
(2011) [4]. Se pretende identificar factores que
permitan clasificar clientes nuevos y antiguos Dentro de la minería de datos existen distintos
como potencialmente fugables por medio de algoritmos que pueden resolver determinadas
conglomerados, y además, generar un modelo tareas, éstas son descriptivas (conglomerado,
predictor que estime la probabilidad de fuga reglas de asociación secuenciales y
como función de otras variables. En este correlaciones) o predictivas (clasificación y
sentido, la minería de datos permite descubrir regresión). Sus aplicaciones y limitaciones
información en forma de patrones, cambios, se encuentran descritas en Barrientos y Ríos
asociaciones y estructuras significativas de (2013) [8] y en Weber y Miranda (2010) [9].
grandes cantidades de datos almacenados. [5]
Dada la gran cantidad de información que
El presente estudio recopila información manejan en la actualidad las instituciones, es
proveniente de la base de datos de información posible aplicar estos algoritmos de minería
de clientes de la empresa que adquirieron de datos en diferentes áreas de negocios, de
integralmente los servicios de Internet, manera de apoyar la toma de decisiones. Un
Telefonía y TV Cable, correspondiente a ejemplo concreto es la fuga de clientes. La fuga
las plazas de Concepción y Temuco, con el de clientes busca identificar los clientes con
propósito de encontrar un modelo de predicción mayor probabilidad de renunciar a un producto,
de fuga de clientes. En Gordillo, Martínez & a un conjunto de producto o a la totalidad de
y Stephens (2012) [6], para fines similares, se los productos ofrecidos por una institución.
refiere al propósito de encontrar una huella de La acción de evitar que un cliente se fugue es
estrategias utilizadas, en este caso, por clientes conocida como retención de clientes. La retención
de telefonía celular. de clientes está compuesta por dos procesos: la
identificación y seguimiento de los clientes con
La base de datos bajo estudio considera el mayor tendencia a la fuga y la definición de
período comprendido entre enero 2009 y política comercial y procedimientos que hagan
junio 2011, contando con información de desistir al cliente de la fuga. La identificación
101
UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014
efectiva de estos clientes permite centrar en II. METODOLOGÍA

forma eficiente los recursos destinados por estas
políticas comerciales y procedimientos. 1. Análisis de Agrupaciones
El Análisis de agrupaciones, es una técnica estadística

La fuga de clientes acarrea un conjunto de multivalente, que divide un conjunto de datos
problemas al negocio, pues el tamaño de la observados en distintas categorías, permitiendo que
cartera de clientes está relacionado directamente los perfiles de los objetos pertenecientes a un mismo
con la rentabilidad del negocio [10, 11]. Además, grupo sean lo más similares entre sí (cohesión
estudios señalan que un cliente se vuelve más interna del grupo) y los perfiles de los objetos de las
rentable con el paso del tiempo, pues la utilidad agrupaciones diferentes sean distintos (aislamiento
obtenida de él se compone por elementos como: externo del grupo).
incremento en las compras, reducción de costos
operacionales y referencias dadas a terceros, Esta etapa se realizó en conjunto con analistas de la
entre otras [12]. En este sentido en Glady empresa, y fue condicionado al período de tiempo
(2009) [13] se presenta a una cliente que se fuga elegido para el desarrollo de la investigación. La
constantemente de las compañías o “churn” como población de datos utilizada fue aproximadamente
un individuo que posee una utilidad marginal 80.000 datos en conjunto para las plazas de
decreciente para el negocio. Concepción y Temuco.
En el siguiente apartado se presenta la Se propusieron veinte variables importantes para

metodología aplicada en el trabajo. el estudio [14], las cuales se detallan en la Tabla I.
Tabla I: Variables utilizadas en la investigación de Análisis de grupos

NÚMERO VARIABLE DESCRIPCIÓN
1 EDAD Edad del cliente
2 SEXO Sexo del cliente
3 GSE Grupo Socioeconómico del cliente
4 RECO Reconexión del servicio
5 MOTDX Motivos de la desconexión del servicio
6 DEUDA Niveles de deuda asociadas al servicio
7 NUM_RECLA Números de reclamos asociados al servicio
8 TIPO_RECLA Tipos de reclamos asociados al servicio
9 ANTIGUE_SER Antigüedad del servicio
10 PROMO_RETEN Promociones de retención asociados al servicio
11 CAT_CLIENTE Categoría asociada al tipo de cliente
12 TIPO_MULTI Tipos de multiservicios contratados
13 CANAL_ENTRADA Canal entrada del servicio
14 CANTF001 Cantidad de servicios de Telefonía Contratados
15 CANT2WAY Cantidad de servicios de Internet Contratados
16 CANTC001 Cantidad de servicios de TV Cable Contratados
17 PILETA Cambios de servicios contratados luego de una desconexión
18 GTAR_PRO Empaquetamiento de servicios contratados
19 GTAR_VALOR Valoración del empaquetamiento de servicios contratados
20 CANAL_PAGO Medios utilizados para el pago de servicios
102
Como medida de distancia para el agrupamiento, de contingencia las variables independientes con
se utilizó el estadístico chi-cuadrado según la la variable dependiente mediante la prueba chi-
recomendación de los autores para variables de cuadrado. Posteriormente, se realizó un análisis
tipo categóricas [15]. Se eligieron tres criterios de de regresión logística simple permitiendo ver la
agrupación, para comparar resultados que ayudaron existencia de relación entre la variable dependiente
a determinar el número de agrupaciones en cada y la independiente por medio del estadístico de
plaza. Los criterios de aglomeración utilizados Wald. En ambos casos, si el nivel de significancia
fueron: su vinculación fuera de grupos, vecino es menor a 5%, la hipótesis nula es rechazada.
más lejano y agrupación de centroides. Utilizando
métodos de agrupamiento no jerárquicos se Para la evaluación de posibles interacciones
obtuvieron los perfiles de clientes fugados. o modificaciones de tipo efecto y/o confusión
se eligió como base de estudio la variable
independiente PERMA_MESES y la variable
2. Regresión Logística Multivariante dependiente ESTAD_SERV (Estados Activo/
Fuga), para luego explorar el papel de las
La regresión logística multivariante se define restantes variables independientes sobre las
por la existencia de una variable dependiente anteriores [15].
con dos estados y múltiples variables de tipo
independiente que pueden ser de carácter Dentro de los resultados, se detallarán los niveles
categóricas o cuantitativas, obteniendo una de sensibilidad y especificidad para los modelos
estimación no sesgada o ajustada de la relación generados de ambas plazas, y también su porcentaje
entre la variable dependiente (o resultado) y global de acierto. Para la validación del modelo, se
múltiples variables independientes que se estime utilizó una muestra aleatoria simple de 50 casos de
importantes para el estudio. servicios fugados para los meses de Abril, Mayo y
Junio de 2011, en ambas plazas.
Para el trabajo desarrollado, la variable dependiente
dicotómica se define como [16]:
RESULTADOS Y DISCUSIÓN
1. Análisis Grupos
La población de datos utilizada en esta técnica fue Luego de aplicar los criterios de agrupación se
aproximadamente de 35.000 datos en conjunto estableció que para la plaza de Concepción, el
para ambas plazas. Se lograron obtener nueve número de conglomerados a utilizar en esta plaza
variables a priori importantes las cuales se fuese de cuatro, y que el número de conglomerados
detallan con un (*) según se indica más arriba, a utilizar en la plaza de Temuco fuese de tres. Luego
para facilitar el manejo de información dentro de se procedió a utilizar el método de las K-medias
la investigación. para interpretar los resultados del análisis cluster
para cada plaza o ciudad en estudio.
En relación al análisis univariado, se realizó una
comparación de distribución de cada una de las
variables independientes en función de la variable 1.1 Plaza Concepción
dependiente (Activo/Fuga). Se estableció como
importante cualquiera que presentara una diferencia El número total de desconexiones estudiadas fue de
absoluta igual o mayor a 5% en la comparación 63.850, donde el conglomerado más representativo,
de ambas distribuciones. Con respecto a las con un 37%, corresponde al conglomerado número
relaciones bivariantes, se analizó mediante tablas 4 como se muestra en el gráfico de la Figura 1.
103
Figura 1: Participación de individuos por conglomerado

o agrupación en Plaza Concepción Figura 2: Participación de individuos por conglomerado
o agrupación en plaza Temuco
Para el conglomerado 4 podemos señalar que
el tipo de cliente que se presenta es de tipo Este grupo de clientes es de tipo residencial, la edad
residencial, su edad fluctúa entre los 38 y 47 años, del mismo fluctúa entre los 38 y 47 años de edad,
sexo de tipo masculino y grupo socioeconómico sexo de tipo masculino y grupo socioeconómico
C3. En este grupo, ell motivo de la desconexión C2. El motivo de la desconexión se debe a cambios
se debe a problemas de carácter económico, con a la competencia, con deudas que fluctúan entre
deudas que fluctúan entre CL $ 30.000 y CL $ CL$30.000 y CL$59.999. Este grupo presenta un
59.999. Este grupo no presenta ningún tipo de reclamo acumulado hasta la fecha de desconexión,
reclamo acumulado hasta la fecha de desconexión. y su carácter es de tipo técnico.
La antigüedad de los servicios al momento de la
desconexión fluctúa entre los 13 y los 24 meses La antigüedad de los servicios al momento de la
de contratación del mismo. El canal de entrada desconexión fluctúa entre los 13 y los 24 meses
utilizado para la contratación del servicio es por de contratación del mismo. El canal de entrada
medio de sucursales propias de la empresa, y los utilizado para la contratación del servicio es similar
canales de pago utilizados en este grupo son medios a lo utilizado en la plaza de Concepción.
externos como agencias (Servipag y Sencillito) y
otros canales con pago por medio de bancos o vía Los clientes poseen un tipo multiservicio de
convenios con empresas del retail. internet y telefonía, y la desconexión del servicio
para este grupo es telefonía, pasando luego
El empaquetamiento de producto en este grupo es de la desconexión a un paquete de un servicio
Cable Hogar, que tiene un valor de categorización (Internet). El empaquetamiento de producto en este
de nivel medio para la empresa. Este conglomerado conglomerado es Internet 2MB, que tiene un valor
no presenta promociones de retención de ningún de categorización de nivel medio para la empresa.
tipo al momento de la desconexión, y luego de la Este conglomerado no presenta promociones
desconexión no existe intención por parte del cliente de retención de ningún tipo al momento de
en volver a reconectar el servicio dado de baja. la desconexión, y luego de la desconexión no
existe intención por parte del cliente en volver a
1.2 Plaza Temuco reconectar el servicio dado de baja. A partir de
anterior cobra relevancia el tratamiento espacial a
El número total de desconexiones estudiadas fue de los datos debido a que logra obtener información
22.383, donde el conglomerado más representativo, más precisa y efectiva para apoyar el proceso de
con un 55%, es el número 2 como se muestra en el toma de decisiones y con una mejor capacidad para
gráfico de la Figura 2. generar conocimiento. [5, 17]
104
2. Regresión Logística Multivariante significativamente sobre la variable dependiente)

se rechaza, y se acepta la hipótesis alternativa (la
A continuación, se resumen los resultados de los variable independiente influye significativamente
análisis estadísticos utilizados con esta técnica. sobre la variable dependiente).
De las pruebas de independencia, para el caso

2.1 Análisis Univariado para Concepción y Te- de Temuco, se observa que en todas el valor de
muco significación es menor a 0,05 para las variables
GSE, DEUDA, PERMA_MESES, EDAD_C,
Para el caso de Concepción, las variables GSE, RECLAM y PAGO lo que permite concluir que la
DEUDA, PERMA_MESES, EDAD_C, RECLAM, hipótesis nula (Las variables son independientes)
CPAGO y C_ENTRADA son variables candidatas se rechaza, y se acepta la hipótesis alternativa
de incluir en el modelo, ya que la comparación (las Variables están relacionadas entre sí). Del
de distribuciones para cada variable es igual o análisis de regresión logística simple, el valor de
superior en valor absoluto a 5%. Las variables significación es menor a 0,05 para las variables
SEXO y PROMO_ASOC por el contrario, no son GSE, DEUDA, PERMA_MESES, EDAD_C,
candidatas de incluir en la generación del modelo, RECLAM y CPAGO con lo que se concluye que la
dado que la comparación de distribuciones para hipótesis nula (la variable independiente no influye
cada variable es menor en valor absoluto a 5%. significativamente sobre la variables dependiente)
se rechaza, y se acepta la hipótesis alternativa (La
Para el caso de Temuco, las variables GSE, DEUDA, variable independiente incluye significativamente
PERMA_MESES, EDAD_C, RECLAM y CPAGO sobre la variable dependiente).
son variables candidatas de incluir en el modelo,
ya que la comparación de distribuciones para cada De los seis modelos generados para la plaza de
variable es igual o superior en valor absoluto a Concepción, y cinco para la plaza de Temuco
5%. No así las variables SEXO, PROMO_ASOC (donde cada uno de ellos incluye una variable
y C_ENTRADA, ya que la comparación para cada multiplicativa distinta), solo se observa este
variable resulto ser menor en valor absoluto a 5%. fenómeno cuando se introduce la variable PERMA_
MESES * RECLAM, dado que es el único caso
que la variable multiplicativa tiene significancia
2.2 Análisis Bivariado Concepción y Temuco estadística <0,05. Es por ello que para la generación
del modelo, tanto para la Plaza de Concepción y
De las pruebas de independencia Chi-Cuadrado Temuco, se debe incluir esta variable.
entre la variable dependiente y las variables
independientes, para el caso de Concepción, se En relación al análisis de confusión se observa
observó que en todas el valor de significación es que en todos los modelos generados, tanto para la
menor a 0,05 para las variables GSE, DEUDA, plaza de Concepción y Temuco, hay presencia de
PERMA_MESES, EDAD_C, RECLAM, CPAGO confusión, dado que existe un cambio porcentual
y C_ENTRADA lo que permite concluir que la absoluto igual o superior al 10% del OR de la
hipótesis nula (las variables son independientes) variable independiente PERMA_MESES, con
se rechaza, y se acepta la hipótesis alternativa respecto al valor de la misma variable resultante
(las variables están relacionadas entre sí). Del del análisis de regresión logística simple.
análisis de regresión logística simple, se observa
que en todas las pruebas el valor de significación Del análisis de interacción y confusión se establece
es menor a 0,05 para las variables GSE, DEUDA, que las variables GSE, DEUDA, EDAD_C,
PERMA_MESES, EDAD_C, RECLAM, CPAGO PERMA_MESES, CPAGO, RECLAM, C_
y C_ENTRADA con lo que se concluye que la ENTRADA y PERMA_MESES * RECLAM
hipótesis nula (la variable independiente no influye deben ser incluidas en el modelo para la plaza
105
de Concepción. Del mismo análisis se establece que de forma correcta 1142 casos (de los 2064
las variables GSE, DEUDA, EDAD_C, PERMA_ totales) activos (y=0), por lo que su especificidad
MESES, RECLAM, CPAGO y PERMA_MESES es de 55,3%, porcentaje más bajo que el de
* RECLAM deben ser incluidas en el modelo sensibilidad. Finalmente el modelo de forma
para la plaza de Temuco. global clasifica de forma correcta al 72,1% de
los casos analizados.
3. Modelo de Regresión Logística Multivariante

Tabla III: Resumen de Sensibilidad, especificidad y
Para el caso de la Plaza de Concepción, porcentaje global de acierto – Plaza Temuco
todas las covariables incluidas en el modelo
mantienen la significación estadística <0,05 en
el contraste de hipótesis que las relaciona
con la variable dependiente ESTAD_SERV
(Molina y Ovalle, 2011).
Por otra parte, como se muestra en la Tabla II, el

modelo clasifica de forma correcta 5.708 casos Para el proceso de validación se realizó una toma
(de los 9752 totales) de fugas (y=1), por lo que de muestra aleatoria simple de 50 casos de servi-
su sensibilidad es de 58,5%, además, clasifica de cios fugados para los meses de Abril, Mayo y Junio
forma correcta 10.840 casos (de los 13.477 totales) de 2011 para ambas plazas.
activos (y=0), por lo que su especificidad es de
80,4%, porcentaje más alto que el de sensibilidad. En relación con la validación del Modelo de RLM,
El modelo de forma global clasifica de forma con tres niveles de corte (Plaza Concepción), en la
correcta al 71,2% de los casos analizados. Tabla IV se observa que el modelo tiene un mayor
número de aciertos en el mes de Junio 2011, muy
superior con respecto a los otros meses. Además, a
Tabla II: Resumen de Sensibilidad, especificidad y medida que el nivel de corte disminuye, se puede
porcentaje global de acierto – Plaza Concepción observar que el nivel de acierto aumenta.
Tabla IV: Validación del Modelo de RLM con tres niveles

de corte – Plaza Concepción
Abril Mayo Junio

Fugas (M. A. S) 50 50 50
Nº Aciertos (N.C. 0,3) 19 12 26
Para el caso de la Plaza de Temuco, al igual que Nº Aciertos (N.C. 0,4) 13 12 22
para la Plaza de Concepción, se observa que todas Nº Aciertos (N.C. 0,5) 12 12 21
las covariables incluidas en el modelo mantienen Nº Aciertos promedio 15 12 23
la significancia estadística <0,05 en el contraste
de hipótesis que las relaciona con la variable
dependiente ESTADO_SERV. Para el caso de la Plaza de Temuco, se observa
que el modelo tiene un mejor número de aciertos
En la Tabla III, Se puede apreciar que el modelo que el modelo a generado para la Plaza de
clasifica de forma correcta 2.661 casos (de los Concepción. Se puede ver que el número de
3.212 totales) de fugas (y=1), por lo que su aciertos promedio es muy similar para todos los
sensibilidad es de 82,8%, por otra parte, clasifica meses, existiendo una leve mejora en los meses
de Abril y Junio. Por último, sucede de igual
106
forma con la plaza de Concepción, a medida que esta técnica, y por ende darle un mayor sentido a
disminuye el nivel de corte, se observa que hay todo el fruto de esta investigación.
un mayor número de aciertos.
V. REFERENCIAS
Tabla V: Validación del modelo de RLM con tres [1] Hernández O, J. Introducción a la minería de
niveles de corte – Plaza Temuco datos. España, Pearson. 2004. 680p.
Abril Mayo Junio [2] Pérez, C. & Santínz, D. Minería de datos. Técnicas
Fugas (M. A. S) 50 50 50 y Herramientas. Madrid: Ed. Thomson, 2007.
Nº Aciertos (N.C. 0,3) 28 26 28
Nº Aciertos (N.C. 0,4) 22 21 21 [3] Hernández, J.; Ramírez, M.J. & Ferri, C.
Nº Aciertos (N.C. 0,5) 17 14 18 Introducción a la Minería de Datos. Madrid:
Nº Aciertos promedio 22 20 22 Pearson. Prentice Hall, 2005.
[4] Moreno, M. & Ovalle, V. Aplicación de un

Los planes de acción que la empresa decide llevar modelo predictivo de fuga de clientes mediante
a cabo y que se derivan del análisis de los modelos la utilización de Data Mining en VTR Globalcom
anteriores, se describen en extenso en Moreno y S.A. Zona Sur. Proyecto de título, Departamento
Ovalle (2011) [4]. Estos además son acciones que de Ingeniería Industrial, Universidad del Bío-Bío,
aplican específicamente a una empresa del sector Concepción, Chile. 2011. 229p.
industrial en cuestión, y no necesariamente tienen
una aplicación general. [5] Dueñas, M. X. Minería de datos espaciales en
búsqueda de la verdadera información. Ing. Univ.;
13(1); 137-156; 2009-01. Recuperado de: http://
IV. CONCLUSIONES www.scielo.org.co/pdf/inun/v13n1/v13n1a07.pdf
El modelo generado con la metodología de data [6] Gordillo, J. L.; Martínez, E. & Stephens, C.
mining permitió generar perfiles de clientes Develando estrategias de mercado: minería de datos
potencialmente fugables para la empresa, aplicada al análisis de mercados financieros. Comp. y
estableciéndose números de conglomerados y Sist.; 16(2); 221-231; 2012-06. Recuperado de: http://
porcentajes de representación de estos últimos www.scielo.org.mx/pdf/cys/v16n2/v16n2a8.pdf
para las plazas de Concepción y Temuco y con
esta información, la empresa podrá tener distintos [7] Molina, S. Aplicación de técnicas de minería de
perfiles de conglomerados en donde a cada uno datos para predicción del churn de clientes en una
de ellos se le podrá asignar un nivel de riesgo, lo empresa de telecomunicaciones. Tesis de maestría,
que ayudará a tomar decisiones de marketing y/o Escuela de Ingeniería de la Pontificia Católica de
planes de acción para disminuir la tasa de fuga de Chile. 2009. 114p.
clientes a lo largo del tiempo.
[8] Barrientos, F. & Ríos, S. Aplicación de minería
Utilizando regresión logística multivariante de datos para predecir fuga de clientes en la industria
permitió identificar los factores de riesgo que de Telecomunicaciones. Revista Ingeniería
influyen en la fuga de servicios para cada plaza Industrial, Volumen XXVII, Septiembre, 2013.
y de esta forma se establece la probabilidad de
fuga de los clientes actuales, como por ejemplo, [9] Weber, R. & Miranda, J. Caso de Estudio,
los que cumplan con los perfiles o patrones de Sistemas de predicción de fugas de clientes.
fuga realizado en análisis de agrupaciones, lo que Instituto Sistemas Complejos de Ingeniería,
permitiría ser aún más exacto en la aplicación de Universidad de Chile. 2010. 6p.
107
[10] Athanassopoulos, A. D. Customer satisfaction Operational Research 197(1). 2009. pp 402-411.

cues to support market segmentation and explain [14] De la Garza, J.; Morales, B. & González, B.
switching behavior. Journal of business research, Análisis Estadístico Multivariable. Ed. Mc Graw
47(3). 2000. pp 191-207. Hill, edición 1, 2012. ISBN 9786071508171
[11] Ganesh, J.; Mark A. & Reynolds, K. E. [15] Pérez, C. Técnicas estadísticas con SPSS 12.
Understanding the customer base of service Madrid. Pearson Prentice Hall. 2008. 802p.
providers: an examination of the differences
between switchers and stayers." Journal of [16] Hair J.; Anderson, R.; Tatham, R. & Black, W.
marketing 64(3). 2000. pp 65-87. Análisis Multivariante. España, Pearson Education.
2007. 799p.
[12] Reichheld, F. & Sasser, E. J. Zero defections:
quality comes to services. Harvard business review [17] Marcano, Y.J. & Talavera, R. Minería de Datos
68(5). 1989. pp 105-111. como soporte a la toma de decisiones empresariales.
Opcion; 23(52); 104-118; 2007-01. Recuperado de:
[13] Glady, N.; Bar. & Croux, C. Modeling churn http://www.scielo.org.ve/scielo.php?pid=S1012-
using customer lifetime value. European Journal of 15872007000100008&script=sci_arttext
108
RESUMEN BIOGRÁFICO
Arnaldo Jélvez Caamaño

Ingeniero Forestal, M.Sc., Ph.D. Marketing.
Académico Departamento de Ingeniería Industrial
Universidad del Bío-Bío
Fono: 56 41 3111385 – Fax: 56 41 3111040
Email: ajelvez@ubiobio.cl
Mauricio Moreno Echeverría

Ingeniero Civil Industrial Mención Gestión, Diploma en Gestión de Procesos
Logísticos
Ingeniero Planificador
Masonite Chile S.A.
Ruta 5, Cabrero, Chile
Fono: +432-411277
E-mail: mauricio.enrique@gmail.com; mmoreno@masonite.cl
Víctor Ovalle Retamal

Ingeniero Civil Industrial Mención Gestión.
Sub Gerente Comercial
Distribuidora Loncomilla Ltda.
Avenida Chorrillos # 1107, San Javier, Chile.
Teléfono: +56-73-2-323338-2323345
Email: viovalleretamal@gmail.com; vovalle@d-loncomilla.cl
Carlos Torres Navarro

Ingeniero Civil Industrial, Magister en Gestión (C)
Director Programa de Diplomado en Ingeniería Industrial
Fono: 56 41 3111395 – Fax: 56 41 3111040
Email:ctorres@ubiobio.cl
Fredy Troncoso Espinosa

Ingeniero Civil Industrial
Doctor (C) en Sistemas de Ingeniería, Universidad de Chile.
Fono: 56 41 3111593 – Fax: 56 41 3111040
Email:ftroncos@ubiobio.cl
109

Paper Minería de Datos 2015-Jélvez Et Al.

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Paper Minería de Datos 2015-Jélvez Et Al.

Hochgeladen von

Copyright:

Verfügbare Formate

MODELO PREDICTIVO DE FUGA DE CLIENTES

UTILIZANDO MINERÍA DE DATOS PARA UNA EMPRESA

(Recibido 05/08/14 - Aceptado 15/10/14)

PREDICTIVE MODEL OF LEAK OF CUSTOMERS USING DATA

100 UNIVERSIDAD, CIENCIA y TECNOLOGÍA Vol. 18, Nº 72, Septiembre 2014

INTRODUCCIÓN productos contratados por clientes, datos

efectiva de estos clientes permite centrar en II. METODOLOGÍA

El Análisis de agrupaciones, es una técnica estadística

En el siguiente apartado se presenta la Se propusieron veinte variables importantes para

Tabla I: Variables utilizadas en la investigación de Análisis de grupos

Figura 1: Participación de individuos por conglomerado

2. Regresión Logística Multivariante significativamente sobre la variable dependiente)

De las pruebas de independencia, para el caso

3. Modelo de Regresión Logística Multivariante

Por otra parte, como se muestra en la Tabla II, el

Tabla IV: Validación del Modelo de RLM con tres niveles

Abril Mayo Junio

[4] Moreno, M. & Ovalle, V. Aplicación de un

[10] Athanassopoulos, A. D. Customer satisfaction Operational Research 197(1). 2009. pp 402-411.

Arnaldo Jélvez Caamaño

Mauricio Moreno Echeverría

Víctor Ovalle Retamal

Carlos Torres Navarro

Fredy Troncoso Espinosa

Das könnte Ihnen auch gefallen