PFC-Santi Conducta Del Consumidor PDF

UNIVERSIDAD POLITCNICA DE MADRID
FACULTAD DE INFORMTICA
Proyecto fin de carrera
ICC+: DataMining aplicado al

Marketing y Comportamiento de
Consumo
AUTOR: SANTIAGO GONZLEZ TORTOSA

TUTOR: VCTOR ROBLES FORCADA
OSCAR CUBO MEDINA
MADRID, OCTUBRE 2005

El futuro pertenece a quienes
hacen realidad sus sueos
A las dos mujeres que ms quiero,

mi madre y Carol.
S I N O P S I S
Sinopsis
ICC+ es una herramienta para el Marketing Inteligente, destinado a departamentos
de marketing de empresas que comercializan productos que van dirigidos al consumidor. Su
contenido es informacin que aporta un alto nivel de conocimiento para decidir clientes, a
quin y dnde dirigir las actividades, dnde abrir puntos de venta, etc.
El desarrollo de esta herramienta comprende un diseo, utilizando la metodologa de

minera de datos CRISP-DM, y una implementacin, desarrollada bajo aplicaciones como
puedan ser Clementine o R-Project.
La herramienta ICC+ est comprendida principalmente por tres niveles de informa-

cin:
ndices: Valor que una determinada rea censal adopta respecto a la media
nacional. Podemos apreciar dos tipos de ndices, econmicos, y de consumo.
Propensiones: Valores que expresan la probabilidad que tienen determina-

das familias situadas en un rea censal respecto de una serie de variables es-
pecficas.
Tipologas: ICC+ realiza una clasificacin de las familias en perfiles, utili-

zando diferentes enfoques analticos. La informacin permite disponer de
una caracterizacin de la misma, o bien una estructura de diferentes grupos.
-i-
A G R A D E C I M I E N T O S
Agradecimientos
Durante toda mi carrera como ingeniero, han estado muchas personas a m alrededor,
animndome y prestndome todo su apoyo. Es por ello que, en este proyecto, quisiera trans-
mitir mi ms sincero agradecimiento a todas ellas.
En primer lugar, recordar a mi madre, Mariluz, que descanse en paz. Quiero agrade-
cerle tantas cosas que no s por donde empezar. He aprendido muchas cosas de ella, pero si
algo tengo que destacar, es la fuerza de voluntad y las ganas de vivir. Desde el da que lo
aprend, observo la vida con diferente perspectiva, hasta el punto de llegar a creer que todo
lo que uno se proponga, puede llegar a conseguirlo. Por ello y por ms cosas, gracias por
todo madre.
Realmente, si a alguien debo haber terminado la carrera, y con ello este proyecto, es
a Carol, mi novia. Sin ella, mi vida no tendra ningn sentido. Gracias, de todo corazn, por
tu apoyo, tu confianza, tu simpata, tu sinceridad, tu preocupacin, tu aprecio, tu cario, tu
sonrisa, en todo momento. En definitiva, mil gracias por todo Carol.
Quiero agradecer a mi familia el apoyo recibido en todo momento. Han sido com-
prensibles, tanto en los estudios como en el trabajo, y me han facilitado todo lo necesario pa-
ra poder haber hecho realidad mi sueo desde pequeo, ser ingeniero informtico. Gracias
por estar ah en los buenos y malos momentos de mi vida.
Especial mencin a todos los miembros del grupo DaME (Javier Segovia, Ernestina,
Vctor, Oscar, Alex, etc.), por su trabajo, confianza, apoyo y colaboracin, pero sobre todo,
por su compaerismo y amistad. Y, claro est, agradecer a los compaeros del laboratorio de
Sistemas Operativos, especialmente a Ramn, el aguantarme todos estos das en los que
hemos estado haciendo el proyecto.
Tambin quiero agradecer a todos los miembros del Departamento de Arquitectura y

Tecnologa de Sistemas Informticos el apoyo y la confianza depositada en m, sin los cuales
no habra podido llevar a cabo este proyecto. Gracias especialmente a Vctor, mi tutor, quien
me ofreci la posibilidad de trabajar en el Laboratorio de Sistemas Operativos, y de realizar
este proyecto. Tambin quisiera destacar a Fernando y Chema, por su gran ayuda y amabili-
dad en todo momento.
- iii -
A G R A D E C I M I E N T O S
Como olvidar a mis compaeros y amigos del grupo ISYS (Victors, Mamen, San-
dra, Nuria, Juanjo, Alex, etc.) a quienes agradezco su nimo, consejo, confianza y amistad.
Os tendr siempre en mi recuerdo.
No debo olvidar a mis compaeros de colegio (Alfonso, Javier, Juan, etc.). Gracias
por la amistad que, despus de tantos aos, permanecemos teniendo. Gracias por todos los
sabios consejos y nimos que me habis estado dando en el transcurso del tiempo.
Puede que me olvide de muchos nombres y lo lamento. Pero todos saben dnde
guardo aquel momento de vida que compart con ellos, que me acompaar el resto de mi
vida, sin borrarse de mis recuerdos.
C O N T E N I D O S
Contenidos
SINOPSIS ....................................................................................................... I
AGRADECIMIENTOS .................................................................................. III
CONTENIDOS ............................................................................................... V
ndice de figuras ................................................................................................................................. vii
ndice de tablas.................................................................................................................................. viii
1. INTRODUCCIN ..................................................................................... 11
1.1. MDS Boole e ICC+ ...................................................................................................................... 11
1.2. Arquitectura de ICC+................................................................................................................. 13
1.3. Niveles de Informacin ............................................................................................................... 14

1.3.1. ndices.................................................................................................................................... 14
1.3.2. Tipologas .............................................................................................................................. 16
1.3.3. Propensiones .......................................................................................................................... 17
1.4. Objetivos ...................................................................................................................................... 18
1.5. Contenidos ................................................................................................................................... 18
2. ESTADO DEL ARTE ............................................................................... 23
2.1. Mineria de Datos ......................................................................................................................... 23

2.1.1. Alcance .................................................................................................................................. 25
2.1.2. Fundamentos.......................................................................................................................... 25
2.1.3. Generacin de Modelos ......................................................................................................... 26
2.1.4. Ciclo CRISP-DM................................................................................................................... 27
2.2. Algoritmos Heursticos ............................................................................................................... 29

2.2.1. Bsqueda Local...................................................................................................................... 29
2.2.2. Recocido Simulado ................................................................................................................ 30
2.2.3. Algoritmos Genticos ............................................................................................................ 33
2.3. Herramientas ............................................................................................................................... 42
-v-
C O N T E N I D O S
2.3.1. Clementine..............................................................................................................................43
2.3.2. R Project .................................................................................................................................44
2.3.3. Lenguaje C#............................................................................................................................46
2.3.4. PostGres..................................................................................................................................48
3. PREPROCESO DE DATOS.....................................................................51
3.1. Censo de Poblacin y Viviendas 2001.........................................................................................51
3.2. Encuesta Continua de Presupuesto Familiares (ECPF) ...........................................................53
3.3. Carga de Datos del Censo............................................................................................................54
3.4. Transformacin de las Variables ................................................................................................55

3.4.1. Variables demogrficas comunes ...........................................................................................56
3.4.2. ndices derivados de la ECPF .................................................................................................62
4. METODOLOGA DE AGRUPACIN .......................................................67
4.1. Variables de inters......................................................................................................................67
4.2. Algoritmos de Optimizacin........................................................................................................70

4.2.1. Algoritmo Gentico ................................................................................................................71
4.2.2. Bsqueda Local ......................................................................................................................72
4.2.3. Simulated Annealing ..............................................................................................................72
4.2.4. Comparativa............................................................................................................................73
4.3. Clculo de ndices ........................................................................................................................75

4.3.1. Entrenamiento de modelos......................................................................................................76
4.3.2. Estimacin de ndices .............................................................................................................77
4.3.3. Validacin de resultados.........................................................................................................78
5. GENERACIN DE TIPOLOGAS Y PROPENSIONES ...........................83
5.1. Generacin de Tipologas ............................................................................................................83

5.1.1. Tipologas de ciclo de vida familiar........................................................................................84
5.1.2. Tipologas econmicas ...........................................................................................................84
5.1.3. Tipologas de gasto .................................................................................................................87
5.1.4. Proyeccin de tipologas en el Censo .....................................................................................91
5.2. Clculo de Propensiones ..............................................................................................................91

5.2.1. Propensin de hipotecas..........................................................................................................91
5.2.2. Propensin de tenencia de segunda vivienda..........................................................................92
5.2.3. Propensin de posesin de segundo vehculo .........................................................................92
- vi -
C O N T E N I D O S
5.2.4. Propensin de compra de gama de automvil........................................................................ 93
6. CONCLUSIONES Y LNEAS FUTURAS ................................................ 97
6.1. Conclusiones ................................................................................................................................ 97

6.1.1. Documentacin ...................................................................................................................... 98
6.1.2. Conocimientos ....................................................................................................................... 99
6.1.3. Dificultades en el desarrollo ................................................................................................ 100
6.2. Lneas Futuras........................................................................................................................... 101
7. BIBLIOGRAFA ..................................................................................... 103
TRANSFORMACIN DE VARIABLES..................................................... 109
ndice de figuras
Figura 2.1 Fases del modelo de proceso CRISP-DM ........................................................... 28
Figura 2.2 Funcin de Enfriamiento ..................................................................................... 32
Figura 2.3 Cruce en un punto................................................................................................ 36
Figura 2.4 Cruce en dos puntos ............................................................................................ 36
Figura 2.5 Cruce uniforme.................................................................................................... 36
Figura 2.6 Cruce aritmtico .................................................................................................. 37
Figura 2.7 Inversin de genes ............................................................................................... 37
Figura 2.8 Cambio de orden ................................................................................................. 37
Figura 2.9 Modificacin de genes......................................................................................... 38
Figura 2.10 Seleccin por la regla de la ruleta...................................................................... 40
Figura 2.11 Mtodo del Ranking .......................................................................................... 41
Figura 2.12 Arquitectura de Clementine............................................................................... 43
Figura 2.13 Ejemplo de anlisis con Clementine.................................................................. 44
Figura 2.14 Una visin esquemtica del funcionamiento de R............................................. 45
Figura 2.15 Ejemplo de resolucin grfica de un anlisis en R............................................ 46
Figura 4.1 Factor de enfriamiento......................................................................................... 73
Figura 4.2 Condicin de evaluacin para Recocido Simulado ............................................. 73
Figura 4.3 50 municipios con mayor poblacin de la Comunidad de Madrid...................... 79
Figura 4.4 50 municipios con mayor poblacin del Pas Vasco ........................................... 80
Figura 4.5 50 municipios con mayor poblacin de Asturias................................................. 80
Figura 5.1 Tipologas Econmicas (Riqueza / ValorVivienda)............................................ 85
Figura 5.2 Histograma asociado a la variable Valor Vivienda ............................................. 86
Figura 5.3 Histograma asociado a la variable Riqueza......................................................... 86
- vii -
C O N T E N I D O S
Figura 5.4 Histograma asociado a la variable Gasto .............................................................86

Figura 5.5 Distribucin de tipos de gasto con escasa representatividad ...............................88
Figura 5.6 Tipologas de Gasto (OcioCultura / Energa) ...................................................... 89
Figura 5.7 Histograma de la variable OcioCultura................................................................ 90
Figura 5.8 Histograma de la variable Energa....................................................................... 90
Figura 5.9 Histograma de la variable Telecomunicaciones...................................................90
ndice de tablas
Tabla 4.1 Comparativa entre algoritmos de optimizacin..................................................... 74
Tabla 4.2 Comunidad de Madrid........................................................................................... 79
Tabla 4.3 Pas Vasco ............................................................................................................. 80
Tabla 4.4 Asturias.................................................................................................................. 81
- viii -
Parte I
Introduccin
1 . I N T R O D U C C I N
1
Captulo
1. Introduccin
El proyecto surge, en la empresa MDS Boole, por la necesidad de explorar y des-
arrollar el conocimiento individual de los consumidores, el cual, se ha convertido en uno de
los principales objetivos en la mayora de las empresas que desean orientar sus actividades
de marketing de forma ms eficaz y rentable.
La falta de informacin sobre nuestros propios clientes, y sobre los consumidores en

general, es un importante obstculo que impide saber ms acerca de los potenciales consu-
midores a nivel individual. En el mejor de los casos, aquellas empresas que desarrollan sus
actividades directamente con el consumidor, disponen de una informacin transaccional muy
importante pero, en la mayora de los casos, desconocen los aspectos descriptivos de cmo
son sus clientes. Por el contrario, las empresas que desarrollan sus actividades a travs de un
canal de distribucin sobre el que no tienen control directo, la transaccin es annima y el
conocimiento sobre el transaccional de los clientes a nivel individual es inexistente.
Se plante, pues, desarrollar una herramienta (denominada ICC+), la cual, tiene por
objeto el proporcionar colas de informacin que permitan, por un lado, enriquecer la infor-
macin que dispone la empresa acerca de sus clientes, y por otro, proporcionar datos a nivel
microgeogrfico sobre los perfiles y comportamiento de consumo de la poblacin espaola.
1.1. MDS Boole e ICC+
MDS es una empresa de servicios de Marketing, encargada de ayudar a compaas y

empresas a obtener mejores resultados en sus departamentos de marketing. MDS posee tres
filiales, una de las cuales se localiza en Madrid, denominada MDS Boole. sta ltima ha so-
licitado el desarrollo del proyecto ICC+ a partir de un documento descriptivo del mismo.
ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo - 11 -

ICC+ [1] es una herramienta para el Marketing Inteligente, destinado a departamen-

tos de marketing de empresas que comercializan con productos que van dirigidos al consu-
midor. Su contenido es informacin que le aporta un alto nivel de conocimiento para decidir
a quien y donde dirigir las actividades, donde abrir puntos de venta, etc.
La informacin que facilita ICC + est basada en los principios de la demografa, es

decir, los individuos que viven en un mismo entorno tienen caractersticas y comportamien-
tos similares. Con ello, se deduce que un individuo por el hecho de vivir en una determinada
microrea geogrfica se le puede asociar diferentes perfiles de consumidor, patrones y com-
portamientos de consumo.
La informacin de ICC+ est referida a nivel de reas censales, y por tanto existe in-
formacin para cada una de las aproximadamente 34.000 reas censales en las que est divi-
dida Espaa. A partir de esta unidad geogrfica es posible realizar diferentes tipos de agrega-
ciones basadas en distintos criterios aunque uno de los ms usados sea el de proximidad.
Un rea censal tiene como caractersticas destacables:
Est formada, por trmino medio, por 400 familias

Representa la mnima unidad de anlisis con validez estadstica del INE.
Es un rea geogrfica estndar muy utilizado y extendido entre las empresas
para la explotacin de la informacin a nivel microgeogrficos (ej.: planos
digitales).
La direccin postal tiene asociada un rea censal especfica, lo que permite
asociar informacin de ICC+ de forma individual a registros de datos slo
partiendo de la direccin postal.
Tiene una composicin muy homognea, lo que permite aplicar los princi-
pios de demografa con mayor precisin.
Al utilizar datos agregados no nominales no le afecta la LOPD (Ley Orgni-
ca de Proteccin de Datos).
- 12 - ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo

1.2. Arquitectura de ICC+
La informacin necesaria para realizar el producto ICC+ se obtiene a partir de dos

conjuntos diferentes de datos:
Censo de Poblacin y Viviendas, con informacin demogrfica de las sec-
ciones censales (grupos de 500 familias) actualizada con una frecuencia de
10 aos
Encuesta Continua de Presupuestos Familiares (ECPF), contiene informa-
cin de consumo de una muestra de, aproximadamente, 9000 familias.
A partir de estos conjuntos de datos es necesario estimar los cuatro niveles de infor-
macin, los cuales son:
Valores Demogrficos: obtenidos directamente de los datos originales
ndices Econmicos
Tipologas
Propensiones
As pues, siguiendo el ciclo de vida CRISP-DM (que ms adelante se comentar),

podemos describir la herramienta ICC+ como un conjunto de 4 procesos conectados entre s,
los cuales son:
Preproceso de Datos
Agrupacin de Datos
Clculo de ndices
Clculo de otros niveles de Informacin
El punto clave del proyecto es obtener una estimacin de los ndices para todas las
secciones censales. Para ello, se parte de los valores de la ECPF (transformados en ndices) y
se proyectan sobre el censo mediante modelos.
No obstante, el primer inconveniente encontrado es la diferencia de los datos, es de-

cir, los datos del Censo estn representados a nivel de seccin censal, y los datos de la ECPF
estn representados a nivel familiar.

Por lo que, primeramente debemos procesar dichos datos, agrupar las familias por
seccin censal para, ms adelante, realizar el calculo de ndices a nivel de seccin censal. Pa-
ra ello, necesitamos partir de datos que sean comunes entre el Censo de Poblacin y la
ECPF.
Utilizando los datos originales procesados, los ndices estimados, y otra informacin
derivada (calculados al procesar los datos) es posible obtener el resto de los niveles de in-
formacin necesarios: propensiones y tipologas.
1.3. Niveles de Informacin
Para realizar el proyecto ICC+, es necesario obtener distintos niveles de informacin

[1], ya que proporcionan bastante conocimiento sobre los consumidores. Estos niveles son
los siguientes:
ndices
Tipologas
Propensiones
1.3.1. ndices
Un ndice es el valor que una determinada rea censal adopta respecto a la media na-
cional y que est disponible para las siguientes variables de informacin:
ndices Econmicos: los ndices econmicos son estimaciones realizadas para

cada rea censal en base a las caractersticas de la poblacin y de su entorno.
Los ndices econmicos necesarios son los siguientes:
o Renta: Indica la renta media familiar disponible anual (renta moneta-

ria) por rea censal, lo que representa flujos de entrada de dinero para
la familia procedente de las diferentes fuentes generadoras de ingre-
sos.
o Capacidad de Gasto: Indica el consumo o gasto medio anual realizado

por las familias por rea censal y que representa flujos de salida de di-
nero. Este indicador esta formado por las diferentes partidas o concep-
tos de gastos que recoge la Encuesta Continua de Presupuestos Fami-
liares del INE (ECPF).
o Endeudamiento: Indica la dificultad que las familias tienen para llegar

a fin de mes. Se calcula como la diferencia (siempre negativa) de los
flujos monetarios entrantes y salientes (ingresos y gastos, respectiva-
mente).
o Ahorro: Al contrario que el endeudamiento, indica la facilidad que

tienes las familias para llegar a fin de mes. Se calcula como la diferen-
cia entre ingresos y gastos.
o Hipoteca (valor no estimado): Indica la proporcin respecto a la media

nacional de viviendas con deudas pendientes de pago respecto del to-
tal de las viviendas de un rea censal. Se obtiene por observacin dire-
cta de los datos del Censo del INE (viviendas con pagos pendientes).
o Valor de la Vivienda: Muestra un ndice, sobre la media nacional, del

valor medio imputable a una vivienda en alquiler o en propiedad exis-
tente en una determinada rea censal. Resulta de imputar el valor real
de alquiler o el coste de oportunidad de una vivienda en propiedad.
o Riqueza: Es la agregacin de la renta familiar y el valor de la vivien-

da. Indica el nivel de riqueza medio familiar por rea censal.
ndices de Consumo: Estos indicadores muestran el nivel de gasto para deter-

minados tipos de consumo realizados por trmino medio las familias espao-
las.
Las diferentes partidas de gasto utilizadas para construir los ndices de consu-
mo se proporcionan siguiendo la clasificacin elaborada por el INE. Esta clasi-
ficacin se apoya en la utilizada en la OSCE para las Encuestas de Presupues-
tos Familiares de los hogares, que a su vez est basada en la clasificacin

PROCOME a 2 dgitos del Sistema Europeo de Cuentas Econmicas Integra-

das (SEC). En dicha nomenclatura, cada partida de gasto aparece asociada, ex-
cepto en casos excepcionales, a la actividad que lo produce.
1.3.2. Tipologas
ICC+ realiza una clasificacin de las familias en perfiles utilizando diferentes enfo-
ques analticos. La informacin que proporciona permite, para cada rea censal, disponer de
una caracterizacin (distribucin en cada uno de los grupos tipolgicos detectados) de la
misma o bien una estructura de diferentes grupos. Las diferentes tipologas a obtener son las
siguientes:
Tipologas econmicas: Realiza una clasificacin de las familias en funcin de sus

datos econmicos (renta, gasto, ahorro, deuda, valor vivienda, etc.). El objetivo es
clasificar las familias en grupos tipolgicos de comportamiento econmico (caracte-
rizacin y grupos tipolgicos existentes en cada rea censal).
Tipologas familiares: Muestra para cada rea censal la estructura de tipologas de

las diferentes familias (generadas a partir de la ECPF).
Tipologas de distribucin del gasto: Muestra las distintas tipologas de distribucin

del gasto de cada rea censal.
Tipologas de consumidores: Clasifica las reas censales en funcin de su grado de

similitud o parecido en cuanto a diferentes grupos de variables discriminantes y re-
presentativas del entorno.
Cada una de las tipologas anteriores se generan a partir de un conjunto de variables

escogidas segn varios factores y objetivos:
o Descartar variables que estn altamente correlacionadas, seleccionando ni-
camente aquellas que se consideren altamente predictivas.
o Las variables debern correlacionarse bien con el comportamiento del con-
sumidor.

o Las variables debern tener el suficiente tamao muestral para ser estadsti-
camente vlidas.
o Las variables no deben estar fuertemente concentradas en un pequeo nme-
ro de reas geogrficas.
o Algoritmos de proximidad de las secciones censales (ej.: el distrito munici-
pal que es el siguiente nivel de agregacin de las secciones censales)
1.3.3. Propensiones
Las propensiones expresan la probabilidad que tienen determinadas familias, situa-

das en un rea censal, respecto a una serie de criterios::
Propensin Hipotecas: Indica la probabilidad de que las familias de una de-

terminada rea censal tengan la vivienda hipotecada.
Propensin posesin Segunda Vivienda: Indica la probabilidad de posesin

de una segunda vivienda por parte de las familias que residen en una deter-
minada rea censal. Adicionalmente, en el caso de disponer de esta segunda
vivienda, se dispone de informacin de:
o Lugar de posesin: Lugares ms probables de posesin, clasificado

por provincias.
o Tiempo de uso: Muestra el tiempo medio de uso de la segunda vi-

vienda.
Propensin de posesin de 2 o ms coches: Expresa la probabilidad de que

las familias de una seccin censal dispongan de ms de un vehculo dentro
del hogar.
Propensin de compra de modelos de coches (valor estimado): Indica la

probabilidad de una familia situada en una determinada rea censal de com-
pra/posesin de los diferentes segmentos de coches.

1.4. Objetivos
Se trata, pues, de aplicar el proceso CRISP-DM al anlisis de los datos publicados
por el UNE para la creacin del producto ICC+. Este objetivo supone los siguientes subobje-
tivos:
1. Quines son mis clientes y dnde puedo encontrar otros similares?
2. Cules de mis mejores clientes pueden dejar de serlo?
3. Qu productos no compran mis clientes y podran comprar?
Las aplicaciones especficas de ICC+ se engloban en 4 grupos:
Anlisis de cartera de clientes: Analizar la composicin de la cartera de

clientes y determinar los grupos de clientes que son ms interesantes para
desarrollar actividades de fidelizacin, venta cruzada y/o riesgos de abando-
no/fuga.
Identificacin de potenciales clientes: Conociendo las caractersticas de los

clientes es posible saber dnde encontrar clientes potenciales, cuntos son y
cmo se distribuyen en cada uno de sus puntos de venta.
Respuestas a Campaas: Identificar los clientes y prospectos que mejor res-

ponden a cada tipo de accin promocional y de marketing directo.
Identificar la localizacin idnea de los puntos de venta: Conocer las reas

geogrficas ms beneficiosas y de mayor potencial para las compaas.
1.5. Contenidos
En primer lugar, se presenta la introduccin del proyecto, seguido del estado del arte,
el cual, se describir el proceso de Minera de Datos, su definicin, y herramientas que nos
permiten llevarla a cabo. Se describir el ciclo de vida CRISP-DM, y dos herramientas utili-
zadas en este proyecto, Clementine y R-Project.
Seguidamente, se describir el anlisis y preproceso de datos que comprende una

descripcin del origen de los datos, las operaciones de transformacin (agrupar, modificar

nombres, etc.) sobre dichos datos para generar un conjunto de datos til para las siguientes
fases.
Tras el preproceso de datos, se proceder a exponer la metodologa de agrupacin

utilizada para agrupar familias de la ECPF. Se presentarn las variables que son interesantes
para realizar la agrupacin y los algoritmos planteados para realizarla, con una comparativa
entre ellas. A continuacin, se realizar el clculo y proyeccin de todos los ndices solicita-
dos, a partir de los grupos generados por el algoritmo de agrupacin.
Una vez calculados y validados los ndices, se crearn las tipologas y propensiones
a partir del conjunto de datos inicial
Para finalizar, se expondrn las conclusiones, valoraciones y experiencia adquirida durante la

realizacin del proyecto.

Parte II
Estado del Arte

2 . E S T A D O D E L A R T E
2
Captulo
2. Estado del Arte

La primera fase en el desarrollo de un proyecto es estudiar y comprender las tecno-
logas existentes para, ms tarde, seleccionar las ms apropiadas. En este caso, es necesario
conocer qu es y para qu sirve la Minera de Datos [10], y el ciclo de vida estndar utilizado
en este tipo de proyectos (CRISP-DM) [12]. Tambin se describen los algoritmos heursticos
utilizados para realizar la agrupacin de familias de la ECPF. Por ltimo, se proporciona una
breve descripcin de las herramientas utilizadas en el transcurso del proyecto.
2.1. Mineria de Datos
La tecnologa disponible actualmente permite almacenar, transferir y gestionar in-

formacin crtica dentro de una organizacin. Sin embargo, si esta informacin no se trans-
forma en conocimiento til, carece de valor.
La minera de datos es el proceso de extraccin de informacin significativa de cual-

quier conjunto de datos. Las tcnicas de minera de datos revelarn tendencias y correlacio-
nes ocultas que permitan una mejor comprensin de los datos, esto es, generar conocimiento
til. Por lo tanto, la minera de datos es un proceso de soporte al usuario.
Esta tecnologa ayuda a las organizaciones a centrarse en la informacin ms signifi-

cativa contenida en sus bases de datos corporativas. Mediante esta informacin es posible
predecir nuevas perspectivas y situaciones futuras con mayor precisin, lo que facilita la to-
ma de decisiones y, empleada de forma apropiada, podra suponer una ventaja competitiva.
Los avances en la recoleccin de datos, el amplio uso de cdigos de barras y la au-

tomatizacin de muchos negocios, tanto privados como gubernamentales, han generado una

ingente cantidad de datos. El anlisis de este volumen de datos ha generado una necesidad
urgente de nuevas tcnicas y herramientas que puedan asistir en la transformacin automti-
ca e inteligente de toda esta informacin en conocimiento til.
Los avances en minera de datos y en el descubrimiento del conocimiento, han im-

pulsado varios campos de investigacin como la estadstica basada en tcnicas de lgica di-
fusa, bases de datos universales, mquinas que aprenden e inteligencia artificial, todos ellos
parte del creciente campo de minera de datos.
La minera de datos tiene una serie de ventajas:
Contribuye a facilitar la toma de decisiones tcticas y estratgicas proporcionando

un procedimiento automatizado para identificar informacin clave desde volmenes
de datos generados por procesos tradicionales y de e-Business.
Permite dar prioridad a decisiones y acciones.
Proporciona criterios que faciliten la toma de decisiones a los usuarios del negocio
que mejor entienden el problema y el entorno.
Habitualmente, genera modelos descriptivos.
Permite que relaciones ocultas e identificadas a travs del proceso de la minera de

datos sean expresadas como reglas de negocio o modelos predictivos.
Un sistema de minera de datos permite analizar factores de influencia en determina-

dos procesos, predecir o estimar variables o comportamientos futuros, segmentar o
agrupar tems similares, adems de obtener secuencias de eventos que provocan
comportamientos especficos.
La llegada de la minera de datos se considera como la ltima etapa de la introduc-

cin de mtodos cuantitativos, cientficos en el mundo del comercio, industria y ne-
gocios.

2.1.1. Alcance
Dados conjuntos de datos de suficiente tamao y calidad, la minera de datos puede

generar nuevas oportunidades al proporcionar las siguientes capacidades:
Prediccin automatizada de tendencias y comportamientos: La minera de datos au-

tomatiza el proceso de encontrar informacin predecible en cantidades de datos de
diverso tamao. Preguntas que tradicionalmente requeran un intenso anlisis ma-
nual, ahora pueden ser contestadas directa y rpidamente desde los datos.
Descubrimiento automatizado de modelos previamente desconocidos: Las herra-

mientas de minera de datos identifican modelos y relaciones ocultas en los datos
analizados. Cuando son implementadas en sistemas de procesamiento paralelo de al-
to rendimiento, pueden analizar bases de datos masivas en minutos.
2.1.2. Fundamentos
En la evolucin desde los datos a informacin, cada nuevo paso se basa en el previo.
Por ello, las tcnicas de minera de datos son el resultado de largos procesos de investigacin
y desarrollo. Esta evolucin comenz cuando los datos de negocios fueron almacenados por
primera vez en computadoras, continu con mejoras en el acceso a los datos y, ms recien-
temente, con mecanismos que permiten a los usuarios navegar a travs de los datos en tiem-
po real.
La minera de datos se sustenta en tres tecnologas que tienen suficiente madurez:

Recoleccin masiva de datos
Algoritmos de aprendizaje
Potentes computadoras con multiprocesadores
Estos componentes esenciales de la minera de datos han estado en desarrollo duran-

te dcadas en diferentes reas de investigacin: estadstica, inteligencia artificial y aprendiza-
je automtico.

Hoy, la madurez de estas tcnicas junto con los motores de bases de datos relaciona-
les de alto rendimiento, hacen que la aplicacin de estas tecnologas sea viable en los entor-
nos actuales.
Los sistemas de minera de datos suelen utilizar algoritmos procedentes de la inteli-

gencia artificial o modelos matemticos tales como:
Redes neuronales artificiales: modelos predecibles no-lineales que aprenden a travs

del entrenamiento y se asemejan a la estructura de una red neuronal biolgica.
rboles de decisin: estructuras en forma de rbol que representan conjuntos de de-

cisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de da-
tos.
Mtodo del vecino ms cercano: tcnica que clasifica cada registro en un conjunto
de datos basado en una combinacin de las clases de los k registros ms cercanos a
l en un conjunto de datos histricos.
Regla de induccin: extraccin de reglas if-then de datos basados en significado es-

tadstico.
Algoritmos heursticos: tcnicas de optimizacin que usan procesos como combina-

ciones genticas, mutaciones y seleccin natural en un diseo basado en los concep-
tos de evolucin.
Muchas de estas tcnicas han estado en desarrollo durante ms de una dcada en

herramientas de anlisis especializadas que trabajan con volmenes de datos relativamente
pequeos. Estas capacidades estn ahora evolucionando para integrarse directamente con
herramientas OLAP y de Data Warehousing.
2.1.3. Generacin de Modelos
El modelado es la tcnica usada en minera de datos para construir un modelo capaz

de explicar una situacin en la que se conoce la respuesta para, posteriormente, aplicarlo en
aquellas situaciones en las que dicha respuesta es desconocida.
Para ello, las computadoras se cargan con mucha informacin acerca de una variedad
de situaciones donde la respuesta es conocida a priori (algoritmos de aprendizaje supervisa-
do). Posteriormente, los algoritmos de aprendizaje investigarn esta informacin, distin-
guiendo entre las distintas caractersticas, y construirn un modelo. Una vez este modelo ha
sido construido, puede ser usado en situaciones similares en las que la respuesta no es desco-
nocida.
Para estimar la precisin del modelo se aplican tcnicas de validacin. Una de las
ms empleadas consiste en excluir un conjunto de las situaciones conocidas en el entrena-
miento del modelo y aplicarles el modelo resultante. De esta forma es posible comparar la
respuesta real conocida con la generada por el modelo.
2.1.4. Ciclo CRISP-DM
CRISP-DM (CRoss Industry Standard Process for DataMining) surgi por iniciativa
de Daimler Chrysler a finales de 1996 y tuvo xito al basarse en la experiencia prctica del
mundo real; de cmo los profesionales, tales como los mdicos, trabajaban en proyectos ba-
sados en la experiencia, para de este modo obtener mejores resultados.
CRISP-DM es una metodologa estndar para la realizacin de proyectos de minera

de datos que reduce el tiempo de recuperacin de la inversin realizada. El modelo de proce-
so proporciona una descripcin del ciclo de vida de un proyecto, conteniendo sus correspon-
dientes fases, tareas y las relaciones entre estas tareas. No es posible identificar a este nivel
de descripcin todas las relaciones, al existir stas probablemente entre todas las tareas exis-
tentes dependiendo de los objetivos, motivos, intereses de los usuarios y, por supuesto, de los
datos.
A continuacin, se muestra el ciclo de vida de un proyecto de minera de datos, con-

sistente en 6 fases cuya secuencia no es estricta sino dependiente del resultado de la ltima
fase llevada a cabo. El crculo externo simboliza la naturaleza cclica de la minera de datos y
las flechas pequeas indican las dependencias ms importantes y frecuentes entre fases.

Figura 2.1 Fases del modelo de proceso CRISP-DM
Comprensin del negocio Business Understanding: Esta fase inicial se centra en la

comprensin de los objetivos y requisitos del proyecto desde una perspectiva del
cliente final para, posteriormente, disear un plan preliminar que defina el problema
y permita la consecucin de los objetivos.
Comprensin de los datos Data Understanding: La fase de comprensin de los da-

tos comienza con una coleccin inicial de datos y lleva a cabo acciones para familia-
rizarse con ellos, medir su calidad, descubrir primeras ideas e, incluso, plantear hip-
tesis o subconjuntos de informacin que permitan descubrir tendencias ocultas.
Preparacin de datos Data Preparation: En la fase de preparacin de los datos, se

realizar una serie de transformaciones para obtener el conjunto final de datos que
alimentar los algoritmos usados para la generacin de modelos.
Modelado Modeling: En esta fase en la que se aplican diversos algoritmos a los da-
tos, calibrando sus parmetros con valores ptimos. Es muy habitual volver a la fase
anterior por tener algunas de estas tcnicas requisitos especficos sobre los datos o
por cambios en el plan inicial debido a la extraccin de nueva informacin durante
esta fase.
Evaluacin Evaluation: Al llegar a esta fase ya se tiene al menos un modelo vli-

do, desde el punto de vista del anlisis de datos. Antes de llegar a la fase final, se
evaluar en profundidad cada uno de los modelos revisando los pasos seguidos en su
construccin para verificar la consecucin de los objetivos y evitar que cualquier
omisin impida alcanzar la mejor decisin posible.
Implantacin Deployment: Fase de aplicacin de los modelos generados en un en-

torno de produccin normal, de tal forma que los resultados sean organizados y pre-
sentados de forma til para el cliente. Esta suele considerarse la ltima fase del pro-
yecto pero no es as, puesto que los datos obtenidos en esta fase pueden realimentar
nuevamente los modelos para mejorar las estimaciones realizadas.
2.2. Algoritmos Heursticos
Un algoritmo heurstico [6] es un procedimiento de bsqueda de soluciones cuasi-

ptimas, a un coste computacional razonable. Estos algoritmos no garantizan que las solu-
ciones alcanzadas sean ptimas ni de determinar a que distancia, de la solucin ptima, se
encuentran.
En este proyectos se han utilizado diversos algoritmos heursticos para generar la

agrupacin de familias de la ECPF: bsqueda local (Local Search), recocido simulado (Si-
mulated Annealing) y algoritmo gentico (Genetic Algorithm).
2.2.1. Bsqueda Local
Bsqueda local [7] [12] es la base de muchos de los mtodos usados en problemas de
optimizacin. Se puede ver como un proceso iterativo que empieza en una solucin y la me-
jora realizando modificaciones locales de forma aleatoria.
Bsicamente empieza con una solucin inicial y busca en su vecindad por una mejor
solucin. Si la encuentra, reemplaza su solucin actual por la nueva y continua con el proce-
so, hasta que no se pueda mejorar la solucin actual.

Procedimiento Bsqueda Local

s = genera una solucion inicial
mientras s no es optimo local hacer
s pertenece a N(s) con f(s) < f(s)
(solucin mejor dentro de la vecindad de s)
s <- s
finmientras
return s
fin
Claramente el diseo de la vecindad es crucial para la evolucin de ste, y de mu-

chos otros, algoritmos. La vecindad son todas las posibles soluciones que se consideran en
cada punto. El cmo se busca la vecindad y cul vecino se usa en el reemplazo a veces se
conoce como la regla de pivoteo (pivoting rule), que en general puede ser:
Seleccionar el mejor vecino de todos (best-improvement rule).

Seleccionar el primer vecino que mejora la solucin (first-improvement rule).
El algoritmo de Bsqueda Local tiene la ventaja de encontrar soluciones muy

rpidamente. Su principal desventaja es que queda atrapada fcilmente en mnimos
locales, su solucin final depende fuertemente de la solucin inicial y tiene un altsi-
mo componente aleatorio.
Este algoritmo es un mtodo no determinista, puesto que, dada una misma entrada,
no tiene por que devolver la misma salida.
2.2.2. Recocido Simulado
El algoritmo de Recocido Simulado (Simulated Annealing Algorithm) [12] pertenece

una clase de Algoritmos de bsqueda local (Local Search Algorithms) comnmente llamada
Algoritmos de Umbral (Threshold Algorithm). El Recocido Simulado resulta interesante en
el marco de la bsqueda local, puesto que tiene caractersticas que permiten hacer un anlisis
de la convergencia.
El mtodo del recocido se utiliza en la industria para obtener materiales ms resisten-

tes, o ms cristalinos, en general, para mejorar las cualidades de un material. El proceso con-

siste en calentar el material a muy alta temperatura. En esa situacin, los tomos adquieren
una distribucin azarosa dentro de la estructura del material y la energa del sistema es
mxima. Luego se hace descender la temperatura muy lentamente por etapas, dejando que en
cada una de esas etapas los tomos queden en equilibrio (es decir, que los tomos alcancen
una configuracin ptima para esa temperatura). Al final del proceso, los tomos forman una
estructura cristalina altamente regular, por lo que el material alcanza as una mxima resis-
tencia y la energa del sistema es mnima.
Emulando este mecanismo, el algoritmo se divide en etapas. A cada etapa le corres-

ponde una temperatura menor que la que tenia la etapa anterior (a esto hace referencia la
monotona: despus de cada etapa la temperatura baja, se enfra el sistema). Por lo tanto hace
falta un criterio de cambio de la temperatura (cuanto tiempo se espera en cada etapa para dar
lugar a que el sistema alcance su equilibrio trmico).
Los datos iniciales y parmetros necesarios, para poder inicializar el algoritmo, son
los siguientes:
Temperatura inicial (T0): La temperatura inicial T0 debe ser una temperatura que permita
casi (o todo) movimiento, es decir que la probabilidad de pasar del estado i al j sea muy
alta, sin importar la diferencia de calor. Esto es que el sistema tenga un alto grado de li-
bertad. En general se toma un valor T0 que se cree suficientemente alto y se observa la
primera etapa para verificar que el sistema tenga un grado de libertad y en funcin de es-
ta observacin se ajusta T0.
Solucin inicial (i0): En todas las versiones, el sistema debe ser derretido antes de im-
plementar el algoritmo. Esto es que la solucin factible inicial que llamamos i0 debera
ser una solucin tomada al azar del conjunto de soluciones factibles. En algunos proble-
mas esto puede hacerse utilizando pseudo-random numbers provistos por una maquina.
Pero en muchos casos ya es problemtico encontrar una solucin, por lo que es imposi-
ble tomar una al azar. En estos casos se implementa un algoritmo voraz, tipo Local
Search, para buscar una solucin factible y se toma esta como i0 (ejemplo de esto es el
TSP).
Funcin de Enfriamiento: A continuacin se presentan todas las posibilidades de factor

de enfriamiento, dependiendo del inters en la forma de enfriar.

Figura 2.2 Funcin de Enfriamiento

Temperatura Final (TN): Temperatura final a la que llegar el recocido simulado, una
vez enfriado al mximo.
Numero de iteraciones (N): Numero de iteraciones mximo a las que puede llegar el al-
goritmo antes de su finalizacin.
Criterio de Cambio de Temperatura: Para este criterio se usan los parmetros: nmero
de iteraciones que se est dispuesto a hacer en cada etapa (equivalente a la cantidad de
tiempo que vamos a esperar a que el sistema alcance su equilibrio trmico para una tem-
peratura) y cantidad de aceptaciones que se permiten hacer en cada etapa.
A medida que la temperatura disminuye se supone que al sistema le resulta mas difcil
alcanzar un equilibrio, ya que es mas dificultoso el movimiento. Por tanto, hay que espe-
rar mas tiempo, esto se traduce en aumentar el nmero de iteraciones por cada etapa.
Criterio de Parada: Es criterio por el cual, el algoritmo finaliza. Puede ser debido a dos
motivos: se llegue a la temperatura final, o bien el nmero de iteraciones se haya excedi-
do.
2.2.3. Algoritmos Genticos
Los Algoritmos Genticos (Genetic Algorithm) [8, 12] fueron introducidos por John
Holland en 1970, inspirndose en el proceso observado en la evolucin natural de los seres
vivos. Aunque se han aplicado a una amplia variedad de problemas, se ha demostrado que no
son mejores que cualquier otro mtodo de bsqueda de solucin (incluido el mtodo aleato-
rio) si no se les proporciona ninguna informacin inicial del problema.
Esencialmente, los elementos del algoritmo deben ser cuidadosamente elegidos para
cumplir las caractersticas de la solucin del problema.
Los algoritmos evolutivos basan parte de sus buenos resultados en el balance entre
una eficiente exploracin y una eficiente explotacin cuando se resuelve un problema dif-
cil. La exploracin se refiere a la capacidad de alcanzar y analizar diferentes partes del es-

pacio de bsqueda en la poblacin del algoritmo, mientras explotacin se refiere a la capaci-

dad de modificacin y combinacin de las soluciones subptimas.
La exploracin es til para evitar alcanzar slo ptimos locales mientras que la ex-
plotacin se usa para obtener el ptimo global una vez que se ha aproximado a l lo suficien-
te. En las etapas iniciales de la bsqueda, un algoritmo gentico debe mostrar una gran diver-
sidad, mientras que al final la diversidad debe disminuir para conseguir la mejor solucin po-
sible.
Para tratar de mejorar la velocidad de convergencia del algoritmo gentico se puede

utilizar la llamada Presin Selectiva, que es aquella que se ejerce cuando, bien en el proceso
de seleccin o en el proceso de aceptacin, se utiliza un mtodo basado en el fitness como
puede serlo el de la ruleta (probabilidad de seleccin dependiendo de la aptitud) o el torneo
(de un conjunto aleatorio, se selecciona el de mayor aptitud).
Es necesario ser cuidadoso con la presin ejercida, puesto que si se aplica tanto en la
seleccin como en la aceptacin estamos hablando de Doble Presin Selectiva. Si la presin
ejercida es excesiva puede derivar en Convergencia Prematura, el algoritmo converge a un
ptimo local no pudiendo salir de l porque todos los individuos de la poblacin estn muy
prximos a ste.
La estructura bsica de un algoritmo gentico es la siguiente:
Procedimiento Algoritmo Gentico

Leer Parmetros Necesarios;
Generar Poblacin inicial Pob(0);
Evaluar Poblacin Pob(0);
Mientras no ltima-generacin hacer
Generar una nueva poblacin Pob(t) a partir de la
poblacin anterior aplicando los operadores de
Seleccin,
Cruce y Mutacin;
Evaluar Pob(t);
FinMientras;
Devuelve el mejor individuo de la ltima poblacin;
fin

La poblacin inicial suele ser generada aleatoriamente. Sin embargo, ltimamente se

estn utilizando mtodos heursticos para generar soluciones iniciales de buena calidad. De
hecho, se suelen utilizar mecanismos hibridos, en el que se mezclan mtodos de bsqueda
local, para seleccionar la poblacin inicial (o mejorar la solucin final), con algoritmos gen-
ticos.
Los algoritmos genticos se han utilizado en la resolucin de problemas complica-

dos, como los problemas NP-duros, para el aprendizaje automtico y tambin para progra-
mas de evolucin sencillos. La ventaja de los AG radica en su paralelismo. Un algoritmo ge-
ntico viaja por el espacio de bsqueda utilizando varios individuos, lo que hace que les re-
sulte ms difcil quedarse estancados en ptimos locales que a otros mtodos.
Adems, dichos algoritmos son bastante sencillos de implementar. Una vez que ya se
ha implementado un algoritmo gentico bsico, tan slo es necesario que implementar el
nuevo cromosoma para resolver otro problema. Si se utiliza la misma codificacin, slo
habr que programar la nueva funcin de fitness. Sin embargo, para algunos problemas pue-
de ser bastante complicado escoger e implementar la codificacin adecuada o la funcin de
fitness correcta.
La desventaja que presentan los algoritmos genticos es el tiempo de computacin.

Los algoritmos genticos pueden resultar ms lentos que otros mtodos, si se evoluciona has-
ta que alcancen la solucin ptima, pero teniendo como es posible detener la ejecucin de en
base a otros criterios obteniendo una solucin bastante buena y que los ordenadores cada vez
son ms rpidos no supone una gran desventaja. Es importante tener en cuenta que los algo-
ritmos genticos no son mtodos completos, es decir, no es posible asegurar su convergencia
a la mejor solucin.
Los algoritmos genticos se implementan con las siguientes operaciones:
Operadores de cruce: Tratan de crear una generacin de individuos nuevos (offs-

pring) a partir de la informacin de sus ancestros. Aunque estos operadores parecen
corresponderse con la representacin basada en precedencia, realizando un estudio
ms minucioso se observa que su funcionamiento est influenciado por otros facto-

res. Existen cuatro tipos de operadores de cruce, en un punto, en dos puntos, unifor-
me y aritmtico.
o Cruce en un punto: Se copian los genes del primer padre hasta el punto de
corte y se rellena con el resto con genes del segundo padre. De esta forma,
se generan dos hijos, uno con cada parte. En algunas codificaciones es nece-
sario aplicar correcciones para comprobar la validez de la solucin.
11001011+11011111 = 11001111
(1 2 3 4 5 6 7 8 9) + (4 5 3 6 8 9 7 2 1) = (1 2 3 4 5 6 8 9 7)
Figura 2.3 Cruce en un punto
o Cruce en dos puntos: Se copian los genes del primer padre comprendidos
entre los dos puntos de cruce y se rellenan los que faltan con los del segundo
padre considerando la cadena de genes como cclica.
11001011 + 11011111 = 11011111

Figura 2.4 Cruce en dos puntos
o Cruce uniforme: Se escoge de forma aleatoria si el gen i-simo del hijo se

toma del primer o del segundo padre. Este cruce no se puede aplicar a repre-
sentaciones basadas en permutaciones.
11001011 + 11011101 = 11011111

Figura 2.5 Cruce uniforme

o Cruce aritmtico: Se realizan operaciones aritmticas con los genes de los

padres para resultar la codificacin gentica del hijo. Como en el caso ante-
rior, no puede aplicarse a la representacin basada en permutaciones.
11001011 + 11011111 = 11001001 (AND)

Figura 2.6 Cruce aritmtico
Operadores de Mutacin: Consiste en crear nuevos individuos mediante modifica-

ciones aleatorias a un individuo existente. Existen tres tipos bsicos de mutacin
o Inversin de genes: Se seleccionan uno o varios genes de forma aleatoria y
se invierte su valor. Se utiliza en representaciones de bits, cambiando 0s por
1s o viceversa
11001001 => 10001001

Figura 2.7 Inversin de genes
o Cambio de orden: Se seleccionan dos genes aleatoriamente y se intercam-

bian sus posiciones. Se utiliza en representaciones basadas en permutacio-
nes.
(1 2 3 4 5 6 8 9 7) => (1 8 3 4 5 6 2 9 7)
Figura 2.8 Cambio de orden
o Modificacin de genes: Se realizan pequeas modificaciones en los genes.

Por ejemplo, en una codificacin basada en nmeros reales se realizan su-
mas de pequeas diferencias positivas o negativas.

(1.29 5.68 2.86 4.11 5.55) => (1.29 5.68 2.73 4.22 5.55)
Figura 2.9 Modificacin de genes
Operadores de aceptacin: Despus de realizar el cruce y la mutacin de los indivi-

duos de la poblacin se decide si los hijos generados pasan a formar parte de la po-
blacin o son descartados. Existen varias tcnicas:
o Aceptacin total: Es el criterio ms comnmente utilizado, todos los hijos

generados son aceptados y pasan a formar parte de la nueva poblacin
o De mejora: Los hijos pasan a la nueva poblacin si son mejores que los in-
dividuos de la poblacin actual substituyendo a sus peores individuos.
o Por torneo 1: Se realiza una seleccin aleatoria dando mayor importancia a

los mejores.
Los parmetros de entrada que necesita un algoritmo gentico son los siguientes:
Probabilidad de Cruce: Indica con qu frecuencia se cruzarn los individuos. Si ste

es 0% , los hijos sern como los padres y slo sern alterados por la mutacin. Si s-
te es 100% todos los individuos nuevos sern creados mediante cruce de los padres
de la generacin previa. Cuanto ms se crucen los individuos se supone que los hijos
sern mejores. Sin embargo, es recomendable, por la naturaleza del algoritmo, que
algunos individuos pasen sin modificar a la siguiente generacin.
Probabilidad de Mutacin: Establece la probabilidad con la cual los individuos se-

rn mutados. Si ste porcentaje es 0% los individuos generados despus de aplicarse
el cruce no sufrirn ningn cambio por el contrario si es de 100% todos lo indivi-
duos de la poblacin sufrirn algn cambio o mutacin. La mutacin trata de impe-
dir que la bsqueda del gentico caiga en ptimos locales por eso es conveniente que
ocurra de vez en cuando. No es bueno, sin embargo, que la mutacin tenga una alta
1
Esta tcnica se describir con detalle en la pgina 41
probabilidad de ocurrencia, ya que la bsqueda del gentico pasa de ser "inteligente"

a bsqueda aleatoria
Tamao de la Poblacin: Establece cuntos individuos habr en cada una de las ge-
neraciones. Si el tamao de la poblacin es muy bajo, el algoritmo gentico tiene
poca diversidad y, por tanto, pocas posibilidades de evolucionar por el cruce (los in-
dividuos nuevos se parecern mucho a sus padres). Tampoco un tamao excesivo es
adecuado porque se llega a un punto en el que los resultados no mejoran por mucho
que se incremente el tamao de la poblacin. Lo ideal es, en funcin del problema y
la codificacin, establecer un lmite adecuado del tamao de la poblacin.
Numero de Generaciones: Con el paso de las generaciones la poblacin del gentico

evolucionar obteniendo cada vez mejores individuos. Conviene, al igual que con el
tamao de la poblacin, fijar un nmero de generaciones adecuado para conseguir el
resultado deseado.
Tamao del Individuo: Depender del nmero de elementos que constituyan una so-
lucin.
Como ya se ha visto los individuos se seleccionan para reproducirse, ahora bien el

problema es cmo seleccionar. De acuerdo con la teora de la evolucin de Darwin, slo los
mejores individuos se reproducen. Basndose en esto existen varios mtodos que son utiliza-
dos por los genticos, siendo los ms utilizados:
Seleccin por la regla de la ruleta: Los padres se seleccionan de acuerdo a su fitness.

Los individuos mejores (con mayor fitness) son los que tienen mayores posibilidades de
ser elegidos. Intuitivamente el proceso construye una ruleta o un "tarta" en la que cada
una de las porciones representa a un individuo. La porcin de tarta que le toca a cada in-
dividuo es proporcional a su fitness. As los individuos buenos se llevarn las mayores
porciones y al revs ocurrir con los peores. El siguiente ejemplo clarifica el proceso.

Figura 2.10 Seleccin por la regla de la ruleta
Ahora, al igual que en un casino se lanza a la ruleta una canica. En el lugar que pare di-
cha canica, ser un lugar ocupado por un cromosoma que ser elegido. Resulta claro
que los individuos con mayor fitness tienen la mayor probabilidad de ser elegidos.
Existe un algoritmo para realizar este proceso:
1. [Suma total] Calcular la suma total acumulada de los fitness de todos los in-
dividuos de la poblacin actual.
2. [Elegir un nmero aleatorio] Generar un nmero aleatorio entre 0 y la Suma
Total.
3. [Recorrer] Recorrer la poblacin acumulando nuevamente los fitness. Cuan-
do la suma que se lleve sea mayor o igual a r seleccionamos el individuo don-
de se vaya recorriendo.
Seleccin por Ranking: El anterior tipo de seleccin funciona mal cuando existan gran-
des diferencias entre los fitness de los individuos de la poblacin. Por ejemplo si un
cromosoma ocupa el 90% de la ruleta el resto de los cromosomas tienen muy pocas po-
sibilidades de ser elegidos. La seleccin por ranking da solucin a este problema.
Los individuos son ordenados de acuerdo a su ranking de fitness. De esta manera si te-
nemos n cromosomas el individuo con peor fitness se le asignar un 1 y el que tenga el
mejor fitness se le asignar la n
En las dos siguientes figuras se muestra cmo cambian las distribuciones de probabilida-
des antes y despus del ranking:

Situacin antes del Ranking (Ruleta)
Situacin despus del Ranking
Figura 2.11 Mtodo del Ranking
Ahora todos los cromosomas tienen la oportunidad de ser seleccionados. Sin embargo
este mtodo puede hacer que el gentico evolucione muy lentamente a la solucin, ya
que los mejores individuos no son elegidos para el cruce muchas ms veces que los peo-
res, lo que ralentiza el proceso de mejora.
Una variante de este es el muestreado estocstico universal, que trata de evitar que los
individuos con ms fitness copen la poblacin; en vez de dar la vuelta a una ruleta con
una ranura, da la vuelta a la ruleta con N ranuras, tantas como la poblacin; de esta for-
ma, la distribucin estadstica de descendientes en la nueva poblacin es ms parecida a
la real.
Seleccin por Torneo K/L: La seleccin por torneo consiste en seleccionar K individuos
de la poblacin aleatoriamente y, de estos K individuos, se eligen los L mejores (que ten-
gan mejor fitness). Este proceso se repite todas las veces necesarias hasta formar la nue-
va poblacin.
Este es uno de los mtodos de seleccin ms utilizados actualmente. Se utiliza tambin

en algunos algoritmos en el momento de la aceptacin.
Elitismo: Este concepto expresa la idea de que los mejores individuos de la actual gene-
racin pasen sin modificar a la siguiente generacin si los descendientes de esta nueva

generacin no los superan. De esta forma no se perdern los mejores individuos entre
generaciones. Al resto de la poblacin se le aplica la reproduccin normalmente.
Por otra parte existen algoritmos genticos llamados elitistas debido a que convergen
muy rpidamente a la solucin. Esto se debe al tipo de problema que se trate.
2.3. Herramientas
En el desarrollo del proyecto, se han utilizado distintos tipos de herramientas para:
Realizar Minera de Datos
Desarrollar aplicaciones
Generar hojas de clculo
Almacenar de grandes cantidades de informacin.
En el mercado existen numerosas herramientas que facilitan la realizacin de Mine-

ra de Datos, como puedan ser Clementine, Weka, FiMiner, R, etc. En este trabajo, se han
usado R para implementar los algoritmos de agrupacin, y Clementine para realizar el resto
del proceso.
Durante el proceso se ha precisado realizar algunas pequeas aplicaciones de utilidad

en ciertas fases. Para el desarrollo de estas aplicaciones, se ha optado por el lenguaje C# de-
bido a las facilidades que proporciona sus bibliotecas para programar aplicaciones mediana-
mente complejas de forma rpida.
Para la realizacin de clculos sobre gran cantidad de datos, se ha optado por em-
plear hojas de clculo (Microsoft Excel). Aunque dichas aplicaciones no estn pensadas para
trabajar con el gran volumen de datos que se manejan en este trabajo, ha sido posible realizar
muchas operaciones y obtener grficas de comparacin entre ndices previsto e ndices re-
ales.
Por ltimo, para almacenar la informacin, se han utilizado Bases de Datos relacio-
nales PostGres y ficheros de texto plano de ancho variable (CSV). La base de datos ha servi-
do para almacenar el conjunto de datos inicial de forma controlada y sencilla. Los ficheros
CSV se han empleado por su sencillez de tratamiento en todas las herramientas utilizadas,

facilidad de almacenamiento (sin depender de un gestor, ni de las conversiones entre datos

de los distintos programas) y su alto ratio de compresin para su almacenamiento o transfe-
rencia.
2.3.1. Clementine
Clementine [4, 10] es una herramienta de Minera de Datos que permite desarrollar
de forma rpida modelos predictivos y desplegarlos para mejorar la toma de decisiones. Cle-
mentine est diseada considerando el proceso estndar usado por la industria CRISP-DM
(CRoss Industry Standard Process for Data Mining). CRISP-DM hace que la minera de da-
tos sea un proceso de negocio, al enfocar la tecnologa de data mining en la resolucin de
problemas de negocio especficos.
Su principal baza es una interfaz visual y lgica sencilla que facilita al usuario la rea-
lizacin de muchas tareas habituales en proyectos de minera de datos, englobando desde so-
luciones de Reporting, Datawarehousing, anlisis OLAP, CRM analtico Asimismo, faci-
lita la entrega de los resultados, completando la informacin para la toma de decisiones.
Figura 2.12 Arquitectura de Clementine
La implementacin est basada en un paradigma cliente-servidor. Los analistas ini-

cian y realizan la minera de datos desde un PC cliente, pero la minera de datos real puede
realizarse realmente en un servidor remoto.

Figura 2.13 Ejemplo de anlisis con Clementine
2.3.2. R Project
El proyecto R [12] es un sistema para anlisis estadsticos y grficos creado por Ross
Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de progra-
macin y es considerado como un dialecto del lenguaje S, aunque existen diferencias impor-
tantes en el diseo de R y S. S fue creado por los Laboratorios AT&T Bell y se encuentra
disponible en el programa S-PLUS comercializado por Insightful..
Los grandes atractivos de este lenguaje son:
La capacidad de combinar, sin fisuras, anlisis "preempaquetados" (ej.: una regre-

sin logstica) con anlisis ad-hoc, especficos para una situacin: capacidad de ma-
nipular y modificar datos y funciones.
Los grficos de alta calidad (visualizacin de datos y produccin de grficos para la

fase de reporting).
R se distribuye gratuitamente bajo los trminos de GNU General Public Licence; su

desarrollo y distribucin son llevados a cabo por varios estadsticos conocidos como el Gru-
po Nuclear de Desarrollo de R. R est disponible (cdigo y binarios) para mquinas Win-
dows, Linux (Debian, Mandrake, RedHat, SuSe), Macintosh y Alpha Unix.

Los archivos necesarios para instalar R, ya sea desde las fuentes o binarios pre-
compilados, se distribuyen desde el sitio de internet Comprehensive R Archive Network
(CRAN) junto con las instrucciones de instalacin, paquetes adicionales y documentacin
variada.
R posee muchas funciones para anlisis estadsticos y grficos; estos ltimos pueden
ser visualizados de manera inmediata en su propia ventana y ser guardados en varios forma-
tos (jpg, png, bmp, ps, pdf, emf, pictex, xfig; los formatos disponibles dependen del sistema
operativo).
Ratn
/library/base librerias de
/ctest/
Teclado
comandos
funciones y operadores ... funciones
datos
datos objetos archivos
Internet
Pantalla ...
resultados objetos PS jpeg
Memoria activa Disco Duro
Figura 2.14 Una visin esquemtica del funcionamiento de R
Los resultados de anlisis estadsticos se muestran en la pantalla, y algunos resulta-

dos intermedios (como valores P-, coeficientes de regresin, residuales, etc.) se pueden
guardar, exportar a un archivo, o ser utilizados en anlisis posteriores.
El lenguaje R permite al usuario, por ejemplo, programar bucles para analizar con-
juntos sucesivos de datos. Tambin es posible combinar en un solo programa diferentes fun-
ciones estadsticas para realizar anlisis ms complejos. Debido a ser una implementacin de
S, la mayora de los programas desarrollados para ste funcionan sin cambios en R.
Una de las caractersticas ms sobresalientes de R es su enorme flexibilidad. Mien-

tras que programas ms clsicos muestran directamente los resultados de un anlisis, R guar-
da estos resultados como un objeto, de tal manera que se puede hacer un anlisis sin necesi-
dad de mostrar su resultado inmediatamente. Esto puede ser un poco extrao para el usuario,
pero esta caracterstica suele ser muy til. De hecho, el usuario puede extraer solo aquella
parte de los resultados que es de inters.

Figura 2.15 Ejemplo de resolucin grfica de un anlisis

en R
2.3.3. Lenguaje C#
C# [10] es el nuevo lenguaje de propsito general diseado por Microsoft para su

plataforma .NET. Sus principales creadores son Scott Wiltamuth y Anders Hejlsberg, ste l-
timo tambin conocido por haber sido el diseador del lenguaje Turbo Pascal y la herramien-
ta RAD Delphi.
Aunque es posible escribir cdigo para la plataforma .NET en muchos otros lengua-
jes, C# es el nico que ha sido diseado especficamente para ser utilizado en ella. Por ello,
programar para .NET usando C# es mucho ms sencillo e intuitivo que hacerlo con cualquie-
ra de los otros lenguajes ya que carece de elementos heredados innecesarios. Por esta razn,
se suele decir que C# es el lenguaje nativo de .NET
A continuacin se recoge de manera resumida las principales caractersticas de C#:
Orientacin a objetos: C# es un lenguaje orientado a objetos.Una diferencia de este

enfoque orientado a objetos respecto al de otros lenguajes como C++ es que el de C#
es ms puro en tanto que no admiten ni funciones ni variables globales sino que todo
el cdigo y datos han de definirse dentro de definiciones de tipos de datos, lo que re-
duce problemas por conflictos de nombres y facilita la legibilidad del cdigo.

Gestin automtica de memoria: Toda aplicacin sobre la plataforma .NET se be-

neficia del recolector de basura del CLR. Esto simplifica la implementacin de apli-
caciones puesto que no es necesario tener en cuenta la liberacin de recursos. Sin
embargo, C# tambin proporciona un mecanismo de liberacin de recursos determi-
nista a travs de la instruccin using.
Seguridad de tipos: C# incluye mecanismos que permiten asegurar que los accesos
a tipos de datos siempre se realicen correctamente, lo que reduce las posibilidades de
que se produzcan errores difciles de detectar por acceso a memoria no perteneciente
a ningn objeto y es especialmente necesario en un entorno gestionado por un reco-
lector de basura.
Sistema de tipos unificado: A diferencia de C++, en C# todos los tipos de datos que
se definan siempre derivarn, aunque sea de manera implcita, de una clase base co-
mn denominada System.Object, por lo que dispondrn de todos los miembros de-
finidos en sta clase (es decir, sern "objetos"). Estos miembros incluyen las compa-
raciones, la creacin de un cdigo hash, copias
Extensibilidad de operadores: Al igual que C++ y a diferencia de Java, C# permite

redefinir el significado de la mayora de los operadores -incluidos los de conversin,
tanto para conversiones implcitas como explcitas- cuando se apliquen a diferentes
tipos de objetos.
Control de versiones: C# incluye una poltica de versionado que permite crear

nuevas versiones de tipos sin temor a que la introduccin de nuevos miembros pro-
voquen errores difciles de detectar en tipos hijos previamente desarrollados y ya ex-
tendidos con miembros de igual nombre a los recin introducidos.
Compatible: Para facilitar la migracin de programadores, C# no slo mantiene una

sintaxis muy similar a C/C++ o Java, sino que el CLR tambin ofrece, a travs de los
llamados Platform Invocation Services (PInvoke), la posibilidad de acceder a c-
digo nativo, como la API del Sistema Operativo. Tambin se da la posibilidad de
usar controles ActiveX desde cdigo .NET y viceversa.

Multiplataforma: Existe una implementacin distribuida bajo los trminos de la

GNU, denominada MONO
2.3.4. PostGres
Los sistemas de gestin de Bases de Datos relacionales tradicionales (DBMSs) so-

portan un modelo de datos que consisten en una coleccin de relaciones con nombre, que
contienen atributos de un tipo especfico. En los sistemas comerciales actuales, los tipos po-
sibles incluyen valores enteros, nmeros en coma flotante, cadenas de caracteres, cantidades
monetarias y fechas. Est generalmente reconocido que este modelo ser inadecuado para las
aplicaciones futuras de procesado de datos.
El modelo relacional sustituy modelos previos en parte por su "simplicidad esparta-

na". Sin embargo, como se ha mencionado, esta simplicidad tambin hace muy difcil la im-
plementacin de ciertas aplicaciones aunque se disponen de algunas caractersticas que apor-
tan potencia y flexibilidad adicional:
Restricciones
Disparadores
Reglas
Integridad transaccional
Postgres ofrece extensiones adicionales al incorporar nuevos conceptos bsicos pro-

porcionando un mecanismo para que los usuarios puedan extender fcilmente el sistema:
clases
herencia
tipos
funciones
Estas caractersticas colocan a Postgres en la categora de las Bases de Datos identificadas

como objeto-relacionales. Ntese que stas son diferentes de las referidas como orientadas a
objetos, que en general no son bien aprovechables para soportar lenguajes de Bases de Datos
relacionales tradicionales. Postgres tiene algunas caractersticas que son propias del mundo
de las bases de datos orientadas a objetos. De hecho, algunas Bases de Datos comerciales
han incorporado recientemente caractersticas en las que Postgres fue pionera.

Parte III
Desarrollo
3 . P R E P R O C E S O D E D A T O S
3
Captulo
3. Preproceso de Datos
La primera fase en el desarrollo del proyecto es la obtencin, anlisis y preproceso de
los datos de origen, en este caso, del Censo de Poblacin y Viviendas [3] y de la Encuesta
Continua de Presupuestos Familiares (ECPF) [2] ambas del ao 2001.
El primer paso es extraer todos los datos del origen y realizar un proceso de limpieza
de los mismos, para poder usarlos en el calculo de ndices, tipologas y propensiones.
3.1. Censo de Poblacin y Viviendas 2001
Los Censos Demogrficos [3] son el proyecto estadstico de mayor envergadura que
peridicamente debe acometer la oficina de estadstica de cualquier pas. Bajo la denomina-
cin Censos Demogrficos se engloban en realidad tres censos diferentes: el Censo de Po-
blacin, el Censo de Viviendas y el Censo de Edificios. Asociado a este ltimo, suele reali-
zarse tambin un censo de carcter econmico: el Censo de Locales.
De los tres Censos Demogrficos, el Censo de Poblacin es, sin duda, el ms impor-
tante y el de ms amplia tradicin. El primer censo moderno de poblacin, es decir, que utili-
z la persona como unidad de anlisis, se realiz en Espaa en 1768 por el Conde de Aranda
bajo el reinado de Carlos III.
El proyecto censal del ao 2001 se inici, cuando todava apenas haba concluido la
difusin de los resultados del Censo anterior, en junio de 1996 con la redaccin de un docu-
mento en el que, bajo el ttulo Reflexiones de los Censos Demogrficos del ao 2000, se re-
cogan unas consideraciones generales sobre el enfoque que deba darse a las principales fa-
ses del futuro censo en base a la experiencia censal de 1990-91.

Si hay que elegir un rasgo metodolgico que caracterice a estos censos, probable-
mente haya que mencionar el aprovechamiento, como en ningn Censo anterior, de los regis-
tros administrativos, en concreto de los Padrones Municipales de Habitantes y de la base de
datos del Catastro Urbano. De hecho, la combinacin de ambos directorios va a permitir
efectuar un nico recorrido censal (con el enorme ahorro econmico que ello supone), ya que
el carcter preparatorio que tradicionalmente asuma el recorrido del ao terminado en 0 (que
se denominaba Censos de Edificios y Locales) se va a sustituir, muy ventajosamente, por el
cruce informtico de ambas bases de datos.
Las caractersticas de los edificios y locales se recogern en los Cuadernos de Reco-

rrido (tambin conocidos como Cuadernos del Agente), en los que saldrn preimpresos los
directorios generados en el cruce informtico. Las ventajas que supone conocer de antemano
las direcciones postales existentes, y poder limitarse a comprobarlas y, en su caso, comple-
tarlas, son muchas y muy variadas, pero quiz la ms importante es la mejora de la cobertura
censal (tanto en trminos de edificios como de viviendas y personas) que ello posibilitar.
En los Censos de Poblacin y Viviendas tambin se va a aprovechar la informacin

administrativa disponible, con objeto de no molestar innecesariamente a los ciudadanos pre-
guntando datos que ya se conocen. As, los datos padronales de cada persona irn impresos
en una hoja aparte (para tener en cuenta su especial naturaleza), de manera que sea suficiente
comprobar que estn bien o, en su caso, modificarlos. Esos datos ya no figurarn en los cues-
tionarios censales propiamente dichos, reduciendo as el tiempo que tiene que dedicar cada
hogar a la operacin censal.
Conviene aclarar que, hasta la reciente reforma legislativa en materia padronal, el

contenido del Padrn no era tan til como informacin previa para los Censos, debido a las
duplicidades que contena como consecuencia de que cada Padrn municipal se gestionaba
con absoluta autonoma respecto a los dems padrones. En la actualidad los padrones muni-
cipales se deben gestionar por medios informticos y el Instituto Nacional de Estadstica de-
be coordinarlos entre s, detectando las duplicidades e inscripciones indebidas y estando fa-
cultado para llevar a cabo operaciones de control de la precisin de los padrones.
Los objetivos que se pretenda alcanzar con los Censos espaoles del 2001 son:

Recuento de la poblacin, viviendas, edificios y locales as como su estruc-

tura y caractersticas
Servir de base para estudios demogrficos y la elaboracin de estadsticas
por muestreo
Actualizacin y normalizacin de los instrumentos de infraestructura esta-
dstica para atender las necesidades estadsticas de carcter internacional.
Impulsar la implantacin de un nuevo modo de gestin del Padrn Munici-
pal
3.2. Encuesta Continua de Presupuesto Familiares

(ECPF)
La Encuesta Continua de Presupuestos Familiares (ECPF) [2] permite conocer la

evolucin y estructura de los gastos de consumo de las familias. Los gastos de consumo se
refieren al flujo monetario que destina al hogar y cada uno de sus miembros a la adquisicin
de determinados bienes y servicios considerados de consumo final. Tambin se refieren al
valor de los bienes percibidos en concepto de autoconsumo, autosuministro, salario en espe-
cie, comidas gratuitas o bonificadas y al alquiler imputado a la vivienda en la que reside el
hogar.
Para facilitar con rapidez los avances de resultados, los datos son objeto de una m-
nima depuracin manual, lo que obliga a considerarlos como provisionales. Posteriormente,
los datos se someten a una depuracin exhaustiva para obtener los resultados definitivos, en
los que se facilita informacin sobre el montante y evolucin de los gastos, debidamente
desglosados.
Los datos de la ECPF se obtienen a partir de una muestra de aproximadaente 8.000

hogares cada trimestre. Cada hogar seleccionado colabora durante cuatro trimestres, durante
los cuales anotar todos los bienes y servicios adquiridos. Los periodos de tiempo durante los
cuales se van a registrar los flujos de gastos de determinados bienes y servicios son retros-
pectivos.
La ECPF tambin ofrece informacin sobre la percepcin subjetiva de los hogares

ante algunas situaciones, como el grado de dificultad para llegar a fin de mes con los ingre-

sos percibidos, la capacidad o no de ahorro y la consideracin de si el momento actual es el

adecuado para realizar una compra importante, excluyendo la de vivienda.
3.3. Carga de Datos del Censo
Los datos procedentes del Censo no pueden ser utilizados directamente, debido a su
distribucin en ficheros independientes, y la separacin entre descripcin de atributos y valo-
res de los propios atributos. Esto oliga a realizar un proceso de carga en un gestor de bases
de datos (en este caso PostGreSQL). El censo de poblacin del 2001, publicado por el INE,
se publica con la siguiente estructura:
Para cada comunidad autnoma se dispone de 153 ficheros de ancho fijo con los da-
tos de dicha regin
Se distribuyen 153 ficheros con la descripcin de los campos contenidos en formato
html
Debido a la imposibilidad de explotacin de los datos se ha implementado una pe-

quea aplicacin que analiza las cabeceras y procesa los ficheros de datos generando las
consultas de insercin en la base de datos. El programa realiza las siguientes acciones:
1. Se analizan los ficheros de cabecera para extraer la informacin de inters

o Identificador del fichero de cabecera
o Por cada campo:
Nombre de campo
Columna de inicio
Columna de final
2. Creacin de las tablas necesarias en la base de datos. Es necesario un paso

de normalizacin de nombres para evitar problemas con las restricciones
impuestas por el gestor de base de datos.
3. Conversin de los ficheros de datos:

o Recopilacin de los ficheros existentes para cada comunidad

o Lectura lnea a lnea de cada uno de los ficheros localizados con an-
terioridad
o Divisin de cada instancia (lnea) segn la informacin recopilada
de su cabecera asociada
o Validacin de los datos ledos (correccin de tipos, deteccin de nu-
los)
o Generacin del cdigo SQL que almacena los datos en la base de
datos.
La ejecucin de este proceso es muy costosa debido al volumen de los datos analiza-
dos (aproximadamente 15 GBytes). Adems, debido a las mltiples particularidades exis-
tentes en los datos, el tratamiento de errores tuvo que ser analizado de forma individual para
muchos de los ficheros.
Las principales particularidades detectadas son las siguientes:
Los valores nulos (no se proporciona la informacin por restricciones de secreto es-
tadstico) se representan mediante el carcter .
Si todos los atributos finales de una instancia son nulos, se recortan los campos sin
que aparezcan valores.
3.4. Transformacin de las Variables

Tras el proceso de carga de los datos del Censo, se procede a realizar las transforma-
ciones de variables apropiadas para disponer de los conjuntos de datos que puedan ser em-
pleados en el resto de las fases. Especficamente, se han generado los siguientes conjuntos de
datos:
Censo:
o Variables demogrficas comunes
o Variables demogrficas exclusivas del Censo
ECPF:
o Variables demogrficas comunes
o ndices econmicos exclusivos.

3.4.1. Variables demogrficas comunes
A continuacin, se muestran las variables generadas para ambos conjuntos de datos

(Censo y ECPF) y que sern las ms usadas en resto del trabajo 2.
Nombre descriptivo Sexo

Variables derivadas SEXO_HOMBRE Nmero de varones
SEXO_MUJER Nmero de mujeres
Nombre descriptivo Edad

Variables derivadas EDAD_0-4 0a4
EDAD_5-9 5a9
EDAD_10-14 10 a 14
EDAD_15-19 15 a 19
EDAD_20-24 20 a 24
EDAD_25-29 25 a 29
EDAD_30-34 30 a 34
EDAD_35-39 35 a 39
EDAD_40-44 40 a 44
EDAD_45-49 45 a 49
EDAD_50-54 50 a 54
EDAD_55-59 55 a 59
EDAD_60-64 60 a 64
EDAD_65-69 65 a 69
EDAD_70-74 70 a 74
EDAD_75-79 75 a 79
EDAD_80-84 80 a 84
EDAD_85-89 85 a 89
EDAD_90MAS 90 ms
Nombre descriptivo Estado Civil

Variables derivadas ECIVIL_SOLTERO Soltero
ECIVIL_CASADO Casado
ECIVIL_VIUDO Viudo
ECIVIL_DIVORCIADO Divorciado o separado
Nombre descriptivo Nivel de estudios en curso
2
La descripcin detallada se encuentra en el Anexo (poner referencia).
Variables derivadas NIVESTCU_ Educacin primaria o primer

PRIMARIA ciclo de educacin secunda-
ria
NIVESTCU_ Segundo ciclo de educacin
SECUNDARIA secundaria
NIVESTCU_ Educacin superior (tercia-
TERCIARIA ria)
NIVESTCU_OTRO Otros
Nombre descriptivo Nivel de estudios alcanzados

Variables derivadas NIVESTUD_ Analfabetos Sin estudios
ANALFABETOS
NIVESTUD_P Educacin primaria o pri-
RIMARIA mer ciclo de educacin se-
cundaria
NIVESTUD_ Segundo ciclo de educacin
SECUNDARIA secundaria
NIVESTUD_T Educacin superior (tercia-
ERCIARIA ria)
Nombre descriptivo Relacin con la actividad econmica

Variables derivadas SITACTHA_OCUPADO Ocupados
SITACTHA_PARADO Parados
SITACTHA_JUBILADO Jubilado o retirado
SITACTHA_ Estudiante o en Servicio
ESTUDIANTE-SM Militar
SITACTHA_NO- Actividad no econmica,
ECONOMICA incapaz de trabajar
Nombre descriptivo Ocupacin

Variables derivadas OCUPA_0 Fuerzas Armadas
OCUPA_1 Direccin de las empresas y de las
administraciones pblicas
OCUPA_2 Tcnicos y profesionales cientfi-
cos e intelectuales
OCUPA_3 Tcnicos y profesionales de apoyo
OCUPA_4 Empleados de tipo administrativo
OCUPA_5 Trabajadores de los servicios de
restauracin, personales, protec-

cin y vendedores de los comer-

cios
OCUPA_6 Trabajadores cualificados en la
agricultura y en la pesca
OCUPA_7 Artesanos y trabajadores cualifica-
dos de las industrias manufacture-
ras, la construccin, y la minera,
excepto los operadores de instala-
ciones y maquinaria
OCUPA_8 Operadores de instalaciones y ma-
quinaria, y montadores
OCUPA_9 Trabajadores no cualificados
Nombre descriptivo Actividad del establecimiento donde trabaja

Variables derivadas ACTESTAB_1 Agricultura, ganadera, ca-
za y silvicultura
ACTESTAB_2 Pesca
ACTESTAB_3 Industrias extractivas
ACTESTAB_4 Industria manufacturera
ACTESTAB_5 Produccin y distribucin
de energa elctrica, gas y
agua
ACTESTAB_6 Construccin
ACTESTAB_7 Comercio; reparacin de
vehculos, motocicletas y
ciclomotores y artculos
personales y de uso doms-
tico
ACTESTAB_8 Hostelera
ACTESTAB_9 Transporte, almacenamien-
to y comunicaciones
ACTESTAB_10 Intermediacin financiera
ACTESTAB_11 Actividades inmobiliarias y
de alquiler; servicios em-
presariales
ACTESTAB_12 Administracin pblica,
defensa y Seguridad Social
obligatoria
ACTESTAB_13 Educacin

ACTESTAB_14 Actividades sanitarias y

veterinarias; servicios so-
ciales
ACTESTAB_15 Otras actividades sociales
y de servicios prestados a
la comunidad; servicios
personales
ACTESTAB_16 Hogares que emplean per-
sonal domstico
ACTESTAB_17 Organismos extraterritoria-
les
Nombre descriptivo Situacin profesional

Variables derivadas SITPROF_EMPLEADOR Empleador
SITPROF_ Empresario sin
EMPRESARIOSIN asalariados o trab.
Independiente
SITPROF_ASALARIADO Asalariado
SITPROF_AYUDAF Ayuda familiar
SITPROF_OTRA Otra situacin
Nombre descriptivo Rgimen de tenencia de la vivienda

Variables derivadas TENEVIV_PROPIEDAD Propiedad
sin hipo-
teca
TENEVIV_PROPIEDAD- Propiedad
HIPOTECA con hipo-
teca
TENEVIV_ALQUILER Alquiler
TENEVIV_CESION Cesin
Nombre descriptivo Antigedad de la vivienda

Variables derivadas ANTIGVIV_5MENOS Menos de 5
ANTIGVIV_5-20 De 5-20
ANTIGVIV_55MAS Ms de 55
Nombre descriptivo Tipo de edificio

Variables derivadas TIPOEDIF_ Edificio slo con una

1VIVIENDAF vivienda familiar
TIPOEDIF_VARIAS- Edificio con ms de
VIVIENDASF una vivienda
TIPOEDIF_OTRO Otros
Nombre descriptivo Nmero de habitaciones de la vivienda

Variables derivadas NHABIT_1 1 habitacin
NHABIT_2 2 habitaciones
NHABIT_4MAS 4 o ms habitaciones
Nombre descriptivo Superficie de la vivienda

Variables derivadas SUPERF_30MENOS Hasta 30 m2 2
SUPERF_30-45 30-45 m2 2
SUPERF_46-60 46-60 m2 2
SUPERF_61-75 61-75 m2 2
SUPERF_76-90 76-90 m2 2
SUPERF_91-105 91-105 m2 2
SUPERF_106-120 106-120 m2 2
SUPERF_121-150 121-150 m2 2
SUPERF_151-180 151-180 m2 2
SUPERF_180MAS Ms de 180 m2 2
Nombre descriptivo Garaje

Variables derivadas TIENE_GARAJE S dispone de garaje
Nombre descriptivo Agua corriente

Variables derivadas TIENE_ S dispone de agua corriente
AGUACOR
Nombre descriptivo Agua caliente

Variables derivadas TIENE_ S dispone de agua calien-
AGUACALC te
Nombre descriptivo Calefaccin

Variables derivadas TEIEN_CALEFA S dispone de calefaccin
Nombre descriptivo Refrigeracin

Variables derivadas TIENE_REFRIG Dispone de refrigeracin
Nombre descriptivo Telfono

Variables derivadas TIENE_ S dispone de telfono
TELEFONO
Nombre descriptivo Disponibilidad de segunda vivienda

Variables derivadas TIENE_VIVSEC Dispone de vivienda secun-
daria
Nombre descriptivo Ubicacin de la vivienda secundaria

Variables derivadas UBVIVSE_PAIS En el mismo pas
UBVIV- En otro pas
SE_EXTRANJERO
Nombre descriptivo Disponibilidad de vehculos a motor

Variables derivadas NUMCOCHES_1 Dispone de 1 vehculo
NUMCOCHES_2 2 vehculos
NUMCOCHES_ 3 o ms vehculos
3MAS
Nombre descriptivo Tamao del hogar

Variables derivadas TAMAHOG_1 1 persona
TAMAHOG_2 2 personas
TAMA- 10 ms personas
HOG_10MAS
Nombre descriptivo Tipo de Hogar

Variables derivadas TIPOHOG_1 Una persona adulta, de 65 o
ms aos
TIPOHOG_2 Una persona adulta, de me-
nos de 64 aos

TIPOHOG_3 Una persona adulta con ni-

os de hasta 16 aos
TIPOHOG_4 Pareja sin nios, miembro
mayor de 65 o ms aos
TIPOHOG_5 Pareja sin nios, miembro
mayor con menos de 65
aos
TIPOHOG_6 Pareja con un nio
TIPOHOG_7 Pareja con dos nios
TIPOHOG_8 Pareja con tres o mas nios
TIPOHOG_9 Padre/madre slo/a o pareja
con al menos un hijo de ms
de 16 aos
TIPOHOG_SP10 Otros Hogares
Nombre descriptivo Nmero de ocupados en el hogar

Variables derivadas NUMOCUP_0 Ninguno
NUMOCUP_1 1
NUMOCUP_2 2
NUMOCUP_3 3
NUMOCUP_4MAS 4 ms
3.4.2. ndices derivados de la ECPF

La ECPF dispone de un subconjunto de atributos exclusivos entre los que se encuen-
tran los ndices econmicos. Esta informacin ser empleada en futuras fases por lo que re-
sultan de especial inters. Estos ndices se calculan de la siguiente forma:
ndice Tipo Descripcin Clculo

RENTA Econmico Valor monetario de la renta media INGNETTO + INGESP +
familiar disponible anual por rea ALQIMP
censal, lo que representa flujos de
entrada de dinero para la familia
procedente de diferentes fuentes
generadoras de ingresos de cada
miembro del hogar
GASTO Econmico Indica el consumo o gasto medio Se toma directamente de la
anual realizado por las familias por ECPF la variable GASTO


rea censal y que representa flujos
de salida de dinero. Este ndice es-
t formado por las diferentes
partidas o conceptos de gastos
que recoge la ECPF.
ENDEUDA- Econmico Indica la dificultad que las familias Si RENTA>GASTO = 0
MIENTO tienen para llegar a finales de mes sino |RENTA-GASTO|
y representa la diferencia nega-
tiva de los flujos monetarios en-
tre los ingresos y los gastos.
AHORRO Econmico Indica la facilidad que tienen las Si RENTA<GASTO = 0
familias para llegar a finales de sino |RENTA-GASTO|
mes y representa la diferencia
positiva de los flujos monetarios
entre los ingresos y los gastos.
VA- Econmico Muestra un ndice, sobre la media Se toma directamente de la
LOR_VIVIEN nacional, del valor medio imputa- ECPF la variable AL-
DA ble a una vivienda en alquiler o en QIMP
propiedad existente en una deter-
minada rea censal. Resulta de
imputar el valor real de alquiler
o el coste de oportunidad de una
vivienda en propiedad.
RIQUEZA Econmico Es la agregacin del ndice de va- VALOR_VIVIENDA +
lor de vivienda junto con el de RENTA
renta. Indica el nivel de riqueza
medio familiar por rea censal.
GASTO EN Consumo Es la suma de los gastos asociados PRODUCTOS ALIMEN-
ALIMENTA- con alimentacin, bebidas y tabaco TICIOS + BEBIDAS NO
CIN, BEBI- ALCOHLICAS +
DAS Y TA- GRAN COMPRA +
BACO GASTOS NO DESGLO-
SABLES EN ALIMEN-
TOS Y BEBIDAS NO
ALCOHLICAS + BE-
BIDAS ALCOHLICAS
+ TABACO
GASTO EN Consumo Es la suma de los gastos ena artcu-ARTICULOS DE VES-


ROPA Y CAL- los de vestir y calzado TIR + CALZADO +
ZADO GASTOS NO DESGLO-
SABLES EN VESTIDO Y
CALZADO
GASTO EN Consumo Gastos de mantenimiento y repara- GASTOS DE MANTE-
MANTENI- cin de la vivienda. Incluye los NIMIENTO Y REPARA-
MIENTO Y gastos efectuados por los inquili- CIN DE LA VIVIENDA
SEGUROS nos o por los propietarios - ocu- + SERVICIOS DE SE-
PARA LA VI- pantes para la adquisicin de mate- GURO (Seguros ligados a
VIENDA riales y servicios destinados a las la vivienda)
reparaciones y a la conservacin
de la vivienda, y seguros contrata-
dos para la vivienda contra incen-
dios, perdidas , robos, etc)
CONSUMO Consumo Gastos por consumo de electrici- ELECTRICIDAD, GAS Y
ENERGTICO dad OTROS COMBUSTI-
(Suministros BLES (Electricidad)
Energa)
GASTO EN Consumo Es la suma por mobiliario, decora- MUEBLES, ARTCULOS
MOBILIARIO cin DE AMUEBLAMIENTO,
Y DECORA- ALFOMBRAS Y OTROS
CIN REVESTIMIENTOS PA-
RA SUELOS + GASTOS
NO DESGLOSABLES
EN MOBILIARIO, EQUI-
PAMIENTO DEL
HOGAR Y GASTOS
CORRIENTES DE CON-
SERVACIN DE LA
VIVIENDA
GASTO EN Consumo Es la suma de lo que se gasta en CRISTALERA, VAJI-
MENAJE Y menaje y bazar LLA, UTENSILIOS DEL
BAZAR HOGAR Y REPARA-
CIONES + HERRA-
MIENTAS PARA CASA
Y JARDN
GASTO EN Consumo Es la suma de lo que se gasta por MEDICAMENTOS Y
SALUD salud OTROS PRODUCTOS


FARMACUTICOS,
APARATOS Y MATE-
RIAL TERAPUTICO +
SERVICIOS MDICOS
Y PARAMDICOS EX-
TRA-HOSPITALARIOS
+ SERVICIOS HOSPI-
TALARIOS + GASTOS
NO DESGLOSABLES
EN SALUD
GASTO EN Consumo Es la suma de lo que se gasta por COMPRA DE VEHCU-
DISFRUTE DE disfrute de automviles LOS + UTILIZACIN
AUTOMVI- DE VEHCULOS PER-
LES SONALES + SERVICIOS
DE SEGURO (Seguros li-
gados al transporte)
GASTO EN Consumo Es la suma de lo que se gasta en te- COMUNICACIONES +
TELECOMU- lecomunicaciones GASTOS NO DESGLO-
NICACIONES SABLES EN COMUNI-
CACIONES
GASTO EN Consumo Es la suma de lo que se gasta en EQUIPOS Y ACCESO-
ELECTRNI- electrnica e informtica RIOS AUDIO-
CA E INFOR- VISUALES, FOTOGR-
MTICA FICOS Y DE PROCE-
SAMIENTO DE IN-
FORMACIN, INCLU-
YENDO SUS REPARA-
CIONES
GASTO EN Consumo Es la suma de lo que se gasta en OTROS BIENES DURA-
BIENES Y bienes y servicios para el ocio y la DEROS IMPORTANTES
SERVICIOS cultura PARA EL OCIO Y LA
PARA EL CULTURA + OTROS
OCIO Y LA ARTCULOS Y EQUI-
CULTURA PAMIENTOS RECREA-
TIVOS; FLORES, JAR-
DINERA Y MASCOTAS
+ SERVICIOS RECREA-
TIVOS Y CULTURALES


+ GASTOS NO DES-
GLOSABLES EN OCIO,
ESPECTCULOS Y
CULTURA
GASTO EN Consumo Es la suma de lo que se gasta en PRENSA, LIBRERA Y
PRENSA Y prensa y libros PAPELERA
LIBROS
GASTO EN Consumo Es la suma de lo que se gasta en VACACIONES TODO
VIAJES Y viajes y vacaciones INCLUIDO + SERVI-
VACACIONES CIOS DE ALOJAMIEN-
TO + GASTOS NO DES-
GLOSABLES EN
HOTELES, CAFS Y
RESTAURANTES
GASTO EN Consumo Es la suma de lo que se gasta en SERVICIO DE ENSE-
EDUCACIN educacin ANZA + GASTOS NO
DESGLOSABLES EN
ENSEANZA
CONSUMO Consumo Es la suma de lo que se gasta en RESTAURANTES Y
ALIMENTA- restaurantes COMIDAS FUERA DEL
CIN FUERA HOGAR
DEL HOGAR
Gasto en Res-
taurantes
GASTOS EN Consumo Es la suma de lo que se gasta en SERVICIOS DE SEGU-
SEGUROS seguros mdicos RO (Seguros ligados a la
MDICOS sanidad. Seguros de en-
fermedad y accidente)

4 . M E T O D O L O G A D E A G R U P A C I N
4
Captulo
4. Metodologa de Agrupacin
La metodologa de generacin de grupos [7, 9, 11] est basada en el uso de algorit-
mos heursticos. Estos algoritmos de optimizacin intentan obtener el conjunto de grupos de
familias que se parezcan lo ms posible a las secciones censales reales, es decir, se intenta
agrupar las distintas familias de la ECPF segn su parecido a las familias de las secciones
censales reales.
En la definicin de la metodologa de agrupacin se distinguen las siguientes partes:

1. Definicin del conjunto de variables a emplear
2. Definicin de los algoritmos a emplear y su objetivo
4.1. Variables de inters

Tras el proceso de anlisis y limpieza de datos, se han extrado un conjunto de atri-
butos comunes entre Censo y ECPF. Debido a la cantidad de variables comunes se realiza un
anlisis para determinar los conjuntos de variables ms significativos para la prediccin de
ndices. Dicho conjunto de variables significativas y comunes son las siguientes:
Nombre simblico Variables derivadas

Sexo SEXO_HOMBRE
SEXO_MUJER
Edad EDAD_0_44
EDAD_45_64
EDAD_65_MAS
Estado Civil ECIVIL_SOLTERO
ECIVIL_CASADO
ECIVIL_VIUDO


ECIVIL_DIVORCIADO
Nivel de estudios en curso NIVESTCU_PRIMARIA
NIVESTCU_SECUNDARIA
NIVESTCU_TERCIARIA
NIVESTCU_OTRO
Nivel de estudios alcanzados NIVESTUD_ANALFABETOS
NIVESTUD_PRIMARIA
NIVESTUD_SECUNDARIA
NIVESTUD_TERCIARIA
Relacin con la actividad econmica SITACTHA_OCUPADO
SITACTHA_PARADO
SITACTHA_JUBILADO
SITACTHA_ESTUDIANTE_SM
SITACTHA_NO_ECONOMICA
Ocupacin OCUPA_0
OCUPA_1
OCUPA_2
OCUPA_3
OCUPA_4
OCUPA_5
OCUPA_6
OCUPA_7
OCUPA_8
OCUPA_9
Actividad del establecimiento donde trabaja ACTESTAB_1
ACTESTAB_2
ACTESTAB_3
ACTESTAB_4
ACTESTAB_5
ACTESTAB_6
ACTESTAB_7
ACTESTAB_8
ACTESTAB_9
ACTESTAB_10
ACTESTAB_11
ACTESTAB_12
ACTESTAB_13


ACTESTAB_14
ACTESTAB_15
ACTESTAB_16
ACTESTAB_17
Situacin profesional SITPROF_EMPLEADOR
SITPROF_EMPRESARIOSIN
SITPROF_ASALARIADO
SITPROF_AYUDAF
SITPROF_OTRA
Rgimen de tenencia de la vivienda TENEVIV_PROPIEDAD
TENEVIV_PROPIEDAD_HIPOTECA
TENEVIV_ALQUILER
TENEVIV_CESION
Antigedad de la vivienda ANTIGVIV_5MENOS
ANTIGVIV_5_20
ANTIGVIV_21_40
ANTIGVIV_41_55
ANTIGVIV_55_MAS
Tipo de edificio TIPOEDIF_1VIVIENDAF
TIPOEDIF_VARIAS_VIVIENDASF
TIPOEDIF_OTRO
Nmero de habitaciones de la vivienda NHABIT_1
NHABIT_2
NHABIT_3
NHABIT_4MAS
Superficie de la vivienda SUPERF_30MENOS
SUPERF_30_45
SUPERF_46_60
SUPERF_61_75
SUPERF_76_90
SUPERF_91_105
SUPERF_106_120
SUPERF_121_150
SUPERF_151_180
SUPERF_180_MAS
Disponibilidad de Garaje TIENE_GARAJE
Disponibilidad de Agua corriente TIENE_AGUACOR


Disponibilidad de Agua caliente TIENE_AGUACALC
Disponibilidad de Calefaccin TEIEN_CALEFA
Disponibilidad de Refrigeracin TIENE_REFRIG
Disponibilidad de Telfono TIENE_TELEFONO
Disponibilidad de segunda vivienda TIENE_VIVSEC
Ubicacin de la vivienda secundaria UBVIVSE_PAIS
UBVIVSE_EXTRANJERO
Disponibilidad de vehculos a motor NUMCOCHES_1
NUMCOCHES_2
NUMCOCHES_3_MAS
Tamao del hogar TAMAHOG_1_2
TAMAHOG_3_4
TAMAHOG_5_MAS
Tipo de Hogar TIPOHOG_1
TIPOHOG_2
TIPOHOG_3
TIPOHOG_4
TIPOHOG_5
TIPOHOG_6
TIPOHOG_7
TIPOHOG_8
TIPOHOG_9
Nmero de ocupados en el hogar NUMOCUP_0
NUMOCUP_1
NUMOCUP_2
NUMOCUP_3
NUMOCUP_4_MAS
4.2. Algoritmos de Optimizacin

Una vez obtenidas las variables de mayor inters y comunes entre Censo y ECPF, se
definen e implementan diferentes alternativas de algoritmos heursticos. Seguidamente se
realiza un anlisis de los resultados obtenidos para elegir la mejor alternativa.

4.2.1. Algoritmo Gentico
En el caso de usar un algoritmo gentico, se ha empleado un modelo tipo Steady-

State (elitista), cuyos individuos son vectores de nmeros reales. De cada individuo se deriva
un conjunto de familias de la ECPF. Es necesario tener en cuenta que, para la ejecucin del
algoritmo, nicamente trabajamos con las familias de un estrato y comunidad autnoma de-
terminados. Es decir, este algoritmo se tendr que ejecutar tantas veces como estratos por
comunidad haya, sabiendo que existen 18 comunidades autnomas, y 6 estratos por cada
comunidad.
Se trata, pues, de obtener individuos (vectores de reales aleatorios) de los cuales se

derivan los grupos de familias. Por cada individuo, se ordena el vector de mayor a menor, y
se asignan los grupos de 8 familias segn la posicin del vector ordenado, generando de esta
forma los grupos de un individuo, para, ms adelante, agregar los datos por dichos grupos.
A continuacin, una vez agregados los datos por grupos de cada individuo, se eval-
an los individuos mediante la funcin de fitness. Una vez seleccionados los X mejores indi-
viduos, se utilizan los operadores de cruce y mutacin, se modifican los individuos y se
vuelve a ejecutar el algoritmo. As, seguidamente, hasta que el algoritmo no pueda mejorar
los individuos.
Como funciones de fitness se plantearon distintas alternativas:

1. Mecanismo wrapper consistente en entrenar un modelo (se plante el uso de
redes de neuronas y regresin lineal) con los grupos y analizar el error de es-
te modelo comparando con valores reales.
Los modelos eran entrenados con todas las variables comunes para predecir
el ndice de renta (que se dispona con los datos de prueba de 1991). Sin em-
bargo, no se dispone de ninguno de estos valores en los datos de 2001 por lo
que se descarta esta alternativa.
2. Realizacin de test estadsticos no paramtricos para comprobar la semejan-

za entre los grupos y las secciones censales. Esta alternativa se basa en que
es lgico pensar que las familias de una misma seccin censal deberan tener
datos econmicos y demogrficos parecidos entre ellos. Es decir, las distri-

buciones de das sus variables deberan ser lo ms parecidas entre ellas. De

esta forma, es posible calcular un fitness, en base a la similitud entre los da-
tos de las familias.
Una vez agregados las familias segn los grupos, la forma de evaluar la funcin de
fitness es la siguiente: suponiendo la representacin de todos los datos siguen una distribu-
cin normal, se realizan dos test no paramtricos (P de Pearson y F de Snedecor) para com-
probar si tienen la misma media y desviacin tpica y se unifican los dos valores mediante la
expresin:
test .pearson( grp, censo) test .snedecor( grp, censo)
De esta forma, la funcin de fitness evala y trata de que dicha ecuacin tome el va-
lor mximo posible.
4.2.2. Bsqueda Local
La idea es muy similar a la anterior, nicamente destacar que con este algoritmo se
evala una nica solucin o individuo, a diferencia del algoritmo anterior, en el que se eva-
lan tantas soluciones como tamao de poblacin a la vez.
A partir de un individuo inicial, obtenido aleatoriamente, se intenta mejorar dicho

individuo, mediante operadores de mutacin hasta que, o bien se llega al limite de iteracio-
nes (en este caso 100000 iteraciones), o bien al limite de iteraciones sin mejora de individuo
(en este caso 250 iteraciones). La forma de evaluar si un individuo es mejor que el anterior
es utilizando las funciones de fitness comentada en el apartado anterior (similitud entre dis-
tribuciones de datos).
4.2.3. Simulated Annealing
El recocido simulado se ha implementado para solventar el problema de la conver-

gencia a soluciones locales detectado en la Bsqueda Local. Por tanto, el algoritmo de ob-
tencin del individuo inicial y de generacin de nuevos individuos es el mismo que en el al-
goritmo de bsqueda local y nicamente se diferencia con el anterior, en la posible seleccin

del nuevo individuo mutado, permitiendo seleccionar individuos peores segn algunas re-
glas.
En este caso, se implementa el recocido simulado teniendo como datos, el numero de

iteraciones total (2000), la temperatura inicial (0,5), la temperatura final (0,000001) y la fun-
cin de enfriamiento siguiente:
Figura 4.1 Factor de enfriamiento
De esta forma, segn la iteracin actual del algoritmo, el nivel de temperatura permi-
te seleccionar el nuevo individuo, aunque sea peor que el actual, si se cumple que:
(Ti1 Ti )

Tempi
Drand < e
Drand = valor aleatorio de una distribucin uniforme [0,1]
Figura 4.2 Condicin de evaluacin para Recocido Simulado
Utilizando este algoritmo es posible conseguir obtener mejores soluciones, puesto

que es posible explorar individuos que jams explorara una bsqueda local.
4.2.4. Comparativa
Una vez implementados los tres algoritmos, se realiza una comparativa para deter-
minar el ms apropiado para el problema de agrupacin. Esta comparativa se basa en dos
factores:

Maximizar la optimalidad de la solucin alcanzada

Minimizar el tiempo de cmputo
Para la ejecucin de todos los algoritmos se ha utilizado un cluster de 16 nodos bi-

procesador con hiperthreading (32 procesadores reales y 64 virtuales) aunque solamente se
ha utilizado la mitad de su capacidad de cmputo (32 procesos en paralelo)
En la Tabla 4.1 se muestran los resultados de esta comparativa destacando los pun-
tos a favor y en contra de cada implementacin
Algoritmo Resultados Tpo. Ejecucin Funcin Fitness
Resultados teri-
camente mejores Tiempo de ejecu- La funcin fitness
que el resto de al- cin excesivamen- y el gran espacio
Algoritmo goritmos te grande (aproxi- de bsqueda hace
Gentico En la prctica, no madamente 2 das que el algoritmo
obtiene resultados por comunidad au- gentico no resulte
(el algoritmo no tnoma y estrato) eficaz.
converge).
Resultados bue- Tiempo de ejecu- Este algoritmo ha

nos, pero no pti- cin muy bueno, validado la fun-
mos. (aproximadamente cin de Fitness al
Bsqueda
Local Puede converger a 1 hora para todas obtener resultados
un resultado local las comunidades) vlidos
Tericamente me-
jora los resultados
obtenidos por la Tiempo de ejecu- La funcin de Fit-
bsqueda local con cin bastante supe- ness ya ha sido va-
un coste computa- rior al de bsqueda lidada en el caso
cional un poco su- local (aproxima- anterior.
Recocido perior. damente 8 horas
Se ha definido una
Simulado para todas las co-
Realmente, los re- funcin de enfria-
munidades)
sultados obtenidos miento mediante
son prcticamente ensayo-error.
iguales a la bs-
queda local
Tabla 4.1 Comparativa entre algoritmos de optimizacin.

El algoritmo gentico no es el ms idneo para este caso prctico, ya que no es capaz

de generar soluciones vlidas a pesar de su elevado tiempo de ejecucin. Entre la Bsqueda
Local y el Recocido Simulado se obtienen resultados similares pero el coste computacional
del recocido simulado es 8 veces superior a la bsqueda local por lo que se opta por este se-
gundo algoritmo.
Tras este anlisis se determina que la mejor opcin es la bsqueda local con un fit-
ness basado en la similitud entre las distribuciones de los grupos y las secciones censales.
4.3. Clculo de ndices

Un ndice es el valor que una determinada rea censal adopta respecto a la media na-
cional 3 ponderada por nmero de familias. El proceso de clculo de ndices ser realizado
segn los siguientes pasos:
Entrenamiento de un modelo estimador usando como datos de entrada los datos
de los grupos de la ECPF.
Estimacin de ndices para cada seccin censal mediante el modelo anteior y
aplicacin de cierto factor de correccin donde se crea conveniente.
Los ndices que a estimar son los siguientes:

Renta. Indica la renta monetaria media familiar disponible anual por
rea censal, lo que representa flujos de entrada de dinero para la familia
procedente de las diferentes fuentes generadoras de ingresos.
Gasto. Indica el consumo o gasto medio anual realizado por las familias
por rea censal y que representa flujos de salida de dinero.
Ahorro. Al contrario que el endeudamiento, indica la cantidad media que
las familias almacena y se calcula como la diferencia entre los ingresos y
los gastos cuando es positiva.
Endeudamiento. Indica la cantidad media de ingresos que las familias
deben. Se calcula como la diferencia entre ingresos y gastos cuando es
negativa
3
Es posible calcular el ndice respecto a la media provincial o de la comunidad autnoma
Hipotecas. Indica la proporcin respecto a la media nacional de vivien-

das con deudas pendientes de pago respecto del total de las viviendas de
un rea censal.
Valor de la vivienda. Indica el valor medio imputable a una vivienda en
alquiler o en propiedad existente en una determinada rea censal.
Riqueza. Indica el nivel de riqueza medio familiar por rea censal. Se
calcula como la suma de todos los ingresos y posesiones de la familia.
ndice de gasto en alimentacin, bebidas y tabaco
ndice de gasto en ropa y calzado
ndice de gasto en mantenimiento y seguros para la vivienda
ndice de gasto en energa
ndice de gasto en mobiliario y decoracin
ndice de gasto en menaje y bazar
ndice de gasto en salud
ndice de gasto en disfrute de automviles
ndice de gasto en telecomunicaciones
ndice de gasto en electrnica e informtica
ndice de gasto en ocio y cultura
ndice de gasto en prensa y libros
ndice de gasto en viajes y vacaciones
ndice de gasto en educacin
ndice de gasto en alimentacin fuera del hogar
ndice de gasto en seguros mdicos
4.3.1. Entrenamiento de modelos
El objetivo principal de este primer paso consiste en entrenar modelos que estimen
los ndices de inters a partir de las variables comunes entre el Censo y la ECPF. Shan elel-
gido redes de neuronas como los modelos capaces de estimar los valores de los ndices de in-
ters.
El mtodo de entrenamiento utilizado en dichas redes ha sido adaptado para cada ti-
po de comunidad:

Se ha entrenado por el mtodo mltiple, sin evitar sobreentrenamiento, aquellas

comunidades consideradas como pequeas (Asturias, Navarra, Islas Baleares,
Murcia, etc.)
Se ha entrenado por el mtodo rpido, sin evitar sobreentrenamiento, aquellas

comunidades consideradas como grandes (Madrid, Catalua, Andaluca, etc.)
Las causas que motivaron el uso de una u otra, fueron que las grandes presentan una
mayor inestabilidad en sus datos. Al entrenar con una red de neuronas de tipo rpido, se fa-
vorece una mayor variacin en los datos generados (mximos y mnimos ms acusados).
Muy al contrario, mediante una red de neuronas de tipo mltiple, se tiende a suavizar dichos
extremos en la solucin final.
4.3.2. Estimacin de ndices
Mediante los modelos entrenados para las variables deseadas en el paso anterior es
posible estimar el ndice para cada seccin censal aplicando dichos modelos al Censo de Po-
blacin. Sin embargo, es necesario realizar un paso correctivo, pues existen numerosas reas
censales en Espaa, en las cuales los ndices tienen un valor mucho ms elevado que en otras
de caractersticas similares (nmero de habitantes, etc.). Esto puede ocasionar que llegado el
momento de validar los datos obtenidos con datos reales, los resultados no sean suficiente-
mente exctos. De modo anlogo, existen poblaciones con ndices inferiores a las secciones
censales similares.
Para controlar estas variaciones, se introduce un factor de correccin. Este factor se

considera un enriquecimiento de los datos usando para ello ndices reales obtenidos de los
institutos estadsticos autonmicos. Para introducir el factor se diferenciaron los siguientes
gupos de secciones censales de inters:
Mucho ms altas que la media, con lo que se les aplica a dichas reas censales
un factor de correccin de 1,625.
Ms altas que la media, con lo que se les aplica a dichas reas censales un factor
de correccin de 1,425
Medias, con lo que se les aplica a dichas reas censales un factor de correccin
de 1.

Ms bajas que la media, con lo que se les aplica a dichas reas censales un factor
de correccin de 0,85.
Mucho ms bajas que la media, con lo que se les aplica a dichas reas censales
un factor de correccin de 0,75.
Para determinar el tipo de factor que deba aplicarse a cada seccin censal se entren
un modelo basado en el algoritmo C5.0 usando secciones censales de algunas comunidades
autnomas. Segn el tipo de seccin asociado por este algoritmo a cada seccin censal se le
aplicaba el factor apropiado a cada uno de sus ndices.
Para finalizar, los ndices calculados son relativizados respecto a la media nacional
ponderada por nmero de hogares. El valor resultante es 1 cuando se corresponde con la me-
dia nacional y el resto de valores superiores indican cunto ms o menos se encuentran sobre
dicha media.
4.3.3. Validacin de resultados
Para la validacin de los ndices obtenidos se validarn contra ndices reales que se
han obtenido de los Institutos de Estadstica Autonmicos. Aunque estos datos estn pbli-
cos a libre disposicin cada uno de ellos proporciona dichos datos en diferentes formatos,
con mayores o menores facilidades. Adems, dichos datos est nivel (municipal, provincial
o autonmico).
Esta serie de problemas han complicado la validacin, y por ello la verificacin de

los resultados slo pudo realizarse usando datos de renta familiar a nivel municipal para las
comunidades autnomas de Asturias, Madrid y Pas Vasco. La validacin se basa en las si-
guientes medidas:
Coeficiente de correlacin: Este coeficiente establece una medida del grado

de similitud entre la variable real y la variable estimada, concretamente entre
la variable real y la recta de regresin estimada. Se puede interpretar como el
porcentaje de variabilidad respecto a la recta de regresin estimada. Si todos
los puntos estuvieran sobre sta, se considerara el ajuste perfecto y el va-
lor del coeficiente sera muy prximo a uno.

Error medio y desviacin media: Estos valores permitirn establecer un mar-

gen en el cual se encontrar el valor real con cierto grado de seguridad
A continuacin se muestran los resultados obtenidos. En todas las grficas se mues-

tra el ndice real y estimado para cada uno de los municipios de la comunidad.
1,8
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
28079
28058
28074
28065
28006
28049
28127
28080
28013
28130
28045
28161
28022
28181
28009
28040
28131
28132
28068
28010
Renta Modelo RENTA
Figura 4.3 50 municipios con mayor poblacin de la Comunidad de Madrid
Coeficiente de correlacin 0,935

Error medio 0,090
Desviacin media 0,062
Tabla 4.2 Comunidad de Madrid

1,6
1,4
1,2
0,8
0,6
0,4
0,2
0
0
4
02
04
08
08
05
90
03
04
08
08
00
09
03
00
04
90
04
91
07
09
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
Renta Modelo Renta
Figura 4.4 50 municipios con mayor poblacin del Pas Vasco

Error medio 0,047
Tabla 4.3 Pas Vasco
1,4
1,2
0,8
0,6
0,4
0,2
0
9
8
1
3
4
04
02
07
05
00
05
05
06
01
03
07
01
05
04
07
02
05
03
02
03
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
Renta Modelo RENTA
Figura 4.5 50 municipios con mayor poblacin de Asturias


Error medio 0,069
Tabla 4.4 Asturias

5 . G E N E R A C I N D E T I P O L O G A S Y P R O P E N S I O N E S
5
Captulo
5. Generacin de Tipologas y
Propensiones
Tras el clculo y validacin de los ndices econmicos para todas las secciones cen-
sales, es necesario generar el resto de los niveles de informacin que componen ICC+: tipo-
logas y propensiones.
5.1. Generacin de Tipologas
En este caso se plantea la generacin de diferentes tipologas. Cada una de estas tipo-
logas quedar definida por sus variables de entrada y de salida.
Como norma general, se han probado los clasificadores bietpico (2-step), Redes de
Neuronas de Kohonen y k-medias. Los modelos generados por uno y otro han sido compara-
dos para determinar cual de ellos era ms adecuado aunque en todos los casos se eligi el al-
goritmo k-medias con un nmero de clases dependiendo de la tipologa a desarrollar.
Se han desarrollado cuatro tipologas distintas:

De ciclo de vida familiar.
Econmicas.
Gastos.
Consumo
La tipologa de consumo [5], al igual que versiones anteriores, se ha calculado segn

los comportamientos de consumo que poseen los distintos tipos familiares (explicados en el
apartado 5.2.1). Es, pues, un mero estudio estadstico de las variables de inters para cada
uno de los tipos familiares.
5.1.1. Tipologas de ciclo de vida familiar
Su cometido consiste en clasificar las diferentes familias segn su estructura fami-

liar. Para la creacin de estas tipologas se plante el uso de los siguientes conjuntos semnti-
cos de variables:
Estructura del hogar (variables TIPOHOG)
Edad del sustentador principal (variables EDAD)
Actividad del sustentador principal (variables SITATCHA)
Edades de los hijos
Tras realizar diversas pruebas, no fue posible obtener tipologas descriptivas, por lo
que se opt por utilizar directamente las tipologas definidas por el INE en TIPOHOG.
Consecuentemente, las tipologas de ciclo de vida familiar quedan definidas como:

Una persona adulta, de 65 o ms aos.
Una persona adulta, de menos de 64 aos.
Una persona adulta con nios de hasta 16 aos.
Pareja sin nios, miembro mayor de 65 o ms aos.
Pareja sin nios, miembro mayor con menos de 65 aos.
Pareja con un nio.
Pareja con dos nios.
Pareja con tres o mas nios.
Padre/madre slo/a o pareja con al menos un hijo de ms.
5.1.2. Tipologas econmicas
Su objetivo es clasificar las familias en funcin de sus comportamientos econmicos

ms destacados. Las variables empleadas para realizar esta tipologa son:
Riqueza
Gasto
ValorVivienda

Las primeras acciones consistieron en determinar las variables ms significativas pa-

ra describir correctamente el comportamiento. El anlisis revel que cuatro de las variables
estaban muy fuertemente correladas por lo que se suprimieron en la generacin.
Los grupos resultantes son los siguientes:

Los que tienen casa pequea y su riqueza es escasa
Los que tienen un nivel medio/bajo tanto en riqueza como en el valor de
la vivienda
Los que tienen un nivel medio tanto en riqueza como en el valor de la
vivienda
Los que tienen mucha riqueza, pero un valor menor de la vivienda
Los que tienen mucha riqueza y valor de la vivienda
La grfica que muestra la distribucin es la siguiente:
Figura 5.1 Tipologas Econmicas (Riqueza / ValorVivienda)
Los histogramas asociados a las variables usadas en el modelo son los siguientes:

Figura 5.2 Histograma asociado a la variable Valor Vivienda
Figura 5.3 Histograma asociado a la variable Riqueza
Figura 5.4 Histograma asociado a la variable Gasto

5.1.3. Tipologas de gasto
El objetivo consiste en clasificar las familias segn sus tipos de gastos. El conjunto
de varbles de partida es el siguiente:
AlimentacionBebidasTabaco ElectronicaInformatica
RopaCalzado OcioCultura
MantenimientoSeguridadViviendas PrensaLibros
Energia ViajesVacaciones
MobiliarioDecoracion Educacion
MenajeBazar AlimentacionfueraHogar
Salud, DisfruteAutomoviles SegurosMedico
Telecomunicaciones
Con estas variables no se lograron tipologas descriptivas. Por ello se procedi a rea-
lizar agrupaciones semnticas:
Alimentacin; con las variables AlimentacionBebidasTabaco y Alimenta-
cionFueraHogar
Salud; con las variables Salud y SeguroMedico
ViajesOcioCultura; con las variables ViajesVacaciones y OcioCultura
Educacion; con las variables PrensaLibros y Educacion
Tecnologa; con las variables ElectronicaInformatica y Telecomunicaciones
A partir de los grupos semnticos se obtuvieron tipologas descriptivas a ese nivel

pero no aplicables a nivel global. Por ello se procedi a derivar una nueva variable combi-
nando con los valores asociados a cada familia en cada una de estas tipologas y utilizarlas
para generar una tipologa global. Seguidamente, se descartaron las menos significativas y
algunos valores atpicos antes de volver a aplicar un algoritmo agrupador.
El modelo se gener mediante un algoritmo k-medias usando como entradas:

AlimentacionBebidasTabaco
Energia
RopaCalzado

Telecomunicaciones
OcioCultura
AlimentacionFueraHogar
En el proceso de eleccin de variables se descartaron muchas debido a que muchas

familias no tienen gastos en algunos conceptos. Este efecto puede verse en la Figura 5.5
Figura 5.5 Distribucin de tipos de gasto con escasa representatividad

Como se observa en el segundo histograma, la cantidad de familias que no tienen

apenas gastos en disfrute de automviles es elevadsima. Esto introduce gran cantidad de
ruido en el modelo entrenado por lo que los resultados obtenidos no eran significativos.
Finalmente, se obtuvieron cinco tipologas, las cuales se describen mediante tres de

las variables usadas para la generacin del modelo. Estas variables ms significativas fueron
obtenidas a partir de un algoritmos C5.0 que estimaba el modelo final. como este algoritmo
elige las variables ms significativas en su proceso interno basta con usar dichas variables
como las ms significativas para explicar la tipologas
Las tipologas sacadas se describen a continuacin:

Tipo Gasto 1: Poco consumo.
Tipo Gasto 2: Poco consumo en Ocio/Cultura y alto consumo energtico.
Tipo Gasto 3: Alto consumo en Ocio/Cultura.
Tipo Gasto 4: Alto consumo en Energa.
Tipo Gasto 5: Poco consumo en Ocio/Cultura y Telecomunicaciones.
La grfica asociada es la siguiente:
Figura 5.6 Tipologas de Gasto (OcioCultura / Energa)

Los histogramas de las variables representativas son los siguientes:
Figura 5.7 Histograma de la variable OcioCultura
Figura 5.8 Histograma de la variable Energa
Figura 5.9 Histograma de la variable Telecomunicaciones
Gracias a estos histogramas se puede describir las tipologas generadas.

5.1.4. Proyeccin de tipologas en el Censo
El objetivo final perseguido es crear una distribucin de cada tipologa por seccin
censal. Como las tipologas se han calculado a nivel de familia en la ECPF, es necesario pro-
yectar estas tipologas a cada una de las secciones del censo. Para ello se han realizado los
siguientes pasos:
1. Calcular la distribucin por cada familia (0 no pertenece, 1 pertenece)

2. Agregar segn los grupos de las agrupaciones generadas
3. Entrenar una red de neuronas que a partir de las variables de entrada usadas para la
tipologa. Se entrenar una red de neuronas rpida sin sobreentrenamiento que esti-
me todos los tipos
4. Aplicar la red de neuronas anterior a las secciones censales. De esta forma se consi-
gue la proyeccin
Finalmente se realiza un paso adicional de normalizacin de los valores asignados, pa-

ra tener unos porcentajes correctos (la aplicacin de la red de neuronas introduce un pequeo
error en la suma total).
5.2. Clculo de Propensiones
Las propensiones reflejan la probabilidad que tienen las familias de una cierta seccin
censal de realizar ciertas acciones. Han sido cuatro tipos de propensiones las que se han rea-
lizado:
Propensin de hipotecas.
Propensin de tenencia de segunda vivienda.
Propensin de posesin de segundo vehculo.
Propensin de compra de gama de automvil.
5.2.1. Propensin de hipotecas
Esta propensin indica la probabilidad de que las familias tengan la vivienda hipote-
cada en una cierta seccin censal. Este valor no es otro que el porcentaje de viviendas con
hipotecas en una seccin censal.

Estos datos se han obtenido en el proceso de limpieza de datos directamente del

Censo.
5.2.2. Propensin de tenencia de segunda vivienda
Esta propensin indica la probabilidad de que una familia de una seccin censal po-
sea una segunda vivienda.
Adems de esta informacin, se proporcoinan otros dos variables que completan el

conocimiento:
Lugar de posesin de dicha vivienda. Los lugares posibles estn clasificados
de la siguiente manera:
o En el mismo municipio.
o En la misma provincia pero distinto municipio.
o En la misma comunidad pero distinta provincia.
o En distinta comunidad.
Tiempo medio de disfrute de la segunda vivienda. El tiempo posible est cla-
sificado de la siguiente forma:
o Menos de 30 das al ao.
o Entre 30 y 60 das al ao.
Para obtener esta informacin, se parte de la base de datos del censo.
5.2.3. Propensin de posesin de segundo vehculo
Con este tipo de propensin se desea reflejar la probabilidad que tienen las familias a
adquirir / poseer ms de un vehculo en el hogar. Partiendo de la base de datos del censo, se
obtienen aquellas familias que poseen ninguno, uno, dos o tres coches en cada seccin cen-
sal.
Para la hallar la propensin a tener ms de un automvil en las familias, es suficiente

con agregar los porcentajes de familias de cada rea censal que disponen de dos o ms veh-
culos.

5.2.4. Propensin de compra de gama de automvil
Esta propensin refleja la probabilidad de las familias a comprar / poseer una cierta
gama de vehculos.
De la propensin anterior resulta sencillo extraer el nmero de coches que poseen las
familias de una cierta seccin censal. Usando este dato junto a la variable DisfruteAutomovi-
les del censo, se obtiene una nueva variable capaz de reflejar el gasto en compra y disfrute
cocedse automviles. A partir de sta, se realiza una clasificacin de las secciones censales
mediante un clasificador K-medias el cual genera tres grupos.
El dato que reflejar cada uno de dichos clusters, ser la gama de vehculo (bajo,
medio y alto) que se suele adquirir en cada seccin censal.

Parte IV
Conclusiones
6 . C O N C L U S I O N E S Y L N E A S F U T U R A S
6
Captulo
6. Conclusiones y Lneas
Futuras
Tras la realizacin de este proyecto, se han calculado los niveles de informacin ne-
cesrios para la herramienta de Marketing Inteligente. Estos niveles, incorporados en la
herramienta, aportan un alto nivel de conocimiento para detectar potenciales clientes, a quin
y dnde dirigir las actividades, dnde abrir puntos de venta, etc. Durante todo el proceso se
han superado mltiples problemas utilizando numerosas tcnicas.
Una vez finalizada toda la herramienta, es el momento para asimilar la experiencia y

reflexionar sobre el trabajo, para obtener el mximo aprovechamiento del mismo.
6.1. Conclusiones
En primer lugar, se comentan los puntos bsicos y conocimientos necesarios durante

el desarrollo:
Documentacin que permite comprender el clculo de niveles de informacin.

Utilidad de los conocimientos de la carrera
Problemas en el desarrollo de la herramienta
La herramienta es capaz de describir situaciones estadsticas actuales por las que van
a pasar cada seccin censal de Espaa, a partir de una encuesta realizada a un conjunto de
familias. Por ejemplo, se puede llegar a predecir el nivel econmico de todas las secciones
censales.

Debemos tener en cuenta que el proceso desarrollado es independiente del ao en

que provengan los datos, nicamente necesita de variables comunes entre el propio Censo de
Poblacin y la ECPF. Es, por tanto, una gran ventaja puesto que la herramienta es vlida para
cualquier Censo y ECPF, siempre que se cumpla la existencia de variables comunes.
El desarrollo del todo el proyecto se ha controlado bajo un sistema de control de ver-

siones de versiones (Microsoft Source Safe). De este modo, siempre estn disponibles todas
las versiones realizadas del producto y el historial de desarrollo.
6.1.1. Documentacin
Como ya se ha comentado, el proyecto surge, en la empresa MDS Boole, por la ne-

cesidad de explorar y desarrollar el conocimiento individual de los consumidores, el cual, se
ha convertido en uno de los principales objetivos de la mayora de las empresas que desean
orientar sus actividades de marketing de forma ms eficaz y rentable.
Es, pues, til implementar una metodologa capaz de calcular ciertos niveles de in-
formacin (datos de salida), teniendo en cuenta ciertos datos de entrada del Censo, sean del
ao que sean dichos datos. Esta herramienta puede ser la base de un conjunto de proyectos
con los que pueda ser compatible. Una forma de estandarizar este proceso es mediante el uso
de documentacin, que permita definir la herramienta y describa los pasos necesarios para su
realizacin para facilitar la modificacin del proyecto ante futuras necesidades.
Esta informacin requerida para la correcta comprensin del proyecto desarrollado,

se puede obtener de la documentacin del proyecto, el cual, tiene 2 objetivos:
Servir como memoria del trabajo realizado que pueda reutilizarse en el futuro.
Permitir a terceras personas comprender el sistema creado, ya sea para modifi-
carlo o para utilizarlo de forma correcta.
La documentacin del proceso de desarrollo seguido supone una sobrecarga en el

desarrollo. Los resultados avalan su uso puesto que las ventajas obtenidas resultan rentables
frente a la sobrecarga que suponen.

6.1.2. Conocimientos
Indiscutiblemente, en una carrera como es Ingeniera Informtica no es posible apor-

tar al alumno todos los conocimientos que ste necesitar en su larga vida profesional. El
principal motivo es la falta de tiempo para explicar los amplios campos de trabajo que cubre
la informtica en s, as como los continuos cambios tecnolgicos que surgen a lo largo de su
estudio.
El principal legado tras el estudio de esta carrera es la base necesaria para abordar
cualquier tipo de proyecto en el futuro sin miedo alguno ante el desconocimiento de la tecno-
loga u otros mltiples aspectos. Estas lneas bsicas se enriquecern con la experiencia, lle-
vando a cabo diseos cada vez ms ptimos y con menos errores.
Durante la realizacin de este proyecto han surgido problemas ante los que no estaba
preparado en trminos acadmicos, debido a que algunos aspectos del plan de estudios actual
no son tratados del modo ms adecuado o quedan lejos de la ltima tecnologa utilizada. En-
tre estos aspectos se podran destacar los siguientes:
El primer problema que se plante fue el estudio de minera de datos, y el descono-

cimiento absoluto de la herramienta Clementine. Al no haber cursado la asignatura
de Bases de Datos Deductivas, los conocimientos de DataMining eran escasos, y
desconoca la existencia de dicha herramienta. Adems, debido a la cantidad de ca-
sos a tratar en Clementine, se opto por trabajar con scripts del mismo (clemb), por lo
que tambin se tuvo que aprender el lenguaje de script que proporciona la herra-
mienta.
Otro aspecto problemtico fue la eleccin de un lenguaje de programacin usado es-

pecialmente para la estadstica, como pueda ser R-Project. A lo largo de la carrera,
se han aprendido lenguajes como Matlab, o Prolog, por lo que no fue difcil su
aprendizaje. Quiz, la mayor dificultad fue el desconocimiento de las libreras y el
uso de objetos en un lenguaje como este.
Para automatizar ciertos clculos, se decidi implementar programas en el lenguaje

de programacin C#. El aprendizaje de este tipo de lenguajes a lo largo de la carrera
se limita a la descripcin de las nuevas caractersticas de este tipo de lenguajes y el

modo de utilizarlos de forma estructurada. Temas como patrones y tcnicas de dise-

o, generalizacin quedan un tanto descuidados
Finalmente, para la realizacin del proyecto, se usaron, en gran medida, conocimien-

tos de inferencia estadstica y de inteligencia artificial. No obstante, la gran mayora
de los conocimientos fueron introducidos en el transcurso de la carrera, por lo que
nicamente tuvieron que ser repasados y profundizados para el desarrollo del pro-
yecto.
6.1.3. Dificultades en el desarrollo
Una vez asimilados todos los conocimientos necesarios, el proyecto se desarroll

con ciertas dificultades, las cuales son:
El principal punto problemtico fue la eleccin de algoritmo de agrupacin.

Inicialmente nicamente se implement el algoritmo gentico. Debido a
complicaciones con dicho algoritmo, se plante realizar un algoritmo ms
sencillo, una bsqueda local, para validar la funcin de fitness. Sin embargo,
al no tener la seguridad de obtener buenos resultados, por se decide emplear
un algoritmo mejor, recocido simulado (simulated annealing). Al analizar los
tres algoritmos se descubri que los resultados son de calidad similar, por lo
que se utiliza la bsqueda local para la generacin de los grupos.
La informacin facilitada del Censo de Poblacin del 2001 se publica con un

formato poco manejable. Esto dificulta inicialmente el preproceso de datos,
y obliga a cargar toda la informacin del Censo en una Base de Datos. Ade-
ms, por tratarse de datos reales, surgen dificultades inesperadas, como atri-
butos con valores nulos, o sin valores (debido a la ley de proteccin de da-
tos) que deben ser correctamente tratados.
Debido a un clculo errneo en alguno de los ndices de la ECPF, los algo-

ritmos de aprendizaje no funcionaban correctamente para estimar los nuevos
ndices. Al no detectar ese error en el clculo de ndices, se intent la aplica-
cin de nuevos algoritmos, suponiendo que los empleados hasta el momento

no eran los idneos. Al no obtener resultados, se revis todo el proceso rea-

lizado hasta el momento, detectando as el error de clculo. Es, pues, impor-
tante asegurarse de que los datos de entrada sean correctos antes de ejecutar
los algoritmos de aprendizaje.
Debido a la falta de informacin en el Censo de Poblacin, ha sido necesario

consultar la base de datos del INE, para derivar alguna informacin necesa-
ria, como pudiera ser el nmero de hogares por seccin censal.
Para comprobar si los ndices del Censo, estimados durante el proceso, eran
correctos, ha sido necesario disponer de ndices reales con los que compa-
rar. Sin embargo, no fue nada sencillo conseguir dichos ndices, puesto que
pocos institutos posean dicha informacin y se proporcionaban con distintos
formatos y niveles de agregacin. Esto ha dificultado la validacin de las es-
timaciones realizadas.
Finalmente, existieron ciertas dificultades a la hora de obtener los niveles de

informacin debido a modificaciones que la empresa MDS Boole realizaba
lo que supona recalcular de nuevo gran parte del proceso los ndices, o in-
cluso llegar a agrupar de nuevo los datos de origen. Adems, los procesos
con muy costosos en tiempo lo que redundaba en retrasos.
Una vez solucionadas todas las dificultades, se han obtenido muy buenos resultados
en los niveles de informacin. Por otro lado, procesar y tratar con datos reales ha sido una
experiencia muy gratificante, y ha facilitado el aprendizaje de buenos conocimientos sobre el
tratamiento de grandes cantidades de datos reales y sobre otras tecnologas que ha sido nece-
sario emplear.
6.2. Lneas Futuras
Al finalizar el desarrollo de este proyecto, quedan varias lneas de desarrollo entre

las que se pueden citar las siguientes:

Uso de otros algoritmos de agrupacin (inclusive algoritmos de aprendizaje), o desa-

rrollo de otras funciones fitness para su uso en los algoritmos de agrupacin.
Modificacin del algoritmo gentico: Definimos un individuo como el resultado de

la ejecucin de un algoritmo de Bsqueda Local (con o sin recocido simulado). Se
generan, de forma paralela y distribuida, un nmero alto de individuos para un estra-
to y comunidad autnoma. Una vez calculados, se selecciona aquel individuo con
mejor valor fitness. Finalmente obtenemos la mejor agrupacin familiar.
Uso de otros algoritmos de aprendizaje (distintos a redes de neuronas y regresin lo-

gstica) que mejoren la prediccin de ndices del Censo de Poblacin.
Proceso automtico de seleccin de las variables comunes ms significativas entre el

Censo de Poblacin y ECPF.
Proceso automtico que representa las relaciones entre las distintas variables. De es-
ta forma, podemos seleccionar ciertas variables y eliminar otras variables que tienen
dependencias relacionales.
Es lgico pensar que una posible lnea futura fuera la automatizacin de todo el pro-
ceso y clculo de los niveles de informacin. Sin embargo, a da de hoy, dicha automatiza-
cin no es posible debido a:
la dependencia por las decisiones del hombre
el procesamiento con datos reales
el desarrollo con programas sobre distintas plataformas

7 . B I B L I O G R A F A
7
Captulo
7. Bibliografa
Durante el desarrollo del trabajo se han citado diversas referencias consultadas de las
que se ha extrado informacin. Se proporciona la cita bibliogrfica completa de cada una de
las mismas para facilitar su localizacin y consulta.
Junto a ellas se incluye otra documentacin consultada, de forma directa o indirecta,

aunque no haya sido citada en el documento. Su lectura puede proporcionar una visin ms
amplia de muchos de los aspectos tratados.
[1] Francisco Cabrera

MDS/Boole 2005 ICC+: Indicadores del Comportamiento de Consumidores
MDS Boole. Madrid. Versin 1.0 25 de Enero de 2005
[2] INE
INE 1992 Encuesta de Presupuestos Familiares. Metodologa
INE Artes Grficas. Madrid 1992
[3] INE
INE 2001 Censos de Poblacin y Viviendas 2001
INE Artes Grficas Madrid Marzo 2001
[4] SPSS Inc

SPSS 2002 Clementine 7.0 Users Guide
SPSS Inc. USA 2002
[5] Francisco de Vicente Carnicero

de Vicente 2003 Datamining para Marketing Directo

Trabajo fin de carrera, Facultad de informtica. Madrid, Febrero 2003
[6] Pedro Larraaga e Iaki Inza

Larraaga Algoritmos de Estimacin de Distribuciones
Departamento de Ciencias de la Computacin e Inteligencia Artificial
Universidad del Pas Vasco
[7] Oscar Cubo Medina

Cubo 2005 Metodologa de Agrupacin basada en algoritmos de optimizacin
Facultad de Informtica
Universidad Politcnica de Madrid Enero 2005
[8] Leonardo Arcamone, Maria Dolores Gonzlez

Arcamone 2002 Algoritmos Genticos
Octubre 2002
[9] Oscar Cubo Medina

Cubo 2005 Simulacin de poblaciones basada en minera de datos oficiales
Diploma de Estudios Avanzados
Facultad de Informtica
Universidad Politcnica de Madrid Julio 2005
[10] Esther Olivares Moya

Olivares 2005 FiMiner: Una plataforma unificada para minera de datos
Trabajo fin de carrera, Facultad de informtica. Madrid, Julio 2005
[11] O. Cubo, V. Robles, J, Segovia, E. Menasalvas

Cubo 2004 Using Genetic algorithms to improve accuracy of economical indexes pre-
diction
Facultad de informtica. Madrid, Julio 2004
[12] DataMining
Internet http://www.crisp-dm.org/Process/index.htm
http://www.bycocer.com/quantessential/DataMining.htm
http://www.cs.bris.ac.uk/Teaching/Resources/COMSM0304/clementine.html
http://www2.spss.com

http://www.monografias.com/
http://web.showcase.com
Simulated Annealing
http://members.aol.com/btluke/simann1.htm
http://members.aol.com/btluke/simanf1.htm
http://esa.ackleyshack.com/thesis/esthesis7/node15.html
R-Project
http://www.r-project.org/
http://cran.r-project.org/doc/contrib/rdebuts_es.pdf
http://www.ub.es/stat/docencia/EADB/Curso%20basico%20de%20R.htm
Estadstica
http://www.ine.es

Parte V
Anexos
T R A N S F O R M A C I N D E V A R I A B L E S
Transformacin de Variables
A continuacin procedemos a describir detalladamente la transformacin de las va-
riables de los datos del Censo de Poblacin y de la ECPF.
TABLA DE DESCRIPCIN DE VARIABLES Y TRANSFORMACIONES

Nombre descriptivo Sexo
ECPF Nombre SEXO
Valores 1 Hombre
2 Mujer
9 No consta
CENSO Nombre Varn TOTAL
Mujer TOTAL
Valores [0, n)
Tabla Fuente: P2 - Poblacin segn sexo y edad
Operaciones de Transformacin Modificar las variables en la ECPF correspondien-
tes a los valores posibles del sexo en el caso especfico
del valor Hombre y agrupar los valores totales
Los valores No consta en la ECPF no se tendrn
en cuenta por lo cual se suprimir la variable corres-
pondiente, ya que no existe su equivalente en el Censo.
Modificacin del nombre de la variable en el
CENSO
Variables derivadas SEXO_HOMBR Nmero de varones
E
SEXO_MUJER Nmero de mujeres

Nombre descriptivo Edad
ECPF Nombre EDAD
Valores [1, 99]
CENSO Nombre TOTAL De 0 a 4
TOTAL De 5 a 9
TOTAL De 10 a 14
TOTAL De 15 a 19
TOTAL De 20 a 24
TOTAL De 25 a 29
TOTAL De 30 a 34

0 . T R A N S F O R M A C I N D E V A R I A B L E S
TOTAL De 35 a 39
TOTAL De 40 a 44
TOTAL De 45 a 49
TOTAL De 50 a 54
TOTAL De 55 a 59
TOTAL De 60 a 64
TOTAL De 65 a 69
TOTAL De 70 a 74
TOTAL De 75 a 79
TOTAL De 80 a 84
TOTAL De 85 a 89
TOTAL 90 ms
Valores [0, n)
Tabla Fuente: P2 - Poblacin segn sexo y edad
Operaciones de Transformacin Crear variables en la ECPF correspondientes a
rangos de posibles valores de la edad dados en el
CENSO, agrupando los valores totales
CENSO
Variables derivadas EDAD_0-4 0a4
EDAD_5-9 5a9
EDAD_10-14 10 a 14
EDAD_15-19 15 a 19
EDAD_20-24 20 a 24
EDAD_25-29 25 a 29
EDAD_30-34 30 a 34
EDAD_35-39 35 a 39
EDAD_40-44 40 a 44
EDAD_45-49 45 a 49
EDAD_50-54 50 a 54
EDAD_55-59 55 a 59
EDAD_60-64 60 a 64
EDAD_65-69 65 a 69
EDAD_70-74 70 a 74
EDAD_75-79 75 a 79
EDAD_80-84 80 a 84
EDAD_85-89 85 a 89
EDAD_90MAS 90 ms


Nombre descriptivo Estado Civil
ECPF Nombre ECIVIL
Valores 0 Soltero
1 Casado
2 Unin en pareja
3 Viudo
4 Divorciado o separado
9 No consta
CENSO Nombre TOTAL Soltero
TOTAL Casado
TOTAL Viudo
TOTAL Separado
TOTAL Divorciado
Valores [0, n)
Tabla Fuente: P7 - Poblacin en viviendas familiares segn sexo y es-
tado civil
Operaciones de Transformacin Crear una nueva escala de valores para que se co-
rrespondan los datos del censo y la ECPF, reagrupando
tanto en Censo como en la ECPF los valores corres-
pondientes.
Los valores No consta no se tendrn en cuenta por
lo cual se suprimir la variable correspondiente en la
ECPF
ECPF CENSO Nuevo Valor
Soltero Soltero Soltero
Casado Casado Casado
Unin en pa-
reja
Viudo Viudo Viudo
Divorciado o Separado Divorciado o
separado Divorciado separado
Variables derivadas ECIVIL_SOLTERO Soltero
ECIVIL_CASADO Casado
ECIVIL_VIUDO Viudo
ECI- Divorciado o separado
VIL_DIVORCIADO

Nombre descriptivo Nivel de estudios en curso
ECPF Nombre NIVESTCU
Valores 1
Educacin primaria o primer ciclo de educa-
cin secundaria
2 Segundo ciclo de educacin secundaria
3 Educacin superior (terciaria)
8 No aplicable
9 No consta
CENSO Nombre TOTAL Enseanzas iniciales para adul-
tos(alfabetizacin, educacin bsica, ...)
TOTAL Programas de garanta social
TOTAL ESO, educacin secundaria para adultos
TOTAL Bachillerato, BUP, COU
TOTAL Escuela Oficial de Idiomas
TOTAL Enseanzas Artsticas de Grado Elemental o
Medio
TOTAL Formacin Profesional de Grado Medio o es-
tudios EQ
TOTAL Formacin Profesional de Grado Superior,
FPII o equivalente
TOTAL Diplomatura universitaria, arquitectura o in-
geniera tcnica
TOTAL Licenciatura universitaria, arquitectura o in-
geniera o equiv
TOTAL Estudio posgrado, master, MIR o anlogo
TOTAL Doctorado
TOTAL Curso del INEM, taller u otros
TOTAL Otros cursos(Informtica, preparacin de opo-
siciones..)
Valores [0, n)
Tabla P11 - Poblacin en viviendas familiares de 16 aos o
Fuente: ms que est cursando estudios, segn sexo y estudios en
curso
Operaciones de Transformacin Crear una nueva escala de valores para agrupar los
datos del CENSO y de la ECPF
Los valores No consta y No aplicable de la ECPF
no se tendrn en cuenta por lo cual se suprimir la varia-
ble correspondiente
Educacin TOTAL Educacin
primaria o primer Enseanzas ini- primaria o pri-
ciclo de educacin ciales para adul- mer ciclo de
secundaria tos(alfabetizaci educacin se-
n, educacin b- cundaria
sica, ...)

TOTAL
Programas de
garanta social
TOTAL
ESO, educacin
secundaria para
adultos
Segundo ciclo TOTAL Segundo ci-
de educacin se- Bachillerato, clo de educacin
cundaria BUP, COU secundaria
TOTAL
Escuela Oficial
de Idiomas
TOTAL
Enseanzas Ar-
tsticas de Grado
Elemental o
Medio
TOTAL
Formacin Pro-
fesional de Gra-
do Medio o es-
tudios EQ
Educacin su- TOTAL Educacin
perior (terciaria) Formacin Pro- superior (tercia-
fesional de Gra- ria)
do Superior,
FPII o eq
TOTAL
Diplomatura
universitaria,
aqrquitectura o
ingenieria
tecnica o eq
TOTAL
Licenciatura
universitaria,
arquitectura o
ing eq
TOTAL Es-
tudio posgrado,
master, MIR o
analogo
TOTAL
Doctorado
TOTAL Otros
Curso del
INEM, taller u
otros
TOTAL
Curso Forma-

cin por la em-

presa
TOTAL
Otros cursos
Variables derivadas NIVESTCU_PRIMARIA Educacin primaria o pri-
mer ciclo de educacin se-
cundaria
NIVEST- Segundo ciclo de educa-
CU_SECUNDARIA cin secundaria
NIVESTCU_TERCIARIA Educacin superior (tercia-
ria)
NIVESTCU_OTRO Otros

Nombre descriptivo Nivel de estudios alcanzados
ECPF Nombre NIVESTUD
Valores 1 Educacin primaria o primer ciclo de educa-
cin secundaria
2 Segundo ciclo de educacin secundaria
3 Educacin superior (terciaria)
9 No consta
CENSO Nombre TOTAL Analfabetos 2
TOTAL Sin estudios 2
TOTAL Primer grado 2
TOTAL Segundo grado 2
TOTAL Tercer grado 2
Valores [0, n)
Tabla Fuente: P8 - Poblacin en viviendas familiares de 16 aos o
ms, segn sexo y nivel de estudios
datos del CENSO y de la ECPF
Los valores No consta de la ECPF no se tendrn
en cuenta por lo cual se suprimir la variable corres-
pondiente
TOTAL Analfabetos
Analfabetos 2 Sin estudios
TOTAL Sin
estudios 2
1 TOTAL Educacin
Primer grado 2 primaria o pri-
mer ciclo de

educacin se-
cundaria
2 TOTAL Segundo ci-
Segundo grado clo de educacin
2 secundaria
3 TOTAL Educacin
Tercer grado 2 superior (tercia-
ria)
Variables derivadas NIVES- Analfabetos Sin estu-
TUD_ANALFABETOS dios
NIVESTUD_PRIMARIA Educacin primaria o
primer ciclo de educa-
cin secundaria
NIVES- Segundo ciclo de educa-
TUD_SECUNDARIA cin secundaria
NIVESTUD_TERCIARIA Educacin superior (ter-
ciaria)

Nombre descriptivo Relacin con la actividad econmica
ECPF Nombre SITACTHA
Valores 1 Trabajando (incluye temporalmente ausente)
3 Desempleado
4 Jubilado o retirado
5 Estudiante o en Servicio Militar
6 Actividad no econmica, incapaz de trabajar
9 No consta
CENSO Nombre TOTAL Estudiantes
TOTAL Ocupados
TOTAL Parados buscando el primer empleo
TOTAL Parados que han trabajado antes
TOTAL Pensionistas de invalidez
TOTAL Pensionistas de viudedad u orfandad
TOTAL Pensionistas de jubilacin
TOTAL Realizando o compartiendo las tareas del
hogar
TOTAL Otra situacin (menores sin escolarizar, ren-
tistas..)
Valores [0, n)
Tabla Fuente: P26 - Poblacin en viviendas familiares de 16 aos o

ms, segn sexo y relacin con la actividad

datos del CENSO dependiendo de la ECPF
Los valores No consta no se tendrn en cuenta por
lo cual se suprimir la variable de la ECPF
Trabajando TOTAL Ocupados
(incluye tempo- Ocupados
ralmente ausen-
te)
Desempleado TOTAL Pa- Parados
rados buscando
el primer em-
pleo
TOTAL Pa-
rados que han
trabajado antes
Jubilado o re- TOTAL Jubilado o re-
tirado Pensionistas de tirado
jubilacin
Estudiante o TOTAL Es- Estudiante o
en Servicio Mi- tudiantes en Servicio Mi-
litar litar
Actividad no TOTAL Pen- Actividad no
econmica, in- sionistas de in- econmica, in-
capaz de traba- capaz de trabajar
jar validez
TOTAL Rea-
lizando o com-
partiendo las ta-
reas del hogar
TOTAL
Pensionistas de
viudedad u or-
fandad
TOTAL
Otra situacin
(menores sin es-
colarizar, rentis-
tas..)
Variables derivadas SITACTHA_OCUPADO Ocupados
SITACTHA_PARADO Parados
SITACTHA_JUBILADO Jubilado o retirado
SITACTHA_ESTUDIANTE- Estudiante o en Servi-
SM cio Militar
SITACTHA_NO- Actividad no econ-
ECONOMICA mica, incapaz de tra-

bajar

Nombre descriptivo Ocupacin
ECPF Nombre OCUPA
Valores 00 Fuerzas Armadas
01 Direccin de las empresas y de la Administra-
cin Pblica
02 Tcnicos y profesionales cientficos e intelec-
tuales
03 Tcnicos y profesionales de apoyo
04 Empleados de tipo administrativo
05 Trabajadores de servicios de restauracin, per-
sonales, proteccin y vendedores de los co-
mercios
06 Trabajadores cualificados en la agricultura y en
la pesca
07 Artesanos y trabajadores cualificados de las
industrias manufactureras, la construccin y la
minera, excepto los operadores de instalacio-
nes y maquinaria; trabajadores cualificados de
las industrias extractivas, de la metalurgia, la
construccin de maquinaria y asimilados; tra-
bajadores cualificados de industrias de artes
grficas, textil y de la confeccin, de elabora-
cin e alimentos, ebanistas, artesanos y otros
asimilados
08 Operadores y montadores de instalaciones y
maquinaria fija y conductores y operadores de
maquinaria mvil
09 Trabajadores no cualificados
88 No aplicable
99 No consta
CENSO Nombre 0 Fuerzas Armadas
1 Direccin de las empresas y de las administracio-
nes pblicas
2 Tcnicos y profesionales cientficos e intelectuales
3 Tcnicos y profesionales de apoyo

4 Empleados de tipo administrativo

5 Trabajadores de los servicios de restauracin, per-
sonales, proteccin y vendedores de los comercios
6 Trabajadores cualificados en la agricultura y en la
pesca
7 Artesanos y trabajadores cualificados de las indus-
trias manufactureras, la construccin, y la minera, ex-
cepto los operadores de instalaciones y maquinaria
8 Operadores de instalaciones y maquinaria, y mon-
tadores
9 Trabajadores no cualificados
Valores [0, n)
Tabla Fuente: P29 - Ocupados de 16 aos o ms en viviendas familia-
res segn ocupacin
Operaciones de Transformacin Crear variables en la ECPF correspondientes a los
valores posibles de OCUPA en el Censo, para agrupar
los valores totales
no se tendrn en cuenta por lo cual se suprimir la va-
riable correspondiente
Cambiar el nombre de las variables en el CENSO
Variables derivadas OCUPA_0 Fuerzas Armadas
OCUPA_1 Direccin de las empresas y de las
administraciones pblicas
OCUPA_2 Tcnicos y profesionales cientfi-
cos e intelectuales
OCUPA_3 Tcnicos y profesionales de apoyo
OCUPA_4 Empleados de tipo administrativo
OCUPA_5 Trabajadores de los servicios de
restauracin, personales, protec-
cin y vendedores de los comer-
cios
OCUPA_6 Trabajadores cualificados en la
agricultura y en la pesca
OCUPA_7 Artesanos y trabajadores cualifica-
dos de las industrias manufacture-
ras, la construccin, y la minera,
excepto los operadores de instala-
ciones y maquinaria
OCUPA_8 Operadores de instalaciones y ma-
quinaria, y montadores

OCUPA_9 Trabajadores no cualificados

Nombre descriptivo Actividad del establecimiento donde trabaja
ECPF Nombre ACTESTAB
Valores A Agricultura, ganadera, caza y silvicultura
B Pesca
C Industrias extractivas
D Industria manufacturera
E Produccin y distribucin de energa elctrica,
gas y agua
F Construccin
G Comercio; reparacin de vehculos, motocicle-
tas y ciclomotores y artculos personales y de
uso domstico
H Hostelera
I Transporte, almacenamiento y comunicaciones
J Intermediacin financiera
K Actividades inmobiliarias y de alquiler; servi-
cios empresariales
L Administracin pblica, defensa y Seguridad
Social obligatoria
M Educacin
N Actividades sanitarias y veterinarias; servicios
sociales
O Otras actividades sociales y de servicios pres-
tados a la comunidad; servicios personales
P Hogares que emplean personal domstico
Q Organismos extraterritoriales
8 No aplicable
9 No consta
CENSO Nombre Agricultura, ganadera y pesca - A - Agricultura, gana-
dera, caza y silvicultura
Agricultura, ganadera y pesca - B - Pesca
Industria - C - Industrias extractivas
Industria - D - Industria manufacturera
Industria - E - Produccin y distribucin de energa
elctrica, gas y agua

Construccin - F - Construccin
Servicios - G - Comercio; reparacin de vehculos de
motor, motocicletas, ciclomotores y artculos persona-
les y de uso domstico
Servicios - H - Hostelera
Servicios - I - Transporte, almacenamiento y comuni-
caciones
Servicios - J - Intermediacin financiera
Servicios - K - Actividades inmobiliarias y de alquiler;
servicios empresariales
Servicios - L - Administracin pblica, defensa y segu-
ridad social obligatoria
Servicios - M - Educacin
Servicios - N - Actividades sanitarias y veterinarias;
asistencia social
Servicios - O - Otras actividades sociales y de servicios
prestados a la comunidad; servicios personales
Servicios - P - Actividades de los hogares
Servicios - Q - Organismos extraterritoriales
Valores [0, n)
res segn actividad del establecimiento en que trabaja
valores posibles de ACTESTAB, para agrupar los valo-
res totales
Cambiar el nombre de las variables en el CENSO
Variables derivadas ACTESTAB_1 Agricultura, ganadera, caza y sil-
vicultura
ACTESTAB_2 Pesca
ACTESTAB_3 Industrias extractivas
ACTESTAB_4 Industria manufacturera
ACTESTAB_5 Produccin y distribucin de ener-
ga elctrica, gas y agua
ACTESTAB_6 Construccin
ACTESTAB_7 Comercio; reparacin de vehcu-
los, motocicletas y ciclomotores y
artculos personales y de uso do-
mstico

ACTESTAB_8 Hostelera
ACTESTAB_9 Transporte, almacenamiento y
comunicaciones
ACTESTAB_10 Intermediacin financiera
ACTESTAB_11 Actividades inmobiliarias y de al-
quiler; servicios empresariales
ACTESTAB_12 Administracin pblica, defensa y
Seguridad Social obligatoria
ACTESTAB_13 Educacin
ACTESTAB_14 Actividades sanitarias y veterina-
rias; servicios sociales
ACTESTAB_15 Otras actividades sociales y de
servicios prestados a la comuni-
dad; servicios personales
ACTESTAB_16 Hogares que emplean personal
domstico
ACTESTAB_17 Organismos extraterritoriales

Nombre descriptivo Situacin profesional
ECPF Nombre SITPROF
Valores 1 Empleador
2 Empresario sin asalariados o trab. Indepen-
diente
3 Asalariado
4 Ayuda familiar
5 Aprendiz remunerado
6 Otra situacin
8 No aplicable
9 No consta
CENSO Nombre Empresario o profesional que emplea personal
Empresario o profesional que no emplea personal
Trabajador por cuenta ajena con carcter fijo o indefi-
nido
Trabajador por cuenta ajena con carcter eventual,
temporal...
Otra situacin(Ayuda familiar)
Otra situacin(Miembro de cooperativas)

Valores [0, n)
res segn situacin profesional
valores posibles de ACTESTAB, para agrupar los valo-
res totales
Agrupar los valores del censo de acuerdo a las si-
guientes categoras
ECPF CENSO NUEVO VA-
LOR
Empleador Empresario o Empleador
profesional que
emplea personal
Empresario Empresario o Empresario
sin asalariados o profesional que sin asalariados o
trab. Indepen- no emplea per- trab. Indepen-
diente sonal diente
Asalariado Trabajador Asalariado
por cuenta ajena
con carcter fijo
o indefinido
Trabajador
por cuenta ajena
con carcter
eventual, tempo-
ral...
Ayuda fami- Otra situa- Ayuda fami-
liar cin(Ayuda fa- liar
miliar)
Aprendiz re- Otra situa- Otra situa-
munerado cin(Miembro cin
Otra situa- de cooperativas)
cin
Variables derivadas SITPROF_EMPLEADOR Empleador
SIT- Empresario sin asala-
PROF_EMPRESARIOSIN riados o trab. Inde-
pendiente
SITPROF_ASALARIADO Asalariado
SITPROF_AYUDAF Ayuda familiar
SITPROF_OTRA Otra situacin

Nombre descriptivo Rgimen de tenencia de la vivienda
ECPF Nombre TENEVIV

Valores 1 Propiedad sin prstamo o hipoteca en curso
2 Propiedad con prstamo o hipoteca en curso
3 Alquiler
4 Alquiler reducido o cesin semigratuita
5 Cesin gratuita
9 No consta
CENSO Nombre En propiedad por compra, totalmente pagada 2
En propiedad por compra, con pagos pendientes (hipo-
tecas...) 2
En propiedad por herencia o donacin 2
En alquiler 2
Cedida gratis o a bajo precio por otro hogar, la empre-
sa... 2
Otra forma 2
Valores [0, n)
Tabla Fuente: P40 - Poblacin en viviendas familiares segn rgimen
de tenencia de la vivienda
Operaciones de Transformacin Los valores No consta y No aplicable de la ECPF
Agrupar y ajustar los valores de la ECPF y las va-
riables del CENSO, de manera que se adecuen a la es-
cala de valores que se presenta a continuacin
LOR
Propiedad sin En propiedad Propiedad sin
prstamo o hi- por compra, to- hipoteca
poteca en curso talmente pagada
2
Propiedad En propiedad Propiedad
con prstamo o por compra, con con hipoteca
hipoteca en cur- pagos pendien-
so tes (hipotecas...)
2
Alquiler En alquiler 2 Alquiler
Alquiler re- En propiedad Cesin
ducido o cesin por herencia o
semigratuita donacin 2
Cesin gra- Cedida gratis
tuita o a bajo precio
por otro hogar,
la empresa... 2
Variables derivadas TENEVIV_PROPIEDAD Propiedad sin
hipoteca

TENEVIV_PROPIEDAD- Propiedad con

HIPOTECA hipoteca
TENEVIV_ALQUILER Alquiler
TENEVIV_CESION Cesin

Nombre descriptivo Antigedad de la vivienda
ECPF Nombre ANNOCON
Valores 1 Antes de 1946
2 De 1946 a 1960
3 De 1961 a 1980
4 De 1981 a 1995
5 De 1996 y despus
9 No consta
CENSO Nombre Antes de 1900 V15
1900-1920 V15
1921-1940 V15
1941-1950 V15
1951-1960 V15
1961-1970 V15
1971-1980 V15
1981-1990 V15
1991-2001 V15
1996 V16
1997 V16
1998 V16
1999 V16
2000 V16
2001 V16
Valores [0, n)
Tabla Fuente: V15 - Viviendas principales en edificios destinados
principalmente a viviendas segn ao de construccin
del edificio
V16 - Viviendas principales en edificios construidos en
el ltimo decenio segn ao de construccin del edifi-
cio
Operaciones de Transformacin Calcular la antigedad de la vivienda en el mo-
mento del censo con base en el ao de construccin
agrupando los intervalos de acuerdo a la ECPF


en cuenta
LOR
De 1996 y (1996+1997+ Menos de 5
despus 1998+1999+200
0+2001) Tabla
V16
De 1981 a (1991-2001) - De 5-20
1995 (1996 + 1997 +
1998 + 1999 +
2000 + 2001)
1981-1990
De 1961 a 1961-1970 De 21-40
1980 1971-1980
De 1946 a 1951-1960 De 40-55
1960
Antes de Antes de Ms de 55
1946 1900
1900-1920
1921-1940
1941-1950
Variables derivadas ANTIG- Menos de 5
VIV_5MENOS
ANTIG- Ms de 55
VIV_55MAS

Nombre descriptivo Tipo de edificio
ECPF Nombre TIPOEDIF
Valores 1 Vivienda unifamiliar independiente.
2 Vivienda unifamiliar adosada o pareada
3 Edificio con ms de una vivienda
4 Otros (destinado a otros fines o alojamiento fi-
jo)
9 No consta
CENSO Nombre Edificio slo con una vivienda familiar
Edificio slo con varias viviendas familiares
Edificios principalmente con viviendas familiares
compartido con locales

Edificios principalmente con vivienda colectiva: hotel,

albergue, pensin...
Edificios principalmente con vivienda colectiva: con-
vento, cuartel, prisin...
Edificios principalmente con vivienda colectiva: insti-
tuciones de enseanza, internados de enseanzas me-
dias, academias militares...
Edificios principalmente con vivienda colectiva: hospi-
tales en general, instituciones para discapacitados,
marginados...
Edificios principalmente con locales compartidos con
alguna vivienda
Locales
Alojamientos
Valores [0, n)
Tabla Fuente: E1 - Edificios segn tipo de edificio
Operaciones de Transformacin Agrupar los valores del tipo de edificio en la
ECPF y las variables del CENSO correspondientes al
tipo de edificio de acuerdo a la siguiente clasificacin,
creando las variables correspondientes
Los valores No consta en la ECPF no se tendrn
en cuenta
LOR
1 Edificio slo con una vi- Edificio s-
2 vienda familiar lo con una vi-
vienda fami-
liar
3 Edificio slo con varias Edificio
viviendas familiares con ms de
Edificios principalmente una vivienda
con viviendas familiares
compartido con locales

4 Edificios principalmente Otros

con vivienda colectiva:
hotel, albergue, pensin...
Edificios principalmente
convento, cuartel, prisin...
con vivienda colectiva: ins-
tituciones de enseanza, in-
ternados de enseanzas
medias, academias milita-
res...
hospitales en general, insti-
tuciones para discapacita-
dos, marginados...
con locales compartidos
con alguna vivienda
Locales
Alojamientos
Variables derivadas TIPOE- Edificio slo con una vi-

DIF_1VIVIENDAF vienda familiar
TIPOEDIF_VARIAS- Edificio con ms de una
VIVIENDASF vivienda
TIPOEDIF_OTRO Otros

Nombre descriptivo Nmero de habitaciones de la vivienda
ECPF Nombre NHABIT
Valores 1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8 o ms
9 No consta
CENSO Nombre 1 habitacin 2
2 habitaciones 2

3 habitaciones 2
4 habitaciones 2
5 habitaciones 2
6 habitaciones 2
7 habitaciones 2
8 habitaciones 2
9 habitaciones 2
10 ms habitaciones 2
Valores [0, n)
Tabla Fuente: V22 - Viviendas principales segn nmero de habita-
ciones
valores posibles del nmero de habitaciones, para
agrupar los valores totales
en cuenta
Adecuar las variables del CENSO y de la ECPF
de manera al rango propuesto, en el doc de ICC +
Cambiar nombres a variables del CENSO
ECPF CENSO NUEVO VALOR
1 1 habitacin 2 1 habitacin
2 2 habitaciones 2 2 habitaciones
3 3 habitaciones 2 3 habitaciones
4 4 habitaciones 2 4 o ms habita-
5 5 habitaciones 2 ciones
6 6 habitaciones 2
7 7 habitaciones 2
8 8 habitaciones 2
9 habitaciones 2
10 ms habita-
ciones 2
Variables derivadas NHABIT_1 1 habitacin
NHABIT_4MAS 4 o ms habitaciones

Nombre descriptivo Superficie de la vivienda
ECPF Nombre SUPERF
Valores [1, 998] Valores entre 1 m2 y 998 m2
999 No consta
CENSO Nombre Hasta 30 m2 2
30-45 m2 2

46-60 m2 2
61-75 m2 2
76-90 m2 2
91-105 m2 2
106-120 m2 2
121-150 m2 2
151-180 m2 2
Ms de 180 m2 2
Valores [0, n)
Tabla Fuente: V21 - Viviendas principales segn superficie til
valores posibles de la superficie, para agrupar los valo-
res totales, con base en los rangos definidos en el
CENSO
Modificar los nombres de las variables del CEN-
SO
LOR
[1, 30) Hasta 30 m2 2 Hasta 30 m2 2
[30, 45] 30-45 m2 2 30-45 m2 2
[46, 60] 46-60 m2 2 46-60 m2 2
[61, 75] 61-75 m2 2 61-75 m2 2
[76, 90] 76-90 m2 2 76-90 m2 2
[91, 105] 91-105 m2 2 91-105 m2 2
[106, 120] 106-120 m2 2 106-120 m2 2
[121, 150] 121-150 m2 2 121-150 m2 2
[151, 180] 151-180 m2 2 151-180 m2 2
(180, 998] Ms de 180 m2 Ms de 180 m2
2 2
Variables derivadas SUPERF_30MENOS Hasta 30 m2 2
SUPERF_30-45 30-45 m2 2
SUPERF_46-60 46-60 m2 2
SUPERF_61-75 61-75 m2 2
SUPERF_76-90 76-90 m2 2
SUPERF_91-105 91-105 m2 2
SUPERF_106-120 106-120 m2 2
SUPERF_121-150 121-150 m2 2
SUPERF_151-180 151-180 m2 2
SUPERF_180MAS Ms de 180 m2 2


Nombre descriptivo Garaje
ECPF Nombre GARAJE
Valores 0 No dispone
1 S dispone
9 No consta
CENSO Nombre Tiene garaje
Valores [0, n)
Tabla Fuente: P47 - Viviendas principales segn instalaciones del
edificio
Operaciones de Transformacin Crear una variable en la ECPF correspondiente a
la disponibilidad positiva de garaje, para agrupar los
valores totales
Los valores No dispone y No consta en la ECPF,
no se tendrn en cuenta
CENSO
Variables derivadas TIE- S dispone de garaje
NE_GARAJE

Nombre descriptivo Agua corriente
ECPF Nombre AGUACOR
1 S dispone
9 No consta
CENSO Nombre Agua corriente abastecimiento pblico
Agua corriente abastecimiento privado
Valores [0, n)
edificio
la disponibilidad positiva de agua corriente (individual
y colectiva), para agrupar los valores totales
Agrupar los valores de disposicin de agua co-
rriente segn sea de abastecimiento pblico o privado
en el CENSO
Variables derivadas TIE- S dispone de agua corriente
NE_AGUACOR


Nombre descriptivo Agua caliente
ECPF Nombre AGUACALC
1 S dispone
9 No consta
CENSO Nombre Tiene agua caliente central
Valores [0, n)
edificio
la disponibilidad positiva de agua caliente colectiva,
para agrupar los valores totales
CENSO
Variables derivadas TIE- S dispone de agua caliente
NE_AGUACALC

Nombre descriptivo Calefaccin
ECPF Nombre CALEFA
1 S dispone
9 No consta
CENSO Nombre Con calefaccin individual 2
Con calefaccin colectiva 2
Valores [0, n)
Tabla Fuente: P42 - Poblacin en viviendas familiares segn equipa-
miento del hogar
Operaciones de Transformacin Agrupar los valores de la calefaccin individual y
colectiva en la ECPF
Crear una variable en la ECPF correspondiente a
la disponibilidad positiva de calefaccin (individual y
colectiva), para agrupar los valores totales
CENSO
Calcular el total de No Disponen en el censo, de

acuerdo al numero de encuestados en diferencia a los

que respondieron SI en el Censo.
Variables derivadas TEIEN_CALEF S dispone de calefaccin
A

Nombre descriptivo Refrigeracin
ECPF Nombre REFRIG
1 S dispone
9 No consta
CENSO Nombre Tiene refrigeracin
Valores [0, n)
miento del hogar
la disponibilidad positiva de refrigeracin, para agrupar
los valores totales
CENSO
Variables derivadas TIENE_REFRIG Dispone de refrigeracin

Nombre descriptivo Telfono
ECPF Nombre TELEFONO
1 S dispone
9 No consta
CENSO Nombre Tiene telfono
Valores [0, n)
edificio
la disponibilidad positiva de telfono, para agrupar los
valores totales
CENSO

Variables derivadas TIE- S dispone de telfono

NE_TELEFONO

Nombre descriptivo Disponibilidad de segunda vivienda
ECPF Nombre VIVSEC
2 S Dispone
9 No consta
CENSO Nombre Dispone de 2 vivienda
Valores [0, n)
miento del hogar
la disponibilidad positiva de segunda vivienda, para
agrupar los valores totales
Cambiar el nombre de la variable correspondiente
al nmero de personas que disponen de segunda vi-
vienda en el CENSO.
Los valores No consta y No dispone de la ECPF
Variables derivadas TIENE_VIVSEC Dispone de vivienda secundaria

Nombre descriptivo Ubicacin de la vivienda secundaria
ECPF Nombre UBVIVSE1 (Vivienda secundaria en Territorio nacio-
nal)
Valores 0 0
1 1
2 2
3 3
4 4
8 No aplicable
9 No consta
Nombre UBVIVSE2 (Vivienda secundaria en Otro pas de la
Unin Europea)
Valores 0 0
1 1

2 2
3 3
4 4
8 No aplicable
9 No consta
Nombre UBVIVSE3 (Vivienda secundaria en un pas fuera de
la Unin Europea)
Valores 0 0
1 1
2 2
3 3
4 4
8 No aplicable
9 No consta
CENSO Nombre En el mismo municipio
En otro municipio de la misma provincia
En distinta provincia de la misma comunidad
En otra comunidad
En otro pas
Valores [0, n)
Tabla Fuente: P52 - Poblacin en viviendas familiares que dispone de
segunda vivienda segn relacin entre el lugar de la
segunda vivienda y el de residencia
Operaciones de Transformacin En la ECPF no se considerarn los valores No
aplicable y No consta
Se distinguirn solo las opciones en el mismo pas
y en otro pas
LOR
Valores 1, 2, En el mismo En el mismo
3 y 4 en UB- municipio pas
VIVSE1 En otro mu-
nicipio de la
misma provincia
En distinta
provincia de la
misma comuni-
dad
En otra co-
munidad
Cuando la En otro pas En otro pas
suma de los va-
lores de UB-
VIVSE2 y UB-

VIVSE3 sean
mayor que 0, y
los valores que
toman en la
ECPF son dife-
rentes de 8 y9
Variables derivadas UBVIVSE_PAIS En el mismo pas
UBVIV- En otro pas
SE_EXTRANJERO

Nombre descriptivo Disponibilidad de vehculos a motor
ECPF Nombre NUMCOCHES Nmero de coches nuevos o usados
del sustentador principal
Suma de los valores de las variables COCHES y CO-
CHESSM
Valores COCHES COCHESSM
0 No dispone 0 No dispone
1 1 1 1
2 2 2 2
3 3 3 3
4 4 o ms 4 4 o ms
9 No consta 9 No consta
NUMCOCHES
No dispone Si (COCHES=0 & COCHESSM=0) ||
(COCHES=0 & COCHESSM=9) ||
(COCHES=9 & COCHESSM=0)
[1, 8] Si COCHES<>9 & COCHESSM<>9
entonces COCHES + COCHESSM
Si COCHES=9 & COCHESSM<>9 &
COCHESSM<>0
entonces COCHESSM
Si COCHESSM=9 & COCHES<>9 &
COCHES<>0
entonces COCHES
No consta Si COCHES=9 y COCHESSM=9
CENSO Nombre Dispone de 1 vehculo
2 vehculos
3 o ms vehculos
Valores [0, n)


miento del hogar
Operaciones de Transformacin Agrupar los valores de la ECPF con base en las va-
riables del CENSO
Ignorar los valores correspondientes a No dispone y
No consta en la ECPF
LOR
1 Dispone de 1 ve- Dispone de 1 ve-
hculo hculo
2 2 vehculos 2 vehculos
[3, 8] 3 o ms vehcu- 3 o ms vehcu-
los los
Variables derivadas NUMCOCHES_1 Dispone de 1 vehculo
NUMCOCHES_2 2 vehculos
NUMCO- 3 o ms vehculos
CHES_3MAS

Nombre descriptivo Tamao del hogar
ECPF Nombre TAMAHOG
Valores [01, 98]
CENSO Nombre 1 persona 2
2 personas 2
3 personas 2
4 personas 2
5 personas 2
6 personas 2
7 personas 2
8 personas 2
9 personas 2
10 ms personas 2
Valores [0, n)
Tabla Fuente: P48 - Poblacin en viviendas familiares segn tamao
del hogar
Operaciones de Transformacin Agrupar los valores de la ECPF de acuerdo a los
rangos del CENSO, y crear una variable correspon-
diente a cada valor
CENSO

Variables derivadas TAMAHOG_1 1 persona

TAMAHOG_10MAS 10 ms personas

Nombre descriptivo Tipo de Hogar
ECPF Nombre TIPOHOG1
Valores 01 Una persona adulta, de 65 o ms aos
02 Una persona adulta, de 30 a 64 aos
03 Una persona adulta de menos de 30 aos
04 Una persona adulta con nios de hasta 16 aos
05 Pareja sin nios, miembro mayor de 65 o ms
aos
06 Pareja sin nios, miembro mayor con menos de
65 aos
07 Pareja con un nio de hasta 16 aos
08 Pareja con dos nios de hasta 16 aos
09 Pareja con tres o mas nios de hasta 16 aos
10 Padre/madre slo/a o pareja con al menos un
hijo de ms de 16 aos
11 Otros hogares con todos los miembros empa-
rentados
12 Otros hogares con uno o ms miembros no
emparentados
CENSO (Poblacin Nombre Una mujer de 16 a 64 aos (A)
en viviendas segn Un hombre de 16 a 64 aos (B)
estructura del hogar Una mujer de 65 o ms aos (C)
P49) Un hombre de 65 o ms aos (D)
Una mujer adulta con uno o ms menores (E)
Un hombre adulto con uno o ms menores (F)
Dos adultos de 16 a 64 aos, sin menores (G)

Dos adultos, uno al menos de 65 aos o ms, sin meno-

res (H)
Dos adultos y un menor (I)
Dos adultos y dos menores (J)
Dos adultos y tres o ms menores (K)
Dos adultos de 35 aos o ms, uno de 16 a 34 aos, sin
menores (L)
Dos adultos de 35 aos o ms, uno de 16 a 34 aos y 1
menor (M)
Dos adultos de 35 aos o ms, uno de 16 a 34 aos y
dos o ms menores (N)
Otro hogar de tres adultos, con o sin menores (O)
Dos adultos de 35 aos o ms, dos de 16 a 34 aos, sin
menores (P)
Dos adultos de 35 aos o ms, dos de 16 a 34 aos y un
menor (Q)
Dos adultos de 35 aos o ms, dos de 16 a 34 aos y
dos o ms menores (R)
Otro hogar de cuatro adultos, con o sin menores (S)
5 mas adultos con o sin menores (T)
Valores [0, n)
Tabla Fuente: H1
Operaciones de Transformacin Agrupar los datos del CENSO y la ECPF de
acuerdo a los valores que se presentan a continuacin,
y derivar las variables correspondientes en los dos con-
juntos de datos.
1 C, D Una persona
adulta, de 65 o
ms aos
2, 3 A, B Una persona
adulta, de menos
de 64 aos
4 E, F Una persona
adulta con nios
de hasta 16 aos
5 H Pareja sin nios,
miembro mayor
de 65 o ms
aos

6 G Pareja sin nios,

miembro mayor
con menos de 65
aos
7 I Pareja con un
nio
8 J Pareja con dos
nios
9 K Pareja con tres o
mas nios
10 L, P Padre/madre s-
lo/a o pareja con
al menos un hijo
de ms de 16
aos
11, 12 M, N, O, Q, R, Otros Hogares
S, T
Variables derivadas TIPOHOG_1 Una persona adulta, de 65 o ms
aos
TIPOHOG_2 Una persona adulta, de menos de
64 aos
TIPOHOG_3 Una persona adulta con nios de
hasta 16 aos
TIPOHOG_4 Pareja sin nios, miembro mayor
de 65 o ms aos
TIPOHOG_5 Pareja sin nios, miembro mayor
con menos de 65 aos
TIPOHOG_6 Pareja con un nio
TIPOHOG_7 Pareja con dos nios
TIPOHOG_8 Pareja con tres o mas nios
TIPOHOG_9 Padre/madre slo/a o pareja con al
menos un hijo de ms de 16 aos
TIPOHOG_SP10 Otros Hogares

Nombre descriptivo Nmero de ocupados en el hogar
ECPF Nombre NUMOCUP
Valores 0 Sin ocupados

1 1 ocupado
2 2 ocupados
3 3 ocupados
4 4 ocupados
5 5 o ms ocupados
CENSO Nombre Ninguno
1
2
3
4 ms
Valores [0, n)
Tabla Fuente: H11 - Hogares segn nmero de ocupados
Operaciones de Transformacin Agrupar los valores de la ECPF de acuerdo a los
rangos del CENSO, y crear una variable correspon-
diente a cada valor
CENSO
LOR
0 Ninguno Ninguno
1 1 1
2 2 2
3 3 3
4 4 ms 4 ms
5
Variables derivadas NUMOCUP_0 Ninguno
NUMOCUP_1 1
NUMOCUP_2 2
NUMOCUP_3 3
NUMOCUP_4MAS 4 ms

PFC-Santi Conducta Del Consumidor PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

PFC-Santi Conducta Del Consumidor PDF

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDAD POLITCNICA DE MADRID

Proyecto fin de carrera

ICC+: DataMining aplicado al

AUTOR: SANTIAGO GONZLEZ TORTOSA

MADRID, OCTUBRE 2005

A las dos mujeres que ms quiero,

El desarrollo de esta herramienta comprende un diseo, utilizando la metodologa de

La herramienta ICC+ est comprendida principalmente por tres niveles de informa-

Propensiones: Valores que expresan la probabilidad que tienen determina-

Tipologas: ICC+ realiza una clasificacin de las familias en perfiles, utili-

Tambin quiero agradecer a todos los miembros del Departamento de Arquitectura y

AGRADECIMIENTOS .................................................................................. III

ndice de figuras ................................................................................................................................. vii

ndice de tablas.................................................................................................................................. viii

1.1. MDS Boole e ICC+ ...................................................................................................................... 11

1.2. Arquitectura de ICC+................................................................................................................. 13

1.3. Niveles de Informacin ............................................................................................................... 14

1.4. Objetivos ...................................................................................................................................... 18

1.5. Contenidos ................................................................................................................................... 18

2. ESTADO DEL ARTE ............................................................................... 23

2.1. Mineria de Datos ......................................................................................................................... 23

2.2. Algoritmos Heursticos ............................................................................................................... 29

2.3. Herramientas ............................................................................................................................... 42

3.1. Censo de Poblacin y Viviendas 2001.........................................................................................51

3.2. Encuesta Continua de Presupuesto Familiares (ECPF) ...........................................................53

3.3. Carga de Datos del Censo............................................................................................................54

3.4. Transformacin de las Variables ................................................................................................55

4. METODOLOGA DE AGRUPACIN .......................................................67

4.1. Variables de inters......................................................................................................................67

4.2. Algoritmos de Optimizacin........................................................................................................70

4.3. Clculo de ndices ........................................................................................................................75

5. GENERACIN DE TIPOLOGAS Y PROPENSIONES ...........................83

5.1. Generacin de Tipologas ............................................................................................................83

5.2. Clculo de Propensiones ..............................................................................................................91

5.2.4. Propensin de compra de gama de automvil........................................................................ 93

6. CONCLUSIONES Y LNEAS FUTURAS ................................................ 97

6.1. Conclusiones ................................................................................................................................ 97

6.2. Lneas Futuras........................................................................................................................... 101

7. BIBLIOGRAFA ..................................................................................... 103

TRANSFORMACIN DE VARIABLES..................................................... 109

Figura 5.4 Histograma asociado a la variable Gasto .............................................................86

La falta de informacin sobre nuestros propios clientes, y sobre los consumidores en

1.1. MDS Boole e ICC+

MDS es una empresa de servicios de Marketing, encargada de ayudar a compaas y

ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo - 11 -

ICC+ [1] es una herramienta para el Marketing Inteligente, destinado a departamen-

La informacin que facilita ICC + est basada en los principios de la demografa, es

Un rea censal tiene como caractersticas destacables:

Est formada, por trmino medio, por 400 familias

- 12 - ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo

1.2. Arquitectura de ICC+

La informacin necesaria para realizar el producto ICC+ se obtiene a partir de dos

As pues, siguiendo el ciclo de vida CRISP-DM (que ms adelante se comentar),

No obstante, el primer inconveniente encontrado es la diferencia de los datos, es de-

ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo - 13 -

1.3. Niveles de Informacin

Para realizar el proyecto ICC+, es necesario obtener distintos niveles de informacin

ndices Econmicos: los ndices econmicos son estimaciones realizadas para

o Renta: Indica la renta media familiar disponible anual (renta moneta-

o Capacidad de Gasto: Indica el consumo o gasto medio anual realizado

o Endeudamiento: Indica la dificultad que las familias tienen para llegar

o Ahorro: Al contrario que el endeudamiento, indica la facilidad que

o Hipoteca (valor no estimado): Indica la proporcin respecto a la media