Beruflich Dokumente
Kultur Dokumente
FACULTAD DE INFORMTICA
Sinopsis
ICC+ es una herramienta para el Marketing Inteligente, destinado a departamentos
de marketing de empresas que comercializan productos que van dirigidos al consumidor. Su
contenido es informacin que aporta un alto nivel de conocimiento para decidir clientes, a
quin y dnde dirigir las actividades, dnde abrir puntos de venta, etc.
ndices: Valor que una determinada rea censal adopta respecto a la media
nacional. Podemos apreciar dos tipos de ndices, econmicos, y de consumo.
-i-
A G R A D E C I M I E N T O S
Agradecimientos
Durante toda mi carrera como ingeniero, han estado muchas personas a m alrededor,
animndome y prestndome todo su apoyo. Es por ello que, en este proyecto, quisiera trans-
mitir mi ms sincero agradecimiento a todas ellas.
En primer lugar, recordar a mi madre, Mariluz, que descanse en paz. Quiero agrade-
cerle tantas cosas que no s por donde empezar. He aprendido muchas cosas de ella, pero si
algo tengo que destacar, es la fuerza de voluntad y las ganas de vivir. Desde el da que lo
aprend, observo la vida con diferente perspectiva, hasta el punto de llegar a creer que todo
lo que uno se proponga, puede llegar a conseguirlo. Por ello y por ms cosas, gracias por
todo madre.
Realmente, si a alguien debo haber terminado la carrera, y con ello este proyecto, es
a Carol, mi novia. Sin ella, mi vida no tendra ningn sentido. Gracias, de todo corazn, por
tu apoyo, tu confianza, tu simpata, tu sinceridad, tu preocupacin, tu aprecio, tu cario, tu
sonrisa, en todo momento. En definitiva, mil gracias por todo Carol.
Quiero agradecer a mi familia el apoyo recibido en todo momento. Han sido com-
prensibles, tanto en los estudios como en el trabajo, y me han facilitado todo lo necesario pa-
ra poder haber hecho realidad mi sueo desde pequeo, ser ingeniero informtico. Gracias
por estar ah en los buenos y malos momentos de mi vida.
Especial mencin a todos los miembros del grupo DaME (Javier Segovia, Ernestina,
Vctor, Oscar, Alex, etc.), por su trabajo, confianza, apoyo y colaboracin, pero sobre todo,
por su compaerismo y amistad. Y, claro est, agradecer a los compaeros del laboratorio de
Sistemas Operativos, especialmente a Ramn, el aguantarme todos estos das en los que
hemos estado haciendo el proyecto.
- iii -
A G R A D E C I M I E N T O S
Como olvidar a mis compaeros y amigos del grupo ISYS (Victors, Mamen, San-
dra, Nuria, Juanjo, Alex, etc.) a quienes agradezco su nimo, consejo, confianza y amistad.
Os tendr siempre en mi recuerdo.
No debo olvidar a mis compaeros de colegio (Alfonso, Javier, Juan, etc.). Gracias
por la amistad que, despus de tantos aos, permanecemos teniendo. Gracias por todos los
sabios consejos y nimos que me habis estado dando en el transcurso del tiempo.
Puede que me olvide de muchos nombres y lo lamento. Pero todos saben dnde
guardo aquel momento de vida que compart con ellos, que me acompaar el resto de mi
vida, sin borrarse de mis recuerdos.
C O N T E N I D O S
Contenidos
SINOPSIS ....................................................................................................... I
CONTENIDOS ............................................................................................... V
1. INTRODUCCIN ..................................................................................... 11
-v-
C O N T E N I D O S
2.3.1. Clementine..............................................................................................................................43
2.3.2. R Project .................................................................................................................................44
2.3.3. Lenguaje C#............................................................................................................................46
2.3.4. PostGres..................................................................................................................................48
3. PREPROCESO DE DATOS.....................................................................51
- vi -
C O N T E N I D O S
ndice de figuras
Figura 2.1 Fases del modelo de proceso CRISP-DM ........................................................... 28
Figura 2.2 Funcin de Enfriamiento ..................................................................................... 32
Figura 2.3 Cruce en un punto................................................................................................ 36
Figura 2.4 Cruce en dos puntos ............................................................................................ 36
Figura 2.5 Cruce uniforme.................................................................................................... 36
Figura 2.6 Cruce aritmtico .................................................................................................. 37
Figura 2.7 Inversin de genes ............................................................................................... 37
Figura 2.8 Cambio de orden ................................................................................................. 37
Figura 2.9 Modificacin de genes......................................................................................... 38
Figura 2.10 Seleccin por la regla de la ruleta...................................................................... 40
Figura 2.11 Mtodo del Ranking .......................................................................................... 41
Figura 2.12 Arquitectura de Clementine............................................................................... 43
Figura 2.13 Ejemplo de anlisis con Clementine.................................................................. 44
Figura 2.14 Una visin esquemtica del funcionamiento de R............................................. 45
Figura 2.15 Ejemplo de resolucin grfica de un anlisis en R............................................ 46
Figura 4.1 Factor de enfriamiento......................................................................................... 73
Figura 4.2 Condicin de evaluacin para Recocido Simulado ............................................. 73
Figura 4.3 50 municipios con mayor poblacin de la Comunidad de Madrid...................... 79
Figura 4.4 50 municipios con mayor poblacin del Pas Vasco ........................................... 80
Figura 4.5 50 municipios con mayor poblacin de Asturias................................................. 80
Figura 5.1 Tipologas Econmicas (Riqueza / ValorVivienda)............................................ 85
Figura 5.2 Histograma asociado a la variable Valor Vivienda ............................................. 86
Figura 5.3 Histograma asociado a la variable Riqueza......................................................... 86
- vii -
C O N T E N I D O S
ndice de tablas
Tabla 4.1 Comparativa entre algoritmos de optimizacin..................................................... 74
Tabla 4.2 Comunidad de Madrid........................................................................................... 79
Tabla 4.3 Pas Vasco ............................................................................................................. 80
Tabla 4.4 Asturias.................................................................................................................. 81
- viii -
Parte I
Introduccin
1 . I N T R O D U C C I N
1
Captulo
1. Introduccin
El proyecto surge, en la empresa MDS Boole, por la necesidad de explorar y des-
arrollar el conocimiento individual de los consumidores, el cual, se ha convertido en uno de
los principales objetivos en la mayora de las empresas que desean orientar sus actividades
de marketing de forma ms eficaz y rentable.
Se plante, pues, desarrollar una herramienta (denominada ICC+), la cual, tiene por
objeto el proporcionar colas de informacin que permitan, por un lado, enriquecer la infor-
macin que dispone la empresa acerca de sus clientes, y por otro, proporcionar datos a nivel
microgeogrfico sobre los perfiles y comportamiento de consumo de la poblacin espaola.
La informacin de ICC+ est referida a nivel de reas censales, y por tanto existe in-
formacin para cada una de las aproximadamente 34.000 reas censales en las que est divi-
dida Espaa. A partir de esta unidad geogrfica es posible realizar diferentes tipos de agrega-
ciones basadas en distintos criterios aunque uno de los ms usados sea el de proximidad.
A partir de estos conjuntos de datos es necesario estimar los cuatro niveles de infor-
macin, los cuales son:
Valores Demogrficos: obtenidos directamente de los datos originales
ndices Econmicos
Tipologas
Propensiones
El punto clave del proyecto es obtener una estimacin de los ndices para todas las
secciones censales. Para ello, se parte de los valores de la ECPF (transformados en ndices) y
se proyectan sobre el censo mediante modelos.
Por lo que, primeramente debemos procesar dichos datos, agrupar las familias por
seccin censal para, ms adelante, realizar el calculo de ndices a nivel de seccin censal. Pa-
ra ello, necesitamos partir de datos que sean comunes entre el Censo de Poblacin y la
ECPF.
Utilizando los datos originales procesados, los ndices estimados, y otra informacin
derivada (calculados al procesar los datos) es posible obtener el resto de los niveles de in-
formacin necesarios: propensiones y tipologas.
1.3.1. ndices
Un ndice es el valor que una determinada rea censal adopta respecto a la media na-
cional y que est disponible para las siguientes variables de informacin:
nero. Este indicador esta formado por las diferentes partidas o concep-
tos de gastos que recoge la Encuesta Continua de Presupuestos Fami-
liares del INE (ECPF).
Las diferentes partidas de gasto utilizadas para construir los ndices de consu-
mo se proporcionan siguiendo la clasificacin elaborada por el INE. Esta clasi-
ficacin se apoya en la utilizada en la OSCE para las Encuestas de Presupues-
tos Familiares de los hogares, que a su vez est basada en la clasificacin
1.3.2. Tipologas
ICC+ realiza una clasificacin de las familias en perfiles utilizando diferentes enfo-
ques analticos. La informacin que proporciona permite, para cada rea censal, disponer de
una caracterizacin (distribucin en cada uno de los grupos tipolgicos detectados) de la
misma o bien una estructura de diferentes grupos. Las diferentes tipologas a obtener son las
siguientes:
o Las variables debern tener el suficiente tamao muestral para ser estadsti-
camente vlidas.
o Las variables no deben estar fuertemente concentradas en un pequeo nme-
ro de reas geogrficas.
o Algoritmos de proximidad de las secciones censales (ej.: el distrito munici-
pal que es el siguiente nivel de agregacin de las secciones censales)
1.3.3. Propensiones
1.4. Objetivos
Se trata, pues, de aplicar el proceso CRISP-DM al anlisis de los datos publicados
por el UNE para la creacin del producto ICC+. Este objetivo supone los siguientes subobje-
tivos:
1. Quines son mis clientes y dnde puedo encontrar otros similares?
2. Cules de mis mejores clientes pueden dejar de serlo?
3. Qu productos no compran mis clientes y podran comprar?
1.5. Contenidos
En primer lugar, se presenta la introduccin del proyecto, seguido del estado del arte,
el cual, se describir el proceso de Minera de Datos, su definicin, y herramientas que nos
permiten llevarla a cabo. Se describir el ciclo de vida CRISP-DM, y dos herramientas utili-
zadas en este proyecto, Clementine y R-Project.
nombres, etc.) sobre dichos datos para generar un conjunto de datos til para las siguientes
fases.
Una vez calculados y validados los ndices, se crearn las tipologas y propensiones
a partir del conjunto de datos inicial
2
Captulo
ingente cantidad de datos. El anlisis de este volumen de datos ha generado una necesidad
urgente de nuevas tcnicas y herramientas que puedan asistir en la transformacin automti-
ca e inteligente de toda esta informacin en conocimiento til.
Proporciona criterios que faciliten la toma de decisiones a los usuarios del negocio
que mejor entienden el problema y el entorno.
2.1.1. Alcance
2.1.2. Fundamentos
En la evolucin desde los datos a informacin, cada nuevo paso se basa en el previo.
Por ello, las tcnicas de minera de datos son el resultado de largos procesos de investigacin
y desarrollo. Esta evolucin comenz cuando los datos de negocios fueron almacenados por
primera vez en computadoras, continu con mejoras en el acceso a los datos y, ms recien-
temente, con mecanismos que permiten a los usuarios navegar a travs de los datos en tiem-
po real.
Hoy, la madurez de estas tcnicas junto con los motores de bases de datos relaciona-
les de alto rendimiento, hacen que la aplicacin de estas tecnologas sea viable en los entor-
nos actuales.
Mtodo del vecino ms cercano: tcnica que clasifica cada registro en un conjunto
de datos basado en una combinacin de las clases de los k registros ms cercanos a
l en un conjunto de datos histricos.
Para ello, las computadoras se cargan con mucha informacin acerca de una variedad
de situaciones donde la respuesta es conocida a priori (algoritmos de aprendizaje supervisa-
do). Posteriormente, los algoritmos de aprendizaje investigarn esta informacin, distin-
guiendo entre las distintas caractersticas, y construirn un modelo. Una vez este modelo ha
sido construido, puede ser usado en situaciones similares en las que la respuesta no es desco-
nocida.
Para estimar la precisin del modelo se aplican tcnicas de validacin. Una de las
ms empleadas consiste en excluir un conjunto de las situaciones conocidas en el entrena-
miento del modelo y aplicarles el modelo resultante. De esta forma es posible comparar la
respuesta real conocida con la generada por el modelo.
CRISP-DM (CRoss Industry Standard Process for DataMining) surgi por iniciativa
de Daimler Chrysler a finales de 1996 y tuvo xito al basarse en la experiencia prctica del
mundo real; de cmo los profesionales, tales como los mdicos, trabajaban en proyectos ba-
sados en la experiencia, para de este modo obtener mejores resultados.
Modelado Modeling: En esta fase en la que se aplican diversos algoritmos a los da-
tos, calibrando sus parmetros con valores ptimos. Es muy habitual volver a la fase
anterior por tener algunas de estas tcnicas requisitos especficos sobre los datos o
por cambios en el plan inicial debido a la extraccin de nueva informacin durante
esta fase.
- 28 - ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo
2 . E S T A D O D E L A R T E
Bsqueda local [7] [12] es la base de muchos de los mtodos usados en problemas de
optimizacin. Se puede ver como un proceso iterativo que empieza en una solucin y la me-
jora realizando modificaciones locales de forma aleatoria.
Bsicamente empieza con una solucin inicial y busca en su vecindad por una mejor
solucin. Si la encuentra, reemplaza su solucin actual por la nueva y continua con el proce-
so, hasta que no se pueda mejorar la solucin actual.
Este algoritmo es un mtodo no determinista, puesto que, dada una misma entrada,
no tiene por que devolver la misma salida.
siste en calentar el material a muy alta temperatura. En esa situacin, los tomos adquieren
una distribucin azarosa dentro de la estructura del material y la energa del sistema es
mxima. Luego se hace descender la temperatura muy lentamente por etapas, dejando que en
cada una de esas etapas los tomos queden en equilibrio (es decir, que los tomos alcancen
una configuracin ptima para esa temperatura). Al final del proceso, los tomos forman una
estructura cristalina altamente regular, por lo que el material alcanza as una mxima resis-
tencia y la energa del sistema es mnima.
Los datos iniciales y parmetros necesarios, para poder inicializar el algoritmo, son
los siguientes:
Temperatura inicial (T0): La temperatura inicial T0 debe ser una temperatura que permita
casi (o todo) movimiento, es decir que la probabilidad de pasar del estado i al j sea muy
alta, sin importar la diferencia de calor. Esto es que el sistema tenga un alto grado de li-
bertad. En general se toma un valor T0 que se cree suficientemente alto y se observa la
primera etapa para verificar que el sistema tenga un grado de libertad y en funcin de es-
ta observacin se ajusta T0.
Solucin inicial (i0): En todas las versiones, el sistema debe ser derretido antes de im-
plementar el algoritmo. Esto es que la solucin factible inicial que llamamos i0 debera
ser una solucin tomada al azar del conjunto de soluciones factibles. En algunos proble-
mas esto puede hacerse utilizando pseudo-random numbers provistos por una maquina.
Pero en muchos casos ya es problemtico encontrar una solucin, por lo que es imposi-
ble tomar una al azar. En estos casos se implementa un algoritmo voraz, tipo Local
Search, para buscar una solucin factible y se toma esta como i0 (ejemplo de esto es el
TSP).
Temperatura Final (TN): Temperatura final a la que llegar el recocido simulado, una
vez enfriado al mximo.
Numero de iteraciones (N): Numero de iteraciones mximo a las que puede llegar el al-
goritmo antes de su finalizacin.
Criterio de Cambio de Temperatura: Para este criterio se usan los parmetros: nmero
de iteraciones que se est dispuesto a hacer en cada etapa (equivalente a la cantidad de
tiempo que vamos a esperar a que el sistema alcance su equilibrio trmico para una tem-
peratura) y cantidad de aceptaciones que se permiten hacer en cada etapa.
A medida que la temperatura disminuye se supone que al sistema le resulta mas difcil
alcanzar un equilibrio, ya que es mas dificultoso el movimiento. Por tanto, hay que espe-
rar mas tiempo, esto se traduce en aumentar el nmero de iteraciones por cada etapa.
Criterio de Parada: Es criterio por el cual, el algoritmo finaliza. Puede ser debido a dos
motivos: se llegue a la temperatura final, o bien el nmero de iteraciones se haya excedi-
do.
Los Algoritmos Genticos (Genetic Algorithm) [8, 12] fueron introducidos por John
Holland en 1970, inspirndose en el proceso observado en la evolucin natural de los seres
vivos. Aunque se han aplicado a una amplia variedad de problemas, se ha demostrado que no
son mejores que cualquier otro mtodo de bsqueda de solucin (incluido el mtodo aleato-
rio) si no se les proporciona ninguna informacin inicial del problema.
Esencialmente, los elementos del algoritmo deben ser cuidadosamente elegidos para
cumplir las caractersticas de la solucin del problema.
Los algoritmos evolutivos basan parte de sus buenos resultados en el balance entre
una eficiente exploracin y una eficiente explotacin cuando se resuelve un problema dif-
cil. La exploracin se refiere a la capacidad de alcanzar y analizar diferentes partes del es-
La exploracin es til para evitar alcanzar slo ptimos locales mientras que la ex-
plotacin se usa para obtener el ptimo global una vez que se ha aproximado a l lo suficien-
te. En las etapas iniciales de la bsqueda, un algoritmo gentico debe mostrar una gran diver-
sidad, mientras que al final la diversidad debe disminuir para conseguir la mejor solucin po-
sible.
Es necesario ser cuidadoso con la presin ejercida, puesto que si se aplica tanto en la
seleccin como en la aceptacin estamos hablando de Doble Presin Selectiva. Si la presin
ejercida es excesiva puede derivar en Convergencia Prematura, el algoritmo converge a un
ptimo local no pudiendo salir de l porque todos los individuos de la poblacin estn muy
prximos a ste.
Adems, dichos algoritmos son bastante sencillos de implementar. Una vez que ya se
ha implementado un algoritmo gentico bsico, tan slo es necesario que implementar el
nuevo cromosoma para resolver otro problema. Si se utiliza la misma codificacin, slo
habr que programar la nueva funcin de fitness. Sin embargo, para algunos problemas pue-
de ser bastante complicado escoger e implementar la codificacin adecuada o la funcin de
fitness correcta.
res. Existen cuatro tipos de operadores de cruce, en un punto, en dos puntos, unifor-
me y aritmtico.
o Cruce en un punto: Se copian los genes del primer padre hasta el punto de
corte y se rellena con el resto con genes del segundo padre. De esta forma,
se generan dos hijos, uno con cada parte. En algunas codificaciones es nece-
sario aplicar correcciones para comprobar la validez de la solucin.
11001011+11011111 = 11001111
(1 2 3 4 5 6 7 8 9) + (4 5 3 6 8 9 7 2 1) = (1 2 3 4 5 6 8 9 7)
Figura 2.3 Cruce en un punto
o Cruce en dos puntos: Se copian los genes del primer padre comprendidos
entre los dos puntos de cruce y se rellenan los que faltan con los del segundo
padre considerando la cadena de genes como cclica.
(1 2 3 4 5 6 8 9 7) => (1 8 3 4 5 6 2 9 7)
Figura 2.8 Cambio de orden
(1.29 5.68 2.86 4.11 5.55) => (1.29 5.68 2.73 4.22 5.55)
o De mejora: Los hijos pasan a la nueva poblacin si son mejores que los in-
dividuos de la poblacin actual substituyendo a sus peores individuos.
Los parmetros de entrada que necesita un algoritmo gentico son los siguientes:
1
Esta tcnica se describir con detalle en la pgina 41
- 38 - ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo
2 . E S T A D O D E L A R T E
Tamao de la Poblacin: Establece cuntos individuos habr en cada una de las ge-
neraciones. Si el tamao de la poblacin es muy bajo, el algoritmo gentico tiene
poca diversidad y, por tanto, pocas posibilidades de evolucionar por el cruce (los in-
dividuos nuevos se parecern mucho a sus padres). Tampoco un tamao excesivo es
adecuado porque se llega a un punto en el que los resultados no mejoran por mucho
que se incremente el tamao de la poblacin. Lo ideal es, en funcin del problema y
la codificacin, establecer un lmite adecuado del tamao de la poblacin.
Tamao del Individuo: Depender del nmero de elementos que constituyan una so-
lucin.
Ahora, al igual que en un casino se lanza a la ruleta una canica. En el lugar que pare di-
cha canica, ser un lugar ocupado por un cromosoma que ser elegido. Resulta claro
que los individuos con mayor fitness tienen la mayor probabilidad de ser elegidos.
1. [Suma total] Calcular la suma total acumulada de los fitness de todos los in-
dividuos de la poblacin actual.
2. [Elegir un nmero aleatorio] Generar un nmero aleatorio entre 0 y la Suma
Total.
3. [Recorrer] Recorrer la poblacin acumulando nuevamente los fitness. Cuan-
do la suma que se lleve sea mayor o igual a r seleccionamos el individuo don-
de se vaya recorriendo.
Seleccin por Ranking: El anterior tipo de seleccin funciona mal cuando existan gran-
des diferencias entre los fitness de los individuos de la poblacin. Por ejemplo si un
cromosoma ocupa el 90% de la ruleta el resto de los cromosomas tienen muy pocas po-
sibilidades de ser elegidos. La seleccin por ranking da solucin a este problema.
Los individuos son ordenados de acuerdo a su ranking de fitness. De esta manera si te-
nemos n cromosomas el individuo con peor fitness se le asignar un 1 y el que tenga el
mejor fitness se le asignar la n
En las dos siguientes figuras se muestra cmo cambian las distribuciones de probabilida-
des antes y despus del ranking:
Ahora todos los cromosomas tienen la oportunidad de ser seleccionados. Sin embargo
este mtodo puede hacer que el gentico evolucione muy lentamente a la solucin, ya
que los mejores individuos no son elegidos para el cruce muchas ms veces que los peo-
res, lo que ralentiza el proceso de mejora.
Una variante de este es el muestreado estocstico universal, que trata de evitar que los
individuos con ms fitness copen la poblacin; en vez de dar la vuelta a una ruleta con
una ranura, da la vuelta a la ruleta con N ranuras, tantas como la poblacin; de esta for-
ma, la distribucin estadstica de descendientes en la nueva poblacin es ms parecida a
la real.
Seleccin por Torneo K/L: La seleccin por torneo consiste en seleccionar K individuos
de la poblacin aleatoriamente y, de estos K individuos, se eligen los L mejores (que ten-
gan mejor fitness). Este proceso se repite todas las veces necesarias hasta formar la nue-
va poblacin.
Elitismo: Este concepto expresa la idea de que los mejores individuos de la actual gene-
racin pasen sin modificar a la siguiente generacin si los descendientes de esta nueva
generacin no los superan. De esta forma no se perdern los mejores individuos entre
generaciones. Al resto de la poblacin se le aplica la reproduccin normalmente.
Por otra parte existen algoritmos genticos llamados elitistas debido a que convergen
muy rpidamente a la solucin. Esto se debe al tipo de problema que se trate.
2.3. Herramientas
En el desarrollo del proyecto, se han utilizado distintos tipos de herramientas para:
Realizar Minera de Datos
Desarrollar aplicaciones
Generar hojas de clculo
Almacenar de grandes cantidades de informacin.
Para la realizacin de clculos sobre gran cantidad de datos, se ha optado por em-
plear hojas de clculo (Microsoft Excel). Aunque dichas aplicaciones no estn pensadas para
trabajar con el gran volumen de datos que se manejan en este trabajo, ha sido posible realizar
muchas operaciones y obtener grficas de comparacin entre ndices previsto e ndices re-
ales.
Por ltimo, para almacenar la informacin, se han utilizado Bases de Datos relacio-
nales PostGres y ficheros de texto plano de ancho variable (CSV). La base de datos ha servi-
do para almacenar el conjunto de datos inicial de forma controlada y sencilla. Los ficheros
CSV se han empleado por su sencillez de tratamiento en todas las herramientas utilizadas,
2.3.1. Clementine
Clementine [4, 10] es una herramienta de Minera de Datos que permite desarrollar
de forma rpida modelos predictivos y desplegarlos para mejorar la toma de decisiones. Cle-
mentine est diseada considerando el proceso estndar usado por la industria CRISP-DM
(CRoss Industry Standard Process for Data Mining). CRISP-DM hace que la minera de da-
tos sea un proceso de negocio, al enfocar la tecnologa de data mining en la resolucin de
problemas de negocio especficos.
Su principal baza es una interfaz visual y lgica sencilla que facilita al usuario la rea-
lizacin de muchas tareas habituales en proyectos de minera de datos, englobando desde so-
luciones de Reporting, Datawarehousing, anlisis OLAP, CRM analtico Asimismo, faci-
lita la entrega de los resultados, completando la informacin para la toma de decisiones.
2.3.2. R Project
El proyecto R [12] es un sistema para anlisis estadsticos y grficos creado por Ross
Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de progra-
macin y es considerado como un dialecto del lenguaje S, aunque existen diferencias impor-
tantes en el diseo de R y S. S fue creado por los Laboratorios AT&T Bell y se encuentra
disponible en el programa S-PLUS comercializado por Insightful..
Los archivos necesarios para instalar R, ya sea desde las fuentes o binarios pre-
compilados, se distribuyen desde el sitio de internet Comprehensive R Archive Network
(CRAN) junto con las instrucciones de instalacin, paquetes adicionales y documentacin
variada.
R posee muchas funciones para anlisis estadsticos y grficos; estos ltimos pueden
ser visualizados de manera inmediata en su propia ventana y ser guardados en varios forma-
tos (jpg, png, bmp, ps, pdf, emf, pictex, xfig; los formatos disponibles dependen del sistema
operativo).
Ratn
/library/base librerias de
/ctest/
Teclado
comandos
funciones y operadores ... funciones
datos
datos objetos archivos
Internet
Pantalla ...
resultados objetos PS jpeg
El lenguaje R permite al usuario, por ejemplo, programar bucles para analizar con-
juntos sucesivos de datos. Tambin es posible combinar en un solo programa diferentes fun-
ciones estadsticas para realizar anlisis ms complejos. Debido a ser una implementacin de
S, la mayora de los programas desarrollados para ste funcionan sin cambios en R.
2.3.3. Lenguaje C#
Aunque es posible escribir cdigo para la plataforma .NET en muchos otros lengua-
jes, C# es el nico que ha sido diseado especficamente para ser utilizado en ella. Por ello,
programar para .NET usando C# es mucho ms sencillo e intuitivo que hacerlo con cualquie-
ra de los otros lenguajes ya que carece de elementos heredados innecesarios. Por esta razn,
se suele decir que C# es el lenguaje nativo de .NET
Seguridad de tipos: C# incluye mecanismos que permiten asegurar que los accesos
a tipos de datos siempre se realicen correctamente, lo que reduce las posibilidades de
que se produzcan errores difciles de detectar por acceso a memoria no perteneciente
a ningn objeto y es especialmente necesario en un entorno gestionado por un reco-
lector de basura.
Sistema de tipos unificado: A diferencia de C++, en C# todos los tipos de datos que
se definan siempre derivarn, aunque sea de manera implcita, de una clase base co-
mn denominada System.Object, por lo que dispondrn de todos los miembros de-
finidos en sta clase (es decir, sern "objetos"). Estos miembros incluyen las compa-
raciones, la creacin de un cdigo hash, copias
2.3.4. PostGres
Desarrollo
3 . P R E P R O C E S O D E D A T O S
3
Captulo
3. Preproceso de Datos
La primera fase en el desarrollo del proyecto es la obtencin, anlisis y preproceso de
los datos de origen, en este caso, del Censo de Poblacin y Viviendas [3] y de la Encuesta
Continua de Presupuestos Familiares (ECPF) [2] ambas del ao 2001.
El primer paso es extraer todos los datos del origen y realizar un proceso de limpieza
de los mismos, para poder usarlos en el calculo de ndices, tipologas y propensiones.
Los Censos Demogrficos [3] son el proyecto estadstico de mayor envergadura que
peridicamente debe acometer la oficina de estadstica de cualquier pas. Bajo la denomina-
cin Censos Demogrficos se engloban en realidad tres censos diferentes: el Censo de Po-
blacin, el Censo de Viviendas y el Censo de Edificios. Asociado a este ltimo, suele reali-
zarse tambin un censo de carcter econmico: el Censo de Locales.
De los tres Censos Demogrficos, el Censo de Poblacin es, sin duda, el ms impor-
tante y el de ms amplia tradicin. El primer censo moderno de poblacin, es decir, que utili-
z la persona como unidad de anlisis, se realiz en Espaa en 1768 por el Conde de Aranda
bajo el reinado de Carlos III.
El proyecto censal del ao 2001 se inici, cuando todava apenas haba concluido la
difusin de los resultados del Censo anterior, en junio de 1996 con la redaccin de un docu-
mento en el que, bajo el ttulo Reflexiones de los Censos Demogrficos del ao 2000, se re-
cogan unas consideraciones generales sobre el enfoque que deba darse a las principales fa-
ses del futuro censo en base a la experiencia censal de 1990-91.
Si hay que elegir un rasgo metodolgico que caracterice a estos censos, probable-
mente haya que mencionar el aprovechamiento, como en ningn Censo anterior, de los regis-
tros administrativos, en concreto de los Padrones Municipales de Habitantes y de la base de
datos del Catastro Urbano. De hecho, la combinacin de ambos directorios va a permitir
efectuar un nico recorrido censal (con el enorme ahorro econmico que ello supone), ya que
el carcter preparatorio que tradicionalmente asuma el recorrido del ao terminado en 0 (que
se denominaba Censos de Edificios y Locales) se va a sustituir, muy ventajosamente, por el
cruce informtico de ambas bases de datos.
Los objetivos que se pretenda alcanzar con los Censos espaoles del 2001 son:
Para facilitar con rapidez los avances de resultados, los datos son objeto de una m-
nima depuracin manual, lo que obliga a considerarlos como provisionales. Posteriormente,
los datos se someten a una depuracin exhaustiva para obtener los resultados definitivos, en
los que se facilita informacin sobre el montante y evolucin de los gastos, debidamente
desglosados.
Los datos procedentes del Censo no pueden ser utilizados directamente, debido a su
distribucin en ficheros independientes, y la separacin entre descripcin de atributos y valo-
res de los propios atributos. Esto oliga a realizar un proceso de carga en un gestor de bases
de datos (en este caso PostGreSQL). El censo de poblacin del 2001, publicado por el INE,
se publica con la siguiente estructura:
Para cada comunidad autnoma se dispone de 153 ficheros de ancho fijo con los da-
tos de dicha regin
Se distribuyen 153 ficheros con la descripcin de los campos contenidos en formato
html
o Lectura lnea a lnea de cada uno de los ficheros localizados con an-
terioridad
o Divisin de cada instancia (lnea) segn la informacin recopilada
de su cabecera asociada
o Validacin de los datos ledos (correccin de tipos, deteccin de nu-
los)
o Generacin del cdigo SQL que almacena los datos en la base de
datos.
La ejecucin de este proceso es muy costosa debido al volumen de los datos analiza-
dos (aproximadamente 15 GBytes). Adems, debido a las mltiples particularidades exis-
tentes en los datos, el tratamiento de errores tuvo que ser analizado de forma individual para
muchos de los ficheros.
Los valores nulos (no se proporciona la informacin por restricciones de secreto es-
tadstico) se representan mediante el carcter .
Si todos los atributos finales de una instancia son nulos, se recortan los campos sin
que aparezcan valores.
Censo:
o Variables demogrficas comunes
o Variables demogrficas exclusivas del Censo
ECPF:
o Variables demogrficas comunes
o ndices econmicos exclusivos.
2
La descripcin detallada se encuentra en el Anexo (poner referencia).
- 56 - ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo
3 . P R E P R O C E S O D E D A T O S
4
Captulo
4. Metodologa de Agrupacin
La metodologa de generacin de grupos [7, 9, 11] est basada en el uso de algorit-
mos heursticos. Estos algoritmos de optimizacin intentan obtener el conjunto de grupos de
familias que se parezcan lo ms posible a las secciones censales reales, es decir, se intenta
agrupar las distintas familias de la ECPF segn su parecido a las familias de las secciones
censales reales.
A continuacin, una vez agregados los datos por grupos de cada individuo, se eval-
an los individuos mediante la funcin de fitness. Una vez seleccionados los X mejores indi-
viduos, se utilizan los operadores de cruce y mutacin, se modifican los individuos y se
vuelve a ejecutar el algoritmo. As, seguidamente, hasta que el algoritmo no pueda mejorar
los individuos.
Una vez agregados las familias segn los grupos, la forma de evaluar la funcin de
fitness es la siguiente: suponiendo la representacin de todos los datos siguen una distribu-
cin normal, se realizan dos test no paramtricos (P de Pearson y F de Snedecor) para com-
probar si tienen la misma media y desviacin tpica y se unifican los dos valores mediante la
expresin:
De esta forma, la funcin de fitness evala y trata de que dicha ecuacin tome el va-
lor mximo posible.
La idea es muy similar a la anterior, nicamente destacar que con este algoritmo se
evala una nica solucin o individuo, a diferencia del algoritmo anterior, en el que se eva-
lan tantas soluciones como tamao de poblacin a la vez.
del nuevo individuo mutado, permitiendo seleccionar individuos peores segn algunas re-
glas.
De esta forma, segn la iteracin actual del algoritmo, el nivel de temperatura permi-
te seleccionar el nuevo individuo, aunque sea peor que el actual, si se cumple que:
(Ti1 Ti )
Tempi
Drand < e
Drand = valor aleatorio de una distribucin uniforme [0,1]
4.2.4. Comparativa
Una vez implementados los tres algoritmos, se realiza una comparativa para deter-
minar el ms apropiado para el problema de agrupacin. Esta comparativa se basa en dos
factores:
En la Tabla 4.1 se muestran los resultados de esta comparativa destacando los pun-
tos a favor y en contra de cada implementacin
Resultados teri-
camente mejores Tiempo de ejecu- La funcin fitness
que el resto de al- cin excesivamen- y el gran espacio
Algoritmo goritmos te grande (aproxi- de bsqueda hace
Gentico En la prctica, no madamente 2 das que el algoritmo
obtiene resultados por comunidad au- gentico no resulte
(el algoritmo no tnoma y estrato) eficaz.
converge).
Tericamente me-
jora los resultados
obtenidos por la Tiempo de ejecu- La funcin de Fit-
bsqueda local con cin bastante supe- ness ya ha sido va-
un coste computa- rior al de bsqueda lidada en el caso
cional un poco su- local (aproxima- anterior.
Recocido perior. damente 8 horas
Se ha definido una
Simulado para todas las co-
Realmente, los re- funcin de enfria-
munidades)
sultados obtenidos miento mediante
son prcticamente ensayo-error.
iguales a la bs-
queda local
Tras este anlisis se determina que la mejor opcin es la bsqueda local con un fit-
ness basado en la similitud entre las distribuciones de los grupos y las secciones censales.
3
Es posible calcular el ndice respecto a la media provincial o de la comunidad autnoma
ICC+: DataMining aplicado al Marketing y Comportamiento de Consumo - 75 -
4 . M E T O D O L O G A D E A G R U P A C I N
El objetivo principal de este primer paso consiste en entrenar modelos que estimen
los ndices de inters a partir de las variables comunes entre el Censo y la ECPF. Shan elel-
gido redes de neuronas como los modelos capaces de estimar los valores de los ndices de in-
ters.
El mtodo de entrenamiento utilizado en dichas redes ha sido adaptado para cada ti-
po de comunidad:
Las causas que motivaron el uso de una u otra, fueron que las grandes presentan una
mayor inestabilidad en sus datos. Al entrenar con una red de neuronas de tipo rpido, se fa-
vorece una mayor variacin en los datos generados (mximos y mnimos ms acusados).
Muy al contrario, mediante una red de neuronas de tipo mltiple, se tiende a suavizar dichos
extremos en la solucin final.
Mediante los modelos entrenados para las variables deseadas en el paso anterior es
posible estimar el ndice para cada seccin censal aplicando dichos modelos al Censo de Po-
blacin. Sin embargo, es necesario realizar un paso correctivo, pues existen numerosas reas
censales en Espaa, en las cuales los ndices tienen un valor mucho ms elevado que en otras
de caractersticas similares (nmero de habitantes, etc.). Esto puede ocasionar que llegado el
momento de validar los datos obtenidos con datos reales, los resultados no sean suficiente-
mente exctos. De modo anlogo, existen poblaciones con ndices inferiores a las secciones
censales similares.
Ms bajas que la media, con lo que se les aplica a dichas reas censales un factor
de correccin de 0,85.
Mucho ms bajas que la media, con lo que se les aplica a dichas reas censales
un factor de correccin de 0,75.
Para determinar el tipo de factor que deba aplicarse a cada seccin censal se entren
un modelo basado en el algoritmo C5.0 usando secciones censales de algunas comunidades
autnomas. Segn el tipo de seccin asociado por este algoritmo a cada seccin censal se le
aplicaba el factor apropiado a cada uno de sus ndices.
Para finalizar, los ndices calculados son relativizados respecto a la media nacional
ponderada por nmero de hogares. El valor resultante es 1 cuando se corresponde con la me-
dia nacional y el resto de valores superiores indican cunto ms o menos se encuentran sobre
dicha media.
Para la validacin de los ndices obtenidos se validarn contra ndices reales que se
han obtenido de los Institutos de Estadstica Autonmicos. Aunque estos datos estn pbli-
cos a libre disposicin cada uno de ellos proporciona dichos datos en diferentes formatos,
con mayores o menores facilidades. Adems, dichos datos est nivel (municipal, provincial
o autonmico).
1,8
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
28079
28058
28074
28065
28006
28049
28127
28080
28013
28130
28045
28161
28022
28181
28009
28040
28131
28132
28068
28010
Renta Modelo RENTA
1,6
1,4
1,2
0,8
0,6
0,4
0,2
0
0
4
02
04
08
08
05
90
03
04
08
08
00
09
03
00
04
90
04
91
07
09
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
48
Renta Modelo Renta
1,4
1,2
0,8
0,6
0,4
0,2
0
9
8
1
3
4
04
02
07
05
00
05
05
06
01
03
07
01
05
04
07
02
05
03
02
03
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
33
5
Captulo
5. Generacin de Tipologas y
Propensiones
Tras el clculo y validacin de los ndices econmicos para todas las secciones cen-
sales, es necesario generar el resto de los niveles de informacin que componen ICC+: tipo-
logas y propensiones.
En este caso se plantea la generacin de diferentes tipologas. Cada una de estas tipo-
logas quedar definida por sus variables de entrada y de salida.
Como norma general, se han probado los clasificadores bietpico (2-step), Redes de
Neuronas de Kohonen y k-medias. Los modelos generados por uno y otro han sido compara-
dos para determinar cual de ellos era ms adecuado aunque en todos los casos se eligi el al-
goritmo k-medias con un nmero de clases dependiendo de la tipologa a desarrollar.
Tras realizar diversas pruebas, no fue posible obtener tipologas descriptivas, por lo
que se opt por utilizar directamente las tipologas definidas por el INE en TIPOHOG.
Riqueza
Gasto
ValorVivienda
Los histogramas asociados a las variables usadas en el modelo son los siguientes:
El objetivo consiste en clasificar las familias segn sus tipos de gastos. El conjunto
de varbles de partida es el siguiente:
AlimentacionBebidasTabaco ElectronicaInformatica
RopaCalzado OcioCultura
MantenimientoSeguridadViviendas PrensaLibros
Energia ViajesVacaciones
MobiliarioDecoracion Educacion
MenajeBazar AlimentacionfueraHogar
Salud, DisfruteAutomoviles SegurosMedico
Telecomunicaciones
Con estas variables no se lograron tipologas descriptivas. Por ello se procedi a rea-
lizar agrupaciones semnticas:
Alimentacin; con las variables AlimentacionBebidasTabaco y Alimenta-
cionFueraHogar
Salud; con las variables Salud y SeguroMedico
ViajesOcioCultura; con las variables ViajesVacaciones y OcioCultura
Educacion; con las variables PrensaLibros y Educacion
Tecnologa; con las variables ElectronicaInformatica y Telecomunicaciones
Telecomunicaciones
OcioCultura
AlimentacionFueraHogar
El objetivo final perseguido es crear una distribucin de cada tipologa por seccin
censal. Como las tipologas se han calculado a nivel de familia en la ECPF, es necesario pro-
yectar estas tipologas a cada una de las secciones del censo. Para ello se han realizado los
siguientes pasos:
Las propensiones reflejan la probabilidad que tienen las familias de una cierta seccin
censal de realizar ciertas acciones. Han sido cuatro tipos de propensiones las que se han rea-
lizado:
Propensin de hipotecas.
Propensin de tenencia de segunda vivienda.
Propensin de posesin de segundo vehculo.
Propensin de compra de gama de automvil.
Esta propensin indica la probabilidad de que las familias tengan la vivienda hipote-
cada en una cierta seccin censal. Este valor no es otro que el porcentaje de viviendas con
hipotecas en una seccin censal.
Esta propensin indica la probabilidad de que una familia de una seccin censal po-
sea una segunda vivienda.
Con este tipo de propensin se desea reflejar la probabilidad que tienen las familias a
adquirir / poseer ms de un vehculo en el hogar. Partiendo de la base de datos del censo, se
obtienen aquellas familias que poseen ninguno, uno, dos o tres coches en cada seccin cen-
sal.
Esta propensin refleja la probabilidad de las familias a comprar / poseer una cierta
gama de vehculos.
De la propensin anterior resulta sencillo extraer el nmero de coches que poseen las
familias de una cierta seccin censal. Usando este dato junto a la variable DisfruteAutomovi-
les del censo, se obtiene una nueva variable capaz de reflejar el gasto en compra y disfrute
cocedse automviles. A partir de sta, se realiza una clasificacin de las secciones censales
mediante un clasificador K-medias el cual genera tres grupos.
El dato que reflejar cada uno de dichos clusters, ser la gama de vehculo (bajo,
medio y alto) que se suele adquirir en cada seccin censal.
Conclusiones
6 . C O N C L U S I O N E S Y L N E A S F U T U R A S
6
Captulo
6. Conclusiones y Lneas
Futuras
Tras la realizacin de este proyecto, se han calculado los niveles de informacin ne-
cesrios para la herramienta de Marketing Inteligente. Estos niveles, incorporados en la
herramienta, aportan un alto nivel de conocimiento para detectar potenciales clientes, a quin
y dnde dirigir las actividades, dnde abrir puntos de venta, etc. Durante todo el proceso se
han superado mltiples problemas utilizando numerosas tcnicas.
6.1. Conclusiones
La herramienta es capaz de describir situaciones estadsticas actuales por las que van
a pasar cada seccin censal de Espaa, a partir de una encuesta realizada a un conjunto de
familias. Por ejemplo, se puede llegar a predecir el nivel econmico de todas las secciones
censales.
6.1.1. Documentacin
Es, pues, til implementar una metodologa capaz de calcular ciertos niveles de in-
formacin (datos de salida), teniendo en cuenta ciertos datos de entrada del Censo, sean del
ao que sean dichos datos. Esta herramienta puede ser la base de un conjunto de proyectos
con los que pueda ser compatible. Una forma de estandarizar este proceso es mediante el uso
de documentacin, que permita definir la herramienta y describa los pasos necesarios para su
realizacin para facilitar la modificacin del proyecto ante futuras necesidades.
6.1.2. Conocimientos
El principal legado tras el estudio de esta carrera es la base necesaria para abordar
cualquier tipo de proyecto en el futuro sin miedo alguno ante el desconocimiento de la tecno-
loga u otros mltiples aspectos. Estas lneas bsicas se enriquecern con la experiencia, lle-
vando a cabo diseos cada vez ms ptimos y con menos errores.
Durante la realizacin de este proyecto han surgido problemas ante los que no estaba
preparado en trminos acadmicos, debido a que algunos aspectos del plan de estudios actual
no son tratados del modo ms adecuado o quedan lejos de la ltima tecnologa utilizada. En-
tre estos aspectos se podran destacar los siguientes:
Para comprobar si los ndices del Censo, estimados durante el proceso, eran
correctos, ha sido necesario disponer de ndices reales con los que compa-
rar. Sin embargo, no fue nada sencillo conseguir dichos ndices, puesto que
pocos institutos posean dicha informacin y se proporcionaban con distintos
formatos y niveles de agregacin. Esto ha dificultado la validacin de las es-
timaciones realizadas.
Una vez solucionadas todas las dificultades, se han obtenido muy buenos resultados
en los niveles de informacin. Por otro lado, procesar y tratar con datos reales ha sido una
experiencia muy gratificante, y ha facilitado el aprendizaje de buenos conocimientos sobre el
tratamiento de grandes cantidades de datos reales y sobre otras tecnologas que ha sido nece-
sario emplear.
Proceso automtico que representa las relaciones entre las distintas variables. De es-
ta forma, podemos seleccionar ciertas variables y eliminar otras variables que tienen
dependencias relacionales.
Es lgico pensar que una posible lnea futura fuera la automatizacin de todo el pro-
ceso y clculo de los niveles de informacin. Sin embargo, a da de hoy, dicha automatiza-
cin no es posible debido a:
la dependencia por las decisiones del hombre
el procesamiento con datos reales
el desarrollo con programas sobre distintas plataformas
7
Captulo
7. Bibliografa
Durante el desarrollo del trabajo se han citado diversas referencias consultadas de las
que se ha extrado informacin. Se proporciona la cita bibliogrfica completa de cada una de
las mismas para facilitar su localizacin y consulta.
[2] INE
INE 1992 Encuesta de Presupuestos Familiares. Metodologa
INE Artes Grficas. Madrid 1992
[3] INE
INE 2001 Censos de Poblacin y Viviendas 2001
INE Artes Grficas Madrid Marzo 2001
[12] DataMining
Internet http://www.crisp-dm.org/Process/index.htm
http://www.bycocer.com/quantessential/DataMining.htm
http://www.cs.bris.ac.uk/Teaching/Resources/COMSM0304/clementine.html
http://www2.spss.com
http://www.monografias.com/
http://web.showcase.com
Simulated Annealing
http://members.aol.com/btluke/simann1.htm
http://members.aol.com/btluke/simanf1.htm
http://esa.ackleyshack.com/thesis/esthesis7/node15.html
R-Project
http://www.r-project.org/
http://cran.r-project.org/doc/contrib/rdebuts_es.pdf
http://www.ub.es/stat/docencia/EADB/Curso%20basico%20de%20R.htm
Estadstica
http://www.ine.es
Anexos
T R A N S F O R M A C I N D E V A R I A B L E S
Transformacin de Variables
A continuacin procedemos a describir detalladamente la transformacin de las va-
riables de los datos del Censo de Poblacin y de la ECPF.
TOTAL De 35 a 39
TOTAL De 40 a 44
TOTAL De 45 a 49
TOTAL De 50 a 54
TOTAL De 55 a 59
TOTAL De 60 a 64
TOTAL De 65 a 69
TOTAL De 70 a 74
TOTAL De 75 a 79
TOTAL De 80 a 84
TOTAL De 85 a 89
TOTAL 90 ms
Valores [0, n)
Tabla Fuente: P2 - Poblacin segn sexo y edad
Operaciones de Transformacin Crear variables en la ECPF correspondientes a
rangos de posibles valores de la edad dados en el
CENSO, agrupando los valores totales
Modificacin del nombre de la variable en el
CENSO
Variables derivadas EDAD_0-4 0a4
EDAD_5-9 5a9
EDAD_10-14 10 a 14
EDAD_15-19 15 a 19
EDAD_20-24 20 a 24
EDAD_25-29 25 a 29
EDAD_30-34 30 a 34
EDAD_35-39 35 a 39
EDAD_40-44 40 a 44
EDAD_45-49 45 a 49
EDAD_50-54 50 a 54
EDAD_55-59 55 a 59
EDAD_60-64 60 a 64
EDAD_65-69 65 a 69
EDAD_70-74 70 a 74
EDAD_75-79 75 a 79
EDAD_80-84 80 a 84
EDAD_85-89 85 a 89
EDAD_90MAS 90 ms
cin secundaria
2 Segundo ciclo de educacin secundaria
3 Educacin superior (terciaria)
8 No aplicable
9 No consta
CENSO Nombre TOTAL Enseanzas iniciales para adul-
tos(alfabetizacin, educacin bsica, ...)
TOTAL Programas de garanta social
TOTAL ESO, educacin secundaria para adultos
TOTAL Bachillerato, BUP, COU
TOTAL Escuela Oficial de Idiomas
TOTAL Enseanzas Artsticas de Grado Elemental o
Medio
TOTAL Formacin Profesional de Grado Medio o es-
tudios EQ
TOTAL Formacin Profesional de Grado Superior,
FPII o equivalente
TOTAL Diplomatura universitaria, arquitectura o in-
geniera tcnica
TOTAL Licenciatura universitaria, arquitectura o in-
geniera o equiv
TOTAL Estudio posgrado, master, MIR o anlogo
TOTAL Doctorado
TOTAL Curso del INEM, taller u otros
TOTAL Otros cursos(Informtica, preparacin de opo-
siciones..)
Valores [0, n)
Tabla P11 - Poblacin en viviendas familiares de 16 aos o
Fuente: ms que est cursando estudios, segn sexo y estudios en
curso
Operaciones de Transformacin Crear una nueva escala de valores para agrupar los
datos del CENSO y de la ECPF
Los valores No consta y No aplicable de la ECPF
no se tendrn en cuenta por lo cual se suprimir la varia-
ble correspondiente
ECPF CENSO Nuevo Valor
Educacin TOTAL Educacin
primaria o primer Enseanzas ini- primaria o pri-
ciclo de educacin ciales para adul- mer ciclo de
secundaria tos(alfabetizaci educacin se-
n, educacin b- cundaria
sica, ...)
TOTAL
Programas de
garanta social
TOTAL
ESO, educacin
secundaria para
adultos
Segundo ciclo TOTAL Segundo ci-
de educacin se- Bachillerato, clo de educacin
cundaria BUP, COU secundaria
TOTAL
Escuela Oficial
de Idiomas
TOTAL
Enseanzas Ar-
tsticas de Grado
Elemental o
Medio
TOTAL
Formacin Pro-
fesional de Gra-
do Medio o es-
tudios EQ
Educacin su- TOTAL Educacin
perior (terciaria) Formacin Pro- superior (tercia-
fesional de Gra- ria)
do Superior,
FPII o eq
TOTAL
Diplomatura
universitaria,
aqrquitectura o
ingenieria
tecnica o eq
TOTAL
Licenciatura
universitaria,
arquitectura o
ing eq
TOTAL Es-
tudio posgrado,
master, MIR o
analogo
TOTAL
Doctorado
TOTAL Otros
Curso del
INEM, taller u
otros
TOTAL
Curso Forma-
educacin se-
cundaria
2 TOTAL Segundo ci-
Segundo grado clo de educacin
2 secundaria
3 TOTAL Educacin
Tercer grado 2 superior (tercia-
ria)
Variables derivadas NIVES- Analfabetos Sin estu-
TUD_ANALFABETOS dios
NIVESTUD_PRIMARIA Educacin primaria o
primer ciclo de educa-
cin secundaria
NIVES- Segundo ciclo de educa-
TUD_SECUNDARIA cin secundaria
NIVESTUD_TERCIARIA Educacin superior (ter-
ciaria)
bajar
Construccin - F - Construccin
Servicios - G - Comercio; reparacin de vehculos de
motor, motocicletas, ciclomotores y artculos persona-
les y de uso domstico
Servicios - H - Hostelera
Servicios - I - Transporte, almacenamiento y comuni-
caciones
Servicios - J - Intermediacin financiera
Servicios - K - Actividades inmobiliarias y de alquiler;
servicios empresariales
Servicios - L - Administracin pblica, defensa y segu-
ridad social obligatoria
Servicios - M - Educacin
Servicios - N - Actividades sanitarias y veterinarias;
asistencia social
Servicios - O - Otras actividades sociales y de servicios
prestados a la comunidad; servicios personales
Servicios - P - Actividades de los hogares
Servicios - Q - Organismos extraterritoriales
Valores [0, n)
Tabla Fuente: P31 - Ocupados de 16 aos o ms en viviendas familia-
res segn actividad del establecimiento en que trabaja
Operaciones de Transformacin Crear variables en la ECPF correspondientes a los
valores posibles de ACTESTAB, para agrupar los valo-
res totales
Los valores No consta y No aplicable de la ECPF
no se tendrn en cuenta por lo cual se suprimir la va-
riable correspondiente
Cambiar el nombre de las variables en el CENSO
Variables derivadas ACTESTAB_1 Agricultura, ganadera, caza y sil-
vicultura
ACTESTAB_2 Pesca
ACTESTAB_3 Industrias extractivas
ACTESTAB_4 Industria manufacturera
ACTESTAB_5 Produccin y distribucin de ener-
ga elctrica, gas y agua
ACTESTAB_6 Construccin
ACTESTAB_7 Comercio; reparacin de vehcu-
los, motocicletas y ciclomotores y
artculos personales y de uso do-
mstico
ACTESTAB_8 Hostelera
ACTESTAB_9 Transporte, almacenamiento y
comunicaciones
ACTESTAB_10 Intermediacin financiera
ACTESTAB_11 Actividades inmobiliarias y de al-
quiler; servicios empresariales
ACTESTAB_12 Administracin pblica, defensa y
Seguridad Social obligatoria
ACTESTAB_13 Educacin
ACTESTAB_14 Actividades sanitarias y veterina-
rias; servicios sociales
ACTESTAB_15 Otras actividades sociales y de
servicios prestados a la comuni-
dad; servicios personales
ACTESTAB_16 Hogares que emplean personal
domstico
ACTESTAB_17 Organismos extraterritoriales
Valores [0, n)
Tabla Fuente: P33 - Ocupados de 16 aos o ms en viviendas familia-
res segn situacin profesional
Operaciones de Transformacin Crear variables en la ECPF correspondientes a los
valores posibles de ACTESTAB, para agrupar los valo-
res totales
Los valores No consta y No aplicable de la ECPF
no se tendrn en cuenta por lo cual se suprimir la va-
riable correspondiente
Agrupar los valores del censo de acuerdo a las si-
guientes categoras
ECPF CENSO NUEVO VA-
LOR
Empleador Empresario o Empleador
profesional que
emplea personal
Empresario Empresario o Empresario
sin asalariados o profesional que sin asalariados o
trab. Indepen- no emplea per- trab. Indepen-
diente sonal diente
Asalariado Trabajador Asalariado
por cuenta ajena
con carcter fijo
o indefinido
Trabajador
por cuenta ajena
con carcter
eventual, tempo-
ral...
Ayuda fami- Otra situa- Ayuda fami-
liar cin(Ayuda fa- liar
miliar)
Aprendiz re- Otra situa- Otra situa-
munerado cin(Miembro cin
Otra situa- de cooperativas)
cin
Variables derivadas SITPROF_EMPLEADOR Empleador
SIT- Empresario sin asala-
PROF_EMPRESARIOSIN riados o trab. Inde-
pendiente
SITPROF_ASALARIADO Asalariado
SITPROF_AYUDAF Ayuda familiar
SITPROF_OTRA Otra situacin
3 habitaciones 2
4 habitaciones 2
5 habitaciones 2
6 habitaciones 2
7 habitaciones 2
8 habitaciones 2
9 habitaciones 2
10 ms habitaciones 2
Valores [0, n)
Tabla Fuente: V22 - Viviendas principales segn nmero de habita-
ciones
Operaciones de Transformacin Crear variables en la ECPF correspondientes a los
valores posibles del nmero de habitaciones, para
agrupar los valores totales
Los valores No consta de la ECPF no se tendrn
en cuenta
Adecuar las variables del CENSO y de la ECPF
de manera al rango propuesto, en el doc de ICC +
Cambiar nombres a variables del CENSO
ECPF CENSO NUEVO VALOR
1 1 habitacin 2 1 habitacin
2 2 habitaciones 2 2 habitaciones
3 3 habitaciones 2 3 habitaciones
4 4 habitaciones 2 4 o ms habita-
5 5 habitaciones 2 ciones
6 6 habitaciones 2
7 7 habitaciones 2
8 8 habitaciones 2
9 habitaciones 2
10 ms habita-
ciones 2
Variables derivadas NHABIT_1 1 habitacin
NHABIT_2 2 habitaciones
NHABIT_3 3 habitaciones
NHABIT_4MAS 4 o ms habitaciones
46-60 m2 2
61-75 m2 2
76-90 m2 2
91-105 m2 2
106-120 m2 2
121-150 m2 2
151-180 m2 2
Ms de 180 m2 2
Valores [0, n)
Tabla Fuente: V21 - Viviendas principales segn superficie til
Operaciones de Transformacin Crear variables en la ECPF correspondientes a los
valores posibles de la superficie, para agrupar los valo-
res totales, con base en los rangos definidos en el
CENSO
Modificar los nombres de las variables del CEN-
SO
ECPF CENSO NUEVO VA-
LOR
[1, 30) Hasta 30 m2 2 Hasta 30 m2 2
[30, 45] 30-45 m2 2 30-45 m2 2
[46, 60] 46-60 m2 2 46-60 m2 2
[61, 75] 61-75 m2 2 61-75 m2 2
[76, 90] 76-90 m2 2 76-90 m2 2
[91, 105] 91-105 m2 2 91-105 m2 2
[106, 120] 106-120 m2 2 106-120 m2 2
[121, 150] 121-150 m2 2 121-150 m2 2
[151, 180] 151-180 m2 2 151-180 m2 2
(180, 998] Ms de 180 m2 Ms de 180 m2
2 2
Variables derivadas SUPERF_30MENOS Hasta 30 m2 2
SUPERF_30-45 30-45 m2 2
SUPERF_46-60 46-60 m2 2
SUPERF_61-75 61-75 m2 2
SUPERF_76-90 76-90 m2 2
SUPERF_91-105 91-105 m2 2
SUPERF_106-120 106-120 m2 2
SUPERF_121-150 121-150 m2 2
SUPERF_151-180 151-180 m2 2
SUPERF_180MAS Ms de 180 m2 2
2 2
3 3
4 4
8 No aplicable
9 No consta
Nombre UBVIVSE3 (Vivienda secundaria en un pas fuera de
la Unin Europea)
Valores 0 0
1 1
2 2
3 3
4 4
8 No aplicable
9 No consta
CENSO Nombre En el mismo municipio
En otro municipio de la misma provincia
En distinta provincia de la misma comunidad
En otra comunidad
En otro pas
Valores [0, n)
Tabla Fuente: P52 - Poblacin en viviendas familiares que dispone de
segunda vivienda segn relacin entre el lugar de la
segunda vivienda y el de residencia
Operaciones de Transformacin En la ECPF no se considerarn los valores No
aplicable y No consta
Se distinguirn solo las opciones en el mismo pas
y en otro pas
ECPF CENSO NUEVO VA-
LOR
Valores 1, 2, En el mismo En el mismo
3 y 4 en UB- municipio pas
VIVSE1 En otro mu-
nicipio de la
misma provincia
En distinta
provincia de la
misma comuni-
dad
En otra co-
munidad
Cuando la En otro pas En otro pas
suma de los va-
lores de UB-
VIVSE2 y UB-
VIVSE3 sean
mayor que 0, y
los valores que
toman en la
ECPF son dife-
rentes de 8 y9
Variables derivadas UBVIVSE_PAIS En el mismo pas
UBVIV- En otro pas
SE_EXTRANJERO
1 1 ocupado
2 2 ocupados
3 3 ocupados
4 4 ocupados
5 5 o ms ocupados
CENSO Nombre Ninguno
1
2
3
4 ms
Valores [0, n)
Tabla Fuente: H11 - Hogares segn nmero de ocupados
Operaciones de Transformacin Agrupar los valores de la ECPF de acuerdo a los
rangos del CENSO, y crear una variable correspon-
diente a cada valor
Modificacin del nombre de la variable en el
CENSO
ECPF CENSO NUEVO VA-
LOR
0 Ninguno Ninguno
1 1 1
2 2 2
3 3 3
4 4 ms 4 ms
5
Variables derivadas NUMOCUP_0 Ninguno
NUMOCUP_1 1
NUMOCUP_2 2
NUMOCUP_3 3
NUMOCUP_4MAS 4 ms