You are on page 1of 4

ANÁLISIS Y TÉCNICAS DE MINERÍA

DE DATOS
Perla Janette Franco Valtierra, Jessica Contreras Pineda
Departamento de sistemas computacionales, Instituto Tecnológico De Durango
Durango, Dgo. Mexico
duvi_11187@hotmail.com
beautyfresy@hotmail.com

La minería de datos se presenta como una almacenamiento de la información. Sin duda


tecnología emergente, con varias ventajas: por un existen cuatro factores importantes que nos han
lado, resulta un buen punto de encuentro entre los llevado a este suceso:
investigadores y las personas de negocios; por
otro, ahorra grandes cantidades de dinero a una 1. El abaratamiento de los sistemas de
empresa y abre nuevas oportunidades de almacenamiento tanto temporal como
negocios. Además, no hay duda de que trabajar permanente.
con esta tecnología implica cuidar una infinidad de 2. El incremento de las velocidades de cómputo
detalles debido a que el producto final involucra en los procesadores.
"toma de decisiones". 3. Las mejoras en la confiabilidad y aumento de la
velocidad en la transmisión de datos.
I. INTRODUCCIÓN 4. El desarrollo de sistemas administradores de
Cada día generamos una gran cantidad de bases de datos más poderosos.
información, algunas veces conscientes de que lo
hacemos y otras veces inconscientes de ello Actualmente todas estas ventajas nos han llevado
porque lo desconocemos. Nos damos cuenta de a abusar del almacenamiento de la información en
que generamos información cuando registramos las bases de datos. Podemos decir que las
nuestra entrada en el trabajo, cuando entramos en empresas almacenan datos pero no todas hacen
un servidor para ver nuestro correo, cuando uso de ellos. En cambio, si estos datos son leídos
pagamos con una tarjeta de crédito o cuando y analizados pueden proporcionar en conjunto un
reservamos un billete de avión. Otras veces no verdadero conocimiento que ayude en la toma de
nos damos cuenta de que generamos información, decisiones. Así pues, es necesario contar con
como cuando conducimos por una vía donde tecnologías que nos ayuden a explotar el potencial
están contabilizando el número de automóviles de este tipo de datos.
que pasan por minuto, cuando se sigue nuestra
navegación por Internet o cuando nos sacan una La minería de datos surge como una tecnología
fotografía del rostro al haber pasado cerca de una que intenta ayudar a comprender el contenido de
oficina gubernamental. una base de datos. De forma general, los datos
son la materia prima bruta. En el momento que el
¿Con qué finalidad queremos generar usuario les atribuye algún significado especial
información? Son muchos los motivos que nos pasan a convertirse en información. Cuando los
llevan a generar información, ya que nos pueden especialistas elaboran o encuentran un modelo,
ayudar a controlar, optimizar, administrar, haciendo que la interpretación conjunta entre la
examinar, investigar, planificar, predecir, someter, información y ese modelo represente un valor
negociar o tomar decisiones de cualquier ámbito agregado, entonces nos referimos al
según el dominio en que nos desarrollemos. La conocimiento. En la figura 1 se ilustra la jerarquía
información por sí misma está considerada un que existe en una base de datos entre dato,
bien patrimonial. De esta forma, si una empresa información y conocimiento. Se observa
tiene una pérdida total o parcial de información igualmente el volumen que presenta en cada nivel
provoca bastantes perjuicios. Es evidente que la y el valor que los responsables de las decisiones
información debe ser protegida, pero también le dan en esa jerarquía. El área interna dentro del
explotada. triángulo representa los objetivos que se han
propuesto. La separación del triángulo representa
¿Qué nos ha permitido poder generar tanta la estrecha unión entre dato e información, no así
información? En los últimos años, debido al entre la información y el conocimiento. La minería
desarrollo tecnológico a niveles exponenciales de datos trabaja en el nivel superior buscando
tanto en el área de cómputo como en la de patrones, comportamientos, agrupaciones,
transmisión de datos, ha sido posible que se secuencias, tendencias o asociaciones que
gestionen de una mejor manera el manejo y puedan generar algún modelo que nos permita
comprender mejor el dominio para ayudar en una manejaban términos como data fishing, data
posible toma de decisión. mining o data archaeology con la idea de
encontrar correlaciones sin una hipótesis previa en
bases de datos con ruido. A principios de los años
ochenta, Rakesh Agrawal, Gio Wiederhold, Robert
Blum y Gregory Piatetsky-Shapiro, entre otros,
empezaron a consolidar los términos de data
mining y KDD. A finales de los años ochenta sólo
existían un par de empresas dedicadas a esta
tecnología; y en 2002 existían más de 100
empresas en el mundo que ofrecían alrededor de
300 soluciones. Las listas de discusión sobre este
tema las forman investigadores de más de
ochenta países. Esta tecnología ha sido un buen
punto de encuentro entre personas pertenecientes
al ámbito académico y al de los negocios.

La minería de datos es una tecnología compuesta


Figura 1. Relación entre dato, información y por etapas que integra varias áreas y que no se
conocimiento. debe confundir con un gran software. Durante el
desarrollo de un proyecto de este tipo se usan
Con todo lo anterior podemos decir que minería de diferentes aplicaciones software en cada etapa
datos es el proceso de descubrir patrones de que pueden ser estadísticas, de visualización de
información interesante y potencialmente útiles, datos o de inteligencia artificial, principalmente.
inmersos en una gran base de datos en la que se Actualmente existen aplicaciones o herramientas
interactúa constantemente. Minería de datos es comerciales de minería de datos muy poderosas
una combinación de procesos como: que facilitan el desarrollo de un proyecto. Sin
 Extracción de datos embargo, casi siempre acaban
 Limpieza de datos. complementándose con otra herramienta.
 Selección de características.
 Algoritmos.
 Análisis de resultados. 3. ¿DÓNDE SE UTILIZA LA
MINERÍA DE DATOS?
2. MINERÍA DE DATOS. La utilidad de minería de datos se puede dar
CONCEPTOS E HISTORIA dentro de los siguientes aspectos:

Aunque desde un punto de vista académico el Sistemas parcialmente desconocidos: Si el


término minería de datos es una etapa dentro de modelo del sistema que produce los datos es bien
un proceso mayor llamado extracción de conocido, entonces no necesitamos de la minería
conocimiento en bases de datos (Knowledge de datos ya que todas las variables son de alguna
Discovery in Databases o KDD) en el entorno manera predecibles. Este no es el caso del
comercial, ambos términos se usan de manera comercio electrónico, debido a los efectos del
indistinta. Lo que en verdad hace la minería de comportamiento humano, el clima y de decisiones
datos es reunir las ventajas de varias áreas como políticas entre otros. En estos casos habrá una
la Estadística, la Inteligencia Artificial, la parte del sistema que es conocida y habrá una
Computación Gráfica, las Bases de Datos y el parte aparentemente de naturaleza aleatoria. Bajo
Procesamiento Masivo, principalmente usando ciertas circunstancias, a partir de una gran
como materia prima las bases de datos. Una cantidad de datos asociada con el sistema, existe
definición tradicional es la siguiente: "Un proceso la posibilidad de encontrar nuevos aspectos
no trivial de identificación válida, novedosa, previamente desconocidos del modelo.
potencialmente útil y entendible de patrones
comprensibles que se encuentran ocultos en los Enorme cantidad de datos: Al contar con mucha
datos". Desde otro punto de vista se define como información en algunas bases de datos es
"la integración de un conjunto de áreas que tienen importante para una empresa encontrar la forma
como propósito la identificación de un de analizar "montañas" de información (lo que
conocimiento obtenido a partir de las bases de para un humano sería imposible) y que ello le
datos que aporten un sesgo hacia la toma de produzca algún tipo de beneficio.
decisión”.
Potente hardware y software: Muchas de las
La idea de minería de datos no es nueva. Ya herramientas presentes en la minería de datos
desde los años sesenta los estadísticos están basadas en el uso intensivo de la
computación, en consecuencia, un equipo
conveniente y un software eficiente, con el cual Estas fases las explicamos a continuación.
cuente una compañía, aumentará el desempeño
del proceso de buscar y analizar información, el Filtrado de datos: El formato de los datos
cual a veces debe vérselas con producciones de contenidos en la fuente de datos nunca es el
datos del orden de los Gbytes/hora ( repetimos, idóneo, y la mayoría de las veces no es posible
algo humanamente imposible). El uso de minería utilizar ningún algoritmo de minería. Mediante el
de datos puede ser provechoso en el caso de preprocesado, se filtran los datos (se eliminan
poseer datos sobre sus procesos productivos, valores incorrectos, no válidos, desconocidos,
datos de seguimiento de clientes, datos externos etc.), se obtienen muestras de los mismos (mayor
de mercado, datos sobre la actividad de velocidad de respuesta del proceso), o se
competidores, etc. reducen el número de valores posibles (mediante
redondeo, agrupamiento,
etc.).
4. OBJETIVOS PRINCIPALES DE
LA MINERÍA DE DATO Selección de variables: Aún después de haber
sido preprocesados, se sigue teniendo una
La Minería de datos persigue ciertos objetivos de cantidad ingente de datos. La selección de
manera específica: características reduce el tamaño de los datos,
eligiendo las variables más influyentes en el
Descripción: El principal producto del proceso de problema, sin apenas sacrificar la calidad del
la minería de datos es el descubrimiento de modelo de conocimiento obtenido del proceso de
reglas. Estas mostrarán nuevas relaciones entre minería. Los métodos para la selección de
las variables o excepciones de acuerdo a la características son dos:
empresa en que se utilice este proceso. Ello
enriquecerá el análisis y la descripción de la forma 1. Los basados en la elección de los mejores
en que trabaja una compañía y ayudará en la atributos del problema.
planificación y en el diseño de futuros cambios. Es
posible que algunas de las reglas descubiertas no 2. Los que buscan variables independientes
puedan ser cambiadas, pero si resulte posible mediante tests de sensibilidad, algoritmos de
realizar modificaciones apropiadas en la distancia o heurísticos.
organización con el propósito de mejorar su
desempeño. Extracción de Conocimiento: Mediante una
técnica se obtiene un modelo de conocimiento,
Predicción (Forecasting): Una vez descubiertas que representa patrones de comportamiento
reglas importantes, estas pueden ser utilizadas observados en los valores de las variables del
para estimar algunas variables de salida. Puede problema o relaciones de asociación entre dichas
ser en el caso de secuencias en el tiempo, o bien variables.
en la identificación e interrupción a tiempo, de una También pueden usarse varias técnicas a la vez
futura mala experiencia de crédito. En esta tarea, para generar distintos modelos.
se complementan las técnicas estadísticas
tradicionales con aquellas provenientes de la Interpretación y evaluación: Finalmente se
inteligencia artificial. Conceptos adaptativos como procede a su validación, comprobando que las
los algoritmos genéticos y las redes neuronales, conclusiones son válidas y satisfactorias. En el
permiten realizar predicciones más acertadas, caso de haber obtenido varios modelos mediante
especialmente en casos de gran complejidad y el uso de distintas técnicas, se deben comparar
con relaciones internas. los modelos en busca de aquel que se ajuste
mejor al problema. Si ninguno de los modelos
alcanza los resultados esperados, se alterará
5. FASES GENERALES PARA LA alguno de los procesos anteriores en busca de
CREACIÓN DE UN PROYECTO DE nuevos modelos.
MINERÍA DE DATOS
6. APLICACIONES DE LA MINERÍA
En esta parte se emplean cuatro fases DE DATOS
independientemente de la técnica específica de
extracción de conocimiento usada.
6.1 Gobiernos
1. Filtrado de datos.
2. Selección de Variables. 6.1.1 El FBI analizará las bases de datos
3. Extracción de Conocimiento. comerciales para detectar terroristas.
4. Interpretación y Evaluación.
A principios del mes de julio de 2002, el director minería de datos se presenta como una tecnología
del FBI en Estados Unidos, John Aschcroft, de apoyo para explorar, analizar, comprender y
anunció que el Departamento de Justicia aplicar el conocimiento obtenido usando grandes
comenzaría a introducirse en la enorme cantidad volúmenes de datos. Descubrir nuevos caminos
de datos comerciales en los que se revelan que nos ayuden en la identificación de
hábitos y costumbres de la población, con el fin de interesantes estructuras en los datos es una de las
poder identificar a potenciales terroristas con tareas fundamentales en el minería de datos.
antelación a que puedan cometer un atentado.

Algunos expertos aseguran que, con esta 9. REFERENCIAS


información, el FBI unirá todas las bases de datos
mediante el número de la Seguridad Social y
Berson, A. (s.f.). An Overview To The Data
permitirá saber si una persona fuma, qué talla y Mining. Recuperado el ABRIL de 2009, de
tipo de ropa usa, si ha sido arrestado y cuantas
veces, el barrio donde vive, si en este se cometen
http://www.thearling.com/text/dmtechniqu
más o menos delitos, su salario, las revistas a las es/dmtechniques.htm
que está suscrito, su altura y peso, sus
contribuciones a la Iglesia, grupos políticos u
Corporation, T. C. (Tercera Edición). Two
organizaciones no gubernamentales, sus
enfermedades crónicas, los libros que lee, los Crows Corporation. Introduction to Data
productos de supermercado que compra, si tomó
Mining and Knowledge Discovery .
clases de vuelo o si tiene cuentas de banco
abiertas, entre otros. La inversión inicial ronda los
70 millones de $ estadounidenses para consolidar Cynthia, P. C. (s.f.). Data Mining:
los almacenes de datos, desarrollar redes de Descubriendo la información oculta.
seguridad que sean capaces de compartir la
información e implementar nuevo software Recuperado el abril de 2009, de
analítico y de visualización. http://www.lasnieves.edu.ar/indocs/p%5CD
Con este tipo de aplicaciones sale de nuevo el ataMining.doc
tema ético de la privacidad y libertad de los
individuos. En el fondo la aplicación es un gran E., G. N. (26 de abril de 2004). Metodologías
hermano que observa cualquier movimiento que
se haga, pudiendo estos para la Realización de Proyectos de Data
Mining. Recuperado el abril de 2009, de
7. HERRAMIENTAS DE LA http://www.estadistico.com/arts.html?2004
MINERÍA DE DATOS 0426

Ruth, D. (diciembre de 1995). Data Mining


An Introduction [Minería de Datos Una
Introducción]. Obtenido de
http://www.pcc.qub.ac.uk/tec/courses/data
mining/stu_notes/dm_book_1.

Thearling, K. (s.f.). An Introduction to Data


Mining. Recuperado el abril de 2009, de
http://www.thearling.com/text/dmwhite/d
mwhite.htm

8. CONCLUSIONES Thearling, K. (diciembre de 1997).


Understanding Data Mining: It's all in the
La capacidad para almacenar datos ha crecido en
los últimos años a velocidades exponenciales. En Interaction. Recuperado el abril de 2009, de
el otro extremo, nuestra capacidad para procesar http://www.thearling.com/text/dsstar/intera
esta enorme cantidad de datos para por utilizarlos
eficazmente no ha ido a la par. Por este motivo, la ction.html