Tema01 - Grupo07 - Conocimiento y Minería de Datos

Universidad Nacional Federico Villarreal
Facultad de ingeniera industrial y de sistemas

Escuela de ingeniera de sistema
Gestin del Conocimiento

Alumnos:
Chihuan Omonte Kevin Ruben
Oscco Buenda Juan Pablo
Quispe Oscco Alin
Aymara Huallpa Mijail
Chauca Ventura, Victor
Docente: Ing. Cachay
Tema: Conocimiento y Minera de Datos
Lima-Per
2015
CONTENIDO:
INTRODUCCIN----------------------------------------------------------------------------------3
1. CONOCIMIENTO-------------------------------------------------------------------------------4
1.1. LOS TRES NIVELES DEL CONOCIMIENTO.----------------------------------------4
1.1.1. Conocimiento sensible-----------------------------------------------------------4
1.1.2. Conocimiento conceptual-------------------------------------------------------4
1.1.3. Conocimiento holstico----------------------------------------------------------5
1.2. TIPOS DE CONOCIMIENTO------------------------------------------------------------5
1.2.1. Tipos de conocimiento-----------------------------------------------------------5
2. MINERA DE DATOS------------------------------------------------------------------------11
2.1. CONCEPTOS GENERALES-----------------------------------------------------------11
2.2. FUNDAMENTOS DEL DATA MINING-----------------------------------------------11
2.3. PROCESOS DATA MINING-----------------------------------------------------------12
2.3.1. Determinacin de los objetivos.--------------------------------------------12
2.3.2. Pre procesamiento de los datos.--------------------------------------------12
2.3.3. Determinacin del modelo.---------------------------------------------------12
2.3.4. Anlisis de los Resultados.----------------------------------------------------12
2.4. CARACTERSTICAS DE LA MINERA DE DATOS--------------------------------13
2.5. VENTAJAS DE LA MINERA DE DATOS-------------------------------------------13
2.6. TCNICAS EN DATA MINING-------------------------------------------------------14
2.6.1. Algoritmo de clsteres---------------------------------------------------------14
2.6.2. Algoritmo de asociacin-------------------------------------------------------14
2.6.3. Algoritmo de rbol de decisin----------------------------------------------15
2.6.4. Algoritmo de Red Neuronal---------------------------------------------------16
2.6.5. Algoritmo Bayes Naive---------------------------------------------------------16
2.7. ESTRUCTURA DE MINERA DE DATOS-------------------------------------------17
2.8. EL ALCANCE DE DATA MINING----------------------------------------------------18
2.9. ARQUITECTURA DE MINERA DE DATOS----------------------------------------19
2.9.1 Procesamiento de objetos del modelo multidimensional.------------19
2.9.2. Conectar a analysis services-------------------------------------------------22
2.9.3. Ubicacin de almacenamiento de las bases de datos.--------------22
2.9.4. Cambiar entre los modos readonily y readwrite en una base de
datos de analysis services.------------------------------------------------------------23
2.10. HERRAMIENTAS DE SOFTWARE DEL DATA MINING------------------------24
CONCLUSIONES--------------------------------------------------------------------------------28
INTRODUCCIN
Distintos enfoques tratan el estudio de los activos intangibles,

principalmente por dos razones. Por una parte, por las implicaciones que la
naturaleza de estos activos tienen en la ventaja competitiva de las
empresas. Por otra parte, porque todava quedan cuestiones por resolver en
cuanto a su gestin y valoracin. En este papel nos centramos en el estudio
de uno de los activos intangibles clave para la organizacin: el
conocimiento.
La importancia del conocimiento como un recurso valioso para la empresa
es un argumento que ha ido cobrando progresivamente un mayor inters en
la literatura sobre direccin de empresas. En este sentido, varios autores
apuntan una serie de razones que destacan la importancia de este activo y
las implicaciones que tiene su naturaleza y gestin para las organizaciones.
1. CONOCIMIENTO
Tradicionalmente se ha presentado el conocimiento como algo especfico del

hombre en relacin con la creencia en la existencia del alma racional que
hace posible intuir la realidad como verdad.
El conocimiento suele entenderse como:
Hechos o informacin adquiridos por un ser vivo a travs de la

experiencia o la educacin, la comprensin terica o prctica de un
asunto referente a la realidad.
Conciencia o familiaridad adquirida por la experiencia de un hecho o
situacin.
No existe una nica definicin de "Conocimiento". Sin embargo existen

muchas perspectivas desde las que se puede considerar el conocimiento,
siendo la consideracin de su funcin y fundamento, un problema histrico
de la reflexin filosfica y de la ciencia. La rama de la filosofa que estudia el
conocimiento es la epistemologa o teora del conocimiento. La teora del
conocimiento estudia las posibles formas de relacin entre el sujeto y el
objeto. Se trata por lo tanto del estudio de la funcin del entendimiento
propia de la persona.
La gestin del conocimiento (del ingls knowledge management) es un
concepto aplicado en las organizaciones. Tiene el fin de transferir el
conocimiento desde el lugar dnde se genera hasta el lugar en dnde se va
a emplear e implica el desarrollo de las competencias necesarias al interior
de las organizaciones para compartirlo y utilizarlo entre sus miembros, as
como para valorarlo y asimilarlo si se encuentra en el exterior de estas.
1.1. LOS TRES NIVELES DEL CONOCIMIENTO.
El ser humano puede captar un objeto en tres diferentes niveles, sensible,
conceptual y holstico.
1.1.1. Conocimiento sensible
El conocimiento sensible consiste en captar un objeto por medio de los
sentidos; tal es el caso de las imgenes captadas por medio de la vista.
Gracias a ella podemos almacenar en nuestra mente las imgenes de las
cosas, con color, figura y dimensiones. Los ojos y los odos son los
principales sentidos utilizados por el ser humano. Los animales han
desarrollado poderosamente el olfato y el tacto.
1.1.2. Conocimiento conceptual
El conocimiento conceptual, que consiste en representaciones invisibles,
inmateriales, pero universales y esenciales. La principal diferencia entre el
nivel sensible y el conceptual reside en la singularidad y universalidad que
caracteriza, respectivamente, a estos dos tipos de conocimiento. El
conocimiento sensible es singular y el conceptual es universal.
1.1.3. Conocimiento holstico
El conocimiento holstico (tambin llamado intuitivo, con el riesgo de

muchas confusiones, dado que la palabra intuicin se ha utilizado hasta
para hablar de premoniciones y corazonadas). En este nivel tampoco hay
colores, dimensiones ni estructuras universales como es el caso del
conocimiento conceptual. Intuir un objeto significa captarlo dentro de un
amplio contexto, como elemento de una totalidad, sin estructuras ni lmites
definidos con claridad. La palabra holstico se refiere a esta totalidad
percibida en el momento de la intuicin (holos significa totalidad en griego).
12 .TIPOS DE CONOCIMIENTO
Vulgar
Se conoce bajo este nombre a aquel conocimiento que ha sido adquirido a
partir de lo que otras personas han transmitido, de generacin en
generacin, o bien, a partir del contacto directo que la persona establezca
con el fenmeno del que se tiene conocimiento. Entre otras cosas, el
conocimiento vulgar se caracteriza por ser superficial, ya que no se conoce
a la cuestin de manera profunda o completa. Tambin, es un conocimiento
sensitivo puesto que no persigue establecer relaciones causales entre los
distintos fenmenos que se hagan presentes. Tambin se trata de un
conocimiento subjetivo ya que se encuentra condicionado por la persona
que lo observa, es decir, depende de la percepcin que este tenga sobre los
hechos, sin ningn fundamento cientfico que lo abale o gue.
Adems, no son conocimientos que han sido comprobados o verificados
cientficamente, ni tampoco se encuentran organizados de manera
sistemtica. Por otro lado, algunos lo definen como un conocimiento
dogmtico, ya que se encuentra limitado a las creencias y explicaciones que
la persona haya elegido otorgarle. Por ltimo, el conocimiento vulgar suele
ser poco preciso, ya que las descripciones y definiciones de quien lo
formula son poco exactas.
Cientfico
Este tipo de conocimiento, en cambio, s busca establecer relaciones para
as conformar un sistema entre los distintos saberes en torno a un tema
especfico. Para ello, la persona que almacena los saberes ha recurrido a
mecanismos que permitan validarlos, como lo son los razonamientos, la
reflexin o los mtodos de indagacin de cualquier especie. Este
conocimiento, entonces, se define por ser fctico puesto que parte de los
hechos, los analiza, y vuelve a ellos para corroborar las conclusiones
obtenidas. Adems, es un conocimiento que persigue la objetividad, por lo
que los saberes estn lo menos posiblemente afectados por la ideologa,
creencias o emociones de quienes lo abordan.
Otra caracterstica del conocimiento cientfico es que parte de casos
particulares a los que analiza en profundidad, para luego establecer leyes
generales, aplicables a todos los fenmenos que se le asemejen. Tambin es
un conocimiento acumulativo, puesto que se vale de saberes previos para ir
avanzando e incrementando los nuevos conocimientos. Esto tambin hace
que sea un conocimiento progresivo, ya que el hecho de ir avanzando en
nuevos saberes e ir confrontndolos con la realidad permite eliminar o

corregir conclusiones previas, cuando estas dejen de ser vlidas. La
racionalidad es otro rasgo esencial del conocimiento cientfico, puesto que
lo que se intenta es explicar, a partir del anlisis los fenmenos abordados,
y no simplemente describirlos. Por ltimo, el conocimiento racional tambin
es un conocimiento verificable, generalmente por medio de la experiencia.
Intuitivo
De acuerdo con el filsofo Locke, el conocimiento intuitivo es aquel que no
requiere de ninguna mediacin ni interferencia para alcanzarlo. En vez de
esto, requiere que se tengan en cuenta dos ideas y percibir de forma
inmediata si existe o no un acuerdo entre ambas, sin que surja duda alguna,
por lo que se convierte en el conocimiento ms seguro de todos.
Demostrativo
A diferencia del conocimiento anterior, el demostrativo s requiere de ideas
mediadoras a la hora de determinar si existe o no un acuerdo entre dos
ideas. De esta forma, se lo podra definir, de acuerdo a Locke, como una
serie de intuiciones que permitiran demostrar el acuerdo o no entre las
ideas a lo largo de un determinado proceso discursivo. El conocimiento
matemtico, que depende de una serie de axiomas evidentes que
interfieren, es un claro ejemplo.
Sensible
Por medio de este conocimiento, segn Locke, es que se puede tener
conocimiento de lo que se denominan existencias individuales, tal como
ocurre, por ejemplo, con el sol, y que se encuentran ms all de las ideas
que puedan tener las personas.
Artstico
Este tipo de conocimiento es el que les permite a las personas no slo tener
una representacin abstracta de los sentimientos, emociones o
pensamientos. Sino que tambin es el conocimiento que permite a las
personas comunicar dichas representaciones y no sus sensaciones puesto
que estas son incomunicables por s solas.
Formales
Estos son los conocimientos que se desarrollan sin tener como base material
alguno. En vez de esto, cuentan con estructuras lgicas en las que se
establecen relaciones lgicas compuestas por smbolos que carecen de
cualquier tipo de significado.
Materiales
A diferencia de los conocimientos formales, los materiales aluden a un
determinado fenmeno o material del cual transmiten una serie de datos e
informaciones. Estos conocimientos pueden ser de dos formas: axiomticos,
cuando estn compuestos por explicaciones de causas finales a priori como
si fueran verdaderas. Por otro lado el conocimiento descriptivo, que es aquel

que enuncia relaciones causales que se establecen entre dos o ms
conceptos.
Emprico
Este se caracteriza por ser prcticamente consecuencia de la experiencia,
por lo que los contenidos conceptuales en torno a los fenmenos abordados
son sumamente escasos, a veces como consecuencia de la dificultad de
expresarlos con conceptos. Por lo general, el conocimiento emprico es el
que se relaciona con las emociones o sentimientos que una persona puede
atravesar.
A posteriori
Este conocimiento es la consecuencia de la experiencia. Es decir que, a
partir de esta es que se formulan los razonamientos y los conceptos en
torno a un determinado fenmeno abordado.
A priori
Tambin conocido bajo el nombre de analtico, este conocimiento se
caracteriza por contener informacin lgica debido a que justamente la
relacin que se establece entre los conceptos en torno a un fenmeno es de
tipo lgica. Esto significa que es un conocimiento que se formula
independientemente de la experiencia.
CONCEPTOS DE MINERA DE DATOS

La minera de datos o exploracin de datos es un campo de las ciencias de
la computacin referido al proceso que intenta descubrir patrones en
grandes volmenes de conjuntos de datos.
Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico,
estadstica y sistemas de bases de datos. El objetivo general del proceso de
minera de datos consiste en extraer informacin de un conjunto de datos y
transformarla en una estructura comprensible para su uso posterior.
Adems de la etapa de anlisis en bruto, que involucra aspectos de bases
de datos y de gestin de datos, de procesamiento de datos, del modelo y de
las consideraciones de inferencia, de mtricas de Intereses, de
consideraciones de la Teora de la complejidad computacional, de postprocesamiento de las estructuras descubiertas, de la visualizacin y de la
actualizacin en lnea.
El trmino es una palabra de moda, y es frecuentemente mal utilizado para
referirse a cualquier forma de datos a gran escala o procesamiento de la
informacin (recoleccin, extraccin, almacenamiento, anlisis y
estadsticas), pero tambin se ha generalizado a cualquier tipo de sistema
de apoyo informtico decisin, incluyendo la inteligencia artificial,
aprendizaje automtico y la inteligencia empresarial. En el uso de la
palabra, el trmino clave es el descubrimiento, comnmente se define como
"la deteccin de algo nuevo". Incluso el popular libro "La minera de datos:
sistema de prcticas herramientas de aprendizaje y tcnicas con Java" (que
cubre todo el material de aprendizaje automtico) originalmente iba a ser

llamado simplemente "la mquina de aprendizaje prctico", y el trmino
"minera de datos" se aadi por razones de marketing. A menudo, los
trminos ms generales "(gran escala) el anlisis de datos", o "anlisis" -. o
cuando se refiere a los mtodos actuales, la inteligencia artificial y
aprendizaje automtico, son ms apropiados.
Los trminos relacionados con la obtencin de datos, la pesca de datos y
espionaje de los datos se refieren a la utilizacin de mtodos de minera de
datos a las partes de la muestra de un conjunto de datos de poblacin ms
grandes establecidas que son (o pueden ser) demasiado pequeas para las
inferencias estadsticas fiables que se hizo acerca de la validez de cualquier
patrn descubierto. Estos mtodos pueden, sin embargo, ser utilizados en la
creacin de nuevas hiptesis que se prueban contra poblaciones de datos
ms grandes.
Normalmente, estos patrones no se pueden detectar mediante la
exploracin tradicional de los datos porque las relaciones son demasiado
complejas o porque hay demasiado datos..
Estos patrones y tendencias se pueden recopilar y definir como un modelo
de minera de datos.Los modelos de minera de datos se pueden aplicar en
escenarios como los siguientes:
Previsin: calcular las ventas y predecir las cargas de servidor o el

tiempo de inactividad del servidor.
Riesgo y probabilidad: elegir los mejores clientes para la distribucin

de correo directo, determinar el punto de equilibrio probable para los
escenarios de riesgo, y asignat probabilidades a diagnsticos u otros
resultados.
Recomendaciones: determinar los productos que se pueden vender

juntos y generar recomendaciones.
Buscar secuencias: analizar los artculos que los clientes han

introducido en el carrito de compra y predecir los posibles eventos.
Agrupacin: separar los clientes o los eventos en clsteres de

elementos relacionados, y analizar y predecir afinidades
Caractersticas
Explorar los datos se encuentran en las profundidades de las bases de

datos, como los almacenes de datos, que algunas veces contienen
informacin almacenada durante varios aos.
En algunos casos, los datos se consolidan en un almacn de datos y

en mercados de datos; en otros, se mantienen en servidores de Internet e
Intranet. El entorno de la minera de datos suele tener una arquitectura
cliente/servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral

de la informacin enterrado en archivos corporativos o en registros pblicos,
archivados

El minero es, muchas veces un usuario final con poca o ninguna
habilidad de programacin, facultado por barrenadoras de datos y otras
poderosas herramientas indagatorias para efectuar preguntas adhoc y
obtener rpidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados

valiosos e inesperados.
Las herramientas de la minera de datos se combinan fcilmente y

pueden analizarse y procesarse rpidamente.
Debido a la gran cantidad de datos, algunas veces resulta necesario

usar procesamiento en paralelo para la minera de datos.
2 .- PROCESO DE MIENERA DE DATOS

Determinacin de los objetivos:
Trata de la delimitacin de los objetivos que el cliente desea bajo la
orientacin del especialista en minera de datos.
2.1. Pre procesamiento de los datos.
Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la
transformacin de las bases de datos. Esta etapa consume generalmente
alrededor del setenta por ciento del tiempo total de un proyecto de minera
de datos.
2.3 Diseo del modelo.
Se comienza realizando unos anlisis estadsticos de los datos, y despus se
lleva a cabo una visualizacin grfica de los mismos para tener una primera
aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a
cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la
Inteligencia Artificial.
2.4. Anlisis y determinacin de los Resultados.
Verifica si los resultados obtenidos son coherentes y los coteja con los
obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente
determina si son novedosos y si le aportan un nuevo conocimiento que le
permita considerar sus decisiones.
Etapas
1.- Seleccin del conjunto de datos, tanto en lo que se refiere a
las variables objetivo (aquellas que se quiere predecir, calcular o
inferir), como a las variables independientes (las que sirven para
hacer el clculo o proceso), como posiblemente al muestreo de
los registros disponibles.
2. Transformacin o pre procesamiento: en ste paso, se
normalizan los datos a una misma escala. Tambin se decide cmo se
van a tratar datos faltantes, atpicos o dudosos. Una posibilidad es
tratarlos como un tipo de dato especial o bien se decide descartarlos.
3. Seleccin y aplicacin de tcnicas de minera de datos: se
construye un modelo, el cual ser utilizado sobre los datos para
predecir las clases mediante clasificacin o para descubrir grupos
similares mediante segmentacin.
Tcnicas predictivas : Enfocada a la modelizacin , se especifica un
modelo basado en un conocimiento terico previo , se puede incluir
anlisis de varianza, rboles de decision etc.
Tcnicas descriptiva : No existe un modelo previo, los modelos se
crean automticamente partiendo de patrones.
4. Extraccin de conocimiento: una vez aplicado el paso anterior,
se buscan patrones de comportamiento en los valores de las variables
del problema o relaciones de asociacin entre dichas variables.
5. Interpretacin y evaluacin de datos: el modelo debe ser
validado comprobando que las conclusiones arrojadas son vlidas y
satisfactorias. Si el modelo final no supera sta evaluacin, el proceso
puede repetirse desde el principio o a partir de cualquiera de los
pasos anteriores.
************
4. Tcnicas de DataMining:
Las tcnicas utilizadas para la Minera de Datos son bsicamente los
algoritmos para el anlisis de datos; asociaciadas a redes neuronales,
arboles de decisin, regresin lineal, regresin logstica, modelos
estadsticos y redes bayesianas.
4.1
Algoritmo de Asociacin:
Los modelos de asociacin se generan basndose en conjuntos de datos que

contienen identificadores para casos individuales y para los elementos que
contienen los casos. Un grupo de elementos de un caso se denomina un

conjunto de elementos. Un modelo de asociacin se compone de una serie
de conjuntos de elementos y de las reglas que describen cmo estos
elementos se agrupan dentro de los casos. Las reglas que el algoritmo
identifica pueden utilizarse para predecir las probables compras de un
cliente en el futuro, basndose en los elementos existentes en la cesta de
compra actual del cliente. El siguiente diagrama muestra una serie de reglas
en un conjunto de elementos.
Como muestra el diagrama, el algoritmo de asociacin puede encontrar

potencialmente muchas reglas dentro de un conjunto de datos. El algoritmo
usa dos parmetros, soporte y probabilidad, para describir los conjuntos de
elementos y las reglas que genera. Por ejemplo, si X e Y representan dos
elementos que podran estar en un carro de la compra, el parmetro de
soporte es el nmero de casos en el conjunto de datos que contienen la
combinacin de elementos, X e Y. Utilizando el parmetro de soporte en
combinacin con los parmetros definidos por el
usuario, MINIMUM_SUPPORT y MAXIMUM_SUPPORT, el algoritmo controla el
nmero de conjuntos de elementos que se generan. El parmetro de
probabilidad, tambin denominado confianza, representa la fraccin de
casos en el conjunto de datos que contienen X y que tambin contienen Y.
Utilizando el parmetro de probabilidad en combinacin con el
parmetro MINIMUM_PROBABILITY, el algoritmo controla el nmero de reglas
que se generan.
Ejemplo
La empresa Adventure Works Cycle est rediseando la funcionalidad de su
sitio web.El objetivo del nuevo diseo es incrementar la venta directa de sus
productos. Debido a que la empresa registra cada venta en una base de
datos transaccional, se puede utilizar el algoritmo de asociacin para
identificar los conjuntos de productos que suelen adquirirse juntos. As, se
pueden predecir los elementos adicionales en los que un cliente puede estar
interesado basndose en los elementos que ya se encuentran en su cesta
de la compra.
Cmo funciona el algoritmo
El algoritmo de asociacin recorre un conjunto de datos para hallar
elementos que aparezcan juntos en un caso. A continuacin, agrupa en
conjuntos de elementos todos los elementos asociados que aparecen, como
mnimo, en el nmero de casos especificado en el
parmetro MINIMUM_SUPPORT. Por ejemplo, un conjunto de elementos
puede ser "Mountain 200=Existing, Sport 100=Existing" y tener un soporte
de 710.El algoritmo generar reglas a partir de los conjuntos de elementos.
Estas reglas se usan para predecir la presencia de un elemento en la base
de datos, basndose en la presencia de otros elementos especficos que el
algoritmo ha identificado como importantes. Por ejemplo, una regla puede

ser "if Touring 1000=existing and Road bottle cage=existing, then Water
bottle=existing", y puede tener una probabilidad de 0.812.En este ejemplo,
el algoritmo identifica que la presencia en la cesta del neumtico Touring
1000 y del soporte de la botella de agua predice que probablemente la
cesta de compra incluir tambin una botella de agua.
4.2 Algoritmo de Clsteres:
El algoritmo utiliza tcnicas iterativas para agrupar los casos de un conjunto
de datos dentro de clsteres que contienen caractersticas similares. Estas
agrupaciones son tiles para la exploracin de datos, la identificacin de
anomalas en los datos y la creacin de predicciones.
Los modelos de agrupacin en clsteres identifican las relaciones en un
conjunto de datos que no se podran derivar lgicamente a travs de la
observacin casual. Por ejemplo, puede discernir lgicamente que las
personas que se desplazan a sus trabajos en bicicleta no viven, por lo
general, a gran distancia de sus centros de trabajo.Sin embargo, el
algoritmo puede encontrar otras caractersticas que no son evidentes
acerca de los trabajadores que se desplazan en bicicleta.En el siguiente
diagrama, el clster A representa los datos sobre las personas que suelen
conducir hasta el trabajo, en tanto que el clster B representa los datos
sobre las personas que van hasta all en bicicleta.
El algoritmo de clsteres se diferencia de otros algoritmos de minera de

datos, como el algoritmo de rboles de decisin, en que no se tiene que
designar una columna de prediccin para generar un modelo de agrupacin
en clsteres.El algoritmo de clsteres entrena el modelo de forma estricta a
partir de las relaciones que existen en los datos y de los clsteres que
identifica el algoritmo.
Ejemplo
Considere un grupo de personas que comparten informacin demogrfica
similar y que adquieren productos similares de la empresa Adventure
Works.Este grupo de personas representa un clster de datos. En una base
de datos pueden existir varios clsteres como stos. Mediante la
observacin de las columnas que forman un clster, puede ver con mayor
claridad la forma en que los registros de un conjunto de datos se relacionan
entre s.
El algoritmo de clsteres identifica primero las relaciones de un conjunto de
datos y genera una serie de clsteres basndose en ellas. Un grfico de
dispersin es una forma til de representar visualmente el modo en que el

algoritmo agrupa los datos, tal como se muestra en el siguiente diagrama.
El grfico de dispersin representa todos los casos del conjunto de datos;
cada caso es un punto del grfico. Los clsteres agrupan los puntos del
grfico e ilustran las relaciones que identifica el algoritmo.
Despus de definir los clsteres, el algoritmo
calcula el grado de perfeccin con que los
clsteres representan las agrupaciones de
puntos y, a continuacin, intenta volver a
definir las agrupaciones para crear clsteres
que representen mejor los datos. El algoritmo
establece una iteracin en este proceso hasta que ya no es posible mejorar
los resultados mediante la redefinicin de los clsteres.
Puede personalizar el funcionamiento del algoritmo seleccionando una
tcnica de agrupacin en clsteres, limitando el nmero mximo de
clsteres o cambiando la cantidad de soporte que se requiere para crear un
clster.
4.3
Algoritmo de rbol de Decisin:
Es un algoritmo de clasificacin y regresin para el modelado de prediccin

de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basndose en las
relaciones entre las columnas de entrada de un conjunto de datos.Utiliza los
valores, conocidos como estados, de estas columnas para predecir los
estados de una columna que se designa como elemento de
prediccin.Especficamente, el algoritmo identifica las columnas de entrada
que se correlacionan con la columna de prediccin.Por ejemplo, en un
escenario para predecir qu clientes van a adquirir probablemente una
bicicleta, si nueve de diez clientes jvenes compran una bicicleta, pero solo
lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la
edad es un buen elemento de prediccin en la compra de bicicletas.El rbol
de decisin realiza predicciones basndose en la tendencia hacia un
resultado concreto.
Para los atributos continuos, el algoritmo usa la regresin lineal para
determinar dnde se divide un rbol de decisin.
Si se define ms de una columna como elemento de prediccin, o si los
datos de entrada contienen una tabla anidada que se haya establecido
como elemento de prediccin, el algoritmo genera un rbol de decisin
independiente para cada columna de prediccin.
Ejemplo
El departamento de marketing de la empresa Adventure Works Cycles desea
identificar las caractersticas de los clientes antiguos que podran indicar si
es probable que realicen alguna compra en el futuro. La base de datos
AdventureWorks2012 almacena informacin demogrfica que describe a los
clientes antiguos. Mediante el algoritmo de rboles de decisin que analiza
esta informacin, el departamento puede generar un modelo que predice si
un determinado cliente va a comprar productos, basndose en el estado de
las columnas conocidas sobre ese cliente, como la demografa o los

patrones de compra anteriores.
El algoritmo de rboles de decisin genera un modelo de minera de datos
mediante la creacin de una serie de divisiones en el rbol. Estas divisiones
se representan como nodos. El algoritmo agrega un nodo al modelo cada
vez que una columna de entrada tiene una correlacin significativa con la
columna de prediccin. La forma en que el algoritmo determina una divisin
vara en funcin de si predice una columna continua o una columna
discreta.
El algoritmo de rboles de decisin utiliza la seleccin de
caractersticas para guiar la seleccin de los atributos ms tiles. Todos los
algoritmos de minera de datos de Analysis Services utilizan la seleccin de
caractersticas para mejorar el rendimiento y la calidad del anlisis. La
seleccin de caractersticas es importante para evitar que los atributos
irrelevantes utilicen tiempo de procesador. Si utiliza demasiados atributos
de prediccin o de entrada al disear un modelo de minera de datos, el
modelo puede tardar mucho tiempo en procesarse o incluso quedarse sin
memoria. Entre los mtodos que se usan para determinar si hay que dividir
el rbol figuran mtricas estndar del sector para la entropa y las redes
Bayesianas. Para obtener ms informacin sobre los mtodos que se usan
para seleccionar los atributos significativos y, a continuacin, puntuarlos y
clasificarlos, vea Seleccin de caractersticas (minera de datos).
Un problema comn de los modelos de minera de datos es que el modelo
se vuelve demasiado sensible a las diferencias pequeas en los datos de
entrenamiento, en cuyo caso se dice que est sobre ajustado o sobre
entrenado. Un modelo sobre ajustado no se puede generalizar a otros
conjuntos de datos. Para evitar sobre ajustar un conjunto de datos
determinado, el algoritmo de rboles de decisin utiliza tcnicas para
controlar el crecimiento del rbol.
Predecir columnas discretas
La forma en que el algoritmo de rboles de decisin genera un rbol para
una columna de prediccin discreta puede mostrarse mediante un
histograma. El siguiente diagrama muestra un histograma que traza una
columna de prediccin, Bike Buyers, segn una columna de entrada, Age. El
histograma muestra que la edad de una persona ayuda a distinguir si esa
persona comprar una bicicleta.
La correlacin que aparece en el diagrama har que el algoritmo de rboles

de decisin cree un nuevo nodo en el modelo.
A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una

estructura en rbol. El nodo superior del rbol describe el desglose de la
columna de prediccin para la poblacin global de clientes. A medida que el
modelo crece, el algoritmo considera todas las columnas.
Predecir columnas continuas
Cuando el algoritmo de rboles de decisin genera un rbol basndose en
una columna de prediccin continua, cada nodo contiene una frmula de
regresin. Se produce una divisin en un punto de no linealidad de la
frmula de regresin. Por ejemplo, considere el siguiente diagrama.
El diagrama contiene los datos que pueden modelarse utilizando una sola
lnea o dos lneas conectadas.Sin embargo, una sola lnea realizar un pobre
trabajo en la representacin de los datos.En su lugar, si se usan dos lneas,
el modelo har un mejor trabajo en la aproximacin a los datos.El punto
donde las dos lneas se unen es el punto de no linealidad y donde se
dividira un nodo de un modelo de rbol de decisin.Por ejemplo, el nodo

que corresponde al punto de no linealidad del grfico anterior podra
representarse mediante el siguiente diagrama.Las dos ecuaciones
representan las ecuaciones de regresin de las dos lneas.
4.4
Algoritmo de Red Neuronal
El algoritmo de red neuronal combina cada posible estado del atributo de

entrada con cada posible estado del atributo de prediccin, y usa los datos
de entrenamiento para calcular las probabilidades. Posteriormente, puede
usar estas probabilidades para la clasificacin o la regresin, as como para
predecir un resultado del atributo de prediccin basndose en los atributos
de entrada.
Los modelos de minera de datos construidos con el algoritmo de red
neuronal pueden contener varias redes, en funcin del nmero de columnas
que se utilizan para la entrada y la prediccin, o solo para la prediccin. El
nmero de redes que contiene un nico modelo de minera de datos
depende del nmero de estados que contienen las columnas de entrada y
las columnas de prediccin que utiliza el modelo.
Ejemplo
El algoritmo de red neuronal es til para analizar datos de entrada
complejos, como los datos de un proceso comercial o de produccin, o
problemas empresariales para los que hay una cantidad importante de
datos de entrenamiento disponibles pero en los que no es fcil derivar
reglas mediante otros algoritmos.
Los casos sugeridos para utilizar el algoritmo de red neuronal son:
Anlisis de comercializacin y promocin, como medir el xito de una
promocin por correo directo o una campaa publicitaria en la radio.
Predecir los movimientos de las acciones, la fluctuacin de la moneda
u otra informacin financiera con gran nmero de cambios a partir de
los datos histricos.
Analizar los procesos industriales y de produccin.
Minera de texto.
Cualquier modelo de prediccin que analice relaciones complejas

entre muchas entradas y relativamente pocas salidas.
El algoritmo de red neuronal crea una red formada por hasta tres niveles de
neuronas. Estas capas son una capa de entrada, una capa oculta opcional y
una capa de salida.
Nivel de entrada: las neuronas de entrada definen todos los valores de
atributos de entrada para el modelo de minera de datos, as como sus
probabilidades.
Nivel oculto: las neuronas ocultas reciben entradas de las neuronas de
entrada y proporcionan salidas a las neuronas de salida. El nivel oculto es
donde se asignan pesos a las distintas probabilidades de las entradas. Un
peso describe la relevancia o importancia de una entrada determinada para
la neurona oculta. Cuanto mayor sea el peso asignado a una entrada, ms
importante ser el valor de dicha entrada. Los pesos pueden ser negativos,
lo que significa que la entrada puede desactivar, en lugar de activar, un
resultado concreto.
Nivel de salida: las neuronas de salida representan valores de atributo de
prediccin para el modelo de minera de datos.
4.5
Algoritmo de Bayes Nieve
El algoritmo Bayes naive es un algoritmo de clasificacin basado en los

teoremas de Bayes. La palabra nave (ingenuo en ingls) del trmino Bayes
naive proviene del hecho que el algoritmo utiliza tcnicas Bayesianas pero
no tiene en cuenta las dependencias que puedan existir.
Desde el punto de vista computacional, el algoritmo es menos complejo que
otros algoritmos y, por tanto, resulta til para generar rpidamente modelos
de minera de datos que detectan las relaciones entre las columnas de
entrada y las columnas de prediccin. Puede utilizar este algoritmo para
realizar la exploracin inicial de los datos y, ms adelante, aplicar los
resultados para crear modelos de minera de datos adicionales con otros
algoritmos ms complejos y precisos desde el punto de vista computacional.
Ejemplo
Como parte de su estrategia promocional, el departamento de
comercializacin de la empresa Adventure Works Cycles ha decidido atraer
a posibles clientes realizando un envo por correo de folletos. Para reducir
costos, desean enviar los folletos solo a los clientes de los que esperan
recibir respuesta. La empresa almacena informacin en una base de datos
sobre datos demogrficos y respuestas a envos de correo anteriores.
Desean utilizar estos datos para ver el modo en que los datos demogrficos
como la edad o la ciudad pueden ayudarles a predecir la respuesta a una
promocin, comparando los clientes potenciales con los que tienen
caractersticas similares y con los que han adquirido productos de la
empresa en el pasado. En concreto, lo que desean es ver las diferencias
entre los clientes que adquirieron una bicicleta y los que no lo hicieron.
Mediante el algoritmo Bayes naive el departamento de comercializacin
pude predecir rpidamente un resultado de un perfil de cliente concreto y,
por tanto, puede determinar qu clientes respondern a los folletos con ms
probabilidad. Con el Visor Bayes naive de SQL Server Data Tools (SSDT),
tambin pueden investigar visualmente qu columnas de entrada

especficas contribuyen a conseguir respuestas positivas a los folletos.
Funcionamiento del algoritmo
El algoritmo Bayes naive calcula la probabilidad de cada estado de cada
columna de entrada, dado cada posible estado de la columna de prediccin.
Para comprender cmo funciona, utilice el Visor Bayes naive de SQL Server
Data Tools (SSDT) (como se muestra en el siguiente grfico) para consultar
una representacin visual del modo en que el algoritmo distribuye los
estados.
Aqu, el Visor Bayes naive muestra cada columna de entrada del conjunto de
datos e indica cmo se distribuyen los estados de cada columna, dado cada
estado de la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de entrada
que son importantes para diferenciar los distintos estados de la columna de
prediccin.
Por ejemplo, en la fila Commute Distance que se muestra aqu, la
distribucin de valores de entrada es visiblemente diferente para los
compradores en comparacin con losno compradores.Esto indica que la
entrada, Commute Distance = 0-1 miles, es un factor de prediccin

potencial.
El visor tambin proporciona valores para las distribuciones, de modo que
pueda ver que para los clientes que viajan entre una y dos millas para ir a
trabajar, la probabilidad de que compren una bicicleta es de 0,387, y la
probabilidad que no la compren es de 0,287.En este ejemplo, el algoritmo
utiliza la informacin numrica, derivada de un dato de cliente (como la
distancia entre el domicilio y el lugar de trabajo), para predecir si un cliente
comprara una bicicleta.
4.6 Algoritmos Genticos:
El algoritmo gentico permite obtener soluciones a un problema que no
tiene ningn mtodo de resolucin descrito de forma precisa, o cuya
solucin exacta, si es conocida, es demasiado complicada para ser
calculada en un tiempo aceptable. Es el caso particular de cuando se
encuentran restricciones mltiples y complejas, e incluso contradictorias,
que deben ser satisfechas simultneamente como, por ejemplo, para formar
equipos de trabajo, planificar rondas de entregas, implantar puntos de venta
de manera ptima, construir modelos estadsticos.
Segn el algoritmo gentico, numerosas soluciones ms o menos correctas
inherentes a dicho problema son creadas al azar, segn una forma ya
definida: itinerario, horarios, base de reglas de decisin, evaluacin por
puntuacin, red neuronal, etc. Cada solucin ser representada a travs de
una cadena de 0 y de 1 en cromosomas que se vern entonces sometidos a
una imitacin de la evolucin de las especies: mutaciones y reproduccin
por hibridacin. Al favorecer la supervivencia de los ms aptos (las
soluciones ms correctas), se provoca la aparicin de hbridos cada vez
mejores que sus padres. La poblacin inicial da paso de esta manera a
generaciones sucesivas mutadas y procreadas por hibridacin a partir de
sus padres. Al despejar los elementos ms aptos presin de la evolucin se
garantiza que las generaciones sucesivas sern cada vez ms adaptadas a
la resolucin del problema. Este mecanismo sorprendente de clasificacin
ha sido validado matemticamente con el rigor que le corresponde.
El mecanismo de evolucin y de seleccin es independiente del problema
por resolver: slo varan la funcin que descodifica el genotipo en una
solucin posible (cualquier tipo de descodificacin tiene la posibilidad de ser
utilizado de la manera ms sencilla posible) y la funcin que evala la
justeza de la solucin (en el caso de los previsores probndolos en unas
cuantas centenas de casos). Esta tcnica es de aplicacin general. El
algoritmo gentico puede aplicarse a la produccin de una variedad de
objetos mientras sea posible obtener una calificacin que represente la
justeza de la solucin. En particular, es posible fabricar previsores
estadsticos no a travs de clculos de datos como en la estadstica clsica
sino haciendo evolucionar los datos por algoritmo gentico (induccin. Por
problemas de clasificacin o de segmentacin, la justeza significa simple y
llanamente la tasa de reordenacin del previsor con respecto a un conjunto
dado de ejemplos. El mecanismo de estimulacin de lo ms apto permite
entonces la aparicin del previsor que reordenar los datos lo mejor posible.
Este tipo de construccin de previsor forma parte de las tcnicas de
algoritmo gentico utilizadas en DM.
La tcnica del algoritmo gentico da enfoque un poco brutal que necesita un
gran poder de clculo pero que posee la inmensa ventaja de proporcionar
soluciones no muy lejos de lo ptimo incluso sin conocer mtodos de
soluciones. El algoritmo gentico no exige ningn conocimiento acerca de la

manera ms idnea de resolver el problema; slo es necesario la capacidad
de evaluar la calidad de una solucin. Tambin es muy ligero para ponerlo
en prctica (el motor es comn, no hay mucha programacin especfica que
hacer). En la resolucin de un mismo problema el enfoque algortmico es
especfico, muy rpido, mientras el algoritmo gentico se caracteriza por ser
general pero muy lento.
5. ARQUITECTURA DE DATAMINING
Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente
integradas con el data warehouse as como con herramientas flexibles e
interactivas para el anlisis de negocios. Varias herramientas de Data
Mining actualmente operan fuera del warehouse, requiriendo pasos extra
para extraer, importar y analizar los datos. Adems, cuando nuevos
conceptos requieren implementacin operacional, la integracin con el
warehouse simplifica la aplicacin de los resultados desde Data Mining. El
Data warehouse analtico resultante puede ser aplicado para mejorar
procesos de negocios en toda la organizacin, en reas tales como manejo
de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos
productos, etc.
El punto de inicio ideal es un data warehouse que contenga una
combinacin de datos de seguimiento interno de todos los clientes junto con
datos externos de mercado acerca de la actividad de los competidores.
Informacin histrica sobre potenciales clientes tambin provee una
excelente base para prospecting. Este warehouse puede ser implementado
en una variedad de sistemas de bases relacionales y debe ser optimizado
para un acceso a los datos flexible y rpido.
Un server multidimensional OLAP permite que un modelo de negocios ms
sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las
estructuras multidimensionales permiten que el usuario analice los datos de
acuerdo a como quiera mirar el negocio - resumido por lnea de producto, u
otras perspectivas claves para su negocio. El server de Data Mining debe
estar integrado con el data warehouse y el server OLAP para insertar el
anlisis de negocios directamente en esta infraestructura. Un avanzado,
metadata centrado en procesos define los objetivos del Data Mining para
resultados especficos tales como manejos de campaa, prospecting, y
optimizacin de promociones. La integracin con el data warehouse permite
que decisiones operacionales sean implementadas directamente y
monitoreadas. A medida que el data warehouse crece con nuevas
decisiones y resultados, la organizacin puede "minar" las mejores prcticas
y aplicarlas en futuras decisiones.
Este diseo representa una transferencia fundamental desde los sistemas
de soporte de decisin convencionales. Ms que simplemente proveer datos
a los usuarios finales a travs de software de consultas y reportes, el server
de Anlisis Avanzado aplica los modelos de negocios del usuario
directamente al warehouse y devuelve un anlisis proactivo de la
informacin ms relevante. Estos resultados mejoran los metadatos en el
server OLAP proveyendo una estrato de metadatos que representa una vista
fraccionada de los datos. Generadores de reportes, visualizadores y otras
herramientas de anlisis pueden ser aplicadas para planificar
futuras acciones y confirmar el impacto de esos planes.
6. HERRAMIENTAS DE SOFTWARE EN MINERA DE DATOS

Existen muchas herramientas de software para el desarrollo de modelos de
minera de datos, por ejemplo:
XLMiner
XLMiner Es un complemento para Excel, con
funcionamiento mediante macros, que permite
muchos tipos de anlisis tanto para datos de
tipo corte transversal, como secuencias
temporales.
Entre las principales caractersticas de XLMiner se encuentran:
Manejo de bases de datos, con imputacin de datos faltantes.

Realizacin de predicciones.
Modelos ARIMA, Holt winters, Polinomiales.
Arboles de decisin, anlisis clster.
Facilidad para la entrega de informes.
Redes neuronales.
A favor de este programa se puede decir que:
Posee un buen manual que se encuentra dentro de la seccin ayuda,

que describe los distintos mtodos y parmetros.
Presenta opciones de configuracin y trabajo (interface) amigables

para cada mtodo.
Los formatos de presentacin de resultados como grficos tablas e
indicadores de cambios son muy ordenados y tienen buen formato.
Existen muchos videos tutoriales para los distintos mtodos que
indican paso a paso qu se necesita hacer.
En contra de este programa tenemos que:

XLMiner es accesible como herramienta de prueba por un periodo limitado
de 30 das.
Se debe pagar por tener acceso a la versin que no limita el tamao de la
base de datos.
No posee indicadores de errores claros. Como XLMiner trabaja en base a
macros de Excel, al parametrizar alguna operacin con datos inadecuados,
la operacin se interrumpe, siendo imposible de recuperar lo ltimo
realizado.
Finalmente el programa puede descargarse desde la web del creador
http://www.solver.com/xlminer/,
tras rellenar el formulario para la versin
prueba que se encuentra al final de la pgina.
Matlab
MATLAB (abreviatura de MATrix LABoratory) es un
entorno de computacin y desarrollo de aplicaciones
totalmente integrado orientado para llevar a cabo
proyectos en donde se encuentren implicados
elevados clculos matemticos y la visualizacin
grfica de los mismos.
Este programa dispone tambin de un amplio abanico de programas de

apoyo
especializado,
denominados
Toolboxes,
que
extienden
significativamente el nmero de funciones incorporadas en el programa
principal. Estos Toolboxes cubren en la actualidad prcticamente casi todas
las reas principales en el mundo de la ingeniera y la simulacin.
MATLAB tambin se provee de un lenguaje de programacin propio, similar
al de otros lenguajes como Fortran o C. A travs de este lenguaje, el usuario
puede realizar cualquier tipo de regresin disponible o bien crear un proceso

de validacin cruzada a medida.
En relacin a este trabajo destacaremos las siguientes Toolboxes:
Statistics Toolbox: Combina algoritmos estadsticos con interfaces

grficas interactivas.
Nnet: Herramientas para el procesado de redes neuronales. Se
subdivide principalmente en:
nnet\nnet Neural Network Toolbox: La Neural Network Toolbox es
un paquete de Matlab que contiene una serie de funciones para crear
y trabajar con redes neurolales artificiales. As pues, proporciona las
herramientas para el diseo, la puesta en prctica, la visualizacin, y
la simulacin de redes neuronales.
Las redes neuronales son
herramientas de gran alcance en situaciones donde sera difcil o
imposible el anlisis formal, por ejemplo el reconocimiento de
patrones y la identificacin y el control no lineales del sistema. La
Neuronal Network Toolbox tambin proporciona una interfaz grfica
que permite disear y manejar las redes que el usuario desee. El
diseo modular, abierto, y extensible de la Neuronal Network Toolbox
simplifica la creacin de funciones y de redes. En resumen, como
principales caractersticas presenta:
Interfaz grfica (GUI) para crear, entrenar, y simular a sus
redes neuronales, as como ayuda al usuario de las
arquitecturas de redes supervisadas y no supervisadas ms
comunes.
Un sistema sencillo para realizar el entrenamiento y creacin
de funciones de aprendizaje.
Representacin modular de la red, permitiendo un nmero
ilimitado de la entrada que fija capas, e interconexiones de la
red, as como funciones para mejorar el entrenamiento,
funcionamiento y visualizacin de la misma.
nnet\nncontrol Neural Network Toolbox Control System Functions:
Provee un conjunto de funciones para medir y controlar el sistema de
redes neuronales construido.
nnet\nndemos Neural Network
muestras de redes neuronales.
Demonstrations:
Conjunto
de
Finalmente, se trata de un programa comercial por lo que para su uso se ha

de pagar una licencia. Para obtener ms informacin sobre MATLAB se
puede
acceder
a
la
pgina
oficial
de
esta
herramienta:
http://www.mathworks.es/products/matlab/
IBM SPSS Modeler
Se trata de un producto de la empresa IBM SPSS

que permite, mediante una interfaz grfica, aplicar
tcnicas de minera de datos para descubrir
patrones y tendencias en datos estructurados o no
estructurados.
IBM SPSS es una empresa reconocida como lder en
anlisis predictivo. Sus aplicaciones tienen una buena visibilidad y fuerza de
ventas en el mercado y es considerada por algunos expertos como uno de
los mejores proveedores de software de minera de datos.
Con IBM SPSS Modeler se puede visualizar grficamente el proceso llevado a
cabo, as como crear nuevas funciones que se aaden a las ya
implementadas. Adems se provee de una serie de mdulos que permiten
realizar un anlisis de minera de datos con grandes volmenes de datos.
En lo referido a tcnicas de minera de datos, esta herramienta proporciona

diferentes mtodos segn el proceso que vayamos a realizar; algunas de
ellas son:
Segmentacin: Kmedias, Kohonen, Bietpico, Anomala.
Asociacin: A priori, GRI, CARMA y Anlisis de Secuencia.
Clasificacin: Factorial, Discriminante, Red Neuronal, C5.0, GLM, Mquinas
de Vectores de Soporte, Redes Bayesianas, Modelos de auto aprendizaje,
Vecino ms prximo, rboles, Listas de Decisin, Seleccin de
caractersticas, etc.
Prediccin: Regresin Lineal, Series Temporales, Regresin de Cox,
Regresin Logstica.
Automticos: Auto numrico,
Modelizador ARIMA automtico.
Auto
clasificador,
Auto
Agrupacin,
Finalmente y al igual que en los programas anteriores se trata de un

programa comercial y se ha de pagar una licencia para su uso. Para obtener
ms informacin sobre IBM SPSS Modeler se puede consultar la web del
fabricante:
http://www01.ibm.com/software/analytics/spss/products/modeler/
SAS Enterprise Miner

SAS Enterprise Miner agiliza el proceso de minera de datos para crear
modelos predictivos y descriptivos de alta precisin para grandes
volmenes de datos. Ofrece una sencilla interfaz grfica que integra el
conjunto de herramientas necesario

para la toma de decisiones.
La solucin Enterprise Miner se
basa en la metodologa SEMMA (Sample, Explore, Modify, Model, Assess)
desarrollada por SAS Institute y puede definirse de la siguiente forma:
Muestra (Sample): Consiste en identificar los datos.

Explora (Explore): Su funcin se traduce en explorar los conjuntos
de datos para observar huellas inesperadas, relaciones, patrones, u
observaciones inusuales, con nodos para representar los datos,
generar una amplia variedad de anlisis, identificar las variables
importantes, o realizar anlisis de asociacin.
Modificar (Modify): Consiste en preparar los datos para el anlisis. Los
nodos pueden crear variables adicionales o transformar las variables
existentes para el anlisis mediante la modificacin o la
transformacin de la forma en la que las variables se utilizan en el
anlisis, filtrar los datos, sustituir los valores perdidos, condensar y
contraer los datos en preparacin para el modelado de series, o
realizar anlisis de conglomerados.
Modelo (Model): Donde se adapta el modelo estadstico. Los nodos
predicen la variable objetivo en funcin de las variables de entrada
mediante el uso de cualquier mtodo: mnimos cuadrados o regresin
logstica, rboles de decisin, redes neuronales, redes dmneural,
definido por el usuario, conjunto, vecino ms cercano, o el modelado
de dos etapas.
Evaluar (Asses): Donde es posible comparar la exactitud entre los
modelos estadsticos, con nodos para comparar el desempeo de los
diversos modelos de clasificacin mediante la visualizacin de las
estimaciones de probabilidad en competencia de los grficos de
elevacin, grficos ROC y tablas de umbral. Para diseos de
modelado predictivo, el rendimiento de cada modelo y los supuestos
del modelo pueden ser verificados a partir de las parcelas de
prediccin y grficos de diagnstico.
Entre las principales caractersticas de esta herramienta destacan:
El acceso a los datos, la gestin y la limpieza se integran a la

perfeccin, por lo que es ms fcil de preparar los datos para el
anlisis.
Alta integracin con otras bases de datos debido a la gran
experiencia de la empresa para operar con grandes volmenes de
datos.
Proporciona slidas herramientas de modificacin y seleccin de los
datos lo que redundar en una mejora de su calidad, en un mejor
modelado y en resultados ms fiables.
Un entorno dinmico e interactivo que est optimizado para visualizar
los datos y comprender sus relaciones.
Ofrece uno de los conjuntos ms completos de algoritmos avanzados
de modelado predictivo y descriptivo, incluyendo rboles de decisin,
splines de regresin, redes neuronales, regresin lineal y logstica,
regresin por mnimos cuadrados parciales, y muchos ms. Tambin
se incluyen modelos especficos de la industria tales como la

puntuacin de crdito y ratemaking para el seguro.
En resumen, se trata de una de las herramientas con ms potencia del
mercado desde el punto de vista de trabajar con grandes bases de datos;
sin embargo, contrasta con el alto precio que se ha de pagar por su licencia.
Para obtener ms informacin de esta herramienta se puede acceder a

travs
del
siguiente
enlace:
http://www.sas.com/technologies/analytics/datamining/miner/
Salford Systems Data Mining

Salford
Systems
es
una
empresa
especializada, entre otras tareas, en la
elaboracin de software de minera de
datos y consultora. A este respecto ofrece
los siguientes productos:
Software CART: ofrece una clasificacin multiplataforma robusta, con

una amplia variedad de anlisis de alta precisin de minera de datos.
Es la nica herramienta basada en rboles de decisin segn la
metodologa desarrollada por la Universidad de Stanford y la
Universidad de Berkeley en California.
TreeNet: Basada en rboles de decisiones impulsadas. TreeNet es un
sistema de aproximacin de funciones y que tambin sirve como
herramienta de exploracin inicial de los datos.
RandomForests: Ofrece modelos predictivos de alto rendimiento e
incorpora nuevos anlisis de clster de mtrica libre.
SPM Salford Predictive Modeler: Cuenta con caractersticas
adicionales orientadas a mejorar los modelos predictivos.
Para utilizar cada uno

correspondiente licencia.
de
estos
programas
se
ha
de
pagar
su
Finalmente para obtener informacin sobre cada uno de ellos se puede

consultar la web de Salford Systems a travs del enlace: http://www.salford
systems.com/
Oracle Data Mining
Oracle Data Mining (ODM) es una herramienta

software desarrollada por la empresa Oracle
aplicar tcnicas de minera de datos a grandes
volmenes de datos.
de
para
A travs de esta herramienta se realizar el

proceso de importacin de los datos, su
preparacin, as como el desarrollo y despliegue del modelo.
La herramienta ODM est basada en un esquema de flujo de trabajo, similar
a otras herramientas de minera de datos, siendo una extensin del
SQLDeveloper, permitiendo analizar los datos, explorar los datos, construir y
evaluar modelos y aplicar estos modelos a nuevos datos, as como
compartir estos modelos en aplicaciones en lnea entregando resultados en
tiempo real. La herramienta integra todas las etapas del proceso de la
minera de datos y permite integrar los modelos en otras aplicaciones con
objetivos similares.
ODM funciona dentro de la base de datos de Oracle, as que no hay
necesidad de exportar los archivos a un paquete de software estadstico
fuera de la base de datos, lo que reduce los costos y mejora la eficiencia.
Con un lenguaje de procedimiento integrado/ lenguaje de consulta
estructurado (PL / SQL) e interfaces de Java de programacin de
aplicaciones (API), Oracle DM permite a los usuarios construir modelos.
ODM ofrece dos versiones, una en la que a travs de una interfaz grfica los
usuarios podrn aplicar las tcnicas de mineras de datos que consideren
necesarias y una versin en la que los desarrolladores podrn utilizar la API
de SQP para crear aplicaciones a medida. Imagen 5: Ventana principal de
Oracle Data Miner
Se trata de la herramienta ms potente para trabajar con bases de datos de
Oracle, si bien habr que pagar una licencia por su uso. Para obtener ms
informacin sobre la herramienta se puede consultar su seccin dentro de la
web
de
Oracle
a
travs
del
siguiente
enlace:
http://www.oracle.com/products/database/options/advanced
analytics/index.html
Rapid Miner
Esta herramienta forma parte del proyecto Rapidi.
Este proyecto naci en 2006 como SpinOff de la
Universidad de Dortmund, donde se inaugur la
primera versin del software en 2001.
Rapidi cuenta con dos componentes:
RapidMiner: Versin standalone para analistas. Implementa todos los
operadores de data mining, modelos predictivos, modelos descriptivos,
transformacin de datos, series de tiempo, etc.
RapidAnalytics: Versin Servidor de RapidMiner. Permite trabajo

colaborativo, escalable y concurrente de mltiples usuarios, capacidad de
delegar en bases de datos (InDatabase Mining) y otras mejoras de
funcionalidad como: plataforma Web de publicacin de informes,
implementacin de sistemas de scoring, diseo y navegacin Web de
informes, Singlesign on e integracin va Servicios Web, entre otras.
RapidMiner permite el desarrollo de procesos de anlisis de datos mediante
el encadenamiento de operadores a travs de un entorno grfico.
Entre las caractersticas principales de RapidMiner destacamos que:
Est desarrollado en Java.
Es multiplataforma.
Representacin interna de los procesos de anlisis de datos en ficheros
XML.
Permite a los experimentos componerse de un gran nmero de operadores
anidables arbitrariamente, que se detallan en archivos XML.
Permite el desarrollo de programas a travs de un lenguaje de script.
Puede usarse de diversas maneras:
1. A travs de un GUI. En lnea de comandos.
2. En batch (lotes)
3. Desde otros programas, a travs de llamadas a sus bibliotecas.
Extensible.
Incluye grficos y herramientas de visualizacin de datos.
Dispone de un mdulo de integracin con R.
Software de cdigo abierto.
Adems, esta aplicacin ofrece ms de 500 operadores para todos los
principales procedimientos de mquina de aprendizaje, y tambin combina
esquemas de aprendizaje y evaluadores de atributos del entorno de
aprendizaje Weka.
Finalmente, al tratarse de un software libre y de cdigo abierto puede ser
descargado
a
travs
del
siguiente
enlace:
http://rapid
i.com/content/view/181/190/
KNIME
KNIME (Konstanz Information Miner) es una
plataforma de cdigo abierto de fcil uso y
comprensible para integracin de datos,
procesamiento, anlisis y exploracin.
Esta herramienta fue desarrollada originalmente en el departamento de

Bioinformtica y Minera de Datos de la Universidad de Constanza,
Alemania, bajo la supervisin del profesor Michael Berthold. En la
actualidad, la empresa KNIME.com, radicada en Zrich, Suiza, contina su
desarrollo, adems de prestar servicios de formacin y consultora.
KNIME ofrece a los usuarios la capacidad de crear de forma visual flujos o
tuberas de datos, ejecutar selectivamente algunos o todos los pasos de
anlisis, y luego estudiar los resultados, modelos y vistas interactivas.
Est desarrollado sobre la plataforma Eclipse y programado, esencialmente,
en Java. Como otros entornos de este tipo, su uso se basa en el diseo de un
flujo de ejecucin que plasme las distintas etapas de un proyecto de minera
de datos.
Para ello, KNIME proporciona distintos nodos agrupados en fichas, como por
ejemplo:
a. Entrada de datos [IO > Read]
b. Salida de datos [IO > Write]
c. Preprocesamiento
[Data
Manipulation],
para
filtrar,
discretizar, normalizar, filtrar, seleccionar variables, etc.
d. Minera de datos [Mining], para construir modelos (reglas de
asociacin, clustering, clasificacin, MDS, PCA)
e. Salida de resultados [Data Views] para mostrar resultados
en pantalla (ya sea de forma textual o grfica)
Por otro lado, a travs de plugins, los usuarios pueden aadir mdulos de
texto, imgenes, procesamiento de series de tiempo y la integracin de
varios proyectos de cdigo abierto, tales como el lenguaje de programacin
R, WEKA, el kit de desarrollo de Qumica y LIBSVM.
Finalmente se trata de una herramienta multiplataforma que puede ser
descargada junto con su documentacin a travs del enlace
http://www.knime.org/
R
R es un entorno estadstico tremendamente potente y
completo. Las llamadas a R se realizan en lnea de
comando, si bien existen algunas interfaces grficas
(Rcommander, etc) que facilitan el uso de este programa.
Fue desarrollado inicialmente por el Departamento de
Estadstica de la Universidad de Auckland, Nueva
Zelanda, en 1993.
R es un lenguaje de programacin y entorno de software de cdigo abierto
para computacin y grficos estadsticos. Proporciona mltiples tcnicas
para simulacin, modelado lineal y no lineal, anlisis de series temporales,
pruebas estadsticas clsicas, clasificacin, agrupacin en clsteres, etc.
El entorno de R se caracteriza por su flexibilidad e incluye, entre otros:
Un buen gestor de datos.

Un conjunto de operadores para clculos en arrays (vectores de gran
tamao)
Un conjunto integrado de herramientas de anlisis de datos.
Funciones grficas para anlisis y visualizacin de los datos.
Un lenguaje de programacin simple que incluye condicionales,
bucles, funciones recursivas definidas por el usuario y capacidades de
entrada y salida.
En relacin al proceso de minera de datos, R posee gran cantidad de

paquetes estadsticos tiles para realizar este proceso; en especial,
destacaremos:
Rattle: que ofrece al usuario una interfaz grfica para aplicar tcnicas
de minera de datos a grandes bases de datos.
Caret: que, ms all de integrar diversos algoritmos, incluye
funciones auxiliares tiles para seleccionar modelos, comparar la
importancia de funciones, realizar validaciones cruzadas, etc.,
utilizando una sintaxis coherente y homognea.
RDataMining. El objetivo de sus promotores es incluir en l algoritmos
publicados que no tengan todava implementacin en R.
Se trata de un software libre, distribuido bajo licencia GPL, muy extendido

en la comunidad universitaria y que est llamado a cobrar un papel cada
vez ms relevante en el mundo de las aplicaciones profesionales y de la
empresa.
Tanto el programa como los paquetes estadsticos y su documentacin
asociada pueden descargarse a travs de la web del proyecto R:
http://www.rproject.org/
Orange
Se trata de una suite para minera de datos y
aprendizaje automtico, desarrollado en la Facultad de
Informtica de la Universidad de Ljubljana (Eslovenia)
Esta herramienta cuenta con un fcil y potente, rpido y
verstil frontend de programacin visual para el anlisis exploratorio de
datos y visualizacin, y librerias para Python y secuencias de comando.
Contiene un completo juego de componentes desarrollados en C++ para
preprocesamiento de datos, caractersticas de puntuacin y filtrado,
modelado, evaluacin del modelo y tcnicas de exploracin. A estos
componentes se puede acceder de dos formas:
Por medio de scripts desde Python.

Por medio de widgets (componentes GUI), desde CANVAS.
Se trata de una aplicacin multiplataforma y se distribuye bajo
licencia GPL.
Adems, orange proporciona componentes para:
Entrada/salida de datos, soportando los formatos C4.5, assistant, retis

y tab (nativo)
Preprocesamiento de datos: seleccin, discretizacin, etc.
Modelado predictivo: rboles de clasificacin, regresin logstica,
clasificador de Bayes, reglas de asociacin, etc.
Mtodos de descripcin de los datos: mapas autoorganizados, k
means clustering, etc.
Tcnicas de validacin del modelo, como la validacin cruzada.
Finalmente, si se desea descargar y conocer ms en profundidad la

herramienta es recomendable visitar la pgina web de sus creadores:
http://orange.biolab.si/.
WEKA
WEKA, acrnimo de Waikato Environment for
Knowledge Analysis, es un conjunto de libreras
JAVA para la extraccin de conocimiento desde
bases de datos. Est constituido por una serie
de paquetes de cdigo abierto con diferentes
tcnicas
de
preprocesado,
clasificacin,
agrupamiento, asociacin y visualizacin.
Se trata de un software desarrollado en la Universidad de Waikato (Nueva
Zelanda) bajo licencia GNUGPL lo cual ha impulsado que sea una de las
suites ms utilizadas en el rea en los ltimos aos. Se trata de una
herramienta de gran potencia, si bien no tiene implementados, a fecha de
hoy, algoritmos para la realizacin de un modelado de secuencias.
Tanto la aplicacin como los manuales de referencia se pueden descargar a
travs de la web del proyecto: http://www.cs.waikato.ac.nz/ml/weka/
R, LA HERRAMIENTA DE MINERA DE DATOS MS UTILIZADA?
R es la herramienta ms popular para la minera y la ciencia de datos segn

la encuesta anual realizada por KDnuggets que esta vez cont con alrededor
de 3000 votantes sobre un registro rcord de 93 herramientas diferentes.
El top 10 de las herramientas analticas preferidas por los usuarios:

1.
R, 46.9% ( 38.5% en 2014)
2.
RapidMiner, 31.5% ( 44.2% en 2014)
3.
SQL, 30.9% ( 25.3% en 2014)
4.
Python, 30.3% ( 19.5% en 2014)
5.
Excel, 22.9% ( 25.8% en 2014)
6.
KNIME, 20.0% ( 15.0% en 2014)
7.
Hadoop, 18.4% ( 12.7% en 2014)
8.
Tableau, 12.4% ( 9.1% en 2014)
9.
SAS, 11.3 (10.9% en 2014)
10.
Spark, 11.3% ( 2.6% en 2014)
Si se compara con la encuesta del 2014, Tableau y Spark son los nuevos
ingresantes a esta lista del top 10 desplazando a Weka y Microsoft SQL
Server.

Tema01 - Grupo07 - Conocimiento y Minería de Datos

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tema01 - Grupo07 - Conocimiento y Minería de Datos

Hochgeladen von

Copyright:

Verfügbare Formate

Universidad Nacional Federico Villarreal

Facultad de ingeniera industrial y de sistemas

Gestin del Conocimiento

Distintos enfoques tratan el estudio de los activos intangibles,

Tradicionalmente se ha presentado el conocimiento como algo especfico del

Hechos o informacin adquiridos por un ser vivo a travs de la

No existe una nica definicin de "Conocimiento". Sin embargo existen

El conocimiento holstico (tambin llamado intuitivo, con el riesgo de

nuevos saberes e ir confrontndolos con la realidad permite eliminar o

si fueran verdaderas. Por otro lado el conocimiento descriptivo, que es aquel

CONCEPTOS DE MINERA DE DATOS

cubre todo el material de aprendizaje automtico) originalmente iba a ser

Previsin: calcular las ventas y predecir las cargas de servidor o el

Riesgo y probabilidad: elegir los mejores clientes para la distribucin

Recomendaciones: determinar los productos que se pueden vender

Buscar secuencias: analizar los artculos que los clientes han

Agrupacin: separar los clientes o los eventos en clsteres de

Explorar los datos se encuentran en las profundidades de las bases de

En algunos casos, los datos se consolidan en un almacn de datos y

Las herramientas de la minera de datos ayudan a extraer el mineral

Hurgar y sacudir a menudo implica el descubrimiento de resultados

Las herramientas de la minera de datos se combinan fcilmente y

Debido a la gran cantidad de datos, algunas veces resulta necesario

2 .- PROCESO DE MIENERA DE DATOS

Los modelos de asociacin se generan basndose en conjuntos de datos que

contienen los casos. Un grupo de elementos de un caso se denomina un

Como muestra el diagrama, el algoritmo de asociacin puede encontrar

algoritmo ha identificado como importantes. Por ejemplo, una regla puede

El algoritmo de clsteres se diferencia de otros algoritmos de minera de

dispersin es una forma til de representar visualmente el modo en que el

Algoritmo de rbol de Decisin:

Es un algoritmo de clasificacin y regresin para el modelado de prediccin

las columnas conocidas sobre ese cliente, como la demografa o los

La correlacin que aparece en el diagrama har que el algoritmo de rboles

A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una

dividira un nodo de un modelo de rbol de decisin.Por ejemplo, el nodo

Algoritmo de Red Neuronal

El algoritmo de red neuronal combina cada posible estado del atributo de

Cualquier modelo de prediccin que analice relaciones complejas

Algoritmo de Bayes Nieve

El algoritmo Bayes naive es un algoritmo de clasificacin basado en los

tambin pueden investigar visualmente qu columnas de entrada

entrada, Commute Distance = 0-1 miles, es un factor de prediccin

soluciones. El algoritmo gentico no exige ningn conocimiento acerca de la

6. HERRAMIENTAS DE SOFTWARE EN MINERA DE DATOS

Manejo de bases de datos, con imputacin de datos faltantes.

A favor de este programa se puede decir que:

Posee un buen manual que se encuentra dentro de la seccin ayuda,

Presenta opciones de configuracin y trabajo (interface) amigables

En contra de este programa tenemos que:

Este programa dispone tambin de un amplio abanico de programas de

puede realizar cualquier tipo de regresin disponible o bien crear un proceso

Statistics Toolbox: Combina algoritmos estadsticos con interfaces

Finalmente, se trata de un programa comercial por lo que para su uso se ha

IBM SPSS Modeler

Se trata de un producto de la empresa IBM SPSS

En lo referido a tcnicas de minera de datos, esta herramienta proporciona

Finalmente y al igual que en los programas anteriores se trata de un

SAS Enterprise Miner

conjunto de herramientas necesario

Muestra (Sample): Consiste en identificar los datos.

Entre las principales caractersticas de esta herramienta destacan:

El acceso a los datos, la gestin y la limpieza se integran a la