Beruflich Dokumente
Kultur Dokumente
CONTENIDO:
INTRODUCCIN----------------------------------------------------------------------------------3
1. CONOCIMIENTO-------------------------------------------------------------------------------4
1.1. LOS TRES NIVELES DEL CONOCIMIENTO.----------------------------------------4
1.1.1. Conocimiento sensible-----------------------------------------------------------4
1.1.2. Conocimiento conceptual-------------------------------------------------------4
1.1.3. Conocimiento holstico----------------------------------------------------------5
1.2. TIPOS DE CONOCIMIENTO------------------------------------------------------------5
1.2.1. Tipos de conocimiento-----------------------------------------------------------5
2. MINERA DE DATOS------------------------------------------------------------------------11
2.1. CONCEPTOS GENERALES-----------------------------------------------------------11
2.2. FUNDAMENTOS DEL DATA MINING-----------------------------------------------11
2.3. PROCESOS DATA MINING-----------------------------------------------------------12
2.3.1. Determinacin de los objetivos.--------------------------------------------12
2.3.2. Pre procesamiento de los datos.--------------------------------------------12
2.3.3. Determinacin del modelo.---------------------------------------------------12
2.3.4. Anlisis de los Resultados.----------------------------------------------------12
2.4. CARACTERSTICAS DE LA MINERA DE DATOS--------------------------------13
2.5. VENTAJAS DE LA MINERA DE DATOS-------------------------------------------13
2.6. TCNICAS EN DATA MINING-------------------------------------------------------14
2.6.1. Algoritmo de clsteres---------------------------------------------------------14
2.6.2. Algoritmo de asociacin-------------------------------------------------------14
2.6.3. Algoritmo de rbol de decisin----------------------------------------------15
2.6.4. Algoritmo de Red Neuronal---------------------------------------------------16
2.6.5. Algoritmo Bayes Naive---------------------------------------------------------16
2.7. ESTRUCTURA DE MINERA DE DATOS-------------------------------------------17
2.8. EL ALCANCE DE DATA MINING----------------------------------------------------18
2.9. ARQUITECTURA DE MINERA DE DATOS----------------------------------------19
2.9.1 Procesamiento de objetos del modelo multidimensional.------------19
2.9.2. Conectar a analysis services-------------------------------------------------22
2.9.3. Ubicacin de almacenamiento de las bases de datos.--------------22
2.9.4. Cambiar entre los modos readonily y readwrite en una base de
datos de analysis services.------------------------------------------------------------23
2.10. HERRAMIENTAS DE SOFTWARE DEL DATA MINING------------------------24
CONCLUSIONES--------------------------------------------------------------------------------28
INTRODUCCIN
1. CONOCIMIENTO
12 .TIPOS DE CONOCIMIENTO
Vulgar
Se conoce bajo este nombre a aquel conocimiento que ha sido adquirido a
partir de lo que otras personas han transmitido, de generacin en
generacin, o bien, a partir del contacto directo que la persona establezca
con el fenmeno del que se tiene conocimiento. Entre otras cosas, el
conocimiento vulgar se caracteriza por ser superficial, ya que no se conoce
a la cuestin de manera profunda o completa. Tambin, es un conocimiento
sensitivo puesto que no persigue establecer relaciones causales entre los
distintos fenmenos que se hagan presentes. Tambin se trata de un
conocimiento subjetivo ya que se encuentra condicionado por la persona
que lo observa, es decir, depende de la percepcin que este tenga sobre los
hechos, sin ningn fundamento cientfico que lo abale o gue.
Adems, no son conocimientos que han sido comprobados o verificados
cientficamente, ni tampoco se encuentran organizados de manera
sistemtica. Por otro lado, algunos lo definen como un conocimiento
dogmtico, ya que se encuentra limitado a las creencias y explicaciones que
la persona haya elegido otorgarle. Por ltimo, el conocimiento vulgar suele
ser poco preciso, ya que las descripciones y definiciones de quien lo
formula son poco exactas.
Cientfico
Este tipo de conocimiento, en cambio, s busca establecer relaciones para
as conformar un sistema entre los distintos saberes en torno a un tema
especfico. Para ello, la persona que almacena los saberes ha recurrido a
mecanismos que permitan validarlos, como lo son los razonamientos, la
reflexin o los mtodos de indagacin de cualquier especie. Este
conocimiento, entonces, se define por ser fctico puesto que parte de los
hechos, los analiza, y vuelve a ellos para corroborar las conclusiones
obtenidas. Adems, es un conocimiento que persigue la objetividad, por lo
que los saberes estn lo menos posiblemente afectados por la ideologa,
creencias o emociones de quienes lo abordan.
Otra caracterstica del conocimiento cientfico es que parte de casos
particulares a los que analiza en profundidad, para luego establecer leyes
generales, aplicables a todos los fenmenos que se le asemejen. Tambin es
un conocimiento acumulativo, puesto que se vale de saberes previos para ir
avanzando e incrementando los nuevos conocimientos. Esto tambin hace
que sea un conocimiento progresivo, ya que el hecho de ir avanzando en
Intuitivo
De acuerdo con el filsofo Locke, el conocimiento intuitivo es aquel que no
requiere de ninguna mediacin ni interferencia para alcanzarlo. En vez de
esto, requiere que se tengan en cuenta dos ideas y percibir de forma
inmediata si existe o no un acuerdo entre ambas, sin que surja duda alguna,
por lo que se convierte en el conocimiento ms seguro de todos.
Demostrativo
A diferencia del conocimiento anterior, el demostrativo s requiere de ideas
mediadoras a la hora de determinar si existe o no un acuerdo entre dos
ideas. De esta forma, se lo podra definir, de acuerdo a Locke, como una
serie de intuiciones que permitiran demostrar el acuerdo o no entre las
ideas a lo largo de un determinado proceso discursivo. El conocimiento
matemtico, que depende de una serie de axiomas evidentes que
interfieren, es un claro ejemplo.
Sensible
Por medio de este conocimiento, segn Locke, es que se puede tener
conocimiento de lo que se denominan existencias individuales, tal como
ocurre, por ejemplo, con el sol, y que se encuentran ms all de las ideas
que puedan tener las personas.
Artstico
Este tipo de conocimiento es el que les permite a las personas no slo tener
una representacin abstracta de los sentimientos, emociones o
pensamientos. Sino que tambin es el conocimiento que permite a las
personas comunicar dichas representaciones y no sus sensaciones puesto
que estas son incomunicables por s solas.
Formales
Estos son los conocimientos que se desarrollan sin tener como base material
alguno. En vez de esto, cuentan con estructuras lgicas en las que se
establecen relaciones lgicas compuestas por smbolos que carecen de
cualquier tipo de significado.
Materiales
A diferencia de los conocimientos formales, los materiales aluden a un
determinado fenmeno o material del cual transmiten una serie de datos e
informaciones. Estos conocimientos pueden ser de dos formas: axiomticos,
cuando estn compuestos por explicaciones de causas finales a priori como
El minero es, muchas veces un usuario final con poca o ninguna
habilidad de programacin, facultado por barrenadoras de datos y otras
poderosas herramientas indagatorias para efectuar preguntas adhoc y
obtener rpidamente respuestas.
Verifica si los resultados obtenidos son coherentes y los coteja con los
obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente
determina si son novedosos y si le aportan un nuevo conocimiento que le
permita considerar sus decisiones.
Etapas
1.- Seleccin del conjunto de datos, tanto en lo que se refiere a
las variables objetivo (aquellas que se quiere predecir, calcular o
inferir), como a las variables independientes (las que sirven para
hacer el clculo o proceso), como posiblemente al muestreo de
los registros disponibles.
2. Transformacin o pre procesamiento: en ste paso, se
normalizan los datos a una misma escala. Tambin se decide cmo se
van a tratar datos faltantes, atpicos o dudosos. Una posibilidad es
tratarlos como un tipo de dato especial o bien se decide descartarlos.
3. Seleccin y aplicacin de tcnicas de minera de datos: se
construye un modelo, el cual ser utilizado sobre los datos para
predecir las clases mediante clasificacin o para descubrir grupos
similares mediante segmentacin.
Tcnicas predictivas : Enfocada a la modelizacin , se especifica un
modelo basado en un conocimiento terico previo , se puede incluir
anlisis de varianza, rboles de decision etc.
Tcnicas descriptiva : No existe un modelo previo, los modelos se
crean automticamente partiendo de patrones.
4. Extraccin de conocimiento: una vez aplicado el paso anterior,
se buscan patrones de comportamiento en los valores de las variables
del problema o relaciones de asociacin entre dichas variables.
5. Interpretacin y evaluacin de datos: el modelo debe ser
validado comprobando que las conclusiones arrojadas son vlidas y
satisfactorias. Si el modelo final no supera sta evaluacin, el proceso
puede repetirse desde el principio o a partir de cualquiera de los
pasos anteriores.
************
4. Tcnicas de DataMining:
Las tcnicas utilizadas para la Minera de Datos son bsicamente los
algoritmos para el anlisis de datos; asociaciadas a redes neuronales,
arboles de decisin, regresin lineal, regresin logstica, modelos
estadsticos y redes bayesianas.
4.1
Algoritmo de Asociacin:
El diagrama contiene los datos que pueden modelarse utilizando una sola
lnea o dos lneas conectadas.Sin embargo, una sola lnea realizar un pobre
trabajo en la representacin de los datos.En su lugar, si se usan dos lneas,
el modelo har un mejor trabajo en la aproximacin a los datos.El punto
donde las dos lneas se unen es el punto de no linealidad y donde se
4.4
Ejemplo
El algoritmo de red neuronal es til para analizar datos de entrada
complejos, como los datos de un proceso comercial o de produccin, o
problemas empresariales para los que hay una cantidad importante de
datos de entrenamiento disponibles pero en los que no es fcil derivar
reglas mediante otros algoritmos.
Los casos sugeridos para utilizar el algoritmo de red neuronal son:
Anlisis de comercializacin y promocin, como medir el xito de una
promocin por correo directo o una campaa publicitaria en la radio.
Predecir los movimientos de las acciones, la fluctuacin de la moneda
u otra informacin financiera con gran nmero de cambios a partir de
los datos histricos.
Analizar los procesos industriales y de produccin.
Minera de texto.
4.5
Aqu, el Visor Bayes naive muestra cada columna de entrada del conjunto de
datos e indica cmo se distribuyen los estados de cada columna, dado cada
estado de la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de entrada
que son importantes para diferenciar los distintos estados de la columna de
prediccin.
Por ejemplo, en la fila Commute Distance que se muestra aqu, la
distribucin de valores de entrada es visiblemente diferente para los
compradores en comparacin con losno compradores.Esto indica que la
XLMiner
XLMiner Es un complemento para Excel, con
funcionamiento mediante macros, que permite
muchos tipos de anlisis tanto para datos de
tipo corte transversal, como secuencias
temporales.
Entre las principales caractersticas de XLMiner se encuentran:
Matlab
MATLAB (abreviatura de MATrix LABoratory) es un
entorno de computacin y desarrollo de aplicaciones
totalmente integrado orientado para llevar a cabo
proyectos en donde se encuentren implicados
elevados clculos matemticos y la visualizacin
grfica de los mismos.
Demonstrations:
Conjunto
de
Auto
clasificador,
Auto
Agrupacin,
de
estos
programas
se
ha
de
pagar
su
de
para
Rapid Miner
Esta herramienta forma parte del proyecto Rapidi.
Este proyecto naci en 2006 como SpinOff de la
Universidad de Dortmund, donde se inaugur la
primera versin del software en 2001.
Rapidi cuenta con dos componentes:
RapidMiner: Versin standalone para analistas. Implementa todos los
operadores de data mining, modelos predictivos, modelos descriptivos,
transformacin de datos, series de tiempo, etc.
KNIME
KNIME (Konstanz Information Miner) es una
plataforma de cdigo abierto de fcil uso y
comprensible para integracin de datos,
procesamiento, anlisis y exploracin.
R
R es un entorno estadstico tremendamente potente y
completo. Las llamadas a R se realizan en lnea de
comando, si bien existen algunas interfaces grficas
(Rcommander, etc) que facilitan el uso de este programa.
Fue desarrollado inicialmente por el Departamento de
Estadstica de la Universidad de Auckland, Nueva
Zelanda, en 1993.
R es un lenguaje de programacin y entorno de software de cdigo abierto
para computacin y grficos estadsticos. Proporciona mltiples tcnicas
para simulacin, modelado lineal y no lineal, anlisis de series temporales,
pruebas estadsticas clsicas, clasificacin, agrupacin en clsteres, etc.
El entorno de R se caracteriza por su flexibilidad e incluye, entre otros:
Rattle: que ofrece al usuario una interfaz grfica para aplicar tcnicas
de minera de datos a grandes bases de datos.
Caret: que, ms all de integrar diversos algoritmos, incluye
funciones auxiliares tiles para seleccionar modelos, comparar la
importancia de funciones, realizar validaciones cruzadas, etc.,
utilizando una sintaxis coherente y homognea.
RDataMining. El objetivo de sus promotores es incluir en l algoritmos
publicados que no tengan todava implementacin en R.
Orange
Se trata de una suite para minera de datos y
aprendizaje automtico, desarrollado en la Facultad de
Informtica de la Universidad de Ljubljana (Eslovenia)
Esta herramienta cuenta con un fcil y potente, rpido y
verstil frontend de programacin visual para el anlisis exploratorio de
datos y visualizacin, y librerias para Python y secuencias de comando.
Contiene un completo juego de componentes desarrollados en C++ para
preprocesamiento de datos, caractersticas de puntuacin y filtrado,
modelado, evaluacin del modelo y tcnicas de exploracin. A estos
componentes se puede acceder de dos formas:
WEKA
WEKA, acrnimo de Waikato Environment for
Knowledge Analysis, es un conjunto de libreras
JAVA para la extraccin de conocimiento desde
bases de datos. Est constituido por una serie
de paquetes de cdigo abierto con diferentes
tcnicas
de
preprocesado,
clasificacin,
agrupamiento, asociacin y visualizacin.
Se trata de un software desarrollado en la Universidad de Waikato (Nueva
Zelanda) bajo licencia GNUGPL lo cual ha impulsado que sea una de las
suites ms utilizadas en el rea en los ltimos aos. Se trata de una
herramienta de gran potencia, si bien no tiene implementados, a fecha de
hoy, algoritmos para la realizacin de un modelado de secuencias.
Tanto la aplicacin como los manuales de referencia se pueden descargar a
travs de la web del proyecto: http://www.cs.waikato.ac.nz/ml/weka/
2.
3.
4.
5.
6.
7.
8.
9.
10.
Si se compara con la encuesta del 2014, Tableau y Spark son los nuevos
ingresantes a esta lista del top 10 desplazando a Weka y Microsoft SQL
Server.