Sie sind auf Seite 1von 18

Tutorial bsico de minera de datos

SQL Server 2014


Otras versiones
Este es el Tutorial bsico de minera de datos de Microsoft Analysis Services.
Microsoft SQL Server proporciona un entorno integrado para crear modelos de minera
de datos y realizar predicciones. En este tutorial, completar un escenario de una
campaa de envo de correo directo en el que se utiliza aprendizaje automtico para
analizar y predecir el comportamiento de compra de los clientes. En el tutorial se
muestra cmo utilizar tres de los algoritmos ms importantes de minera de datos:
agrupacin en clsteres, rboles de decisin y Bayes Naive. Tambin aprender a
analizar los hallazgos con los visores de modelo de minera de datos, y crear
predicciones y grficos de precisin con las herramientas de minera de datos que se
incluyen en Microsoft SQL Server Analysis Services. La compaa ficticia, Adventure
Works Cycles, se utiliza en todos los ejemplos.
Cuando se sienta cmodo con el uso de las herramientas de minera de datos, se
recomienda que complete tambin el Tutorial intermedio de minera de datos (Analysis
Services - Minera de datos). En las lecciones se muestra cmo utilizar el pronstico,
anlisis de la cesta de compras, series temporales, modelos de asociacin, tablas
anidadas y clsteres de secuencia.

Escenario del tutorial


En este tutorial, ser un empleado de Adventure Works Cycles con la tarea de obtener
ms informacin sobre los clientes de la compaa basndose en el historial de compras
y utilizando a continuacin ese datos histricos para realizar predicciones que se puedan
utilizar en el mercado. La compaa no ha trabajado previamente con minera de datos,
por lo que debe crear una nueva base de datos especfica para minera de datos y
configurar varios modelos de minera de datos.

Aprendizaje
Este tutorial le ensea a crear diferentes tipos de mtodos de aprendizaje automtico y a
trabajar con ellos. Tambin aprender a crear una copia de un modelo de minera de
datos y aplicar un filtro a los datos de entrada para obtener resultados diferentes.
Despus, puede comparar los resultados de ambos modelos mediante un grfico de
elevacin. Por ltimo, utilizar la obtencin de detalles para recuperar datos adicionales
de la estructura de minera de datos subyacente.

La minera de datos de Microsoft Analysis Services incluye las siguientes caractersticas


que ayudan con facilidad a desarrollar y comparar varios modelos predictivos y a tomar
medidas posteriormente en funcin de los resultados:

Conjuntos de pruebas de datos de exclusin: al crear una estructura de minera de


datos, ahora puede dividir los datos de la estructura en conjuntos de prueba y de
entrenamiento. Esto permite probar modelos en conjuntos de datos similares y
comparar la precisin de los modelos relacionados.
Filtros de modelo de minera de datos: ahora puede adjuntar filtros a un modelo
de minera de datos y aplicar el filtro durante el entrenamiento y las pruebas. Esto
permite con facilidad generar modelos relacionados en diferentes subconjuntos de
datos.
Obtencin de detalles para casos de estructura y columnas de estructura: ahora
puede cambiar fcilmente de los patrones generales del modelo de minera de
datos al detalle procesable en el origen de datos.

El tutorial est compuesto por las lecciones siguientes:


Leccin 1: Preparar la base de datos de Analysis Services (tutorial bsico de minera de
datos)
En esta leccin, aprender a crear una nueva base de datos de Analysis Services, agregar
un origen de datos y una vista del origen de datos, y preparar la nueva base de datos que
se va a utilizar para la minera de datos.
Leccin 2: Generar una estructura de distribucin de correo directo (Tutorial bsico de
minera de datos)
En esta leccin, aprender a crear una estructura de modelos de minera de datos que se
puede utilizar como parte de un escenario de distribucin de correo directo.
Leccin 3: Agregar y procesar los modelos
En esta leccin obtendr informacin sobre cmo agregar modelos a una estructura. Los
modelos que crea se generan con los algoritmos siguientes:

rboles de decisin de Microsoft


Agrupacin en clsteres de Microsoft
Bayes naive de Microsoft

Leccin 4: Explorar los modelos de correo directo (tutorial bsico de minera de datos)
En esta leccin obtendr informacin sobre cmo explorar e interpretar los hallazgos de
cada modelo usando los visores.
Leccin 5: Probar los modelos (Tutorial bsico de minera de datos)
En esta leccin, realiza una copia de uno de los modelos de distribucin de correo
directo, agrega un filtro de modelo de minera de datos para restringir los datos de

entrenamiento a un conjunto determinado de clientes y, a continuacin, evala la


viabilidad del modelo.
Leccin 6: Crear y trabajar con predicciones (Tutorial bsico de minera de datos)
En esta leccin final del Tutorial bsico de minera de datos, utiliza el modelo para
predecir qu clientes tienen ms probabilidad de comprar una bicicleta. A continuacin,
obtendr detalles de los casos subyacentes para conseguir informacin de contacto.

Requisitos
Asegrese de que los siguientes componentes estn instalados:

Microsoft SQL Server 2014


Microsoft SQL Server Analysis Services en modo multidimensional
La base de datos AdventureWorksDW2012

Con objeto de mejorar la seguridad, las bases de datos de ejemplo no se instalan con
SQL Server. Para instalar las bases de datos oficiales para Microsoft SQL Server, visite
la pgina Bases de datos de ejemplo de Microsoft SQL y seleccione SQL Server 2014.

Leccin 1: Preparar la base de datos de Analysis Services (tutorial bsico de


minera de datos)
SQL Server 2014
Otras versiones

Suponga que es un nuevo empleado de Adventure Works Cycles que se le ha encargado


la tarea de disear una aplicacin de Business Intelligence en SQL Server 2014.
Adventure Works Cycles espera aprovechar su experiencia en minera de datos de
Analysis Services para detectar informacin interesante y procesable sobre las personas
que han comprado bicicletas. Quieren que prevea qu clientes tienen ms probabilidad
de comprar una bicicleta en el futuro.
El diseo de esta aplicacin de SQL Server se inicia con la creacin en SQL Server Data
Tools (SSDT) de un proyecto de SQL Server Analysis Services basado en la plantilla de
proyecto de Analysis Services para el modelado multidimensional y la minera de datos.
Despus de crear un proyecto de Analysis Services, tiene que definir uno o varios
orgenes de datos. A continuacin, definir una sola vista de los metadatos denominada
vista del origen de datos, a partir de las tablas y vistas seleccionadas en los orgenes de
datos.

En esta leccin, crear un proyecto de Analysis Services, definir un solo origen de


datos y agregar un subconjunto de tablas a una vista del origen de datos. Esta leccin
incluye las tareas siguientes:
Crear un proyecto de Analysis Services (Tutorial bsico de minera de datos)
Crear un origen de datos (Tutorial bsico de minera de datos)
Crear una vista del origen de datos (Tutorial bsico de minera de datos)
Primera tarea de la leccin

Crear un proyecto de Analysis Services (Tutorial bsico de minera de datos)


Leccin siguiente

Leccin 2: Generar una estructura de distribucin de correo directo (Tutorial bsico de


minera de datos)

Crear un proyecto de Analysis Services (Tutorial bsico de minera de datos)


SQL Server 2014
Otras versiones

Cada proyecto de Microsoft SQL Server Analysis Services define los objetos de una
sola base de datos de Analysis Services. Una base de datos de Analysis Services puede
contener muchos tipos diferentes de objetos

Modelos multidimensionales (cubos)

Estructuras de minera de datos y modelos de minera de datos

Objetos auxiliares como orgenes de datos, vistas del origen de datos y


ensamblados personalizados

Tenga en cuenta que no se necesita un cubo para realizar tareas de minera de datos. Si
necesita realizar minera de datos en un cubo existente, debe agregar los modelos de
minera de datos al mismo proyecto que utiliz para generar el cubo. Sin embargo, para
la mayora de los fines se pueden generar los modelos en orgenes de datos relacionales,
como un almacenamiento de datos, y obtener mejor rendimiento si no se emplea un
cubo.
En este tutorial utilizar un almacenamiento de datos relacional,
AdventureWorksDW2012 , como origen de datos. Implementar todos los objetos de

minera de datos en una base de datos de Analysis Services denominada


BasicDataMining, que se utiliza solamente para minera de datos.
De forma predeterminada, Analysis Services usa la instancia localhost para los
proyectos nuevos. Si est utilizando una instancia con nombre o un servidor diferente,
debe crear y abrir el proyecto primero y, a continuacin, cambiar el nombre de
instancia.
Para obtener ms informacin acerca de los proyectos de Analysis Services, vea Crear
un proyecto de Analysis Services.
Para crear un proyecto de Analysis Services
1. Abra SQL Server Data Tools (SSDT).
2. En el men Archivo, seleccione Nuevo y haga clic en Proyecto.
3. Compruebe que la opcin Proyectos de Business Intelligence est seleccionada
en el panel Tipos de proyecto.
4. En el panel Plantillas, seleccione Proyecto multidimensional y de minera de
datos de Analysis Services.
5. En el cuadro Nombre, asigne al nuevo proyecto el nombre BasicDataMining.
6. Haga clic en Aceptar.
Para cambiar la instancia donde se almacenan los objetos de minera
de datos
1. En SQL Server Data Tools (SSDT), en el men Proyecto, seleccione
Propiedades.
2. En el lado izquierdo del panel Pginas de propiedades, en Propiedades de
configuracin, haga clic en Implementacin.
3. En el lado derecho del panel Pginas de propiedades, en Destino, compruebe
que el nombre de Servidor es localhost. Si usa una instancia diferente, escriba el
nombre de la instancia. Haga clic en Aceptar.

Crear un origen de datos (Tutorial bsico de minera de datos)


SQL Server 2014
Otras versiones

Un origen de datos es una conexin de datos guardada y administrada en el proyecto e


implementada en la base de datos de Microsoft SQL Server Analysis Services. El origen

de datos contiene los nombres del servidor y la base de datos donde residen los datos de
origen, adems de otras propiedades de conexin necesarias.
Importante

El nombre de la base de datos es AdventureWorksDW2012 . Si an no ha instalado esta


base de datos, vea la pgina de Bases de datos de ejemplo de Microsoft SQL.
Para crear un origen de datos
1. En el Explorador de soluciones, haga clic con el botn secundario en la carpeta
Orgenes de datos y seleccione Nuevo origen de datos.
2. En la pgina de inicio del Asistente para orgenes de datos, haga clic en
Siguiente.
3. En la pgina Seleccionar cmo definir la conexin, haga clic en Nueva para
agregar una conexin a la base de datos de AdventureWorksDW2012 .
4. En la lista Proveedor del Administrador de conexiones, seleccione OLE DB
nativo\SQL Server Native Client 11.0.
5. En el cuadro Nombre del servidor, escriba o seleccione el nombre del servidor
en el que instal AdventureWorksDW2012 .
Por ejemplo, escriba localhost , si la base de datos se hospeda en el servidor
local.
6. En el grupo Iniciar sesin en el servidor, seleccione Utilizar autenticacin de
Windows.
Importante

Siempre que sea posible, los implementadores deberan utilizar la autenticacin de


Windows, ya que proporciona un mtodo de autenticacin ms seguro que la
autenticacin de SOL Server. Sin embargo, la autenticacin de SQL Server se
proporciona por motivos de compatibilidad con versiones anteriores. Para obtener ms
informacin acerca de los mtodos de autenticacin, vea Configuracin del motor de
base de datos - Aprovisionamiento de cuentas.
7. En la lista Seleccione o escriba un nombre de base de datos, seleccione
AdventureWorksDW2012 y haga clic en Aceptar.
8. Haga clic en Siguiente.
9. En la pgina Informacin de suplantacin, haga clic en Utilizar la cuenta de
servicio y, a continuacin, haga clic en Siguiente.

En la pgina Finalizacin del asistente, observe que de forma predeterminada el


origen de datos se denomina Adventure Works DW 2012.
10. Haga clic en Finalizar.
El nuevo origen de datos, Adventure Works DW 2012, aparece en la carpeta
Orgenes de datos del Explorador de soluciones.

Crear una vista del origen de datos (Tutorial bsico de minera de datos)
SQL Server 2014
Otras versiones

Una vista del origen de datos se genera en un origen de datos y define un subconjunto
de los datos, que puede usar en las estructuras de minera de datos. Tambin puede usar
la vista del origen de datos para agregar columnas, crear columnas calculadas y
agregados, y agregar vistas con nombre. Mediante el uso de vistas del origen de datos,
puede seleccionar los datos relacionados con un proyecto, establecer relaciones entre
tablas y modificar la estructura de los datos sin modificar el origen de datos original.
Para obtener ms informacin, vea Vistas del origen de datos en modelos
multidimensionales.
Para crear una vista del origen de datos
1. En el Explorador de soluciones, haga clic con el botn secundario en Vistas del
origen de datos y seleccione Nueva vista del origen de datos.
2. En la pgina Asistente para vistas del origen de datos, haga clic en Siguiente.
3. En la pgina Seleccionar un origen de datos, en Orgenes de datos relacionales,
seleccione el origen de datos Adventure Works DW 2012 que cre en la ltima
tarea. Haga clic en Siguiente.
Nota

Si desea crear un nuevo origen de datos, haga clic con el botn secundario en Orgenes
de datos y, a continuacin, haga clic en Nuevo origen de datos para iniciar el Asistente
para orgenes de datos.
4. En la pgina Seleccionar tablas y vistas, seleccione los objetos siguientes y, a
continuacin, haga clic en la flecha derecha para incluirlos en la nueva vista del
origen de datos:

ProspectiveBuyer (dbo): la tabla de compradores probables de una


bicicleta

vTargetMail (dbo): la vista de datos histricos sobre los compradores de


una bicicleta en el pasado

5. Haga clic en Siguiente.


6. En la pgina Finalizacin del asistente, la vista del origen de datos tendr el
nombre Adventure Works DW 2012 de forma predeterminada. Cambie el
nombre por Targeted Mailing y, a continuacin, haga clic en Finalizar.
La nueva vista del origen de datos se abre en la pestaa Targeted Mailing.dsv
[Design].

Leccin 2: Generar una estructura de distribucin de correo directo (Tutorial


bsico de minera de datos)
SQL Server 2014
Otras versiones

El departamento de marketing de Adventure Works Cycles desea aumentar las ventas


dirigiendo una campaa de correo directo a clientes especficos. La base de datos de la
empresa contiene una lista de clientes antiguos y otra de nuevos clientes potenciales.
Mediante el anlisis de los atributos de clientes anteriores, la empresa espera detectar
los patrones que posteriormente se aplicarn a los clientes potenciales. Por ejemplo,
pueden utilizan tendencias anteriores para predecir qu clientes potenciales tienen ms
probabilidades de comprar una bicicleta de Adventure Works Cycles, o crear segmentos
de clientes para campaas de marketing futuras.
En esta leccin utilizar el Asistente para minera de datos con el fin de crear la
estructura de distribucin de correo directo. Despus de completar las tareas de esta
leccin, tendr una estructura de minera de datos con un modelo sencillo. Dado que la
creacin de una estructura conlleva muchos pasos y conceptos importantes, hemos
separado este proceso en las tres tareas siguientes:
Crear una estructura del modelo de minera de datos de distribucin de correo directo
(Tutorial bsico de minera de datos)
Especificar el tipo de datos y el tipo de contenido (Tutorial bsico de minera de datos)
Especificar un conjunto de datos de pruebas para la estructura (Tutorial bsico de
minera de datos)

Crear una estructura del modelo de minera de datos de distribucin de


correo directo (Tutorial bsico de minera de datos)
SQL Server 2014
Otras versiones

El primer paso para crear un escenario de correo directo (Targeted Mailing) consiste en
usar el Asistente para minera de datos de SQL Server Data Tools (SSDT) con el fin de
crear una estructura de minera de datos y un modelo de minera de datos de rbol de
decisin.
En esta tarea configurar una nueva estructura de minera de datos y agregar un
modelo de minera de datos inicial basndose en el algoritmo de rboles de decisin de
Microsoft. Para crear la estructura, primero seleccionar las tablas y las vistas, y a
continuacin identificar qu columnas se usarn para el entrenamiento y cules para las
pruebas.
Para crear una estructura de minera de datos para un escenario de
distribucin de correo directo
1. En el Explorador de soluciones, haga clic con el botn secundario en Estructuras
de minera de datos y seleccione Nueva estructura de minera de datos para
iniciar el Asistente para minera de datos.
2. En la pgina de inicio del Asistente para minera de datos, haga clic en
Siguiente.
3. En la pgina Seleccionar el mtodo de definicin, compruebe que la opcin A
partir de una base de datos relacional o del almacenamiento de datos se ha
seleccionado y, a continuacin, haga clic en Siguiente.
4. En la pgina Crear la estructura de minera de datos, en Qu tcnica de minera
de datos desea utilizar?, seleccione rboles de decisin de Microsoft.
Nota

Si aparece una advertencia de que no se puede encontrar ningn algoritmo de minera


de datos, puede que las propiedades del proyecto no estn configuradas correctamente.
Esta advertencia se produce cuando el proyecto intenta recuperar una lista de
algoritmos de minera de datos del servidor de Analysis Services y no puede
encontrarlo. De forma predeterminada, SQL Server Data Tools utilizar el host local
como servidor. Si est utilizando una instancia diferente o una instancia con nombre,
debe cambiar las propiedades del proyecto. Para obtener ms informacin, vea Crear un
proyecto de Analysis Services (Tutorial bsico de minera de datos).

5. Haga clic en Siguiente.


6. En la pgina Seleccionar vista del origen de datos, en el panel Vistas del origen
de datos disponibles, seleccione Targeted Mailing. Puede hacer clic en Explorar
para ver las tablas de la vista del origen de datos y, a continuacin, hacer clic en
Cerrar para volver al asistente.
7. Haga clic en Siguiente.
8. En la pgina Especificar tipos de tablas, active la casilla de la columna Caso,
correspondiente a vTargetMail para usarla como tabla de casos y, a continuacin,
haga clic en Siguiente. Utilizar la tabla ProspectiveBuyer posteriormente para
pruebas; olvdese de ella por ahora.
9. En la pgina Especificar los datos de aprendizaje, identificar al menos una
columna de prediccin, una columna de clave y una columna de entrada para el
modelo. Active la casilla de la columna De prediccin en la fila BikeBuyer.
Nota

Observe la advertencia en la parte inferior de la ventana. No podr navegar a la pgina


siguiente hasta que seleccione una columna De prediccin y Entrada, como mnimo.
10. Haga clic en Sugerir para abrir el cuadro de dilogo Sugerir columnas
relacionadas.
El botn Sugerir est habilitado siempre que se haya seleccionado al menos un
atributo predecible. El cuadro de dilogo Sugerir columnas relacionadas
enumera en una lista las columnas ms relacionadas con la columna predecible y
ordena los atributos por su correlacin con el atributo predecible. Las columnas
con una correlacin significativa (con una confianza mayor del 95%) se
seleccionan automticamente para incluirse en el modelo.
Revise las sugerencias y, a continuacin, haga clic en Cancelar paraomitirlas.
Nota

Si hace clic en Aceptar, todas las sugerencias enumeradas se marcarn como columnas
de entrada en el asistente. Si est de acuerdo con solamente algunas de las sugerencias,
debe cambiar los valores manualmente.
11. Compruebe que la casilla de la columna Key est seleccionada en la fila
CustomerKey.
Nota

Si la tabla de origen de la vista del origen de datos muestra una clave, el Asistente para
minera de datos elegir automticamente esa columna como clave para el modelo.

12. Active las casillas de la columna Entrada en las filas siguientes. Puede activar
varias columnas resaltando un rango de celdas y presionando CTRL mientras
activa una casilla.
o

Age

CommuteDistance

EnglishEducation

EnglishOccupation

Gender

GeographyKey

HouseOwnerFlag

MaritalStatus

NumberCarsOwned

NumberChildrenAtHome

Region

TotalChildren

YearlyIncome

13. En la columna izquierda de la pgina, active las casillas de las filas siguientes.
o

AddressLine1

AddressLine2

DateFirstPurchase

EmailAddress

FirstName

LastName

Asegrese de que estas filas solo tienen marcas en la columna izquierda. Estas
columnas se agregarn a la estructura, pero no se incluirn en el modelo. Sin
embargo, una vez generado el modelo, estarn disponibles para la obtencin de

detalles y las pruebas. Para obtener ms informacin acerca de la obtencin de


detalles, vea Consultas de obtencin de detalles (minera de datos).
14. Haga clic en Siguiente.

Especificar el tipo de datos y el tipo de contenido (Tutorial bsico de minera


de datos)
SQL Server 2014
Otras versiones

Ahora que ha seleccionado qu columnas utilizar para generar la estructura y entrenar


los modelos, realice los cambios necesarios en los datos predeterminados y tipos de
contenido que establece el asistente.
Revisar y modificar el tipo de contenido y el tipo de datos de cada
columna
1. En la pgina Especificar el contenido y el tipo de datos de las columnas, haga
clic en Detectar para ejecutar un algoritmo que determine los tipos de contenido
y los datos predeterminados de cada columna.
2. Revise las entradas de las columnas Tipo de contenido y Tipo de datos, y
cmbielas si es necesario para asegurarse de que la configuracin es igual que la
que se muestra en la tabla siguiente.
Normalmente, el asistente detectar nmeros y asignar un tipo de datos
numrico adecuado, pero hay varias situaciones en las que podra desear tratar
un nmero como texto. Por ejemplo, GeographyKey se debera tratar como
texto, porque no sera apropiado realizar operaciones matemticas en este
identificador.
Columna

Tipo de contenido

Tipo de datos

Address Line1

Discreto

Text

Address Line2

Discreto

Text

Age

Continuo

Long

Bike Buyer

Discreto

Long

Commute Distance

Discreto

Text

CustomerKey

Clave

Long

DateLastPurchase

Continuo

Date

Email Address

Discreto

Text

English Education

Discreto

Text

English Occupation

Discreto

Text

FirstName

Discreto

Text

Gender

Discreto

Text

Geography Key

Discreto

Text

House Owner Flag

Discreto

Text

Last Name

Discreto

Text

Marital Status

Discreto

Text

Number Cars Owned

Discreto

Long

Number Children At Home

Discreto

Long

Region

Discreto

Text

Total Children

Discreto

Long

Yearly Income

Continuo

Double

3. Haga clic en Siguiente.

Especificar un conjunto de datos de pruebas para la estructura (Tutorial


bsico de minera de datos)
SQL Server 2014
Otras versiones

En las pantallas finales del Asistente para minera de datos dividir los datos en un
conjunto de pruebas y en un conjunto de entrenamiento. Despus, asignar nombre a la
estructura y habilitar la obtencin de detalles en el modelo.
Especificar un conjunto de pruebas

Al separar los datos en conjuntos de entrenamiento y de pruebas cuando se crea una


estructura de minera de datos, es posible evaluar fcilmente la precisin de los modelos
de minera de datos que se crean despus. Para obtener ms informacin sobre los
conjuntos de pruebas, vea Conjuntos de datos de entrenamiento y de prueba.
Para especificar el conjunto de pruebas
1. En la pgina Crear conjunto de pruebas, en Porcentaje de datos para pruebas,
deje el valor predeterminado 30.
2. En Nmero mximo de casos en el conjunto de datos de prueba, escriba 1000.
3. Haga clic en Siguiente.
Especificar la obtencin de detalles

La obtencin de detalles puede habilitarse en los modelos y en las estructuras. La casilla


de este cuadro de dilogo habilita la obtencin de detalles en el modelo con nombre.
Una vez procesado el modelo, podr recuperar informacin detallada de los datos de
entrenamiento usados para crear el modelo.
Si la estructura de minera de datos subyacente tambin se ha configurado para permitir
la obtencin de detalles, puede recuperar informacin detallada tanto de los casos de
modelos como de la estructura, incluidas las columnas que no estaban incluidas en el
modelo de minera de datos. Para obtener ms informacin, vea Consultas de obtencin
de detalles (minera de datos).
Para denominar el modelo y la estructura, y especificar la obtencin
de detalles
1. En la pgina Finalizacin del asistente, en Nombre de la estructura de minera de
datos, escriba Targeted Mailing.
2. En Nombre del modelo de minera de datos, escriba TM_Decision_Tree.
3. Active la casilla Permitir obtencin de detalles.
4. Revise el panel Vista previa. Observe que se muestran solo las columnas
seleccionadas como Clave, Entrada o De prediccin. Las otras columnas que
seleccion (por ejemplo, AddressLine1) no se usan para generar el modelo, pero
estarn disponibles en la estructura subyacente y se pueden consultar una vez
procesado e implementado el modelo.
5. Haga clic en Finalizar.

Leccin 3: Agregar y procesar los modelos


SQL Server 2014
Otras versiones

La estructura de minera de datos que cre en la leccin anterior contiene un modelo de


minera de datos individual que se basa en el algoritmo de rboles de decisin de
Microsoft. Puede usar este modelo para identificar clientes para la campaa de envo de
correo directo. Sin embargo, para asegurarse de que el anlisis es detallado, se suelen
crear modelos relacionados usando algoritmos diferentes y comparar sus resultados. De
esta manera, puede obtener diferentes puntos de vista. Por consiguiente, crear dos
modelos adicionales y luego los procesar e implementar.
En esta leccin, crear un conjunto de modelos de minera de datos que sugerir los
clientes que tienen una mayor probabilidad de serlo entre una lista de clientes
potenciales.
Para completar las tareas de esta leccin, utilizar el Algoritmo de clsteres de
Microsoft y el Algoritmo Bayes naive de Microsoft.
Esta leccin contiene las tareas siguientes:
Agregar modelos nuevos a la estructura de correo de destino (tutorial bsico de minera
de datos)
Procesar los modelos de la estructura de distribucin de correo directo (Tutorial bsico
de minera de datos)

Agregar modelos nuevos a la estructura de correo de destino (tutorial bsico


de minera de datos)
SQL Server 2014
Otras versiones

En esta tarea, definir dos modelos adicionales mediante la pestaa Modelos de minera
de datos del Diseador de minera de datos. Para crear los modelos, se usarn el
algoritmo Bayes naive y el algoritmo de clsteres de Microsoft. Estos dos algoritmos se
han seleccionado debido a su capacidad de predecir un valor discreto (por ejemplo, la
compra de una bicicleta). Para obtener ms informacin sobre estos algoritmos, vea
Algoritmo de clsteres de Microsoft y Algoritmo Bayes naive de Microsoft.
Para crear un modelo de minera de datos de agrupacin en clsteres
1. Cambie a la pestaa Modelos de minera de datos del Diseador de minera de
datos en SQL Server Data Tools (SSDT).

Observe que el diseador muestra dos columnas: una para la estructura de


minera de datos y otra para el modelo de minera de datos TM_Decision_Tree,
que cre en la tarea anterior de esta leccin.
2. Haga clic con el botn secundario en la columna Estructura y seleccione Nuevo
modelo de minera de datos.
3. En el cuadro de dilogo Nuevo modelo de minera de datos, en Nombre del
modelo, escriba TM_Clustering.
4. En Nombre del algoritmo, seleccione Agrupacin en clsteres de Microsoft.
5. Haga clic en Aceptar.
Ahora aparece el modelo nuevo en la pestaa Modelos de minera de datos del
Diseador de minera de datos. Este modelo, integrado con el algoritmo de clsteres de
Microsoft, agrupa los clientes con caractersticas similares en clsteres y predice la
compra de una bicicleta en cada clster. Aunque puede modificar el uso y las
propiedades de la columna para el modelo nuevo, en este tutorial no es necesario hacer
cambios en el modelo TM_Clustering.
Para crear un modelo de minera de datos Bayes naive
1. En la pestaa Modelos de minera de datos del Diseador de minera de datos,
haga clic con el botn secundario enla columna Estructura y seleccione Nuevo
modelo de minera de datos.
2. En el cuadro de dilogo Nuevo modelo de minera de datos, en Nombre del
modelo, escriba TM_NaiveBayes.
3. En Nombre del algoritmo, seleccione Bayes naive de Microsoft y haga clic en
Aceptar.
Aparece un mensaje que indica que el algoritmo Bayes naive de Microsoft no
admite las columnas Age y Yearly Income, que son continuas.
4. Haga clic en S para confirmar el mensaje y continuar.
Aparece un modelo nuevo en la pestaa Modelos de minera de datos del Diseador de
minera de datos. Aunque puede modificar el uso y las propiedades de las columnas para
todos los modelos de la pestaa, en este tutorial no es necesario hacer cambios en el
modelo TM_NaiveBayes.

Procesar los modelos de la estructura de distribucin de correo directo


(Tutorial bsico de minera de datos)
SQL Server 2014

Otras versiones

Para poder examinar o trabajar con los modelos de minera de datos que ha creado, se
debe implementar el proyecto de Analysis Services y procesar la estructura y los
modelos de minera de datos.

En la implementacin se enva el proyecto a un servidor y se crean en el servidor


los objetos de ese proyecto.

El procesamiento rellena objetos de Analysis Services con datos procedentes de


orgenes de datos relacionales.

Los modelos no se pueden utilizar hasta que se hayan implementado y procesado.


Adems, cuando se realiza cualquier cambio en el modelo, como agregar datos nuevos,
se debe volver a implementar y procesar los modelos.
Asegurarse de la coherencia con HoldoutSeed

Al implementar un proyecto y procesar la estructura y los modelos, a las filas


individuales de la estructura de datos se les asigna el conjunto de entrenamiento o el
conjunto de pruebas segn un valor de inicializacin numrico. De forma
predeterminada, el valor de inicializacin numrico se calcula en funcin de los
atributos de la estructura de datos. Sin embargo, si alguna vez cambia algunos aspectos
del modelo, el valor de inicializacin cambiara, lo que producira resultados
ligeramente diferentes. Por tanto, para asegurarse de que los resultados son los mismos
que los descritos aqu, asignaremos arbitrariamente un valor de inicializacin de
exclusin fijo de 12. El valor de inicializacin de exclusin se utiliza para inicializar el
algoritmo de muestreo y garantiza que los datos se reparten aproximadamente de la
misma manera para todas las estructuras de minera de datos y sus modelos.
Este valor no afecta al nmero de casos del conjunto de entrenamiento; simplemente
garantiza que se usar el mismo mtodo de particin siempre que se genere el modelo.
Para obtener ms informacin sobre valor de inicializacin de exclusin, vea Conjuntos
de datos de entrenamiento y de prueba.
Para establecer el valor de inicializacin de exclusin
1. Haga clic en la pestaa Estructura de minera de datos o Modelos de minera de
datos en el Diseador de minera de datos de SQL Server Data Tools (SSDT).
Estructura de minera de datos Targeted Mailing aparece en el panel
Propiedades.
2. Asegrese de que el panel Propiedades est abierto presionando F4.
3. Asegrese de que CacheMode est establecido en KeepTrainingCases.

4. Escriba 12 en HoldoutSeed.
Implementar y procesar los modelos

En el Diseador de minera de datos, puede decidir qu objetos procesar, segn el


mbito de los cambios que ha realizado en el modelo o en los datos subyacentes:
En esta tarea, puesto que los datos y los modelos son nuevos, procesar la estructura y
todos los modelos al mismo tiempo.
Para implementar el proyecto y procesar todos los modelos de
minera de datos
1. En el men Modelo de minera de datos , seleccione Procesar estructura de
minera de datos y todos los modelos.
Si ha realizado cambios en la estructura, se le pedir que genere e implemente el
proyecto antes de procesar los modelos. Haga clic en S.
2. En el cuadro de dilogo Procesando estructura de minera de datos: Targeted
Mailing, haga clic en Ejecutar.
Se abre el cuadro de dilogo Progreso del proceso para mostrar los detalles del
procesamiento del modelo. El procesamiento del modelo podra tardar algn
tiempo, segn el equipo.
3. Haga clic en Cerrar en el cuadro de dilogo Progreso del proceso cuando el
procesamiento de los modelos se haya completado.
4. Haga clic en Cerrar en el cuadro de dilogo Procesando estructura de minera de
datos - <estructura>.

Das könnte Ihnen auch gefallen