Sie sind auf Seite 1von 84

Manual RapidMiner Studio

Pgina 2
2014 por RapidMiner. Todos os direitos reservados.
Nenhuma parte desta publicao pode ser reproduzida, armazenada em um
sistema de recuperao,
Ou transmitida, sob qualquer forma ou por meios electrnicos, mecnicos,
Fotocpia ou qualquer outra forma, sem permisso prvia por escrito da
RapidMiner.

Pgina 3
Contedo
1 Termos Fundamentais
1
1.1 Coincidncia ou no? . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Termos Fundamentais. . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Atributos e Atributos de Destino. . . . . . . . . . . . . . . 6
1.2.2 Conceitos e Exemplos. . . . . . . . . . . . . . . . . . . . 9
1.2.3 Atributo Funes. . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.4 Tipos de Valor. . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.5 Dados e Meta-Dados. . . . . . . . . . . . . . . . . . . . . . 14
1.2.6 Modelao. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Primeiros passos
19
2.1 Instalao e Primeiro Repositrio. . . . . . . . . . . . . . . . . . . 20
2.2 Perspectivas e vises. . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Perspectiva de Design. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Viso de Operadores e Repositrios. . . . . . . . . . . . . . . 28
2.3.2 Viso do Processo. . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.3 Operadores e Processos. . . . . . . . . . . . . . . . . . . . 31
2.3.4 Outras Opes da Viso do Processo. . . . . . . . . . . . . 42
2.3.5 Ver Parmetros. . . . . . . . . . . . . . . . . . . . . . . . 45
2.3.6 Exibio de ajuda e comentrio. . . . . . . . . . . . . . . . . . . 47
2.3.7 Viso Geral. . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.8 Problemas e visualizao de log. . . . . . . . . . . . . . . . . . . . 50
3 Desenho de Processos de Anlise
53
3.1 Criando um Novo Processo. . . . . . . . . . . . . . . . . . . . . . . . 53
V

Pgina 4
Contedo
3.2 Aes do Repositrio. . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 O Primeiro Processo de Anlise. . . . . . . . . . . . . . . . . . . . . . 56
3.3.1 Transformando Meta Data. . . . . . . . . . . . . . . . . . . 58
3.4 Executando Processos. . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.4.1 Observando os resultados. . . . . . . . . . . . . . . . . . . . . . . 69
3.4.2 Pontos de Interrupo. . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Visualizao de dados e resultados
75
4.1 Visualizao de resultados. . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.1 Fontes para Apresentao de Resultados. . . . . . . . . . . . . . . . 76
4.2 Sobre as Cpias e Visualizaes de Dados. . . . . . . . . . . . . . . . . . . . 79
4.3 Formatos de exibio. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3.1 Descrio. . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3.2 Tabelas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3.3 Grficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.3.4 Grficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3.5 Vistas Especiais. . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.4 Viso geral do resultado. . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5 Repositrio
95
5.1 O Repositrio do RapidMiner Studio. . . . . . . . . . . . . . . . . . 95
5.1.1 Criando um Novo Repositrio. . . . . . . . . . . . . . . . . . 97
5.2 Usando o Repositrio. . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2.1 Processos e descries Repositrio relativos . . . . . . . 99
5.2.2
Importao de dados e objetos para o repositrio. . . . . . 100
5.2.3 Acesso e Administrao do Repositrio. . . . . . . 103
5.2.4 O Contexto do Processo. . . . . . . . . . . . . . . . . . . . . . 104
5.3 Dados e Meta Data. . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3.1 Propagao de Meta Data a partir do Repositrio e
o processo . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
VI

1 Motivao e Termos Fundamentais


Neste captulo, gostaramos de dar-lhe um pequeno incentivo para o uso da
minerao de dados e ao mesmo tempo tambm dar-lhe uma introduo aos
termos mais importantes.
Se voc j um especialista experiente em minerao de dados ou no, este
captulo vale a pena ler para que voc possa conhecer e ter um comando dos
termos usados tanto aqui como no RapidMiner.

1.1 Coincidncia ou no?

Antes de comearmos corretamente, vamos tentar uma pequena experincia:


Pense num nmero entre 1 e 10.
Multiplique esse nmero por 9.
Elaborar a soma de verificao do resultado, ou seja, a soma dos nmeros.
Multiplique o resultado por 4.
Divida o resultado por 3.
Deduzir 10.
O resultado 2.
1

Pgina 6
1. Termos Fundamentais

Voc acredita em coincidncia? Como analista voc provavelmente aprender


a responder esta questo em negativo ou mesmo faz-lo j. Tomemos por
exemplo o que provavelmente o mais simples evento aleatrio que voc
poderia imaginar, ou seja, o lanamento de uma moeda.
"Ah" voc pode pensar, "mas isso um evento aleatrio e ningum pode
prever qual lado da moeda estar mostrando aps o lanamento". Isso pode
estar correto, mas o fato de que ningum pode prever isso no significa de
modo algum que seja impossvel princpio. Se todos os fatores de influncia
tais como a velocidade de lanamento e o ngulo de rotao, propriedades
materiais da moeda e as do solo, distribuies de massa e mesmo a fora e a
direo do vento eram todos conhecidos exatamente, ento ns ser capaz, com
algum tempo e esforo, de prever o resultado de tal sorteio de moedas.
As frmulas fsicas para isso so todas conhecidas em qualquer caso.
Vamos agora olhar para outro cenrio, apenas desta vez podemos prever o
resultado da situao: Um vidro quebrar se cair de uma certa altura para um
determinado tipo de terreno. Sabemos mesmo nas fraes do segundo quando
o vidro est caindo: Haver vidro quebrado. Como podemos conseguir isso
faanha incrvel Ns nunca vimos o vidro que est caindo neste intervalo
instantneo antes e as frmulas fsicas que descrevem a quebra do vidro so
um mistrio para a maioria de ns, pelo menos. Naturalmente, o vidro pode
permanecer intacto "por acaso" em casos individuais, mas isso no
provvel. Para o que vale a pena, o vidro no quebrar no seria coincidente,
uma vez que este resultado tambm leis. Por exemplo, a energia do impacto
transferida para o solo melhor nesse caso. Ento, como ns, os seres humanos,
sabemos o que exatamente vai acontecer casos e em outros casos, por
exemplo, o do lanamento de uma moeda, o que no vai?
A explicao mais frequente usada pelos leigos neste caso a o nico cenrio
como "coincidente" e o outro como "no coincidente". Ns devemos no
entram em discusses interessantes, ainda assim bastante filosficas sobre este
assunto.
Tpico, mas estamos apresentando a seguinte tese:
A grande maioria dos processos em nosso ambiente perceptvel no um
resultado de coincidncias. A razo para nossa incapacidade de descrever e
extrapolar os processos justamente o fato de que no somos capazes de
reconhecer ou medir os fatores de influncia necessrios ou correlacion-los.

Pgina 7

1.1. Coincidncia ou no?


No caso do vidro em queda, rapidamente reconhecemos a caracterstica como
o material, a altura de queda e a natureza do solo e pode j calcula, no menor
tempo possvel, a probabilidade de quebra do vidro analogia de experincias
semelhantes. No entanto, justo que no possamos fazer com o lance de uma
moeda. Podemos assistir tantos lanamentos de uma moeda quanto
quisermos; ns nunca conseguiremos reconhecer os fatores necessrios com
rapidez suficiente e extrapolar em conformidade, no caso de um lanamento
aleatrio.
Ento o que estvamos fazendo em nossas cabeas quando fizemos a previso
para o estado do vidro aps o impacto? Medimos as caractersticas deste
evento. Voc tambm poderia dizer que coletamos dados que descrevem a
queda do vidro. Ns ento razoavelmente rapidamente por analogia, ou seja,
fizemos uma comparao com queda anterior copos, copos, estatuetas de
porcelana ou artigos semelhantes com base numa medida de similaridade.
Duas coisas so necessrias para isso: em primeiro lugar, precisamos tambm
ter os dados de eventos disponveis e, em segundo lugar, precisamos estar
conscientes de como os dados atuais e passados so definidos. Em ltima
anlise, somos capazes de fazer uma estimativa ou previso por ter olhado
para os eventos mais semelhantes que j ocorreram por exemplo. O artigo
quebrando quebrou nestes casos ou no? Devemos primeiro encontrar os
eventos com maior semelhana, o que representa um tipo de
otimizao. Usamos o termo "Optimizao" aqui, uma vez que no importa
se estamos maximizando uma similaridade ou os nmeros de vendas uma
empresa ou qualquer outra - a varivel em causa, to semelhante aqui,
sempre otimizado. O raciocnio de analogia descrito ento nos diz que a
maioria dos vidros que j olhamos quebraram e esta estimativa torna-se ento
nossa previso. Isso pode parecer complicado, mas esse tipo de raciocnio de
analogia basicamente a base para quase todos os processos de aprendizagem
humana e feito a uma velocidade assombrosa.
A coisa interessante sobre isso que ns apenas temos agido como um
humano dados mtodo de minerao, uma vez que a anlise de dados
geralmente envolve questes como a representao de eventos ou condies e
os dados resultantes da presente de semelhanas de eventos e da otimizao
dessas semelhanas.
Contudo, o procedimento descrito de raciocnio analgico no possvel com
o lance de uma moeda: Normalmente insuficiente na primeira etapa e os
dados para os fatores.

Pgina 8

1. Termos Fundamentais
Tais como propriedades do material ou irregularidades no solo no podem ser
registadas. Assim sendo
No podemos ter estes prontos para o raciocnio posterior analogia. Isso no
significa
Entretanto que o evento de um sorteio de moeda coincidncia, mas apenas
mostra que ns
Os seres humanos no so capazes de medir esses fatores de influncia e
descrever o processo.
Em outros casos, podemos ser capazes de medir os fatores de influncia, mas
No capaz de correlacion-los propositadamente, o que significa que a
similaridade
Mesmo descrevendo os processos impossvel para ns.
No de modo algum o caso de que o raciocnio analgico a nica maneira
de deduzir
Previses para novas situaes a partir de informaes j conhecidas. Se o
observador de
Um vidro em queda perguntado como ele sabe que o vidro vai quebrar,
ento a resposta
Muitas vezes incluir coisas como "cada vez que eu vi uma queda de vidro de
uma altura de
Mais de 1,5 metros quebrou ". H dois pontos interessantes aqui: o
Em relao a experincias passadas usando o termo "sempre", bem como a
deduo
Uma regra dessas experincias:
Se o artigo de queda feito de vidro ea altura de queda mais de 1,5 metros,
Ento o vidro quebrar.
A introduo de um valor limite de 1,5 metros um aspecto fascinante deste
Formao de regras. Embora nem todos os vidros se rompam imediatamente
se
As alturas so utilizadas e no permanecero necessariamente intactas no caso
de alturas mais baixas,
Introduzindo este valor limiar transforma a regra em uma regra de ouro, que
Pode no sempre, mas na maior parte conduzir a uma estimativa correta da
situao.
Em vez de, portanto, raciocinar por analogia imediatamente, pode-se agora
usar este
Uma regra geral e em breve tomaria uma deciso quanto ao futuro mais
provvel
Do artigo em queda. O raciocnio da analogia e a criao de regras so dois
primeiros
Exemplos de como os seres humanos, e tambm os mtodos de minerao de
dados, so capazes de antecipar
O resultado de situaes novas e desconhecidas.
Nossa descrio do que acontece em nossas cabeas e tambm na maioria dos
dados de minerao
Mtodos no computador revela ainda outra viso interessante: A analogia
Raciocnio descrito no exige em nenhum momento o conhecimento de
qualquer frmula fsica
Para dizer por que o vidro agora vai quebrar. O mesmo se aplica regra geral
descrito acima. Assim, mesmo sem conhecer a descrio completa (fsica)
De um processo, ns eo mtodo de minerao de dados so igualmente
capazes de gerar um
4

Pgina 9
1.2. Termos Fundamentais
Estimativas de situaes ou mesmo previses. No s a relao causal
Ela prpria no descrita aqui, mas mesmo a aquisio de dados foi meramente
superficial
E spero e somente alguns fatores tais como o material da queda artigo (vidro)
E a altura de queda (aproximadamente 2m) foram indicados, e relativamente
imprecisa
em que.
Cadeias causais, portanto, existem, quer os conheamos ou no. No ltimo
caso
Estamos muitas vezes inclinados a referir-se a eles como coincidncia. E
igualmente surpreendente
Que a descrio do curso posterior possvel mesmo para uma cadeia causal
desconhecida,
E mesmo em situaes em que os fatos passados esto incompletos e apenas
descritos
Incorretamente.
Esta seo lhe deu uma idia do tipo de problemas que desejamos abordar
neste livro. Estaremos a lidar com numerosos factores de influncia, alguns
dos quais
S pode ser medido de forma insuficiente ou no. Ao mesmo tempo, existem
Muitas vezes, muitos desses fatores que corremos o risco de perder a
pista. Alm disso, tambm
Tm de lidar com os acontecimentos j ocorridos, que desejamos
Uso para a modelagem eo nmero de que facilmente entra em milhes ou
bilhes.
Por ltimo, mas no menos importante, devemos nos perguntar se descrever o
processo a
Objetivo ou se o raciocnio de analogia j suficiente para fazer uma
previso. E
Alm disso, tudo isso deve ocorrer em um ambiente dinmico sob
Condies de mudana - e de preferncia o mais rapidamente
possvel. Impossvel para os seres humanos?
Um lugar para outro. Mas no impossvel para mtodos de minerao de
dados.
1.2 Termos Fundamentais
Vamos agora introduzir alguns termos fundamentais que faro
Com os problemas descritos mais fcil para ns. Voc encontrar esses termos
Repetidamente no software RapidMiner tambm, o que significa que vale a
pena
Familiarizado com os termos utilizados mesmo se voc um analista de dados
experiente.
Em primeiro lugar podemos ver o que os dois exemplos analisados na seo
anterior,
Nomeadamente o lanamento de uma moeda e o vidro em queda, tm em
comum. Em nossa discusso
Sobre se somos capazes de prever o fim da respectiva situao, percebemos
5

Pgina 10
1. Termos Fundamentais
Conhecimento dos fatores de influncia com a maior preciso possvel,
Propriedades ou a natureza do solo, importante. E pode-se at tentar
Encontre uma resposta para a pergunta sobre se este livro ir ajud-lo por
gravao
As caractersticas de si mesmo, o leitor, e alinhando-os com os resultados
De uma pesquisa de alguns dos leitores do passado. Estas caractersticas de
leitura medidas
Poderia ser, por exemplo, a formao do interessado,
Preferncias com outros livros, possivelmente semelhantes e outras
Caractersticas que poderamos tambm medir como parte de nossa
pesquisa. Se agora soubssemos
Caractersticas de 100 leitores e teve a indicao se voc gosta da
Livro ou no, alm disso, o processo posterior seria quase trivial. Ns
Tambm faria as perguntas da nossa pesquisa e medir as mesmas
caractersticas
Deste modo e depois, por exemplo utilizando o raciocnio de analogia como
descrito acima,
Gerar uma previso confivel de seu gosto pessoal. "Clientes que compraram
Este livro tambm comprou. . . ". Isso provavelmente soa um sino.
1.2.1 Atributos e Atributos de Destino
Se moedas ou outros artigos que caem ou mesmo seres humanos, h, como
anteriormente
Questo, em todos os cenrios, sobre as caractersticas ou caractersticas do
Respectiva situao. Ns sempre falamos de atributos no seguinte quando
Queremos dizer tais fatores descrevendo de um cenrio. Este tambm o
termo que sempre
Utilizado no software RapidMiner quando surgirem tais caractersticas de
descrio. tem
Muitos sinnimos para este termo e dependendo do seu prprio
J se depararam com termos diferentes em vez de "atributo", por exemplo
Caractersticas,
Caracterstica,
Fator de influncia (ou apenas fator),
Indicador,
Varivel ou
Sinal.
6

Pgina 11
1.2. Termos Fundamentais
Vimos que a descrio por atributos possvel para processos e tambm
Para situaes. Isto necessrio para a descrio de processos tcnicos para
Exemplo e o pensamento do vidro que cai no est muito longe aqui. Se for
Possvel prever o resultado de tal situao, ento porque no tambm a
qualidade
De um componente produzido? Ou a falha iminente de uma mquina? Outros
processos
Ou situaes que no tm referncia tcnica tambm podem ser descritas na
mesma
caminho. Como posso prever o sucesso de uma promoo de vendas ou
marketing? Qual
Artigo ser um cliente comprar prximo? Quantos mais acidentes um seguro
Provavelmente ter de cobrir um determinado cliente ou grupo de clientes?
Vamos usar esse cenrio de cliente para introduzir os
Termos importantes. Em primeiro lugar, porque os seres humanos so
Exemplos sobre outros seres humanos. E em segundo lugar, porque cada
proba-
Bly tem informaes, ie atributos, em relao aos seus clientes e maioria dos
leitores
Podem, portanto, relacionar-se imediatamente com os exemplos. Os atributos
disponveis como
Mnimo, que quase todas as empresas mantm sobre seus clientes, so para
Exemplo, dados geogrficos e informaes sobre os produtos ou servios
Cliente j comprou. Voc ficaria surpreso com as previses
Feito mesmo de uma quantidade to pequena de atributos.
Vejamos um exemplo (certamente um pouco artificial). Vamos supor que
Voc trabalha em uma empresa que gostaria de oferecer aos seus clientes
produtos no futuro
Que so melhor adaptados s suas necessidades. Dentro de um estudo de
apenas
De seus clientes algumas necessidades se tornaram claras, que 62 destes 100
clientes
Partilhar tudo o mesmo. Seu departamento de pesquisa e desenvolvimento
Trabalho e desenvolveu um novo produto dentro do menor tempo possvel, o
que
Essas novas necessidades melhor. A maioria dos 62 clientes com o perfil de
necessidades relevantes
Em todo o caso, embora a maior parte dos restantes
Participantes do estudo mostram apenas um pequeno interesse como
esperado. Ainda assim, um total de
54 dos 100 clientes no estudo disseram que acharam o novo produto til.
O prottipo , portanto, avaliado como bem sucedido e entra em produo -
agora
Apenas permanece a questo de como, a partir de seus clientes existentes ou
mesmo de
Outros clientes potenciais, voc vai escolher exatamente os clientes com
Que os esforos subsequentes de marketing e vendas prometem o maior
sucesso.
Portanto, voc gostaria de otimizar sua eficincia nesta rea, o que significa
7

Pgina 12
1. Termos Fundamentais
Excluindo particularmente esses esforos desde o incio, que dificilmente
Para uma compra. Mas como isso pode ser feito? A necessidade de solues
alternativas
E assim o interesse pelo novo produto surgiu no estudo do cliente em um
Subconjunto de seus clientes. Realizar este estudo para todos os seus clientes
muito
Demasiado caro e por isso esta opo fechada para voc. E exatamente
onde os dados
Minerao pode ajudar. Vejamos primeiro uma possvel seleo de atributos
Seus clientes:
Nome
Endereo
Setor
Subsector
Nmero de empregados
Nmero de compras no grupo de produtos 1
Nmero de compras no grupo de produtos 2
O nmero de compras nos diferentes grupos de produtos significa que as
transaes
Em seus grupos de produtos que voc j fez com este cliente no
passado. Naturalmente, podem existir atributos mais ou menos ou mesmo
Seu caso, mas isso irrelevante nesta fase. Vamos supor que voc tem a
Informaes sobre esses atributos para cada um de seus clientes.
Ento h outro atributo que podemos olhar para o nosso cenrio concreto:
O fato de que o cliente gosta ou no do prottipo. Este atributo de
Curso apenas disponvel para os 100 clientes do estudo; As informaes sobre
Esse atributo simplesmente desconhecido para os outros. No entanto,
tambm
Atributo na lista de nossos atributos:
Prottipo recebido positivamente?
Nome
Endereo
8

Pgina 13
1.2. Termos Fundamentais
Setor
Subsector
Nmero de empregados
Nmero de compras no grupo de produtos 1
Nmero de compras no grupo de produtos 2
Se assumirmos que voc tem milhares de clientes no total, ento voc s pode
indicar
Se 100 destes avaliaram o prottipo positivamente ou no. Voc ainda no
Saber o que os outros pensam, mas voc gostaria de! O atributo "prottipo"
Positivamente recebido "adota assim um papel especial, uma vez que
identifica cada um de seus
Clientes em relao questo atual. Por isso tambm chamamos de especial
Atributo, uma vez que se adere a seus clientes e identifica-los como uma
marca
Etiqueta em uma camisa ou mesmo uma nota em um quadro de
anncios. Voc tambm encontrar atributos que
Adotar esse papel especial no RapidMiner sob o nome "label". O objetivo do
nosso
Esforos preencher este atributo especfico para a quantidade total de todos
os clientes.
Portanto, falaremos com freqncia de atributo de alvo neste livro em vez de
O termo "rtulo". Voc tambm descobrir freqentemente a varivel de
termo
Literatura, o que significa a mesma coisa.
1.2.2 Conceitos e Exemplos
A estruturao das caractersticas dos seus clientes por atributos, apresentados
acima,
J nos ajuda a resolver o problema um pouco mais analiticamente. Desta
forma,
Assegurou que cada um de seus clientes representado da mesma
maneira. Em um
Definido o tipo ou conceito de "cliente", que difere
De outros conceitos como "artigos em queda", na medida em que os clientes
No possuem propriedades materiais e os artigos que caem raramente iro
Grupo 1. importante que, para cada um dos problemas deste livro (ou
mesmo aqueles
Na sua prpria prtica), voc primeiro define quais conceitos voc est
realmente lidando
Com quais atributos estes so definidos.
Definimos implicitamente acima, indicando os atributos nome, endereo, setor
9

Pgina 14
1. Termos Fundamentais
Etc. e, em particular, as transaces de compra nos grupos de produtos
individuais,
Que os objetos do conceito "cliente" so descritos por esses
atributos. Contudo, este
Conceito tem permanecido relativamente abstrato at agora e nenhuma vida
foi injetada em
ainda. Embora agora saibamos de que maneira podemos descrever os clientes,
temos
Ainda no realizado para clientes especficos. Vejamos os atributos do
Seguintes clientes, por exemplo:
Prottipo recebido positivamente: sim
Nome: Doe Systems, Inc.
Endereo: 76 Any Street, Sunnyville, Massachusetts
Setor: Mecnica
Subsector: Mquinas de dobrar tubos
Nmero de funcionrios:> 1000
Nmero de compras no grupo de produtos 1: 5
Nmero de compras no grupo de produtos 2: 0
Dizemos que este cliente especfico um exemplo para o nosso conceito de
"cliente".
Cada exemplo pode ser caracterizado por seus atributos e tem valores
concretos
Para estes atributos que podem ser comparados com os de outros
exemplos. Dentro
O caso descrito acima, a Doe Systems, Inc. tambm um exemplo de cliente
Que participaram de nosso estudo. Existe, portanto, um valor disponvel para
a nossa meta
Atributo "positivamente recebido?". Doe Systems estava feliz e tem "sim"
Como um valor de atributo aqui, assim tambm falamos de um exemplo
positivo. Logicamente,
H tambm exemplos e exemplos negativos que no nos permitem fazer
Qualquer declarao sobre o atributo de destino.
1.2.3 Funes de atributo
Conhecemos agora dois tipos diferentes de atributos, isto ,
Aqueles que simplesmente descrevem os exemplos e aqueles que identificam
os exemplos
10

Pgina 15
1.2. Termos Fundamentais
separadamente. Assim, os atributos podem assumir diferentes papis. J
introduzimos
O papel "rtulo" para os atributos que identificam os exemplos de qualquer
forma e que
Devem ser previstos para novos exemplos ainda no caracterizados em tal
maneira. Em nosso cenrio descrito acima, o rtulo ainda descreve (se
Caracterstica de se o prottipo foi recebido positivamente.
Da mesma forma, existem, por exemplo, funes, cujo atributo associado
serve para
Identificando claramente o exemplo em questo. Neste caso, o atributo adota
o
Papel de um identificador e chamado ID para abreviar. Voc vai encontrar
esses atributos iden-
Com este papel no software RapidMiner tambm. Em nosso cenrio de
cliente,
O atributo "nome" poderia adotar o papel de tal identificador.
H ainda mais papis, como aqueles com um atributo que designa o
Peso do exemplo em relao ao rtulo. Neste caso, o papel tem o nome
Peso. Atributos sem um papel especial, ou seja, aqueles que simplesmente
descrevem a
Exemplos, tambm so chamados de atributos regulares e apenas deixam de
fora o
Na maioria dos casos. Alm disso, voc tem a opo no RapidMiner de
Alocando seus prprios papis e, portanto, identificando seus atributos
separadamente
Em seu significado.
1.2.4 Tipos de valor
Alm dos diferentes papis de um atributo, h tambm uma segunda
caracterstica de
Atributos que vale a pena olhar mais de perto. O exemplo de Doe Systems
Acima definidos os respectivos valores para os diferentes atributos, por
exemplo "Doe
Systems, Inc. "para o atributo" Name "eo valor" 5 "para o nmero
De compras anteriores no grupo de produtos 1. Em relao ao atributo
"Nome", o
O valor concreto para este exemplo , portanto, texto livre aleatrio at certo
ponto;
Para o atributo "nmero de compras no grupo de produtos 1", por outro lado,
A indicao de um nmero deve corresponder. Chamamos a indicao se
Os valores de um atributo devem estar em texto ou nmeros o Tipo de Valor
de um
atributo.
Em captulos posteriores, iremos nos familiarizar com vrios tipos de
Ver como estes tambm podem ser transformados em outros tipos. De
momento, apenas
11

Page 16
1. Termos Fundamentais
Precisam saber que existem diferentes tipos de valores para atributos e que
falamos
De texto de tipo de valor no caso de texto livre, do tipo de valor numrico no
caso
De nmeros e do tipo de valor nominal no caso de poucos valores serem
Possvel (como com as duas possibilidades "sim" e "no" para o atributo
alvo).
Observe que no exemplo acima o nmero de funcionrios, embora realmente
De tipo numrico, seria bastante definido como nominal, uma vez que uma
classe de tamanho, ie ">
1000 "foi usado em vez de uma indicao exata como 1250 empregados.
12

Pgina 17
1.2. Termos Fundamentais
A tabela a seguir fornece uma viso geral de todos os tipos de valor
RapidMiner:
Tipo de valor
RapidMiner
nome
Usar
Nominal
nominal
Os valores categricos no-numricos,
Geralmente usado para quantidades finitas de
Diferentes caractersticas
Valores numricos
numrico
Para valores numricos em geral
Inteiros
Inteiro
Nmeros inteiros, positivos e negativos
Ativo
Numeros reais
real
Nmeros reais, positivos e negativos
Texto
texto
Texto livre aleatrio sem estrutura
Nominal de 2 valores
Binominal
Caso especial de nominal, onde somente
Dois valores diferentes so permitidos
Multi-valor
Nal
Polinominal
Caso especial de nominal, onde mais
Dois valores diferentes so permitidos
Ted
Data hora
data hora
Data, bem como o tempo
Encontro
encontro
Apenas data
Tempo
Tempo
S o tempo
13

Pgina 18
1. Termos Fundamentais
1.2.5 Dados e Meta-Dados
Queremos resumir nossa situao inicial mais uma vez. Temos um conceito
"Cliente" disponvel, que vamos descrever com um conjunto de Atributos:
Prottipo recebido positivamente? Rtulo; Nominal
Nome: Texto
Endereo: Texto
Setor: Nominal
Subsector: Nominal
Nmero de colaboradores: Nominal
Nmero de compras no grupo de produtos 1: Numerical
Nmero de compras no grupo de produtos 2: Numerical
O atributo "Prottipo recebido positivamente" tem um papel especial entre os
atributos; nosso Atributo de Destino aqui. O atributo de destino tem o valor
Tipo Nominal, o que significa que apenas relativamente poucas caractersticas
(neste
Caso "sim" e "no") podem ser aceitos. Estritamente falando mesmo
binominal,
Uma vez que s so permitidas duas caractersticas diferentes. Os atributos
restantes
Todos eles no tm um papel especial, ou seja, so regulares e tm o tipo de
valor
Numrico ou Texto. A seguinte definio muito importante, uma vez que
Papel crucial em uma anlise bem sucedida de dados profissionais:
Este volume de informao que descreve um conceito tambm chamado de
meta-dados,
Uma vez que representa dados atravs dos dados reais.
Nossa empresa fictcia tem uma srie de exemplos para o nosso conceito de
"cliente",
Ou seja, as informaes que a empresa armazenou para os atributos
individuais
Seu banco de dados de clientes. O objetivo agora gerar uma instruo de
Os exemplos para os quais existem informaes disponveis sobre o atributo
alvo,
Que prev para ns se os restantes clientes seriam mais propensos a
14

Pgina 19
1.2. Termos Fundamentais
Receber o prottipo positivamente ou rejeit-lo. A busca de uma tal previso
uma das tarefas que podem ser realizadas com a minerao de dados.
No entanto, importante aqui que a informao para os atributos das
Em forma ordenada, para que o mtodo de minerao de dados possa acessar
Por meio de um computador. O que seria mais bvio aqui do que uma
mesa? Cada
Dos atributos define uma coluna e cada exemplo com o atributo diferente
Corresponde a uma linha desta tabela. Para o nosso cenrio, isso pode parecer
em
tabela 1.1 , por exemplo.
Chamamos essa tabela de Exemplo de Conjunto, pois esta tabela contm os
dados de todos os
Os atributos de nossos exemplos. No seguinte e tambm dentro RapidMiner
ns
Ir usar os termos dados, conjunto de dados e conjunto de exemplo de forma
sinnima. Uma mesa
Com as entradas apropriadas para os valores de atributos dos exemplos atuais

Sempre significou neste caso. So tambm tais tabelas de dados que


emprestaram seu nome
Para anlise de dados ou minerao de dados. Nota:
Os dados descrevem os objetos de um conceito, Meta Data descreve as
caractersticas
De um conceito (e portanto tambm dos dados).
A maioria dos mtodos de minerao de dados espera que os exemplos sejam
dados em tal atributo
Tabela de valores. Felizmente, este o caso aqui e podemos nos poupar
Outras transformaes de dados. Na prtica, porm, isso completamente
diferente
E a maioria do trabalho durante uma anlise de dados o tempo gasto
transferindo a
Dados em um formato adequado para minerao de dados. Essas
transformaes so
Tratados em pormenor em captulos posteriores.
1.2.6 Modelao
Uma vez que tenhamos os dados relativos aos nossos clientes disponveis de
forma bem estruturada
Formato, podemos finalmente substituir os valores desconhecidos do nosso
atributo de destino
Com a previso do valor mais provvel por meio de um mtodo de minerao
de dados.
Temos numerosos mtodos disponveis aqui, muitos dos quais, assim como a
analogia
O raciocnio descrito no incio ou a gerao de regras bsicas, so
Baseado no comportamento humano. Chamamos o uso de um modelo de
mtodo de minerao de dados e
15

Pgina 20
1. Termos Fundamentais
Prottipo
E
P
Ositively
recebido?
Nome
UMA
Ddress
Setor
Subsector
Nmero
do
Em-
Empregados
Nmero
do
Pur-
Persegue
grupo
1
Nmero
do
Pur-
Persegue
grupo
2
...
sim
Faz
E
Sistemas,
Inc.
76
A
Y
Rua,
Sunn
Yville
Massach
Usa
Mecnica
Pip
E
B
final
Ma-
Lixeiras
>
1000
5
0
...
?
John
P
Ap
Er
4456
P
Arkw
Ay
Blvd,
Sal
Lak
E
Cidade,
Utah
ISTO
T
Ele-
Comunicao
uni-
Cations
600-
1000
3
7
...
no
Williams
& Amp;
Filhos
5500
P
arca
Rua,
Hart-
Ford
Connecti-
cortar
T
Rade
T
Extiles
<
100
1
11
...
.
.
.
...
...
...
...
...
...
...
...
T
capaz
1.1:
A
exemplo
cenrio
16

Pgina 21
1.2. Termos Fundamentais
O resultado de tal mtodo, ou seja, a instruo de predio, um
modelo. Assim como
Data mining pode ser usado para diferentes questes, isso tambm se aplica a
modelos. Eles podem
Ser fcil de entender e explicar os processos subjacentes de uma maneira
simples.
Ou eles podem ser bons para usar para previso no caso de situaes
desconhecidas.
s vezes, ambos se aplicam, como por exemplo no modelo a seguir,
Mtodo de minerao de dados poderia ter fornecido para o nosso cenrio:
"Se o cliente vem de reas urbanas, tem mais de 500 funcionrios e se
Pelo menos 3 compras no grupo de produtos 1, a probabilidade de
Cliente est interessado no novo produto alto. "
Tal modelo pode ser facilmente compreendido e pode proporcionar uma viso
mais
Os dados subjacentes e os processos de deciso dos seus clientes. E, alm
disso
um modelo operacional, ou seja, um modelo que pode ser utilizado
directamente para
Uma previso para outros clientes. A empresa "John Paper", por exemplo
Satisfaz as condies da regra acima mencionada e, por conseguinte, deve
estar interessado
No novo produto - pelo menos h uma alta probabilidade disso. Seu objetivo
seria
Portanto, foram alcanados e usando o data mining voc teria gerado
Um modelo que voc poderia usar para aumentar sua eficincia de marketing:
Em vez de
Apenas entrar em contato com todos os clientes existentes e outros candidatos
sem olhar, voc
Poderia agora concentrar seus esforos de marketing em clientes promissores
e
Portanto, tm uma taxa de sucesso substancialmente maior com menos tempo
e esforo. Ou
Voc poderia at dar um passo adiante e analisar quais canais de vendas
provavelmente
Produzir os melhores resultados e para quais clientes.
Nos prximos captulos, vamos nos concentrar em novos usos da minerao
de dados e
Prtica de transferncia de conceitos como clientes, processos de negcios
Ou produtos em atributos, exemplos e conjuntos de dados. Isto ir treinar o
olho para
Mais possibilidades de aplicao e far com que a vida do analista seja
Muito mais fcil para voc mais tarde. Em primeiro lugar, gostaramos de
passar um pouco de tempo
RapidMiner e dar uma pequena introduo ao seu uso, para que voc possa
implementar
Imediatamente os seguintes exemplos.

Pgina 23

2 Primeiros passos

O RapidMiner Studio combina tecnologia e aplicabilidade para atender a uma


integrao das tcnicas de minerao de dados mais recentes e
estabelecidas. Definindo anlise de processos com RapidMiner Studio feito
por arrastar e soltar de operadores, parmetros de configurao e combinao
de operadores.
Como veremos a seguir, processos podem ser produzidos a partir de um
grande nmero de quase aleatoriamente operadores nestable e, finalmente, ser
representada por uma chamada grfico processo (design de fluxo). A estrutura
de processo descrita por internamente XML e desenvolvido por meio de
uma interface grfica do usurio. No fundo, RapidMiner Estdio verifica
constantemente o processo a ser desenvolvido para conformidade sintaxe e
automaticamente faz sugestes em caso de problemas. Este possibilitada
pelo assim chamado transformao de metadados, o que transforma
metadados subjacentes na fase de concepo, de tal modo que a forma do
resultado j podem ser previstos e solues podem ser identificadas em caso
de imprprios
combinaes de operador (correes rpido). Alm disso, RapidMiner Studio
oferece a possibilidade de breakpoints que definem e, portanto, inspecionando
praticamente todos os resultados intermedirios. Combinaes do operador
bem sucedidos podem ser reunidas num edifcio blocos e so, portanto,
disponvel novamente em processos posteriores.
RapidMiner Studio contm mais de 1500 operaes por completo para todas
as tarefas de anlise de dados profissional, de particionamento de dados, a
anlise baseada no mercado, atribuir gerao, que inclui todas as ferramentas
que voc precisa para fazer seu trabalho de dados para voc. Mas tambm
mtodos de minerao de texto, minerao web, o sentimento automtica
anlise de fruns de discusso na Internet (anlise de sentimentos, minerao
opinio) bem como a anlise de sries temporais e predies esto
disponveis. RapidMiner
19

Pgina 24

2. Primeiros passos

Estdio nos permite usar visualizaes fortes como 3-D grficos, matrizes de
disperso e de auto-organizao mapas. Ele permite que voc transformar seus
dados em totalmente personalizvel, grficos exportveis com suporte para
zoom, pan, e rescaling para o mximo impacto visual.

2.1 Instalao e primeiro repositrio


Antes de podermos trabalhar com RapidMiner Studio, voc obviamente
precisa baixar e
instalar o software em primeiro lugar. Voc vai encontr-lo na rea de
downloads do RapidMiner
local na rede Internet:
http://www.rapidminer.com
Faa o download do pacote de instalao apropriado para seu sistema
operacional e
instalar RapidMiner Estdio de acordo com as instrues no site. todos
habitual
verses do Windows so suportados, bem como sistemas Macintosh, Linux ou
Unix.
Por favor note que uma data de up-to-Java Runtime (pelo menos a verso 7)
necessrio para
o ltimo.
Se voc est comeando RapidMiner Studio pela primeira vez, voc ser
solicitado a
criar um novo repositrio (Fig. 2 0,1) . Vamos nos limitar a um repositrio
local
no seu computador antes de tudo - mais tarde, voc pode ento definir
repositrios no
rede, que voc tambm pode compartilhar com os outros:
Para um repositrio local voc s precisa especificar um nome (alias) e definir
qualquer
diretrio em seu disco rgido (Fig. 2.2) . Voc pode selecionar o diretrio
diretamente pelo
clicando no cone da pasta direita. aconselhvel criar um novo diretrio
em um local conveniente dentro da janela de ficheiros que, em seguida,
aparece e, em seguida, usar esse
novo diretrio como base para seu repositrio local. Isto serve como um
repositrio
local de armazenamento central para os seus processos e anlise de dados e ir
acompanh
voc no futuro prximo.
20

Pgina 25
2.2. Perspectivas e Visualizaes
Figura 2.1: Criar um repositrio local no seu computador para comear com o
primeiro uso
de RapidMiner Studio.
2.2 Perspectivas e Visualizaes
Depois de escolher o repositrio ser acolhido na Perspectiva Incio
(Fig. 2.3 ). A seo da direita mostra notcia atual sobre RapidMiner, se voc
estiver
conectado Internet. A lista no centro mostra as aes tpicas, que
voc vai realizar com frequncia aps o incio RapidMiner Studio. Aqui esto
os detalhes
daqueles:
1. Novo Processo: Abre a perspectiva de design e cria uma nova anlise
processo.
2. Abrir: Abre um navegador de repositrio, se voc clicar no boto. Voc
pode
escolher e abrir um processo existente na perspectiva de design. Se voc clicar
no boto de seta no lado direito, uma lista de processos abertos recentemente
aparece. Voc pode selecionar um e ela ser aberta na perspectiva de design.
21

Pgina 26
2. Primeiros passos
Figura 2.2: Definio de um novo repositrio local para armazenar seus dados
e anlises
Processos. aconselhvel criar um novo diretrio como base.
De qualquer maneira, RapidMiner Studio, em seguida, passar
automaticamente para o projeto
Perspectiva.
3. Assistente de aplicao: Voc pode usar o Assistente de aplicao para
resolver tpico
problemas de minerao de dados com seus dados em trs etapas. O
Marketing Direto
Assistente permite-lhe encontrar aes de marketing com a maior converso
Taxas. O Assistente de Manuteno Preditiva prev a manuteno necessria
actividades. O Assistente de Anlise Churn permite identificar quais os cus-
tomers so mais propensos a produzir e por qu. O Assistente de Anlise de
sentimento
analisa um fluxo de mdia social e d-lhe uma viso sobre clientes
pensando.
4. Tutoriais: Inicia uma janela tutorial que mostra vrios disponveis tutori-
als de criar o primeiro processo de anlise para a transformao de
dados. Cada
tutorial pode ser usado diretamente no RapidMiner Studio e d uma intro-
duo de alguns conceitos de minerao de dados usando uma variedade de
processos de anlise.
22

Pgina 27
2.2. Perspectivas e Visualizaes
Figura 2.3: Perspectiva Incio de RapidMiner Studio.
No lado direito da barra de ferramentas dentro da seo superior do
RapidMiner
Studio voc vai encontrar quatro cones, que alternar entre as RapidMiner
indivduo
perspectivas de estdio. Uma perspectiva consiste numa seleco de
livremente configurvel
elementos de interface de usurio individuais, os chamados pontos de
vista. Aqueles podem ser organizadas
Como voc quiser.
No Incio Perspectiva h apenas um ponto de vista, um predefinido, pelo
menos, a saber, a
tela inicial, que voc est olhando agora. Voc pode ativar mais visualizaes
por
acessando o menu View (Fig. 2.4) :
No subitem Show View voc vai encontrar todas as vistas disponveis de
RapidMiner
Estdio. Vistas, que so agora visveis na perspectiva atual, so marcadas com
um carrapato. Activar uma outra vista, fazendo uma seleco, por exemplo, a
vista com
o nome de Log. Voc vai ver agora na Fig. 2.5 que um segundo ponto de
vista com este nome
foi adicionado na Perspectiva Home.
23

Pgina 28
2. Primeiros passos
Figura 2.4: Ver menu.
Figura 2.5: As alteraes de tamanho entre vistas
Voc v o familiar Vista inicial eo novo View Log na parte inferior. Se vocs
mover o rato para a rea realada entre eles o cursor muda de forma
e indica que voc pode mudar os tamanhos das vistas arrastando, ento,
segurando
o boto do mouse e movendo o cursor. Sinta-se livre para experiment-lo.
24

Pgina 29
2.2. Perspectivas e Visualizaes
Como j foi sugerido, voc tambm pode alterar a posio dos pontos de vista
como voc gosta.
A fim de fazer isso, basta mover o cursor para a rea o nome da vista e
arraste a vista para outra posio. A posio na qual o ponto de vista seria
arranjado depois de soltar o boto do mouse destacado por um cinza
transparente
rea:
Figura 2.6: Arrastando o menor View Log para o meio e destacando a nova
posio.
Voc pode combinar pontos de vista individuais desta forma para criar vrios
cartes de arquivo, dizer-
ing que apenas um est sempre visvel. Ou voc pode arrastar o View Log a
partir de baixo
para a rea do lado direito, de modo que a diviso agora corre verticalmente e
no mais
horizontalmente. Voc pode at desencaixar uma viso completamente e
mov-lo fora do
janela RapidMiner Studio. Se voc gostaria de ver uma exibio em cheio por
um curto
tempo, ento voc pode maximizar a vista e minimiz-lo novamente mais
tarde. Isto tambm
feito se voc clique direito sobre a rea o nome de uma vista e selecione a
ao Maximizar.
Cada vista oferece-lhe as aes Close, maximizar, minimizar e retire como ele
apresentada na Figura 2.7.
25

Pgina 30
2. Primeiros passos
Figura 2.7: aes de vista
Essas aes so possveis para todas as vistas RapidMiner Estdio entre
outros. o
outras aes devem ser auto-explicativo:
1. Fechar: Fecha a vista na perspectiva atual. Voc pode re-abrir o
vista na corrente ou outra perspectiva atravs do menu View - Show
Viso".
2. Maximizar: Maximiza a vista na perspectiva atual.
3. Minimizar: Minimiza a vista na perspectiva atual. A vista
exibida no lado esquerdo da perspectiva e pode ser maximizado
novamente ou olhou para brevemente a partir da.
4. Separar: destaca a vista do ponto de vista actual e mostra que dentro
sua prpria janela, que pode ser movido para onde quiser.
Agora tenho um pouco de ir em organizar os dois pontos de vista de diferentes
maneiras. As vezes
um pouco de prtica necessria para soltar os pontos de vista em exatamente
a desejada
Lugar, colocar. Vale a pena experimentar um pouco com os arranjos no
entanto,
porque outras configuraes podem fazer o seu trabalho muito mais eficiente,
dependendo da tela
resoluo e preferncias pessoais.
s vezes voc pode inadvertidamente excluir uma viso ou a perspectiva
uninten-
cionalmente movido para posies particularmente desfavorveis. Neste caso,
o View
menu pode ajudar, porque para alm da possibilidade de reabrir vistas
fechados via
Show View, o estado original pode tambm ser recuperado a qualquer
momento via Restaurar
Padro Perspectiva.
Alm disso, voc tem a opo de salvar suas prprias perspectivas sob uma
livremente
nome selecionvel com a ao New Perspective (Fig. 2.4 ). Voc pode
entre as perspectivas salvos e pr-definidos, quer no menu View ou em
do lado direito da barra de ferramentas.
26

Pgina 31
2.3. projeto Perspectiva
2.3 Projeto Perspectiva
Como j mencionado no incio, voc vai encontrar um cone para cada (pr-
definido)
perspectiva dentro da rea do lado direito da barra de ferramentas:
Figura 2.8: cones da Barra para Perspectives
Os cones mostrados aqui lev-lo para as seguintes perspectivas:
Incio Perspectiva: A Perspectiva Bem-vindo j descrito acima, que
RapidMiner recebe com aps o incio do programa.
Projeto Perspectiva: Esta a perspectiva central RapidMiner estdio onde
todos os processos de anlise so criados, editados e gerenciados.
O resultado Perspectiva: Se fornece um processo resulta na forma de dados, os
modelos, ou
similares, em seguida, RapidMiner Estdio leva voc a esta perspectiva. Ele
fornece
estatsticas, grficos, grficos avanados e muito mais.
Perspective Wizard: Essa a perspectiva, que mostra a Aplicao
Assistente para aplicar problemas de minerao de dados tpicos em seus
dados.
Voc pode alternar para a perspectiva desejada clicando no interior da barra de
ferramentas ou alter-
nativamente via a entrada de menu View - Perspectivas, seguido pela
seleo
da perspectiva alvo. RapidMiner Estdio acabar por mudar para outra
perspectiva, se parece uma boa idia, por exemplo, para a Perspectiva
Resultado em completar
um processo de anlise.
Agora mude para a perspectiva de design, clicando na barra de
ferramentas. Ele ser tratado
em detalhes nesta seo. A Perspectiva resultado o tema do captulo 4.
Agora voc deve ver a tela na Figura 2.9.
Desde a perspectiva de design o ambiente de trabalho central da RapidMiner
Studio, vamos discutir todas as partes da perspectiva de design separadamente
na se-
27

Pgina 32
2. Primeiros passos
mugido e discutir as funcionalidades fundamentais da vista associada.
Figura 2.9: Projeto Perspectiva de RapidMiner
2.3.1 Operadores e Repositrios Ver
H duas vises muito significativos nesta rea, pelo menos na configurao
padro,
os quais so descritos a seguir.
operadores Ver
Todos os passos de trabalho (operadores) disponveis no RapidMiner Studio
so apresentados em grupos
aqui e pode, portanto, ser includos no processo atual. Voc pode navegar
dentro dos grupos de uma forma simples e navegar nos operadores previstos
para
o desejo do seu corao. Se RapidMiner Studio foi estendido com um dos
extenses disponveis, ento os operadores adicionais tambm podem ser
encontradas aqui.
28

Pgina 33
2.3. projeto Perspectiva
Figura 2.10: Projeto Operadores de RapidMiner
Sem extenses que voc vai encontrar pelo menos os seguintes grupos de
operadores do
estrutura de rvore.
Process Control: operadores tais como loops ou ramos condicionais que pode
controlar o fluxo do processo.
Utilidade: operadores auxiliares que, juntamente com o operador
Subprocess para grupo-
subprocessos ING, tambm contm as importantes macro-operadores, bem
como a
operadores de registro.
Acesso ao Repositrio: Contm operadores para ler e escrever o acesso em
repositrios.
Importao: Contm um grande nmero de operadores, a fim de ler os dados e
objetos
a partir de formatos externos, tais como arquivos, bancos de dados etc.
Exportao: Contm um grande nmero de operadores para gravar dados e
objetos em
formatos externos, tais como arquivos, bancos de dados etc.
29

Pgina 34
2. Primeiros passos
Data Transformation: Provavelmente o grupo mais importante na anlise em
termos de dimenso e relevncia. Todos os operadores esto localizados aqui
para transformar
ambos dados de meta dados e.
Modelagem: Contm o processo real de minerao de dados, como
metanfetamina classificao
ODS, mtodos de regresso, de agrupamento, ponderaes, mtodos para
associao
regras, correlao e similaridade analisa bem como os operadores, a fim de
aplicar os modelos gerados para novos conjuntos de dados.
Avaliao: Operadores que pode calcular a qualidade de um modelo e, assim,
para
novos dados, por exemplo cruzadas validaes, bootstrapping etc.
Voc pode selecionar operadores dentro do Operadores Ver e adicion-los no
desejado
colocar no processo de arrastar e soltar. Voc conectar os operadores pelo
desenho de um
A linha entre os portos de operadores de sada e de entrada. Voc tem a
escolha
se deseja que os operadores de ser ligado automaticamente, quando inserido.
Selecione o smbolo plugue no lado esquerdo da barra de ferramentas do
modo de exibio (na Figura
2.11 ) e definir se ligaes de sada e / ou entrada devem ser criado
Automaticamente.
Figura 2.11: Aes e filtros para os operadores Ver
A fim de tornar o trabalho to fcil para voc quanto possvel, os operadores
Ver tambm
suporta filtro, alm disso, que pode ser usado para procurar partes do nome do
operador
ou o nome completo do operador. Basta digitar a palavra de pesquisa no
campo de filtragem.
Assim como existem menos de 10 hits de busca por completo, a rvore
aberto
para revelar todos os hits de busca. Isso significa que voc no precisa para
navegar atravs do
hierarquia completa de cada vez. Ao clicar na cruz vermelha ao lado do
campo de pesquisa
apaga o que est inserida e fecha-se a rvore novamente.
Os cones ao lado do campo de pesquisa pode filtrar operadores obsoletas e
classificar os operadores de acordo com os operadores mais usados.
30

Pgina 35
2.3. projeto Perspectiva
Dica: Os profissionais vo conhecer os nomes dos operadores necessrias
mais e mais
freqentemente como o tempo passa. Alm da busca pelo nome (completo), o
campo de pesquisa tambm suporta uma pesquisa com base nas letras iniciais
(chamado caso camelo
pesquisa). Apenas tente Rex para Leia Excel ou DN para Data de
nominal e
Data para numrica - isso acelera a busca enormemente.
repositrios Ver
O repositrio um componente central de RapidMiner Estdio que foi intro-
duzido na Verso 5. Ele usado para o gerenciamento e estruturao de seu
anal-
ysis processos em projectos e ao mesmo tempo como uma fonte de dados,
bem
como dos metadados associados. Nos prximos captulos vamos dar uma
detalhada
descrio de como usar o repositrio, ento vamos apenas dizer o seguinte
neste
etapa.
Aviso: Uma vez que a maioria da RapidMiner Studio suporta fazer uso de
meta
dados para o processo de design, recomendamos que voc use o RapidMiner
repositrio, uma vez que de outro modo (por exemplo, no caso de dados a ser
lida directamente a partir de
arquivos ou bancos de dados) os metadados no estar disponvel, o que
significa que numerosos
No ser oferecido suporte.
2.3.2 Viso de Processos
A visualizao do processo (Fig. 2. 12) mostra os passos individuais dentro da
anlise
processo, bem como suas interconexes. Novos passos podem ser adicionados
corrente
processo de vrias maneiras. As ligaes entre estes passos pode ser definida e
destacada novamente. Finalmente, ainda possvel definir a ordem das etapas
neste
perspectiva. As prximas sees mostram como usar o Processo View.
2.3.3 Operadores e Processos
Trabalhando com RapidMiner Estdio consiste fundamentalmente na
definio de anlise pro-
cessos por indicando uma sucesso de etapas de trabalho individuais. Em
RapidMiner Studio,
31

Pgina 36
2. Primeiros passos
Figura 2.12: No processo Ver os componentes do RapidMiner, o chamado
operadores, esto ligados
estes componentes do processo so chamados operadores. O operador
definida por vrias
coisas:
A descrio das entradas esperadas,
A descrio das produes,
A aco realizada pelo operador nas entradas, o que acaba por conduzir
ao fornecimento das sadas,
Um nmero de parmetros que podem controlar a ao executada.
As entradas e sadas de operadores so gerados ou consumida por meio de
portas. UMA
porta espera que um tipo especfico de entrada. Veremos que um operador em
RapidMiner
32

Pgina 37
2.3. projeto Perspectiva
Estdio representado por um mdulo da seguinte forma, onde portas de
entrada esto
colocado sobre as portas laterais e de sada da esquerda esto colocadas no
lado direito:
A Figura 2.13: Um operador pode ser ligado atravs das suas portas de entrada
( esquerda) e de sada
portos (direita).
Uma tal lata operador por exemplo dados de importao do repositrio, um
banco de dados
ou de arquivos. Neste caso, no teria portas de entrada, embora pudesse ter um
parmetro pelo menos especificar a localizao dos dados. Outros operadores
transformar
suas entradas e retornar um objeto do mesmo tipo. Operadores que
transformam
dados pertencem a este grupo. E outros operadores continuam a consumir os
seus contributos e
transform-lo em um novo objeto: mtodos de minerao muitos dados vm
nesta categoria e fornecer um modelo para os dados de entrada de dados, por
exemplo.
A cor das portas indica o tipo de entrada de uma porta deve ser fornecido com.
Por exemplo, uma cor azulada indica que um exemplo conjunto
necessrio. Se o
metade superior da porta e o nome da porta so vermelhos, ento isso indica
um
problema. Este problema fcil de ver para o operador na figura 2 .13: no
ligado e as portas de entrada ainda precisa de uma ligao a uma fonte
adequada.
portas de sada so brancos, se o resultado no clara ou no pode (ainda) ser
fornecido em
a configurao atual. Assim que todas as configuraes necessrias esto
completas,
ou seja, todos os parmetros necessrios so definidos e todas as portas de
entrada necessrio ligado,
em seguida, as portas de sada so coloridas de acordo com o seu tipo.
A Figura 2.14: Os indicadores de estado de operadores
33

Pgina 38
2. Primeiros passos
Mas no s os portos podem visualizar seu status por meio de status diferente
indicadores, mas tambm o operador completo (Fig. 2.14 ). Estes so dados a
partir da esquerda
para a direita por:
luz de status: Indica se h um problema como parmetros que no tm
ainda sido definido ou portas de entrada no ligados (vermelho), se a
configurao
basicamente completa, mas o operador ainda no foi implementado desde
em seguida, (amarelo) ou se tudo est OK e o operador tem tambm j
foi implementado com sucesso (verde).
Tringulo: Indica quando h mensagens de status para este operador.
Breakpoint: Indica se a execuo do processo deve ser interrompido antes ou
AF
ter este operador, a fim de dar o analista a oportunidade de examinar
resultados intermdios.
Comentrio: Se um comentrio foi inserido para este operador, ento este
indicado
por este cone.
Subprocess: Esta uma indicao muito importante, uma vez que alguns
operadores tm um
ou mais subprocessos. Mostra-se por esta indicao se existe tal
um subprocesso. Voc pode clicar duas vezes sobre o operador em causa a
descer
para os subprocessos.
Se vrios operadores esto interligados, ento falamos de um processo de
anlise
ou processo para breve. Tal sucesso de passos pode, por exemplo, carregar
um conjunto de dados,
transformar os dados, calcular um modelo e aplicar o modelo para outro
conjunto de dados.
Tal processo pode ser em RapidMiner Estdio, como mostrado na
Figura 2.15.
Tais processos podem facilmente crescer a vrias centenas de operadores de
tamanho em RapidMiner
Studio e distribudos por vrios nveis ou subprocessos. As inspeces de
processo
continuamente executada em segundo plano, bem como os auxlios
navegao processo
mostrado abaixo garantir que voc no perder o controle e que voc definir
pro- correta
cessos, mesmo para tarefas mais complexas.
34

Pgina 39
2.3. projeto Perspectiva
Figura 2.15: um processo de anlise constitudo por vrios operadores. O cod-
cor
o dos fluxos de dados mostra o tipo de objecto transmitida.
Operadores Inserindo
Voc pode inserir novos operadores no processo de maneiras diferentes. Aqui
est o
detalhes das diferentes maneiras:
Via drag & drop dos operadores Ver como descrito acima,
Via clicar duas vezes sobre um operador na Operadores View,
Via de dilogo que aberta pelo menu de entrada Editar - Novo
operador. . . "
(Ctrl-I),
Via menu de contexto em uma rea livre da rea de processo branco e l
atravs da
submenu novo operador ea seleco de um operador.
Em cada caso, os novos operadores so, dependendo da configurao na
Operadores View,
quer automaticamente conectado com operadores adequados, ou as ligaes
tm
a ser feito ou corrigido manualmente pelo utilizador.
35

Pgina 40
2. Primeiros passos
Operadores de conexo
Depois de ter inserido os novos operadores, voc pode interligar os operadores
in-
serted. Existem basicamente trs maneiras disponveis para voc, que sero
descritos
na sequncia.
Conexes 1: automaticamente ao inserir
Se voc tiver ativado a opo de conexo automtica com o smbolo plugue
na Operadores View, em seguida, RapidMiner tentar se conectar ao operador
portas de sada adequados aps a insero. Se, por exemplo, o novo operador
tem uma
porta de entrada, que requer um exemplo conjunto, ento RapidMiner ir
tentar encontrar uma
operador que j poderia produzir um tal exemplo conjunto. Se h apenas um
opo, ento esta escolha clara eo operador est ligado. Se existem vrios
opes no entanto, RapidMiner vai tentar selecionar a opo que o mais
prximo de
a esquerda, por cima da posio actual do rato. O operador associado
marcado
com um quadro e uma sombra, como mostrado na Figura 2.16 . Desta forma,
voc pode
ajustar o curso para uma ligao correcta cedo durante a insero.
Dica: recomendvel que voc ativar a opo de ligao automtica para
as portas de entrada, pelo menos. Mesmo se o algoritmo de conexo com base
nos dados meta
ocasionalmente cria uma conexo errada, voc ainda salvar um monte de
trabalho para
todos os casos em que a conexo correta automaticamente reconhecidas.
Conexes 2: manualmente
Voc tambm pode interligar os operadores manualmente e isso mesmo
necessrio para
processos mais complexos. A fim de fazer isso, clique em uma porta de
sada. Agora vai
desenhar um fio laranja, como mostrado na Figura 2.17 . Clique em uma
porta de entrada no
a fim de conectar a porta de sada seleccionada com esta porta de entrada. A
fim de cancelar
o processo, segure o mouse ainda e clique com o boto direito do mouse.
A vertente de laranja ir desaparecer e voc pode continuar trabalhando
normalmente.
Conexes 3: totalmente automtica
s vezes, vrias operadoras j esto em um processo de (sub) e ainda no
esto
conectado. Neste caso, as opes Auto-wire e re-ligao pode atend-lo
36

Pgina 41
2.3. projeto Perspectiva
A Figura 2.16: O segundo operador destacada durante o processo arrastando
(Quadro mais sombra) e est de preferncia ligado com a nova op-
Erator se este ltimo est agora caiu e espera um exemplo definido.
bem como, que esto escondidos por trs do smbolo plugue no Processo
View. Isso funciona
particularmente bem se uma abordagem relativamente sequencial foi feita
quando o processo de
foi criado e os operadores foram devidamente alinhados um atrs do outro, ou
seja,
o operador anterior foi sempre marcado por um quadro e sombra durante a
insero.
sempre aconselhvel, no entanto, realizar um exame manual de seguir o
totalmente
conexo automtica desde conexes inesperadas podem ocorrer,
especialmente no
caso de processos mais complexos.
37
Pgina 42
2. Primeiros passos
Figura 2.17: Clique em uma porta de sada, a fim de conectar, clique direito de
cancelar.
Seleo de Operadores
No fim de editar os parmetros que voc deve selecionar um operador
individual. Voc ir
reconhecer o operador actualmente seleccionada pelo seu quadro de laranja,
bem como a sua sombra.
Se voc deseja executar uma ao por vrios operadores ao mesmo tempo,
para
exemplo mover ou apagar, basta seleccionar os operadores relevantes
arrastando um
moldar em torno destes.
Para adicionar operadores individuais para a seleo atual ou excluir indivduo
operadores da seleo atual, por favor, mantenha a tecla CTRL pressionada
enquanto voc
clique sobre os operadores relevantes ou adicionar novos operadores,
arrastando um quadro.
38

Page 43
2.3. projeto Perspectiva
movendo Operadores
Selecione um ou mais operadores, como descrito acima. Agora mova o cursor
para um
dos operadores seleccionados e arraste o mouse enquanto mantm pressionado
o boto. Todos
operadores seleccionados ser agora transferido para um novo local,
dependendo de onde voc
mover o rato.
Se, no curso deste movimento, vai chegar entrada da rea branca, em
seguida,
este vai ser automaticamente aumentada em conformidade. Se voc deve
atingir a borda do
a rea visvel, ento este tambm ser movido ao longo automaticamente.
Operadores de cpia
Selecione um ou mais operadores, como descrito acima. Agora pressione Ctrl
+ C para copiar o
operadores seleccionados e pressione Ctrl + V para col-las. Todos os
operadores selecionados sero
agora ser colocado para um novo lugar ao lado dos operadores originais, onde
voc pode mover
-los ainda mais.
Excluindo Operadores
Selecione um ou mais operadores, como descrito acima. Agora voc pode
excluir o selecionado
operadores de
Pressionando a tecla DELETE,
Selecionando a ao Delete no menu de contexto de um dos selecionados
operadores,
Por meio do menu de entrada Editar - Delete.
Excluindo Conexes
As ligaes podem ser excludas clicando sobre uma das duas portas enquanto
pressiona o
tecla ALT ao mesmo tempo. Alternativamente, voc tambm pode excluir uma
conexo via
39

Pgina 44
2. Primeiros passos
o menu de contexto dos portos em causa.
Navegando dentro do processo
Se olharmos para a barra de ferramentas do Processo View, ento podemos ver
que temos
s fez uso de uma ao to longe. Nesta seo vamos discutir o seguinte
quatro elementos no lado esquerdo da barra de ferramentas: a seta apontando
para a esquerda, a seta
apontando para a direita, a seta apontando para cima ea barra de navegao
(breadcrumb).
Figura 2.18: Aes na Viso de Processos
As aes individuais:
Seta que aponta esquerda: Volta ao ltimo local de edio de uma forma
semelhante ao
navegao que familiar a partir de navegadores de internet. Os passos
individuais pode
tambm ser ignorada atravs do menu pop-up.
Seta apontando para a direita: Retorna s mais recentes lugares de edio na
histria
de uma maneira similar navegao que familiar a partir de navegadores de
internet.
etapas individuais tambm pode ser ignorada atravs do menu pop-up.
Seta que aponta para cima: Deixe a subprocess atual e retornar ao maior
processo.
barra de navegao: A barra de navegao mostra o caminho do processo
principal para o
subprocess atual via todos os nveis passou. Clicando uma vez em um dos
os operadores vo mostrar o processo em causa. Voc pode navegar ainda
mais
para baixo usando as pequenas setas apontam para a direita.
Para descer, portanto, em um subprocesso, voc precisa clicar duas vezes
sobre um
operador com o cone subprocess na parte inferior direita. A fim de ir
um nvel de novo, voc pode navegar para cima usando a seta. O caminho
atual
40

Pgina 45
2.3. projeto Perspectiva
mostrado pela barra de navegao (Fig. 2,19) , o que pode alternativamente
ser usada para
navegar em ambas as direes.
Figura 2.19: Um subprocesso chamado Validation, que pode ser deixado
novamente usando o
seta que aponta para cima ou atravs da barra de navegao.
Definir a ordem de execuo
Em quase todos os casos, RapidMiner consegue determinar automaticamente
o cor-
ordem de execuo rect dos operadores. A fim de fazer isso, RapidMiner usa o
informaes de conexo e o fato de que um operador, cujo resultado a
ser utilizado por outro operador, deve, obviamente, ser executado antes do
ltimo.
No entanto, existem casos em que a ordem no pode ser definida
automaticamente como
como completamente subprocessos paralelas ou onde a ordem automtica no
correcta,
por exemplo, porque uma macro deve primeiro ser calculado antes que possa
ser usado como um
parmetro em um operador mais tarde. Mas tambm h outras razes que
muitas vezes desempenham
uma grande parte, tal como a manipulao de dados mais eficiente ou de uma
ordem exacta desejada para
execuo (para relatar, por exemplo).
41

Pgina 46
2. Primeiros passos
Para este fim, RapidMiner oferece um mtodo elegante para indicar a ordem
dos operadores e at mesmo para edio a ordem de execuo
confortavelmente. Por favor
clique no cone com a seta dupla apontando para cima e para baixo com o
ponto de interrogao na barra de ferramentas do Processo de Ver (Fig. 2.18 )
e o processo de vista
mostra a definio ordem dos operadores. Em vez do cone para cada
operador,
o nmero de sua execuo ser mostrado agora. A linha laranja transparente
conecta os operadores, por esta ordem, como mostrado na Figura 2.20.
Para alterar essa ordem de execuo, voc pode clicar em qualquer lugar que
um operador
Selecione-o. O caminho que leva a este operador pode agora no ser alterado,
mas ao clicar
novamente em outro operador tentar alterar a ordem de tal forma que
o segundo operador executado mais rapidamente possvel aps a
primeira. Enquanto voc
mover o mouse sobre os restantes operadores, voc ver a opo atual em
laranja-se para este operador e em cinzento a partir deste operador. Uma
escolha que
no possvel simbolizado por um nmero vermelho. Voc pode cancelar a
seleo atual
clicando com o boto direito. Desta forma, voc pode, como mostrado na
Fig. 2.21 , alterar a ordem
do processo descrito acima para o seguinte com apenas alguns cliques.
2.3.4 Outras Opes de Visualizao do Processo
Depois de ter discutido quase todas as opes deste elemento central do
RapidMiner
Projeto Perspectiva, vamos agora descrever as aes restantes na barra de
ferramentas,
o que pode ser visto na Figura 2 0,18, bem como outras possibilidades do
Processo
Viso.
Os cinco cones no lado direito da barra de ferramentas Viso de Processos
realizar a
seguintes aes:
conexes de fios Auto e Re-fio O smbolo plugue permite a auto-wire e
re-fios as ligaes entre os operadores.
Organizao automtica: Rearranja todos os operadores do processo atual
conformi-
ing s ligaes e a ordem de execuo atual.
Mostrar e alterar a ordem de execuo Esta aco permite-lhe ver a execuo
or-
42

Pgina 47
2.3. projeto Perspectiva
Figura 2.20: Representao da ordem de execuo. Esta ordem desfavorvel
No entanto, uma vez mais conjuntos de dados tm que ser tratadas ao mesmo
tempo.
der dos operadores e para mud-lo.
automtica de tamanho: Altera o tamanho da rea de trabalho branco de tal
maneira
que todos os operadores atualmente posicionados tem espao suficiente. Isto
43

Pgina 48
2. Primeiros passos
Figura 2.21: Nova ordem depois de algumas mudanas.
particularmente prtico para reduo automtica (otimizao de tamanho).
Atualizao de dados projetados meta: Se clicado, as informaes de dados
meta projetada em
os portos ser atualizado para corresponder aos dados reais aps a execuo
do operador.
Alm disso, o menu de contexto permite exportar o processo para PDF e
outros
44

Pgina 49
2.3. projeto Perspectiva
formatos e imprimi-lo.
2.3.5 Parmetros Ver
A Figura 2.22: Parmetros do operador actualmente seleccionada so
definidas no tros
vista eter.
Figura 2.22 mostra os parmetros de exibio de RapidMiner. numerosos
operadores
exigir um ou vrios parmetros a serem indicados para um funcionamento
correcto. Para
exemplo, os operadores que lem dados de arquivos exigem o caminho do
arquivo a ser indicado.
Com muito mais freqncia no entanto, os parmetros no so absolutamente
necessrias, embora
a execuo do operador pode ser controlado por indicando determinado
parmetro
valores e, no caso de modelao, tambm frequentemente ser optimizado.
Depois de um operador que oferece parmetros foi selecionado no Processo
View, a sua
parmetros so mostrados na Parmetros View. Como os outros pontos de
vista, essa viso
45

Pgina 50
2. Primeiros passos
tambm tem sua prpria barra de ferramentas que descrito a seguir. Sob a
barra de ferramentas
voc vai encontrar o cone e nome do operador selecionado no momento
seguido por
os reais parmetros. negrito significa que o parmetro deve ser absolutamente
definido e no tem nenhum valor padro. itlico significa que o parmetro
classificada
como um parmetro de especialistas e no deve necessariamente ser alterado
por debutantes
anlise de dados. A Figura 2.23 apresenta o visualizar os parmetros em
detalhe.
A Figura 2.23: Os parmetros do operador nominal at data.
Por favor, note que alguns parmetros so apenas indicado quando outros
parmetros tm
um determinado valor. Por exemplo, um nmero absoluto de exemplos
desejado apenas pode
ser indicada para o operador amostragem quando absoluto foi
seleccionado como
do tipo de amostragem.
As aes da barra de ferramentas referem, assim como os parmetros, para o
operador atualmente
selecionado.
Expert Mode: O cone nas chaves deixadas entre o modo perito e novato
46

Pgina 51
2.3. projeto Perspectiva
modo. Somente no modo expert so todos os parmetros mostrados; na
iniciante
modo os parmetros classificados como parmetros especialistas no so
mostradas.
Operador Info: Exibio de algumas informaes fundamentais sobre este
operador
tais como entradas esperados ou a descrio. Esta janela tambm exibido por
pressionando F1 aps a seleo, atravs do menu de contexto do Processo de
Ver como
bem como atravs do menu de entrada Editar - Show Operador Info. . . .
Activar / Desactivar: Os operadores podem ser (temporariamente)
desativado. suas conexes
so destacados e eles j no so executados. operadores desativados so
mostrado a cinzento. Os operadores tambm podem ser (de) activado dentro
de seu contexto
Menu no Processo de vista, bem como atravs da entrada do menu Editar -
Ativar
Operador".
Renomeie: Uma das maneiras de mudar o nome de um operador. Outras
formas esto pressionando F2
Aps a seleo, selecionando Renomear no menu de contexto do operador
no
Viso de Processos, bem como o menu de entrada Editar - Renomear.
Apagar: Uma das maneiras de excluir um operador. Outras formas esto
pressionando
APAGAR aps a seleo, selecionando Excluir no menu de contexto do
operador no processo de vista, bem como o menu de entrada Editar -
Delete.
Alternar Breakpoints: Breakpoints pode ser definido aqui antes e aps a exe-
cution do operador, em que a execuo do processo pra e intermedirio
os resultados podem ser analisados. H tambm essa possibilidade no menu de
contexto
do operador no processo de exibio, bem como no menu Editar. Um break-
ponto aps a execuo operador tambm pode ser ativado e desativado com
F7.
2.3.6 Ajuda e Comentrio Ver
Ajuda Ver
Cada vez que voc selecione um operador na Operadores Ver ou no Processo
View,
A janela de ajuda dentro da Ajuda Ver mostra uma descrio desse
operador. este
47

page 52
2. Primeiros passos
Figura 2.24: Ajuda textos so mostrados tanto para os operadores atualmente
selecionados no
Operadores View e para operadores atualmente selecionados no Processo
Viso. mostrando.
Descrio inclui uma breve sinopse que resume a funo do opera-
ator em uma ou algumas frases, uma descrio detalhada da funcionalidade do
operador e uma lista de todos os parmetros, incluindo uma breve descrio
do tros
eter, o valor padro (se disponvel), a indicao sobre se este parmetro
um parmetro especialista, bem como uma indicao de dependncias de
parmetros.
Comment Visualizar
Ao contrrio da Ajuda View, o Comentrio Ver no dedicado a pr-definidos
de-
scriptions mas sim para os seus prprios comentrios sobre os passos
individuais do processo.
Basta selecionar um operador e escrever qualquer texto sobre ele no campo de
comentrio. Isso vai
em seguida, ser salvos junto com sua definio do processo e pode ser til
para rastrear
etapas individuais no projeto mais tarde. O fato de que um comentrio est
disponvel para
48

page 53
2.3. projeto Perspectiva
um operador indicado por um cone de texto pequena no bordo inferior do
operador.
2.3.7 Viso geral Ver
Particularmente no caso de processos extensos, a rea de trabalho branco no
ser mais
ser suficiente e vai ser alargada, quer atravs do menu contexto do Processo
Ver, por meio das combinaes de teclas de Ctrl e a seta apontando para a
esquerda,
direita, para cima e para baixo, ou simplesmente por um operador arrastando
para o bordo.
Neste caso, no entanto, a rea de trabalho inteira no ser mais visvel ao
mesmo
tempo e navegao dentro do processo vai ser mais difcil. A fim de
melhorar a viso e fornecer uma maneira confortvel de navegar ao mesmo
tempo, RapidMiner Studio oferece a Viso geral Vista (Fig. 2.25 ), que mostra
a
rea de trabalho inteira e destaques da seo exibida atualmente com uma
pequena caixa.
Figura 2.25: A Viso View mostra todo o processo e destaca a vis
seo ible.
Voc vai ver que a seo se move dentro da Viso de Processos ao rolar -
agora
usando a barra de posicionamento ou simplesmente arrastando um operador
para a extremidade da seco.
Ou voc pode simplesmente arrastar a rea destacada nesta viso geral para o
local desejado
e Viso de Processos ir ajustar automaticamente.
49

Pgina 54
2. Primeiros passos
2.3.8 Problemas e View Log
problemas de exibio
Um outro elemento muito central e valiosa fonte de ajuda durante o projeto de
seus processos de anlise a problemas de exibio. Todos os avisos e
mensagens de erro
so claramente indicado na tabela aqui (Fig. 2,26) .
Figura 2.26: Representao de todos os problemas atuais.
Na primeira coluna com o nome Mensagem voc encontrar um pequeno
resumo do
o problema. Neste caso, o mtodo de minerao de dados Processo
Gaussian no
capaz de lidar com polinomial (multivalued categrica) atributos. A ltima
coluna
chamado local mostra o lugar onde o problema surge na forma de
o nome do operador e o nome da porta de entrada em causa. O cone no
lado esquerdo da barra de ferramentas Problemas de exibio ativa um filtro
que exibe apenas o
problemas do operador actualmente seleccionada. Isto prtico para o
processo de maior
com diversas fontes de erro.
H tambm a possibilidade de solues sugeridas para tais problemas e de im-
plementing-los diretamente. Estes mtodos de soluo so chamados de
solues rpidas. o
segunda coluna d uma viso geral de tais solues possveis, tanto
diretamente como texto
Se h apenas uma possibilidade de soluo ou como uma indicao de quantas
dife-
Existem possibilidades de ENT para resolver o problema. No exemplo acima,
existem dois
diferentes possibilidades de manuseamento do segundo problema. Mas porque
que esta soluo
sugesto chamado de soluo rpida? Apenas tente clicar duas vezes sobre a
correo rpida relevante
campo na tabela em tal caso. No primeiro caso, a sugesto de soluo seria
directamente executado e um operador relevante automaticamente
configurado e inserido
50

Pgina 55
2.3. projeto Perspectiva
de tal forma que o pr-tratamento necessrio ser executada. No segundo caso
com vrias possibilidades de soluo de um dilogo iria aparecer pedindo para
selecionar o
mtodo de soluo desejado. Neste caso, um ou mais operadores necessrias
seria
configurado e inserido de tal maneira que o problema no se coloca. Nisso
forma, voc pode reconhecer problemas muito cedo e, com apenas alguns
cliques, muito
confortavelmente elimin-los durante o processo de design.
Nota: A determinao de potenciais problemas, bem como a gerao de rpida
correes esto entre as funes de RapidMiner Studio que so dependentes
de meta
dados que esto sendo fornecidos corretamente. Recomendamos fortemente
que voc usar o repositrio,
pois de outro modo (por exemplo, no caso de leitura direta de dados de
arquivos ou bancos de dados)
os metadados no estar disponvel e, portanto, no ser oferecido estes apoios.
Ver registo
Durante o projeto, e em particular durante a execuo de processos,
numerosos
mensagens so gravadas ao mesmo tempo e pode fornecer informaes,
particularmente
em caso de um erro, a respeito de como o erro pode ser eliminado por uma
mudado
desenho de processos.
A Figura 2.27: Outras informaes, particularmente na execuo do processo
e no
caso de um erro, podem ser encontrados na Vista Log.
Voc pode copiar o texto dentro do View Log (Fig. 2 0,27 como de costume e
process-lo
51

Pgina 56
2. Primeiros passos
ainda em outras aplicaes. Voc tambm pode salvar o texto em um arquivo,
apagar todo o
contedo ou pesquisar o texto usando as aes na barra de ferramentas.
52

Pgina 57
3 Estrutura do
processos de anlise
Ns tornou-se familiarizado com os elementos fundamentais da grfica do
usurio in-
terface de RapidMiner Estdio no ltimo captulo, como perspectivas e pontos
de vista,
e discutidos os aspectos mais importantes da perspectiva de design de ao
rpida
Miner Studio. Gostaramos agora de fazer uso das novas possibilidades, a fim
para definir e executar um processo de anlise simples inicial. Voc vai logo
perceber
como prtica que, com RapidMiner Studio, voc no precisa executar
o processo novamente a cada mudana, a fim de determinar o efeito da
mudana.
Mas mais sobre isso mais tarde.
3.1 Criando um novo processo
Se voc agora selecione a ao Novo a partir da perspectiva inicial, o
New
cone do lado esquerdo da barra de ferramentas principal RapidMiner Studio
ou o associado
entrada no menu Arquivo: Um novo processo de anlise criado em cada
caso, que
voc pode trabalhar na seguir.
Sugesto: Recomendamos para salvar o processo em seu repositrio, quando
ele criado.
53

Pgina 58
3. Projeto de processos de anlise
3.2 Aes do Repositrio
Em princpio, voc est completamente livre em como voc estrutura seu
repositrio. No
menu de contexto das entradas no navegador de repositrio e tambm no
repositrio
ver voc vai encontrar todas as entradas necessrias para a administrao de
seus dados e
processos, como voc pode v-los na Fig. 3.1.
Figura 3.1: O menu de contexto das entradas de repositrio, tanto no
repositrio
navegador e na vista repositrio, oferece todas as opes necessrias para
administrao.
Processo loja aqui: armazena o processo atual no local determinado
54

Pgina 59
3.2. aes do repositrio
Renomear: Renomeia a entrada ou o diretrio
Criar Pasta: Cria um novo diretrio neste lugar
Copiar: Copia a entrada selecionada para insero mais tarde em outros
lugares
Colar: cola uma entrada previamente copiado para este lugar
Copiar Local para rea de transferncia: Copia um identificador claro para
esta entrada ao Clip-
placa, ou seja, voc pode usar isso como um parmetro para os operadores, na
web
interfaces ou afins
Excluir: Exclui a entrada repositrio selecionado ou diretrio
Refresh: Atualiza a exibio
Open in do navegador de arquivos: Mostra o repositrio em um navegador de
arquivos. Este no reco-
Corrigido
Figura 3.2: Um repositrio estruturado em projectos e cada um deles
estruturado
De acordo com dados, processos e resultados.
55

Pgina 60
3. Projeto de processos de anlise
recomendvel que voc criar novos diretrios no repositrio para indivduo
projectos de anlise e nome estes conformidade. Ela nunca vai doer para
estruturar fur-
terap no mbito dos projectos, por exemplo, em estruturao mais
subdirectrios para projeto-
dados especficos, diferentes fases de transformao e anlise de dados, ou
para os resultados.
Um repositrio pode, assim, ter a estrutura como mostrada na Figura 3.2.
3.3 O primeiro processo Anlise
Aps a criao do processo, RapidMiner Estdio muda automaticamente para
a perspectiva de design e voc pode comear com o processo de design. Em
chap- mais tarde
ters vamos falar em detalhes sobre como carregar dados em RapidMiner
Studio e loja
-lo em seu repositrio. Nesta seo no entanto, a execuo bsica de processos

mais importante para ns e vamos, portanto, esperar um pouco antes de


analisar
dados reais.
Figura 3.3: A predefinio Projeto Perspectiva imediatamente aps a criao
de um
novo processo.
56

Pgina 61
3.3. O Processo de Primeira anlise
Contanto que voc no mudou a seleo e posies do indivduo
vista para a perspectiva de design, sua tela deve mais ou menos parecido com
o
um na Figura 3.3.
Vamos agora comear nosso novo processo que comea com a gerao de
dados que
pode trabalhar. Como j foi dito: Ns veremos em captulos posteriores como
podemos usar dados
a partir do repositrio ou mesmo importar-lo directamente a partir de outras
fontes de dados, tais como
bancos de dados ou arquivos usando operadores. Mas no momento vamos
colocar isso de lado
e gerar um conjunto de dados de pequena sinttica.
Por favor, expanda o grupo Utility na Operadores Ver e, em seguida, o
grupo
Gerao de Dados. Os nmeros entre parntesis ao lado dos grupos
individuais indi-
Cate o nmero de operadores para este grupo. Agora voc deve ver vrios
operadores
que pode ser utilizado para gerar um conjunto de dados artificial. Isto inclui o
operador
Gerar Dados de Vendas. Agora arraste este operador para a rea branca,
enquanto HOLD-
ing o boto do mouse e solt-lo l. O operador vai ser inserido
e tambm conectado diretamente dependendo da definio de ligao
automtica em
Operadores View. Se isso no acontecer, voc pode conectar-se manualmente
a sada
porta do novo operador com o primeiro porto resultado de todo o processo no
do lado direito da rea de trabalho branco. Alternativamente, seria,
naturalmente,
Tambm foi possvel inserir o operador usando a caixa de dilogo novo
operador, como
descrito no captulo anterior. De qualquer maneira, o resultado deve olhar
mais ou menos
Figura como 3,4.
Como voc certamente notou, o nome completo deste operador, Gerar Dados
de Vendas,
demasiado longo e cortado aps as primeiras letras. Mover o rato para este
operador e ficar l por alguns momentos. O nome ser mostrado agora na
ntegra
em uma pequena animao. Claro, voc tambm pode mudar o nome do
operador e dar-lhe
um nome mais curto.
Como voc pode ver, o indicador de status do operador na parte inferior
esquerda mo lado
amarela. Isto significa que o operador no produziu quaisquer erros, mas
tem
Tambm ainda no foi executado com sucesso. Ento voc tem apenas
totalmente configurado o
operador at agora, mas isso de forma alguma significa que ele tenha sido
executado diretamente.
Voc pode ver facilmente que a partir do fato de que o indicador de status, em
seguida, fica verde.
voc no tinha notado que voc j configurou o operador? Na verdade, a
57

Pgina 62
3. Projeto de processos de anlise
Figura 3.4: Um processo inicial e reconhecidamente muito simples, que gera
alguma
dados e exibe o resultado na Perspectiva resultado.
configurao era muito simples, neste caso especfico: No era de todo
necessrio para
definir qualquer parmetro do operador. Um indicador de status vermelho e
entradas nos problemas
Ver teria indicado tal necessidade de configurao.
3.3.1 Transformao de Dados Meta
Vamos agora lidar com um dos aspectos mais fascinantes da RapidMiner
Studio,
ou seja, a capacidade de calcular a sada de um operador ou processo de
antemo
e at mesmo fazer isso durante o tempo de design, assim, sem ter que carregar
o real
dados ou mesmo executar o processo. Isto possvel graas a chamada meta
transformao de dados de RapidMiner Studio.
claro que cada operador define a maneira pela qual os dados de entrada
recebidos
transformado. Esta sua tarefa no final do dia. A coisa especial sobre
RapidMiner Estdio, porm, que isso no pode ser feito apenas para dados
reais, mas
tambm para os metadados sobre esses dados. Isto tipicamente muito menos
volumosa
58

Pgina 63
3.3. O Processo de Primeira anlise
que os dados em si e d uma excelente idia de quais caractersticas de um
determinado
conjunto de dados tem. Os dados meta em RapidMiner Estdio equivale
essencialmente
descries conceito que discutimos anteriormente. Ele contm os nomes de
atributos de
o exemplo dado, bem como os tipos de valor e os papis dos atributos e
at mesmo algumas estatsticas fundamentais.
Tanto para a teoria, mas o que os metadados parecer na prtica isto , em
RapidMiner Studio? Em RapidMiner Estdio meta dados so fornecidos no
portos. Apenas passar por cima da porta de sada do operador recentemente
inserido com o
cursor e ver na Figura 3. 5 que acontece.
Uma dica aparece que descreve o resultado esperado da porta. primeiro o
nome do operador e do porta seguido pelo tipo de metadados. Nisso
caso estamos lidando com os metadados de um exemplo definido. O nmero
do
exemplos tambm pode ser inferida (100), bem como o nmero de atributos
(8).
Em seguida, vem uma descrio do caminho do objeto teria levado atravs
o processo durante uma execuo. Neste caso, o caminho tem apenas uma
estao, ou seja
a porta do operador de gerao. No entanto, a parte mais importante do
dados meta (pelo menos para um exemplo conjunto) a tabela que descreve a
meta
dados de atributos individuais. As colunas individuais so os seguintes:
Papel: O papel do atributo. Se nada for indicado, ento uma no- regulares
tributo
Nome: O nome do atributo
Tipo: O tipo de valor do atributo
Faixa: A faixa de valor do atributo, ento o mnimo eo mximo na
caso de atributos numricos e um excerto de valores possveis no caso de
atributos nominais
Missings: O nmero de exemplos em que o valor deste atributo
desconhecido
Comentrio: Um comentrio dependendo do atributo
Dica: Existem essas dicas de maior complexidade em diversos lugares em
ao rpida
Miner Estdio, tambm para as descries do operador, por exemplo, que so
indicados como
59

Pgina 64
3. Projeto de processos de anlise
Figura 3.5: Os meta-dados da porta de sada do operador gerar vendas
Dados".
uma dica de ferramenta na Operadores View. Voc pode ter tempo para ler a
dica de ferramenta e tambm
ajust-la em termos de tamanho, se voc pressionar a tecla F3 antemo.
Por favor note que os metadados podem muitas vezes representam apenas
uma estimativa e que
uma indicao exata nem sempre possvel. Isto explicado pelo fato de que
as peas
dos metadados so desconhecidos ou s pode ser indicado de forma
inadequada, por exemplo, com
60

Pgina 65
3.3. O Processo de Primeira anlise
a indicao <100 Exemplos para o nmero de exemplos. Mesmo assim,
os dados meta uma valiosa fonte de ajuda tanto para as decises de design
prximas
e para o reconhecimento automtico de problemas, bem como as sugestes
para a sua
soluo, ou seja, solues rpidas.
De volta ao nosso exemplo. analistas treinados iro reconhecer imediatamente
que os dados
devem ser chamados dados de transaes, onde cada transao representa uma
compra.
Ns demos os seguintes atributos para o nosso exemplo set:
ID de transao: indica um documento de identificao claro para as
respectivas operaes,
Cdigo da loja: Indica a loja onde a transao foi feita,
ID do cliente: Indica o cliente com o qual a transao foi feita,
ID de produto: Indica o ID do produto comprado,
categoria de produto: indica a categoria do produto comprado,
Data: Indica a data da transao,
quantidade: indica o nmero de objetos comprados,
preo nico: Indica o preo de um objeto individual.
Se olharmos para os dois ltimos atributos primeiros, ento vemos que,
enquanto o nmero e
o preo individual dos objetos so dadas dentro da transao, o associado
volume total, contudo, no . Em seguida, portanto, deseja gerar um novo
atributo
com o nome de preo total, cujos valores correspondem ao produto da
quantidade e preo nico. Para isso, vamos utilizar um novo operador
chamado Gerar
Atributos, que est localizado no grupoData Transformation-Atributo
Set Reduo e Transformao-Generation. Arraste o operador atrs
o primeiro operador e conectar a porta do gerador de dados de sada com o
porta de entrada do novo operador e conectar a porta de sada com a ltima
a sada do resultado do processo total. A tela deve ento olhar mais ou menos
como
Na Fig. 3.6.
Dica: Em vez de arrastar um operador para a Viso de Processos e voltar a
ligar o
61

Pgina 66
3. Projeto de processos de anlise
Figura 3.6: A de dados gerada em primeiro lugar e, em seguida, um novo
atributo produzido.
portas, voc tambm pode arrastar o operador sobre uma conexo
existente. Se voc mover
a posio do cursor exatamente para a conexo, este ltimo ser destacado e
o novo operador vai ser inserido directamente na ligao.
Mesmo que este processo iria funcionar agora, que visvel a partir do status
amarelo
indicadores e os problemas vazio Ver, em seguida, o segundo operador no
faria
calcular qualquer coisa sem uma nova configurao e o resultado final s seria
ser a mesma que depois de o primeiro operador. Ns, portanto, escolher o
novo operador
Gerar Atributos e selecion-lo desta forma. O display no parmetro
visualizar as alteraes em conformidade e os parmetros deste operador so
mostrados. o
parmetro substancial tem o nome descries de funes e configurado
em
o boto associado com um clique, como pode ser visto na Fig. 3.7.
Aps pressionar o boto com o nome Editar Lista (0), uma vontade de
dilogo
abrir dando-lhe a oportunidade de entrar no clculo desejado na Fig. 3.8.
Voc pode adicionar mais entradas em tais listas de parmetros individuais
com os dois
aes Adicionar entrada e remover a entrada e tambm excluir entradas
selecionadas. o
62

Pgina 67
3.3. O Processo de Primeira anlise
Figura 3.7: Os parmetros do operador Gerar Atributos.
Figura 3.8: Clculo do novo atributo preo total como um produto da
Quantidade e preo nico.
nomes dos parmetros desejados esto no cabealho da tabela. Adicionar uma
linha, digite o
nome do novo atributo esquerda e entrar na funo direita, que
computa esse novo atributo. Neste caso, simplesmente o produto de dois
outros
atributos. Confirme a sua entrada com Aplicar e o dilogo ser fechado. o
boto que diz Editar lista deve mostrar um 1 entre parnteses, o que
significa que voc
pode ver quantas entradas da lista de parmetros tem e, portanto, neste caso,
como
muitos novos atributos so gerados. agora podemos observar o efeito que a
adio
63

Pgina 68
3. Projeto de processos de anlise
do operador Gerar Atributos tem sobre os dados de meta. RapidMiner tem
j transformou a meta dados em segundo plano e voc pode ver o novo
metadados como um dica atravs da porta do operador (Fig. de sada 3,9) .
Figura 3.9: A meta-dados contm o caminho completo do objecto e re
alimentao, com exceo do atributo preo total recm-adicionado,
Inalterado
fcil de ver na linha Gerado por que a ltima coisa que o objeto resultou
a partir de agora o operador Gerar Atributos e foi anteriormente o opera-
tor Gerar Dados de Vendas. Alm disso, quase nada mudou - tanto
o nmero dos exemplos e os oito atributos originais ter ficado a
mesmo. No entanto, foi adicionado um nono atributo: Nossa atributo recm-
definido
64

Pgina 69
3.3. O Processo de Primeira anlise
Preo total tambm podem agora ser encontrados na tabela.
E o nosso processo ainda no foi executado, como voc pode ver apenas
olhando
os indicadores de status que ainda so amarelas. Agora voc pode se
perguntar: E?
Ento eu sei o resultado de antemo e sem execuo do processo. O que eu
ganho
a partir desse?". Bem, mais um monte. agora voc pode ver de relance o que
um determinado
operador ou processo (sub) est a fazer com os dados de entrada. Como os
dados meta tambm
consideravelmente menor do que os conjuntos de dados completos, este
exame tambm pode ser
desempenho muito mais rpido do que sobre os dados completos. Desta
forma, voc obter feedback em
menor tempo para saber se h um problema que pode tornar mais dados
transformao necessria e no apenas depois de um processo de anlise que
durou vrios
horas foi abortada com um erro. E por ltimo mas no menos importante,
RapidMiner Estdio pode
continuar o processamento da informao a partir dos dados meta e continuar
a apoiar
-lo no desenho do processo, por exemplo, atravs de apenas todos os atributos
que ainda esto
disponveis (e recm-gerado) a ser exibido na interface grfica do utilizador
enquanto atributos esto a ser filtrada.
Agora, tente o seguinte, por exemplo: Abra o grupo de transformao de
dados - At-
tributo Set Reduo e Transformao-Selecoe arraste o operador
chamado Select Atributos no processo - o ideal diretamente sobre a
conexo
aps o ltimo operador. Lembre-se que a conexo deve ser destacado ser-
fore voc soltar o operador, em seguida, ele ser corretamente reconectada
imediatamente.
Voc deve ter agora definiu o processo como na Fig. 3.10.
Selecione o novo operador e selecione a opo subconjunto em seus
parmetros para a
parmetro Tipo de filtro de atributo. Por favor note que um novo parmetro
chamado
Atributos tem aparecido agora. Esta em negrito, ento voc precisa defini-
lo
antes que voc poderia realizar o processo. Voc tambm pode ver isso a partir
do status vermelho
indicador do operador, bem como a partir da entrada na visualizao
Problemas. Voc
pode agora escolher a soluo rpida na visualizao Problemas clicando duas
vezes ou simplesmente
configurar o parmetro atributos: Mais uma vez, clicando em um boto,
desta vez
aquele que diz Selecionar Atributos .... Os parmetros deve ser como na fig.
3.11.
Agora pressione o boto que diz Selecionar Atributos ... e selecione os
atributos
Categoria de produto, id store e preo total da lista na caixa de dilogo
(Fig.
65

Pgina 70
3. Projeto de processos de anlise
Figura 3.10: Gerao de dados, gerao de um novo atributo, a seleo de um
subconjunto de atributos.
Figura 3.11: O parmetro atributos s aparece se subconjunto foi
escolhido
como o tipo de filtro.
66

Pgina 71
3.3. O Processo de Primeira anlise
3.12 ) que aparece tanto clicando duas vezes ou pressionando o boto na
centro, com uma seta apontando para a direita.
A Figura 3.12: atributos individuais ou subconjuntos podem ser seleccionados
ou mesmo suprimido com
o operador Selecionar Atributos.
Voc notou? O novo atributo preo total, que at agora s tinha sido
computados dentro da transformao de dados meta, j estava pronto para
voc
escolha aqui - sem que voc nunca ter executado o processo. Se voc
examinar o
meta-dados na porta de sada mais uma vez, voc vai ver que apenas os trs
selecionados
atributos so deixados mais o ID da transao, que tambm tem um papel
especial (o de
ID) e, portanto, no foi afetada pela seleo. Desde que gostaria de remover
este ID tambm, selecionar a opo incluir atributos especiais nos
parmetros de
o operador selecionar atributos e examinar os dados meta novamente: Agora
nica
os trs atributos desejados so deixados. Voc pode descobrir os efeitos destes
e todos
outros parmetros na descrio dos parmetros na Ajuda Ver e tambm em
a referncia operador.
Dica: uma regra bsica de RapidMiner Estdio que os operadores do grupo
Dados
67

Pgina 72
3. Projeto de processos de anlise
Transformaogeralmente s so executados em atributos regulares, assim
por diante os com-
um papel especial. No entanto, os operadores oferecem uma opo chamada
incluem especial
atributospara isso, o que significa que as mudanas tambm so aplicadas
para aqueles com uma
papel especial.
3.4 Processos Execuo
Agora estamos prontos e deseja executar o processo acabou de criar, pela
primeira vez.
Os indicadores de status de todos os operadores devem agora ser amarelo e
deve haver
Nenhuma entrada na visualizao Problemas. Nesse caso, deve ser possvel
para executar
o nosso processo que consiste dos trs operadores (para a gerao de dados,
calcular a
volume de negcios total para cada transao e atributos de filtragem) sem
quaisquer problemas.
Voc tem as seguintes opes para iniciar o processo:
1. Pressione o boto grande jogo na barra de ferramentas de RapidMiner,
2. Selecione o menu de entrada Processo - Run,
3. Pressione F11.
Figura 3.13: O boto play inicia o processo, voc pode parar o processo em
ser-
Tween com o boto de pausa e parada aborta o processo completamente.
Enquanto um processo est sendo executado, o indicador de status do
operador que est sendo executado em
cada caso se transforma em um cone de reproduo verde pequeno. Desta
forma, voc pode ver que ponto
o processo encontra-se na. Depois de um operador foi executado com xito, o
indicador de status depois muda e permanece verde - at que, por exemplo,
voc alterar uma
parmetro para este operador: Ento, o indicador de status ser amarela. O
mesmo
aplica-se a todos os operadores que se seguem. Isto significa que voc pode
ver muito rapidamente na
que os operadores uma mudana poderia ter um efeito.
68

Pgina 73
3.4. execuo de processos
O processo definido acima tem apenas um curto tempo de execuo e assim
voc dificilmente ter
a oportunidade de fazer uma pausa no processo de execuo. Em princpio,
contudo, voc pode
parar brevemente um processo em execuo com o smbolo de pausa, por
exemplo, a fim de ver uma
resultado intermdio. O operador est a ser executado ento terminado e
o processo ento interrompido. Voc pode reconhecer um processo que
ainda est em execuo, mas
atualmente pausado pelo fato de que a cor do cone de reproduo muda de
azul
para verde. Pressione o boto PLAY novamente para continuar a executar
ainda mais o processo.
Se voc no quiser apenas uma pausa no processo mas para abort-lo
completamente, ento
voc pode pressionar o boto de parada. Assim como quando a pausa, o
operador atualmente
sendo executado for concludo eo processo totalmente abortada imediatamente
depois. Por favor
note que voc pode alternar para a perspectiva de design imediatamente aps
abortar
o processo e fazer alteraes em processos, mesmo que a execuo do atual
operador est a ser terminado no fundo. Voc pode at mesmo iniciar novos
processos
e no precisa esperar para o primeiro processo a ser concludo.
Nota: Foi explicado acima que o operador que est sendo executado sempre
com-
cumpridos, se voc abortar. Isso necessrio para garantir a boa execuo dos
operadores.
No entanto, completando um operador pode precisar de muito mais tempo em
casos individuais
e tambm exigem outros recursos, como espao de armazenamento. Assim
quando voc est abortando
operadores muito complexos voc pode ver isso levando horas e exigindo
adicional
recursos, ento sua nica opo reiniciar o aplicativo.
3.4.1 Olhando para Resultados
Aps o processo foi terminado, RapidMiner estdio deveria ter mudado para
Perspectiva do resultado (Fig. 3.14 ). Se este no era o caso, ento voc
provavelmente
no conecte a porta do ltimo operador de sada com uma das portas de
resultado
do processo no lado da mo direita. Verifique isso e tambm verificar se h
outros possveis
erros, tomando as notas na visualizao Problemas em considerao.
Sinta-se livre para gastar um pouco de tempo com os resultados. Desde que o
processo acima no tem
ainda realizada qualquer modelao, mas apenas dados transformados, o
resultado consiste somente
de um exemplo dado. Voc pode olhar para os dados de meta de este conjunto
de dados e experimentar o
mesa alm de algumas das visualizaes em grficos ou grficos
avanados. Na prxima
69

Pgina 74
3. Projeto de processos de anlise
Figura 3.14: Depois de um processo foi executado com xito, voc pode olhar
para o
resulta na Perspectiva resultado.
captulo, vamos falar em detalhes sobre as possibilidades da Perspectiva
resultado. E se
voc deseja retornar perspectiva de design, ento voc pode fazer isso a
qualquer momento
usando os mtodos de comutao que voc est familiarizado.
Dica: Depois de algum tempo voc vai querer mudar com frequncia entre o
Projeto Per
spective eo resultado Perspective. Em vez de usar o cone ou as entradas do
menu,
voc tambm pode usar comandos de teclado F8 para alternar para a
perspectiva de design e
F9 para mudar para o resultado Perspective.
3.4.2 Pontos de interrupo
transformao de dados Meta uma ferramenta muito poderosa para apoiar a
concepo de
processos de anlise e tornando-se muito mais confortvel. No h
simplesmente nenhuma
mais a necessidade de realizar o processo com mais freqncia do que o
necessrio para pur- teste
levanta durante design. Na verdade, o resultado esperado j pode ser estimada
com
70

Pgina 75
3.4. execuo de processos
base nos dados de meta. Assim, a transformao de dados meta e propagao
deveria
revolucionar o mundo da anlise de dados um pouco: em vez de ter que
realizar
cada passo separadamente, como antes, a fim de configurar o lado do
operador, os resultados
de vrias transformaes podem agora ser previsto directamente sem qualquer
execuo.
Este , naturalmente, um enorme avano, em particular para a anlise de
grande
Conjuntos de dados.
No entanto, a necessidade surge em alguns casos de ir alm da meta dados
e vendo um resultado especfico em todos os seus detalhes. Quando o projeto
est sendo executado
geralmente nenhum problema para colocar o resultado desejado
(intermedirio) a uma porta de resultado
o processo e para executar o processo muito simples. Os resultados desejados
so ento
O resultado mostrado na perspectiva. Mas o que voc pode fazer se o processo
j tem
acabou sendo projetado e todas as portas de sada j est conectado? Ou se o
resultado intermedirio profunda dentro de um subprocesso intrincada? H,
naturalmente, uma
soluo sofisticada em RapidMiner Estdio para isso, tambm, que no faz
redesenhar necessrio qualquer processo. Voc pode simplesmente inserir o
chamado ponto de interrupo,
selecionando uma das opes Breakpoint Antes ou ponto de interrupo
aps a partir do
menu de contexto de um operador, como mostrado na Fig. 3.15.
Se um ponto de interrupo foi introduzido depois de um operador, por
exemplo, ento a execuo
do processo ser interrompido aqui e os resultados de todas as sadas
conectadas
portos ser indicado nos resultados Perspectiva. Isto significa que voc pode
olhar
a estes resultados sem ter que fazer mais alteraes no projeto do processo.
Um ponto de interrupo antes de um operador funes de forma semelhante a
um ponto de interrupo aps um
Operador: Neste caso, o processo ser interrompido antes da execuo deste
operador e os objectos ao lado das portas de entrada conectados deste
operador so
indicado. O facto de um ponto de interrupo est prximo de um operador
indicado por um
pequena smbolo vermelha na extremidade inferior do operador (Fig. 3.16) .
Ponta: A utilizao de ponto de interrupo aps, em particular,
relativamente frequente, que
por que esta ao tambm tem um atalho de teclado. Voc pode adicionar um
ponto de interrupo aps o
operador actualmente seleccionada ou remover todos os pontos de interrupo
momento presente, pressionando
F7 chave.
RapidMiner Estdio muda automaticamente para a Perspectiva Resultado no
caso
de um ponto de interrupo e mostra os resultados intermdios. Voc pode ver
que voc est em um
71

Pgina 76
3. Projeto de processos de anlise
Figura 3.15: Voc pode parar o ciclo do processo usando pontos de
interrupo e examinar in-
resultados termediate.
Figura 3.16: Um ponto de interrupo est definido antes ou aps este
operador.
breakpoint neste momento e no, por exemplo, no final do processo,
observando
em dois indicadores: Primeiro de tudo, o indicador de status no canto inferior
esquerdo mo canto
da janela principal do RapidMiner mostra uma luz vermelha, ou seja, um
processo est a correr
mas no est a ser activamente executadas no presente. Se nenhum processo
em tudo est funcionando
no presente, ento essa indicao seria apenas cinza. O segundo indicador
para um
breakpoint o smbolo jogo que agora verde em vez de azul (Fig. 3.17) .
72

Pgina 77
3.4. execuo de processos
Figura 3.17: O smbolo de reproduo verde indica que o processo est
atualmente em um
ponto de interrupo e pode continuar sendo executado se pressionado.
O processo pode agora ser iniciado novamente simplesmente pressionando o
smbolo de reproduo verde
e continuar a ser executado at a concluso ou at o prximo ponto de
interrupo. Voc
Pode, claro, abortar o processo completamente, como de costume,
pressionando stop.
73

Pgina 78

Pgina 79
E 4 Dados
resultado Visualization
Nas sees anteriores, vimos como a interface grfica do usurio de ao
rpida
Miner Studio construdo e como voc pode definir e executar processos de
anlise
com isso. No final de um processo tal os resultados do processo pode ento
ser
Os resultados indicados na Perspectiva. Mude agora a esta Resultados
Perspectiva por
clicando uma vez na barra de ferramentas. Isso ser tratado em detalhe dentro
deste chap-
Ter. Dependendo se voc j produziram resultados representveis, voc
deve ver agora, nas configuraes originais, pelo menos, aproximadamente a
tela mostrada na 4.1.
Caso contrrio, voc pode recriar essa perspectiva predefinida em View -
Restaurar De-
falha Perspectivecomo sempre. O Perspectiva O resultado o segundo centro
de Work
ing ambiente de RapidMiner estdio ao lado da perspectiva de design j
Discutido. Ns j discutimos o Repositories Ver direita. Nisso
captulo, portanto, incidir sobre o componente restante da perspectiva.
4.1 Resultado Visualization
J vimos que os objetos que so colocados nos portos resultado no
lado direito de um processo so automaticamente exibidos nos resultados
Perspective
aps o processo for concludo. A grande rea no lado superior do lado
esquerdo utilizada
aqui, onde a viso geral dos resultados tambm j exibidas, que discutiremos
no final deste captulo.
75

Pgina 80
4. Dados e Resultado Visualization
Figura 4.1: Resultado Perspectiva de RapidMiner.
Cada resultado atualmente aberto e indicado exibido como um guia
adicional em
esta rea como na Figura 4.2 . Estritamente falando, cada resultado tambm
um ponto de vista, que
voc pode mover para qualquer lugar que desejar, como de costume. Desta
forma, possvel olhar
em vrios resultados ao mesmo tempo.
Pode, claro, tambm prximo vises individuais, isto , guias, clicando uma
vez sobre o
atravessar no separador. As outras funcionalidades de pontos de vista, como a
maximizao tambm so
completamente disponvel para voc aqui. RapidMiner Studio ir fechar os
antigos resultados
antes que os novos resultados so exibidos.
4.1.1 Fontes para exibir resultados
Existem vrias fontes de onde voc pode ter resultados exibidos. Ns vamos
apresentar todas as maneiras para voc o seguinte:
76

Pgina 81
4.1. resultado Visualization
Figura 4.2: Cada resultado aberta apresentada como uma aba adicional na
grande rea
do lado esquerdo.
1. Abertura Automtica
J vimos que os resultados finais de um processo, objetos ou seja, que so
fornecido s portas de resultados sobre o lado direito durante o processo, so
exibidas
Automaticamente. O mesmo tambm se aplica para os resultados nos portos
ligados na
caso de um ponto de interrupo. Voc pode simplesmente recolher nos portos
resultado todos os resultados do processo
que voc deseja ver no final de um processo de anlise e todos eles so
mostrados
juntos nas abas dos resultados Perspectiva.
2. Resultados a partir de repositrios
A segunda opo para a exibio de resultados est a carregar resultados de
um de seus repos-
itories. Voc pode fazer isso atravs do menu de contexto de uma entrada
repositrio ou simplesmente
duplo clique sobre uma entrada. Claro, este processo no s recomendado
para
77

Page 82
4. Dados e Resultado Visualization
reviso dos resultados, mas tambm para a comparao com os resultados
anteriores.
3. Resultados de Portos
Uma terceira possibilidade para olhar para os resultados e at mesmo
resultados intermedirios display-
ing resultados que ainda se encontram nos portos. RapidMiner tenta
armazenar os resultados, que
foram fornecidos por operadores individuais, nos portos relevantes para um
tempo mais longo.
Se ainda houver resulta num porto, estes podem ser seleccionados e olhou
para a via
menu de contexto do porto:
Figura 4.3: Indicador de resultados que ainda esto em portas.
Voc pode conhecer esta abordagem de outras ferramentas de anlise de
dados: Voc adiciona um operador,
execut-lo e indicar os resultados atravs do menu de contexto ou atravs de
operadores especiais para
esta. Mesmo que essa abordagem parece intuitivo e fcil de usar para
pequenos conjuntos de dados, ns
pedimos que voc evite este mtodo, uma vez que ir levar a problemas mais
tardar durante
a anlise de grandes conjuntos de dados. Neste caso, uma cpia dos dados
teria que ser
realizada pronto em cada porta de modo que este resultado pode ser fornecida
mais tarde. RapidMiner
Estdio vai uma maneira completamente diferente aqui; uma maneira que
tambm promete maior
o sucesso a longo prazo: Os dados meta transformada e propagada por
o processo e os dados s so disponibilizados quando absolutamente
necessrio. este
tipo de anlise RapidMiner Studio combina, assim, a interatividade permitida
pela
dados meta estabelecida com a definio processo simples para a anlise de
conjuntos de dados,
incluindo grandes.
Nota: RapidMiner Studio tem uma gesto de memria sofisticada aqui. como
al-
pronto mencionado acima, os resultados so mantidos nos portos para um
tempo mais. Estes
resultados so apagadas assim que a memria de RapidMinder Studio ou
outro pro-
78

Pgina 83
4.2. Sobre Cpias e vistas de dados
gramas necessrios para isso necessrio. Isto significa: Os resultados podem
desaparecer da
portos e, em seguida, deixa de estar disponvel para visualizao. Esta uma
das razes
para a eficincia do RapidMiner Studio e por esta razo tambm
recomendamos
a visualizao automtica via portos ligados como descrito acima, uma vez
que a disposio
dos resultados garantida aqui.
4.2 Sobre Cpias e vistas de dados
O fato de que nenhuma cpia de dados desnecessrios so criados s vezes
uma fonte de
confuso. Isso se aplica em particular para a segunda possibilidade de exibir
re-
sultados mencionado acima, por exemplo atravs do menu contexto de
portas. Vamos supor que voc
tem um conjunto de dados e adicionar um operador para a normalizao. Na
sua memorizao, a nor-
malisation operador muda os dados subjacentes. Mesmo se voc olhar para os
dados
fixada a um porta que antes de a normalizao no fluxo do processo, mas
chronolog-
camente aps a normalizao j foi realizado, em seguida, os dados na porta
tambm ter mudado de antemo. Este comportamento deve realmente ser
muito clara
- como mencionado anteriormente, nenhuma cpia dos dados foi criado, quer
e ao mesmo
conjunto de dados foi alterado mais. E, no entanto este comportamento
estranho de descontrolado
alteraes de dadosleva confuso de tempos em tempos.
No entanto, voc tem duas maneiras de influenciar este comportamento:
1. Use de visualizaes: Numerosos operadores para transformaes de dados
oferecem uma tros
eter criar vista, que, em vez de causar uma alterao nos dados, apenas
faz com que uma outra vista para ser colocado sobre os dados, que altera os
dados on-o-
voar, ento durante o acesso de dados. Estes clculos no, ento no afeta
anterior
portos ou at mesmo portas noutras vertentes, paralelas do processo.
2. cpias explcito: Especialmente para conjuntos de dados mais pequenas, a
combinao do
operadores Multiply com dados Materialise pode ser uma sada. Voc
como analista pode definir explicitamente o seu desejo de ter uma cpia dos
dados
por primeiro multiplicando a referncia ao conjunto de dados por meio de
Multiply
e ento re-criao de ambos os conjuntos de dados virtuais como tabelas por
meio de explicitamente
Dados Materialise.
79

Pgina 84
4. Dados e Resultado Visualization
Nenhum analista vai fazer a srio este muito trabalho apenas para ser capaz de
acessar os resultados
atravs dos portos. Mas essas interconexes podem surgir de vez em quando,
mesmo em
cordes paralelos de processos, e, em seguida, ser resolvida, dependendo do
tamanho do
conjunto de dados por meio de pontos de vista ou mesmo cpias explcitas.
4.3 Formatos de exibio
No entanto, os resultados entrou na Perspectiva Resultado, cada resultado
exibido dentro
seu prprio carto de arquivo. E, alm disso, h outras formas diferentes de
apresentar um
grande nmero de resultados, que tambm so referidos como pontos de vista
dentro RapidMiner
Estdio:
Figura 4.4: As visualizaes dados (actualmente mostrado), Statistics,
grficos e Ad
vanced Chartsexistir para um conjunto de dados.
Para conjuntos de dados, por exemplo, existem trs pontos de vista, ou seja, a
exibio dos dados
em si ( Data View), meta dados e estatsticas ( estatsticas de
visualizao), o display
de diferentes visualizaes ( Charts View) e o visor avanado de diferente
visualizaes. No exemplo acima, voc pode ver a exibio de dados de um
conjunto de dados em
80
Pgina 85
4.3. Formatos de exibio
a forma de uma tabela. Alm de tais tabelas, novos formatos de exibio
padro so
disponvel, o que ns gostaramos de explicar a seguir.
4.3.1 Descrio
A forma mais fundamental de visualizao que em forma de texto. Alguns
modelos como
bem como numerosos outros resultados podem ser apresentados em forma
textual. Este tipicamente
feito dentro do chamado Descrio View, que voc pode selecionar (se
houver
vrios pontos de vista para esse objeto) usando os botes no lado esquerdo da
guia.
Em RapidMiner Studio voc pode sempre destacar tais textos com o mouse e
copiar para a rea de transferncia com Ctrl + C. Os resultados so, ento,
disponvel em outra
Os aplicativos tambm. Voc tambm pode realar textos mais longos
completamente clicando em
rea de texto seguido de Ctrl + A e, em seguida, copiar.
Figura 4.5: Alguns modelos, como os modelos so exibidos em forma
textual. Numerosos
outros objetos tambm oferecem um display em forma de um texto legvel.
4.3.2 Tabelas
Um dos formatos de vdeo mais frequentes de informao dentro RapidMiner

forma tabular. Isso no surpreendente para uma soluo de software com o


primrio
objetivo de analisar dados em estruturas tabulares. No entanto, as tabelas no
so utilizadas apenas
para a exibio de conjuntos de dados, mas tambm para a exibio de dados
de meta, ponderaes de influncia
fatores, matrizes, como as correlaes entre todos os atributos e para muitos
mais
81

Pgina 86
4. Dados e Resultado Visualization
coisas. Essas vises tm frequentemente o termo Tabela em seu nome,
especialmente
Se confuses devem ser temidos. Caso contrrio, tais tabelas so
simplesmente referido com
termos como Data View ou Estatsticas View.
Esquemas de cores
Quase todas as mesas em RapidMiner usar determinados cdigos de cores que
realam a
Viso geral. Com os conjuntos de dados, por exemplo, as linhas so mostradas
alternadamente em diferentes
cores. Atributos com um papel especial dado um fundo amarelo claro aqui
e atributos regulares uma luz azul:
Figura 4.6: cdigos de cores e de linha alternada fundos tornar a navegao
eas-
ier dentro de tabelas.
Esta codificao de cores tambm transferido para os dados meta: atributos
com especial
papis tambm tm um fundo amarelo de forma consistente luz e atributos
regulares tm
um fundo azul e branco da luz alternada. No entanto, este esquema de cores
pode ser completamente diferente para outros objectos, como na Fig. 4.7 . No
caso de um
matriz de correlao, por exemplo, clulas individuais tambm pode ser
colorido: o mais escuro
eles so, mais forte a correlao entre estes atributos.
82

Pgina 87
4.3. Formatos de exibio
Figura 4.7: Tabelas em RapidMiner muitas vezes indicam informaes
interessantes com
cores. Neste caso fundos mais escuros destacar cor- mais forte
es entre os atributos.
classificando
A maioria das tabelas podem ser classificados em RapidMiner com um
simples clique. Mova o cursor
mais ou menos no centro do cabealho da coluna e clique sobre o ttulo. Um
pequeno
tringulo ir agora indicam a ordem de classificao. Um outro clique ir
alterar a classificao
ordenar e um terceiro clique ir desativar a classificao novamente.
Voc pode classificar tambm de acordo com vrias colunas ao mesmo tempo,
ou seja, ordenar por
uma coluna em primeiro lugar e, em seguida, por mais at duas colunas dentro
desta triagem. Dentro
Para fazer isso, inicie classificando a primeira coluna e classificar na ordem
desejada.
Agora pressione e segure a tecla Ctrl enquanto voc adicionar mais colunas
para a ordenao.
No exemplo a seguir temos classificadas as operaes de acordo com o ID de
a loja em primeiro lugar, e, em seguida, pela categoria do artigo. A fim da
colunas dentro desta triagem simbolizado por tringulos de tamanhos
diferentes, que vo
83

Pgina 88
4. Dados e Resultado Visualization
de grande para pequena (Fig. 4,8) .
Figura 4.8: A classificao foi realizada pela primeira vez nesta tabela por
ordem ascendente de acordo
ao atributo id store e, em seguida, de acordo com a categoria de produto
dentro dos blocos Cdigo da loja, tambm em ordem crescente.
Nota: A classificao pode ser demorado. , portanto, desativado para tabelas
grandes,
de modo que nenhuma classificao iniciado inadvertidamente eo programa
no pode ser usado em
desta vez. Voc pode definir o valor limite no qual a classificao desativado
no
configuraes em Ferramentas - Preferncias.
movendo Colunas
Voc pode alterar a ordem das colunas na maioria das mesas clicando na
coluna
ttulo e arrastando a coluna para uma nova posio, mantendo o mouse
boto. Isso pode ser prtico se voc quiser comparar o contedo de duas
colunas
uns com os outros em grandes mesas.
Ajustar largura das colunas
Voc pode ajustar a largura das colunas, mantendo o cursor sobre a rea entre
duas colunas e mudando a largura da coluna esquerda da separao
84

Pgina 89
4.3. Formatos de exibio
rea enquanto mantm pressionado o boto do mouse. Alternativamente, voc
tambm pode duplo-
clique sobre esta lacuna, o que faz com que a largura da coluna esquerda do
intervalo
seja ajustado automaticamente para o tamanho mnimo necessrio. Por ltimo
mas no menos importante,
voc tambm pode segurar a tecla Ctrl para baixo quando voc clicar duas
vezes em uma lacuna, fazendo com que o
tamanho de todas as colunas para ser adaptado automaticamente.
Dica: Voc deve observar esta combinao (CTRL + clique duas vezes sobre
uma lacuna no
rea de ttulo de coluna) para que voc possa rapidamente ajustar a largura das
colunas.
Aes no menu de contexto
Na maioria das mesas voc pode abrir um menu de contexto com outras aes
clicando com o boto direito
em uma clula da tabela. Os detalhes dessas aes so:
1. Selecione Row: Seleo de uma linha,
2. Selecione Coluna: Seleo de uma coluna
3. Ajustar largura da coluna: Ajustar a largura da coluna seleccionado
4. Coloque todas as larguras de coluna: Ajustar todas as larguras de coluna
5. Largura das colunas Igualdade: Usando mesma largura padro para todas as
colunas
6. Ordenar por coluna (ascendente): Triagem por esta coluna em ordem
ascendente
7. Ordenar por coluna (decrescente): Triagem por esta coluna em ordem
decrescente
8. Adicionar Colunas de triagem (ascendente): Adicionando s colunas de
triagem (como-
cending)
9. Adicionar Colunas ordenao (decrescente): Somando-se as colunas de
classificao (de-
scending)
10. Ordenar Colunas por nomes: Reordenando colunas, classificando a
cabea- coluna
ings em ordem alfabtica
11. Restaurar Coluna Ordem: Restaurar a ordem coluna original.
85

Pgina 90
4. Dados e Resultado Visualization
Figura 4.9: aes como seleccionar linhas ou colunas, triagem contedo por
colunas
ou ajustar a largura das colunas esto disponveis em um menu de contexto.
Contedo de cpia de tabelas
Assim como com a exibio de texto acima, voc tambm pode realar clulas
individuais dentro
tabelas usando o mouse ou destacar a tabela completa clicando na tabela
e usando Ctrl + A. As aes tambm esto disponveis no menu de contexto
para destacar
linhas inteiras ou colunas. Voc pode copiar a rea selecionada para a rea de
transferncia
por meio de Ctrl + C e col-lo em outras aplicaes. Por favor, note que o
estrutura de tabela permanece como , se por exemplo voc colar em
aplicaes como
Microsoft Excel que suportam dados tabulares.
4.3.3 Charts
Uma das caractersticas mais fortes de RapidMiner Studio so a visualizao
numerosos
mtodos para dados, outras tabelas, modelos e resultados oferecidos no
Charts View
e Grficos Avanados View.
86

Pgina 91
4.3. Formatos de exibio
Configurando Charts
A estrutura de todos os grficos em RapidMiner Studio basicamente o
mesmo. L
uma rea de configurao no lado da mo esquerda, o qual consiste em
vrios familiarizados
elementos:
Figura 4.10: Visualizao de um conjunto de dados e a configurao do
grfico na esquerda
lado.
A configurao mais importantes podem ser encontradas esquerda no topo e
corresponde ao
Tipo de visualizao. Mais de 30 2D diferente, 3D e at mesmo high-
dimensional
mtodos de visualizao esto disponveis para exibir seus dados e
resultados. No
imagem acima, voc ver um grfico do tipo Scatter. Dependendo do tipo
do grfico seleccionado, todos os campos definindo ainda mudar. Com um
grfico de disperso
exemplo, voc indica os atributos para o eixo x e para o eixo y e pode usar
um terceiro atributo para colorir os pontos. Voc pode fazer mais coisas
especficas para o
grfico de disperso, tal como se indicam os eixos esto a ser dimensionadas
de forma logartmica.
87

Pgina 92
4. Dados e Resultado Visualization
Dica: A funo Jitter muito til, especialmente para os conjuntos de dados
que no fazer
contm apenas nmeros, mas tambm os valores nominais. Voc indicar se e
como
agora, os pontos devem ser afastado de sua posio original em um aleatrio
direo. Voc pode, portanto, fazer pontos, que de outra forma seriam cobertos
por
outros pontos, facilmente visveis.
Muitos grficos tambm permitem mais opes de visualizao, por exemplo,
se o texto em
o eixo x deve ser girado para que textos longos ainda pode ser lido. Brincar
um pouco
com as configuraes e vrias possibilidades e em breve voc vai estar
familiarizado com o
inmeras possibilidades de visualizao.
Dica: Voc pode alterar as cores usadas nas configuraes em Ferramentas -
prefervel
ncias.
Alterar o tipo de grfico
A seleo do tipo de grfico define significativamente os parmetros que voc
pode
conjunto. Na Figura 4.11 voc pode ver um exemplo de uma barras
empilhadas tipo de grfico.
Em vez dos diferentes eixos de definir agora atributos de acordo com o qual
os dados
est a ser agrupados (aqui: id loja) e o atributo que deve ser usado para
definir
as pilhas (aqui: categoria de produto). A altura das barras em seguida
corresponde
soma (aqui: Agregao est em soma) do atributo definido como valor
coluna (aqui: montante).
Visualisations computao
Por ltimo, mas no menos importante, para ser mencionado aqui que
existem outras visualizaes
que so to complexos que devem ser computados especialmente. estes
visualisa-
es, como uma auto-Organizing Map (SOM), em seguida, oferecer um boto
chamado calcu-
finalcom a qual o clculo e a visualizao mostrado na Fig. 4.12 pode ser
comeado.
88

Pgina 93
4.3. Formatos de exibio
A Figura 4.11: Mudana da configurao do grfico em funo do tipo de
grfico.
4.3.4 Grficos
Os grficos so um formato de exibio ainda que so encontrados com
relativa frequncia em
RapidMiner. Grficos significa, basicamente, todas as visualizaes que
mostram os ns e
seus relacionamentos. Estes podem ser ns dentro de um agrupamento
hierrquico ou o
ns de uma rvore de deciso como na Figura 4.13.
Grficos como o da rvore de deciso so principalmente referido como um
Graph View
e esto disponveis sob este nome.
zoom
Usando a roda do mouse, se houver, voc pode zoom e fora do
Grficos. Alternativamente, voc tambm tem dois botes no lado superior
esquerdo da
rea de configurao com as quais voc pode aumentar e reduzir o nvel de
zoom do seu
grfico.
89

Pgina 94
4. Dados e Resultado Visualization
Figura 4.12: visualisations complexos como SOMs oferecer um boto
Calcular para
iniciar o clculo. O progresso indicado por uma barra.
A Figura 4.13: Uma rvore de deciso numa vista grfico.
90

Pgina 95
4.3. Formatos de exibio
Modo
Dois mtodos de navegao fundamentais esto disponveis no grfico, que
tambm so
chamados modos:
1. Mudana: O modo para mover o grfico seleccionada premindo a
esquerda
boto mo na caixa de modo. Neste caso, voc pode mover a seo do
grfico, mantendo pressionado o boto esquerdo do mouse para visualizar
diferentes
reas do grfico em detalhe.
2. Seleccionar: O modo para selecionar ns individuais seleccionado
pressionando
o boto direito na caixa de modo. Agora voc pode selecionar indivduo
ns, clicando sobre eles ou, enquanto mantm pressionado o boto do mouse,
definir
uma caixa de seleo em uma rea livre para vrios ns ao mesmo
tempo. mantendo
a tecla Shift voc pode adicionar ns individuais para a seleo ou excluir
-los da seleo. Os ns que so seleccionados actualmente pode ser movido
enquanto mantm pressionado o boto do mouse.
Voc vai encontrar mais notas sobre como lidar com grficos nestes dois
modos na ajuda
dilogo, que mostrado se voc clicar no boto Ajuda na rea de
configurao
do grfico.
outras Configuraes
Pode definir se as legendas para ns e arestas devem ser mostrado ou no.
A configurao mais importante, no necessariamente para rvores, mas para
outros grficos,
a escolha de um layout adequado, que pode ser feito na caixa de seleo
diretamente
abaixo da caixa de modo. Os algoritmos diferentes tm diferentes pontos
fortes e
fraquezas e voc geralmente tem que tentar e ver o monitor d o melhor
resultado
para o grfico na mo.
91

Pgina 96
4. Dados e Resultado Visualization
4.3.5 Exibies especiais
Juntamente com a descrio vistas, tabela, carta e grfico descrito acima, h
so tambm, ocasionalmente, outros componentes de exibio, que so mais
raros e no entanto
que deve ser auto-explicativo. Para itemsets frequentes Por exemplo, existe
outro tipo especial de tabela ou grfico para as regras de associao
relacionados.
4.4 Resultado Overview
J mencionamos o resultado Overview (Figura 4 .14) no incio, o que
sempre pode ser encontrado como uma espcie de espao reservado no lugar
em que os restantes
resultados tambm esto indicados:
Figura 4.14: O resultado Overview indica os resultados da ltima anlise
Processos.
92

Pgina 97
4.4. resultado Overview
O resultado Overview serve como uma viso compacta de todas as execues
de processos de
a sesso RapidMiner atual. Cada entrada de duas linhas consiste no nome do
processo, o nmero dos resultados, bem como informaes sobre quando o
processo
foi concludo e quanto tempo durou. Cada bloco de exibio de resultados do
mesmo
processo tm uma colorao alternativo.
Voc pode ver uma viso detalhada dos resultados clicando em uma
entrada. No caso
acima do resultado consiste em um exemplo dado e uma rvore de
deciso. Um outro clique
na entrada vai fech-la novamente. Pode, claro, tambm abrir vrias entradas
no
mesmo tempo e comparar os resultados confortavelmente ao faz-lo.
Duas aes esto disponveis para cada entrada no canto superior direito:
Para restaurar o processo pertencente a uma entrada neste formulrio e
Para excluir a entrada do resultado Overview.
Alm disso, voc tem a opo de excluir a viso completa no contexto
menus do Descries e das entradas individuais.
93

Pgina 98

Pgina 99
5 Managing
Dados: O Repositrio
Mesas, bancos de dados, colees de textos, arquivos de log, sites, valores
medidos - isto
e similares no incio de cada processo de minerao de dados. Os dados so
preparados,
convertida, fundiram, e no final voc vai receber novo ou diferente
representado
de dados, modelos ou relatrios. Neste captulo, voc vai descobrir como lidar
com tudo isso
objetos com RapidMiner Studio.
5.1 The Studio Repository RapidMiner
Assim que sua coleo de processos e arquivos associados excede um
determinado tamanho,
voc vai ver que sbio para organizar aqueles de uma forma consistente e
estruturada.
Uma possibilidade a organizao de projetos em nvel de arquivo. Os
arquivos so agrupados em
projetos e um diretrio criado em cada caso para dados de sada,
intermedirio
resultados, relatrios, etc.
Ao criar estruturas de projetos organizados sensata, usando o arquivo normal
de sis-
TEM recomendado apenas em casos raros e dificilmente suficiente para as
necessidades
de uma soluo de extraco de dados. razes diferentes, tais como a
confidencialidade ou limitada
espao de armazenamento pode fazer a criao de arquivos no computador
local impossvel. Se um pro-
cesso criado no computador local para ser executado em um servidor
remoto, este
requer intervenes manuais como copiar o processo e adaptando caminhos. o
criao colaborativa dos processos, a manipulao de dados e de avaliao de
resultados
95

Pgina 100
5. Repositrio
requer uma administrao direitos externos e verso. Os arquivos
armazenados em diferentes
formatos exigem a configurao correta de parmetros, tais como separadores
e codificao
para cada nova carga. resultados intermedirios e processo de variantes em
breve crescer a um
nmero considervel, o que significa que pode-se perder o controle
facilmente. Carregando e look-
ing em dados, a fim de recuperar uma viso geral exige um processo de
carregamento que pode
ser demorado ou mesmo a execuo de um aplicativo externo. Anotaes de
arquivos
o que pode tornar isso mais fcil no so suportados por sistemas de arquivos
normais.
A resposta de RapidMiner para todos estes problemas o repositrio, que
ocupa todo
dados e processos. Embora os dados tambm podem ser introduzidos em
processos de
fora do repositrio, que necessrio para a execuo de processos de ETL
para
exemplo, usando o repositrio oferece uma srie de vantagens que voc no
vai
querer perder:
Os dados, processos, resultados e relatrios so armazenados em locais
indicados relativa
para um outro num mecanismo que transparente para o utilizador.
Abertura ou carregar os arquivos no requer configuraes adicionais. Os
dados podem ser
abriu, olhou ou incorporado no processo com um nico clique. Voc
vai obter uma viso geral dos dados armazenados, suas caractersticas e
observaes feitas
por si mesmo, a qualquer momento, sem ter que abrir o arquivo
separadamente.
Todos os dados de entrada e de sada mais resultados intermdios so
anotados com
informaes meta. Isso garante a consistncia e integridade dos seus dados
e torna os processos possveis validar no momento do desenvolvimento, bem
como o fornecimento de assistncia sensveis ao contexto.
O repositrio pode ser tanto em um sistema de arquivos local ou
compartilhado ou de ser disponibilizado
pela RapidMiner servidor externo. A imagem seguinte mostra o repositrio
vista, que exibe o contedo do repositrio. RapidMiner Studio fornece um
conjunto de exemplos de processos e exemplo de dados que voc vai
encontrar no repositrio
inicialmente criado. Alguns destes pode ser visto na Figura 5.1.
96

Pgina 101
5.1. O Repositrio RapidMiner Estdio
Figura 5.1: A vista repositrio com um directrio exemplo aberto.
5.1.1 Criando um novo repositrio
A fim de ser capaz de usar o repositrio, voc deve primeiro criar
um. RapidMiner
Estdio pede-lhe para fazer isso quando iniciado pela primeira vez. Voc
pode mais tarde
97

Pgina 102
5. Repositrio
adicionar mais repositrios usando o primeiro boto na barra de ferramentas
do repositrio
Viso. As imagens seguintes mostram o procedimento simples. Se voc no
usar o
RapidMiner Server, selecione a primeira opo para criar um repositrio local
e, em seguida,
escolher Avanar. Agora dar o seu repositrio de um nome e escolha um
diretrio para que ele
ser criado em. Feche o dilogo com Concluir. Agora voc pode usar seu
repositrio.
Figura 5.2: Voc pode usar um repositrio em um RapidMiner servidor
compartilhado ou selecione um
repositrio local.
Figura 5.3: RapidMiner Estdio pede o nome e diretrio para um recm-cria-
ated repositrio local.
98

Pgina 103
5.2. Usando o Repositrio
5.2 Usando o Repositrio
Faz sentido usar uma estrutura de diretrio uniforme para projectos, por
exemplo, um
pasta do projeto com o nome do projeto e uma pasta de cada um dos
processos, a entrada
dados e resultados. Todos os exemplos deste manual seguir esta
estrutura. Voc pode
criar diretrios usando o menu de contexto na vista repositrio ou usando o
boto na barra de ferramentas no topo deste ponto de vista.
5.2.1 Processos e descries Repositrio relativos
Antes de discutir nas seces seguintes, como voc pode armazenar dados e
processos em
o repositrio e acesso estes novamente, gostaramos de primeiro dar alguma
fundamentais
dicas sobre referenciando esses objetos dentro do repositrio. Voc pode
armazenar processos
no repositrio selecionando o Processo de loja entrada no menu de contexto
ou selecionando a entrada apropriada no menu File. No ltimo caso,
o navegador repositrio abre, onde voc pode indicar o local de
armazenamento
o processo. Depois de um processo tenha sido armazenado no repositrio,
todas as referncias a
os dados do repositrio definidos como parmetros de operadores so
resolvidos em relao ao
localizao do processo. O que isso significa? Entradas no repositrio sejam
designadas como se segue:
// RepositoryName / Pasta / Subpasta / Arquivo
As duas barras no incio indicam que o nome de um repositrio
siga em primeiro lugar. Ento nomes mais pastas e, finalmente, um nome de
arquivo. Chamamos tal
Detalhes absoluta. Na descrio seguinte
/ Pasta / Subpasta / Arquivo
a designao repositrio est faltando na frente. Esta descrio por
conseguinte
repositrio-relativo. Refere-se ao processo referido no mesmo depsito, onde
o processo em que esta descrio usada est localizada. A barra na parte da
frente
indica uma descrio absoluta caminho. Se esta tambm ausente, a descrio
relativa seja resolvido:
99

Pgina 104
5. Repositrio
../RelativeFolder/File
designa, por exemplo, um arquivo na pasta RelativeFolder que chegar de
movendo-se ( ..) um diretrio do arquivo que contm o processo atual e
procurando a pasta RelativeFolder l. Ento, se o processo for localizado
para
exemplo no arquivo
// MyRepository / projecta / Processos / ProcessB,
esta descrio leva a
// MyRepository / projecta / RelativeFolder / Arquivo.
Nota: As descries acima, provavelmente soa mais complicado do que
realmente
so, na prtica. Enquanto, antes de mais nada, voc define um local dentro do
repositrio para cada novo processo e, em seguida, basta usar o navegador do
repositrio para todos
parmetros de operao que requerem uma entrada no repositrio,
RapidMiner Studio
assegurar, de forma totalmente automtica, que os dados relativos sempre
usado na medida do possvel.
Isso faz com que a reestruturao repositrio e fazer cpias para outros
usurios mais fceis em
particular, o que seria difcil com descries absolutos.
5.2.2 A importao de dados e objectos no Repositrio
Existem inmeras maneiras de importar dados e outros objetos como modelos
em
O repositrio. Vamos agora descrever as mais importantes.
Importando exemplo define com assistentes
Se voc tiver dados em um determinado formato e deseja us-lo em um
RapidMiner Estdio
processo, os chamados assistentes esto disponveis para voc para muitos
formatos de arquivos e bancos de dados.
Um assistente uma janela que orienta passo a passo atravs do processo de
carregamento.
Com todos os assistentes voc pode atribuir certos dados de meta, como tipos
de atributos, intervalos
de valores e papis para as colunas individuais. Na rea superior do
repositrio
voc vai encontrar um cone que inicia o assistente apropriado para o tipo de
arquivo selecionado.
Voc vai encontrar a mesma ao no menu Arquivo de RapidMiner
Studio. Finalmente,
100

Pgina 105
5.2. Usando o Repositrio
no h outra maneira particularmente simples para importar arquivos: Basta
arrastar o arquivo para ser
importados para a visualizao do processo, mantendo o boto do mouse. Se
possvel,
um operador apropriado ser ento criada.
O Operador Store
Se voc tem um processo de ETL ou outro processo, cujo resultado voc
gostaria
para armazenar no repositrio, voc pode fazer isso atravs da integrao do
operador Store
em seu processo.
Figura 5.4: O operador loja pode ser usado para armazenar todos os dados e
objetos em
O repositrio. O dilogo mostra o navegador de repositrio para que o
local de armazenamento pode ser especificada e aparece nos parmetros do
operador se o boto Directory clicado.
Usando o operador Gerar dados, o processo de exemplo nesta foto gener-
ates um conjunto de dados, o qual para ser armazenado no repositrio. O
operador Store
tem apenas um parmetro, local do repositrio. Se voc pressionar o boto
com o
101

Pgina 106
5. Repositrio
pasta prximo a este parmetro, voc obter um dilogo no qual voc pode
atribuir primeiro
uma pasta no repositrio e, em seguida, um nome para o conjunto de dados
(Figura 5.4) . Se vocs
executar o processo, voc ver que uma nova entrada aparecer no repositrio
contendo o conjunto de dados gerados. O operador de loja , portanto,
particularmente
til para processos de integrao e de transformao de dados que so para ser
per-
formada automaticamente ou regularmente, por exemplo, dentro do processo
de escalonador
o RapidMiner Server. Usando o assistente como descrito acima, sem dvida,
o
mais frequentemente usado maneira de garantir um one-off e integrao
bastante interativa de
dados.
Nota: Voc no s pode conectar conjuntos de dados com o operador de loja,
mas tambm modelos
e todos os outros objetos RapidMiner Studio. Portanto, voc pode tambm
armazenar qualquer resultado
em seu repositrio.
Importao de outros formatos com operadores
Os conjuntos de dados repositrio armazena em um formato que contm todos
os dados e metadados
necessria por RapidMiner Studio. Seus dados sero provavelmente em outro
formato em
o incio: CSV, Excel, bancos de dados SQL, etc. Como descrito acima, voc
pode
transferir esses arquivos em seu repositrio. No entanto, RapidMiner estdio
tambm pode
importar numerosos outros formatos dentro dos processos. Voc vai encontrar
operadores para esta
no grupo Import. No entanto, necessria cautela ao usar esses operadores:
A disponibilidade de dados de meta no garantida para esses operadores, o
que pode
conduzir, por exemplo para processos que assumem a existncia de certos
valores de atributo
nica notando quaisquer erros no tempo de execuo do processo. No entanto,
utilizando esses
formatos de arquivo, por vezes, no evitvel, por exemplo, para a execuo
regular de ETL
Processos. O objetivo desses processos deve ser, no entanto, transferir os
dados
para o repositrio com um operador de loja posterior de modo que ele pode
ser usado por
os processos de anlise de reais que se seguem.
Os operadores do grupo Import tm vrios parmetros adaptados para o
respectivo formato. Por favor, consulte a respectiva documentao do
operador para a sua
descrio.
102

Pgina 107
5.2. Usando o Repositrio
Armazenando objetos a partir do resultado ou Viso de Processos
Depois de ter executado um processo, o Perspective resultados com a guia do
mesmo nome apresentado a voc na configurao bsica. Do lado da mo
direita de sua
barra de ferramentas existe um boto com o qual voc pode armazenar o
resultado atualmente selecionado
no repositrio. Uma caixa de dilogo tambm aparecer aqui permitindo que
voc selecione uma pasta
e um nome.
Se o processo contm resultados intermedirios que no so (ou no)
indicados
Nos resultados Perspectiva, voc tambm pode armazenar estes a partir da
Viso de Processos. Dentro
Para fazer isso, clique em uma porta onde os dados esto presentes usando o
mouse do lado direito
boto. Este o caso nos portos de todos os operadores que j tm sada
sido executado. Voc vai reconhecer isso a partir da cor mais escura e uma
adequada
entrada na ajuda de contexto. Voc seleciona o item de menu loja em
Repository aqui
para armazenar o objeto. Tenha em mente, porm, que os dados nos portos
pode ser liberado novamente aps algum tempo, a fim de economizar
memria e, portanto,
no garantido para ficar nas portas para qualquer quantidade de tempo. Veja
tambm as
explicaes dadas no captulo anterior.
5.2.3 Acesso e Administrao do Repositrio
Depois de importar seus dados para o repositrio que voc pode us-lo em sua
processa com o operador recuperar. Voc pode arrastar o operador da opera-
ators Ver no processo, como de costume e definir o parmetro para o
repositrio
entrada l. Mas fica ainda mais fcil: Basta arrastar uma entrada no repositrio
(eg
um conjunto de dados) para a Viso de Processos usando o mouse. Um
operador com configurado
uma referncia a esta entrada ser agora automaticamente inserido aqui. Se a
entrada
um objecto, um novo operador do tipo Recuperar ser criado e configurado
adequadamente. Se a entrada de repositrio um processo no entanto, em
seguida, um novo operador de
do tipo Execute Process ser criada e seu parmetro ser automaticamente
referem-se ao processo seleccionado a partir do repositrio.
Voc vai encontrar mais formas de acessar o repositrio clicando uma vez
sobre
entradas no repositrio. Voc vai estar familiarizado com essas possibilidades
a partir do arquivo
103

Page 108
5. Repositrio
gesto do seu computador. Essas aes tambm esto disponveis atravs da
barra de ferramentas
da opinio de repositrio e so em grande parte auto-explicativo:
Processo loja aqui Armazena o processo atual para o local indicado
Renomear Renomeia a entrada ou o diretrio
Criar pasta Cria uma nova pasta aqui
Excluir Exclui a entrada repositrio selecionado ou diretrio
Copiar Copia a entrada selecionada para que possa ser colado em outros
lugares, mais tarde,
Colar Cola uma entrada previamente copiado para este lugar
Copiar Local para rea de transferncia Copia um identificador claro para esta
entrada para o Clip-
placa, ou seja, voc pode usar isso como um parmetro para os operadores, na
web in-
terfaces ou similares
Abrir processo Se voc selecionou um processo, o processo atual ser fechada
e o seleccionado um carregado
Atualizar Se o repositrio est localizado em um sistema de arquivo
compartilhado ou se voc usar ao rpida
Miner Server, o que significa que os dados podem ser alterados ao mesmo
tempo, por outro
usurios, voc pode atualizar a exibio do repositrio com este
5.2.4 O Contexto Processo
Ns j usamos as portas do processo de sada no lado da mo direita
do Processo de Ver, por exemplo, anteriormente, a fim de tornar os resultados
do processo
visvel no resultado Perspective. Alm das portas de sada do processo
H tambm portas de entrada, que voc vai encontrar no lado esquerdo do
Processo
Viso. Ns nunca ter ligado estes antes. Isso no nem vale a pena na
configurao bsica, pelo menos no para as fontes, porque o prprio
processo, ento no tem
entrada. Ligar as pias interior tem um efeito no entanto: Todos os objetos que
chegar a uma pia, no final do processo so apresentados na Perspectiva
Resultado
como resultado do processo.
104

Page 109
5.2. Usando o Repositrio
Estas portas de entrada e de sada do processo tem uma funo adicional no
entanto. UMA
processo tpico comea com um conjunto de recuperar os operadores, que so
seguidos por um
conjunto de operadores de processamento, e termina com um conjunto de
lojistas. Voc pode evitar
ter que criar estes operadores usando o contexto de exibio, que voc vai
encontrar
no menu View. Figura 5.5 mostra esse contexto de exibio.
Figura 5.5: O contexto do processo. Para Input voc indica os dados do
repositrio
quais so para servir como uma entrada do processo e ser colocado na entrada
portos do processo. Para Output voc indica onde os resultados em
o repositrio devem ser salvas.
No contexto Ver que voc tem a possibilidade de colocar dados de um
repositrio
nos portos de entrada e de escrever sadas de volta para o repositrio. Voc
pode dar
como uma indicao para cada porta. Isso tem duas vantagens:
1. Voc pode esquecer-se sobre os operadores para recuperar e armazenar, que
muitas vezes
faz o seu processo um pouco mais clara.
105

Pgina 110
5. Repositrio
2. Usando o contexto tambm prtica para os processos de ensaio que so
para ser
integrado por meio do operador Execute Process: os dados neste
operador vai substituir os valores definidos no contexto do processo.
5,3 de dados e metadados
Alm dos dados reais, RapidMiner Studio tambm armazena outras
informaes em
o repositrio: Dados sobre os dados, os chamados metadados. Tais dados meta

disponvel para cada tipo de objecto, e que pode ser particularmente til para
os modelos e
Conjuntos de dados. A meta informao armazenada para conjuntos de dados
inclui, por exemplo:
O nmero de exemplos
O nmero de atributos
Os tipos, nomes e funes dos atributos
As faixas de valores dos atributos ou algumas estatsticas fundamentais
mais o nmero de valores em falta por atributo.
Esta informao pode ser visto no repositrio sem carregar o conjunto de
dados
de antemo, o que pode levar algum tempo dependendo do tamanho. Basta
mover o
cursor sobre uma entrada de repositrio e ficar na entrada por alguns
segundos: O
metadados ser apresentado a voc na forma de um chamado dica. Ao
contrrio
em outros programas, esta informao ajuda muito mais poderoso do que o
normal:
Ao pressionar a tecla F3 voc pode transformar essa dica em um dilogo
adequado, o que voc
pode mover-se e mudam de tamanho que desejar. Alm disso, estes
RapidMiner
dicas estdio tambm so capazes de incluir outros que informaes textuais
elementos
com os dados de meta, como tabelas, por exemplo.
Por favor, note que as informaes meta no tem necessariamente de estar
disponvel
imediatamente. Voc pode ter que primeiro iniciar o carregamento dos dados
de meta por clique-
ing uma vez em um link dentro da dica. Fazer isso significa que, se as dicas de
ferramentas
dos dados do repositrio ser inadvertidamente olhou, o possivelmente muito
grande meta
106

Pgina 111
5.3. Dados e metadados
os dados so impedidos de ter de ser carregado imediatamente causando
RapidMiner
Estdio para abrandar.
Dica: Mantenha o cursor sobre uma entrada de repositrio para um curto
perodo de tempo, a fim de olhar para
os dados meta ou carreg-lo primeiro. Se a entrada for um resultado
intermedirio, por exemplo,
voc pode facilmente reconhecer o pr-processamento j ocorreu.
O quadro a seguir mostra o que os metadados para os dados golfe definido a
partir do ex-
amplo diretrio no repositrio de amostra fornecidos com aparncia
RapidMiner Estdio
como (Fig. 5. 6). Primeiro voc vai ver que o conjunto de dados contm 14
exemplos ( Num-
ber de exemplos) e 5 atributos (nmero de atributos). O atributo com
o nome Outlook nominal e leva os trs valores nublado, chuva
e ensolarado. O atributo Temperature, por outro lado numrica e
toma valores que variam 64-85 - dada em Fahrenheit claro. Finalmente, o
atributo Play nominal de novo, mas ainda tem um papel especial: ele
marcado como
"rtulo". O papel em itlico e dada antes do nome do atributo.
Figura 5.6: Os meta-dados dos dados de golfe definidos a partir do directrio
exemplo do
repositrio Amostra fornecido com RapidMiner Studio. Voc encontrar
o conjunto de dados chamado Golf no directrio dados neste repositrio.
107

Pgina 112
5. Repositrio
5.3.1 Propagao de dados meta a partir do Repositrio e
atravs do Processo
Voc j viu que os dados meta descrito acima acompanha o real
dados sobre o seu caminho atravs do processo RapidMiner Studio quando
voc cria o
processo. Como mencionado anteriormente, no entanto, absolutamente
necessrio para este
meta propagao de dados e transformao que voc capaz de gerenciar os
dados
em um repositrio RapidMiner Studio e obter os dados de meta deste. Por esta
razo pela qual gostaria de lembr-lo de e sublinham a necessidade de usar o
repositrio de dados e gesto de processos, a fim de fornecer suporte durante
desenho de processos.
Nesta seo, vamos realizar mais um exemplo para a concepo de um
processo,
s que desta vez vamos reverter para um conjunto de dados a partir do
repositrio RapidMiner Sudio.
Vamos, portanto, agora realizar o processo completo para a primeira vez,
desde o
recuperao dos dados para a direita atravs da criao dos resultados. Claro
que isso
processo seria tipicamente precedido por importao de dados para o
repositrio usando
um dos mtodos apresentados acima, mas neste caso vamos pular esta etapa e
basta usar um dos conjuntos de dados j fornecidos pelo RapidMiner Studio
em vez.
Carga, por exemplo, os dados fornecidos definir Iris usando um operador de
recuperar, simplesmente
arrastando a entrada em causa (no mesmo diretrio que os dados golfe j
definido
usado acima) para o Processo View. No executar o processo ainda
though. Inserir
a normalizar operador e conecte sua entrada com a sada do recuperar opera-
Tor. Defina o parmetro mtodo para transformao gama. Neste cenrio,
o
operador serve para escalar os valores numricos re-forma que o mnimo
actualmente
0 eo mximo atualmente 1. Selecione um atributo individual que voc deseja
para aplicar essa transformao para, por exemplo, a a3 atributo. Para isso,
definir
o tipo de filtro Tipo de filtro de atributo para single e selecione o atributo
a3 no
o parmetro atributo. Agora passar por cima da porta de sada de recuperar
primeiro com o
rato e, em seguida, atravs da porta de sada superior do operador
normalizar. Em ambos
casos, voc vai ver os metadados do conjunto de dados Iris. Voc vai notar,
porm, que
os dados meta do atributo seleccionado mudaram: A gama de valores de a3
agora normalizado para o intervalo [0,1] aps a transformao. Ou para ser
mais
preciso: O intervalo de valores de a3 seria no caso da execuo ser
normalizada
108

Pgina 113
5.3. Dados e metadados
para o intervalo [0,1].
Insira um novo operador, o operador Discretize por Frequncia. Ligue este
com o operador normalizar. Defina o parmetro tipo de nome de intervalo
para curta e
desta vez selecione outro atributo, por exemplo A2, com o mesmo
mecanismo
como acima. Agora passar por cima da porta de sada do novo operador com o
mouse
e observar como os dados meta mudou: O atributo selecionado agora
nenhuma
j numrica, mas nominal e leva os valores Range1 e Range2: Os
operador discretizao quebra a gama numrica de valores separados, com um
limite
valor e substitui valores abaixo deste valor com range1 e valores acima
deste
valor com range2. O valor limite escolhido automaticamente de modo que
no
o mesmo nmero de valores acima como abaixo.
Se voc deseja ter os valores divididas em mais de dois intervalos de valores,
ajustar o parmetro nmero de caixas em conformidade. Voc pode ver o
processo e
os meta-dados indicados no seguinte quadro:
Figura 5.7: transformao de dados em Meta RapidMiner.
109

Pgina 114
5. Repositrio
Voc est certamente se perguntando por que o parmetro Tipo de nome de
intervalo tinha que ser definido
a short. Veja por si mesmo e configur-lo para longo. Se voc executar o
processo, voc
ver que os valores nominais agora dar mais informaes: Eles
adicionalmente
conter os limites dos intervalos criados. Isso til, mas insignificante para o
processo. As informaes sobre os limites de intervalo no est disponvel no
entanto, desde
como realmente no foi realizada a discretizao. Portanto, no pode ser
considerado para a exibio de dados meta no momento do desenvolvimento
do processo. Pode
ento, apenas indicado nos dados de meta que a gama de valores da
discretizada
atributo um subconjunto do conjunto vazio, ou seja, que no est vazia. Isso
significa que
a meta dados no totalmente conhecido. Portanto, neste caso, podemos dizer
praticamente nada
em tudo sobre os metadados esperados, excepto que o conjunto de valores
nominais
um subconjunto do conjunto vazio. Uma declarao trivial, mas que , no
entanto,
um lugar para outro. Os dados de meta no pode ser totalmente determinado
em todos os casos, o mais cedo em
o tempo de desenvolvimento. Este geralmente o caso quando os metadados
dependente dos dados reais, pois aqui. Neste caso RapidMiner Studio tenta
para obter o mximo de informaes possvel sobre os dados.
110

Pgina 115

Pgina 116
lder global em software de anlise preditiva.
Boston | Londres | Dortmund | Budapeste
www.rapidminer.com

Das könnte Ihnen auch gefallen