Beruflich Dokumente
Kultur Dokumente
1
Stanley Loh
1a edio
Porto Alegre
Stanley Loh
2014
2
Prefixo Editorial: 916683
Nmero ISBN: 978-85-916683-1-1
Formas de citao:
LOH, Stanley. BI na era do big data para cientistas de dados - indo alm de cubos e
dashboards na busca pelos porqus, explicaes e padres. Porto Alegre, 2014.
Loh, S. (2014). BI na era do big data para cientistas de dados: indo alm de cubos e
dashboards na busca pelos porqus, explicaes e padres. Porto Alegre, 158 p.
3
Contedo
BI na Era do Big Data para Cientistas de Dados ............................................................ 1
indo alm de cubos e dashboards .................................................................................. 1
na busca pelos porqus, explicaes e padres .............................................................. 1
1 Introduo ........................................................................................................... 10
1.1 A Evoluo dos Sistemas de Informao ....................................................... 11
1.2 BI X Sistemas Gerenciais.............................................................................. 12
1.3 Dados X Informao X Conhecimento X Inteligncia ................................... 13
1.4 O que BI ento ? ........................................................................................ 14
1.5 Big Data e Information Explosion ................................................................. 15
2 Busca e Identificao de Padres ......................................................................... 17
2.1 Modelos e Padres ........................................................................................ 17
2.2 Contextualizao dos Modelos e Comparaes ............................................. 19
2.3 Padres X Excees: impreciso dos modelos............................................... 20
2.4 Analisar passado para criar modelos ............................................................. 21
2.5 Modelos para prever futuro ........................................................................... 22
2.6 Anlise de Correlao e Causa-Efeito ........................................................... 24
2.7 Dificuldades para identificar padres - pessoas e sistemas complexos ........... 25
3 Processo Geral de BI ........................................................................................... 28
3.1 Premissas do Processo de BI ......................................................................... 29
3.2 Quem deve participar do Processo de BI ....................................................... 30
3.3 Processo de BI Pr-ativo X Reativo: comear com ou sem hipteses ............ 30
4 Pr-processamento e Preparao de dados ........................................................... 33
4.1 Tratamento de valores nulos ......................................................................... 33
4.2 Deduplicidade de registros ............................................................................ 34
4.3 Integrao de bases (merge) .......................................................................... 34
4.4 Enriquecimento de dados .............................................................................. 35
4.5 Seleo de Amostras ..................................................................................... 36
4.5.1 Tipos de amostras .................................................................................. 37
4.5.2 Como separar amostras (subcolees ou subconjuntos) .......................... 38
4.5.3 Generalizaes e Especializaes........................................................... 39
4.5.4 Amostras por perodo de tempo - analisar ritmo ..................................... 40
4.5.5 Tamanho da amostra - quantidade de elementos na amostra ................... 41
4.6 Seleo de atributos ou campos para anlise - feature selection ..................... 42
4.6.1 Valores que predominam ....................................................................... 43
4.6.2 Dependncias funcionais........................................................................ 43
4
4.7 Discretizao - faixas ou grupos de valores ................................................... 44
4.8 Data Warehouse............................................................................................ 45
5 Tcnicas de Anlise de Dados ............................................................................. 46
Anlise qualitativa X quantitativa ........................................................................ 46
Qualitativo para quantitativo ............................................................................... 46
5.1 Data Mining - tcnicas tradicionais sobre dados estruturados ........................ 49
Associao .......................................................................................................... 49
Correlao ........................................................................................................... 51
Correlao assncrona ......................................................................................... 53
Anlise de Regresso e Modelos de Predio ...................................................... 53
Mdia .................................................................................................................. 55
Deteco de desvios (outliers) ............................................................................. 55
Sequncia de tempo............................................................................................. 56
Sries Temporais ................................................................................................. 57
Classificao (categorizao) .............................................................................. 59
Induo ............................................................................................................... 60
Clusterizao ou Agrupamento (clustering) ......................................................... 60
5.2 Anlise de cubos e anlise multidimensional OLAP...................................... 61
6 Interpretao dos resultados da anlise ................................................................ 66
6.1 Resultados condizem com a tcnica usada..................................................... 67
6.2 Indicadores escolhidos para BI - certos ou errados ........................................ 69
6.3 Teoria do Mundo Fechado ............................................................................ 70
6.4 Correlaes erradas ....................................................................................... 72
6.5 Sobrecarga e Rudos ..................................................................................... 74
7 Processo de BI reativo ......................................................................................... 76
8 Metodologia para BI proativo .............................................................................. 78
8.1 Seleo de dados e amostras ......................................................................... 79
8.2 Seleo da tcnica de anlise ........................................................................ 79
8.3 Anlise da coleo toda................................................................................. 80
8.3.1 Analisar percentual ou valores absolutos ................................................ 80
8.3.2 Soma X Contagem X Mdia .................................................................. 80
8.3.3 Percentual por linha X por coluna .......................................................... 82
8.3.4 O que predomina ................................................................................... 84
8.3.5 O que mais importante: o que raro ou o que comum ? .................... 84
8.3.6 Investigar padro normal e excees ou minorias ................................... 85
8.3.7 Qual probabilidade mnima interessante .............................................. 86
8.3.8 Medidas de Interestingness .................................................................... 87
5
8.4 Comparao de subcolees entre si ou em relao coleo toda ................ 88
8.5 Combinao e Integrao de padres ............................................................ 91
8.5.1 Hierarquia de padres e regras ............................................................... 92
8.5.2 Regras inversas ...................................................................................... 94
8.6 Avaliao e Teste de Hipteses ..................................................................... 94
8.7 Retroalimentao .......................................................................................... 97
9 Processo de BI como Descoberta e Investigao.................................................. 99
9.1 Descobrindo hipteses de causas................................................................. 100
A coleta inicial de dados.................................................................................... 100
Quantidade de informao X sobrecarga X rudos ............................................. 101
A observao direcionada, seletiva ................................................................. 102
A intuio para seleo de dados ....................................................................... 103
O hbito e a experincia para seleo de dados .................................................. 104
Heursticas para seleo de dados ...................................................................... 105
A observao influencia o ambiente .................................................................. 105
Fazer as perguntas certas ................................................................................... 106
Viso Holstica - Anlise do Contexto ............................................................... 106
Verificar o que comum a um conjunto de casos .............................................. 108
Verificar o que incomum ou diferenas entre grupos ...................................... 109
Benchmarking e Analogias ................................................................................ 110
"Reframe", repensar o problema ........................................................................ 111
Quebra de Paradigmas ....................................................................................... 112
Descoberta por acaso (serendipity) .................................................................... 113
9.2 Sinais fracos, fatos X opinies, rumores e boatos ........................................ 113
9.3 Anlise de causa-efeito ............................................................................... 115
Anlise de causa-raiz......................................................................................... 117
Avaliao sistmica dos dados .......................................................................... 118
Parcimnia conjunto mnimo de causas .......................................................... 120
9.4 Mtodos e Teorias para Investigao........................................................... 120
Mtodo Cartesiano ............................................................................................ 121
Mtodo Cientfico ............................................................................................. 121
Mtodo indutivo-dedutivo de Aristteles ........................................................... 121
Mtodo de Anlise e Sntese de Newton ............................................................ 122
Mtodo de Galileu ............................................................................................. 122
Raciocnio Abdutivo ......................................................................................... 122
Viso Sistmica e Pensamento Sistmico .......................................................... 123
Abordagem Sistmica ...................................................................................... 125
6
O 4o Paradigma de Jim Gray - a eScience ......................................................... 126
Mtodo de Investigao Criminal ...................................................................... 126
Mtodo do Sherlock Holmes ............................................................................. 127
Diagnstico Mdico .......................................................................................... 127
9.5 BI como um ato de criao.......................................................................... 128
9.6 Associaes Visuais - Anlise de Grafos, Redes e Mapas Mentais .............. 129
Determinismo X probabilismo........................................................................... 134
Descobrir novas ligaes ................................................................................... 134
Mapas e informaes geogrficas ...................................................................... 135
Uma Metodologia Associativa........................................................................... 136
10 Business Analytics ............................................................................................ 140
Previses ........................................................................................................... 140
As previses mudam com o passar do tempo ..................................................... 142
Raposas X Porcos-espinhos ............................................................................... 142
Estatsticas X Percepes humanas.................................................................... 142
O uso de intuies para previses ...................................................................... 144
11 Novos tipos de dados, tcnicas de coleta e anlise ............................................. 145
11.1 Coleta explcita X implcita X por inferncia ........................................... 145
11.2 Novas tecnologias para coletar e monitorar dados.................................... 147
11.3 Web Mining ............................................................................................ 147
11.4 Text Mining ............................................................................................ 148
11.5 Anlise de Sentimentos ........................................................................... 149
12 Concluso ......................................................................................................... 152
O Futuro do BI .................................................................................................. 152
Bibliografia ............................................................................................................... 153
7
Lista de Figuras
Figura 1: Dados X Informao X Conhecimento ......................................................... 13
Figura 2: Processo Geral de Descoberta de Conhecimento .......................................... 28
Figura 3: Grfico para mostrar discretizao de forma intuitiva ................................... 44
Figura 4: biorritmo num determinado dia .................................................................... 48
Figura 5: biorritmo para vrios dias............................................................................. 49
Figura 6: Associaes de valores entre 2 campos para Data Mining ............................ 50
Figura 7: Comparao de valores entre campos para Data Mining ............................... 51
Figura 8: Planilha de vetores e grau de correlao ....................................................... 52
Figura 9: Grficos semelhantes indicando correlao entre variveis ........................... 52
Figura 10: Correlao assncrona entre duas variveis ................................................. 53
Figura 11: Tcnica de Modelo de Predio .................................................................. 54
Figura 12: Tcnica da Mdia ....................................................................................... 55
Figura 13: Deteco de desvios (outliers) .................................................................... 56
Figura 14: Tcnica de anlise de sequncia temporal ................................................... 57
Figura 15: Exemplo de anlise de sries temporais - dentro da mesma srie ................ 58
Figura 16: Exemplo de anlise de sries temporais - comparao entre sries.............. 58
Figura 17: Sries temporais com diferena no momento de incio da srie................... 59
Figura 18: Exemplo de clustering ................................................................................ 60
Figura 19: Comparao de esquemas relacional X multidimensional para DWH ......... 62
Figura 20: Comparao de esquemas relacional X multidimensional para DWH ......... 62
Figura 21: Dados multidimensionais - exemplo para 3 dimenses ............................... 62
Figura 22: Estrutura de dados flat - todos atributos como colunas ............................... 63
Figura 23: Estrutura multidimensional - mquina X tipo de problema ......................... 64
Figura 24: Estrutura multidimensional - operador X hora em que ocorreu a falha ........ 64
Figura 25: Estrutura multidimensional - mquina + tipo de problema X hora .............. 65
Figura 26: Anlise OLAP com somente uma dimenso ............................................... 65
Figura 27: Mdia X Tendncia .................................................................................... 68
Figura 28: Mdia de gastos de clientes num supermercado, por perfil ......................... 68
Figura 29: Gastos de clientes num supermercado, por perfil, e classificados por faixa de
gasto ........................................................................................................................... 69
Figura 30: Venda de laranjas num supermercado ........................................................ 71
Figura 31: Teoria do Mundo Fechado ......................................................................... 72
Figura 32: exemplos de dashboards ............................................................................. 76
Figura 33: Anlise de vendas, utilizando contagem de registros .................................. 81
Figura 34: Anlise de vendas, utilizando soma de valores ........................................... 81
Figura 35: Valores percentuais por linha ..................................................................... 82
Figura 36: Valores percentuais por coluna ................................................................... 82
Figura 37: total de carrinhos com brinquedos - por perfil ............................................ 83
Figura 38: carrinhos com ou sem brinquedos - valor absoluto ..................................... 83
Figura 39: carrinhos com e sem brinquedos - % por linha ........................................... 83
Figura 40: Google Trends sobre Gripe A e Dengue no Brasil ...................................... 90
Figura 41: Google Trends sobre Gripe A e Dengue no Rio Grande do Sul................... 90
Figura 42: Grfico de Pareto ..................................................................................... 108
Figura 43: Diagrama de Ishikawa (causa-efeito ou espinha-de-peixe)........................ 118
Figura 44: Mapa Conceitual sobre Fatos e Dimenses............................................... 130
Figura 45: grafo para anlise de causas ..................................................................... 131
Figura 46: grafos combinados com hierarquias.......................................................... 132
Figura 47: Grafo de comunicao entre membros de equipes .................................... 133
8
Figura 48: Grafo com relaes entre conceitos .......................................................... 135
Figura 49: mapa para anlise de evoluo e disseminao de doenas ....................... 136
Figura 50: Metodologia Associativa - passo 2 ........................................................... 137
Figura 51: Metodologia Associativa - passo 3 ........................................................... 138
Figura 52: Novas hipteses e reviso do mapa - metodologia associativa .................. 139
9
1 Introduo
O melhor exemplo para explicar o que Business Intelligence (BI) para um leigo o
caso da GM e o sorvete de baunilha. Conta a lenda que um consumidor comprou um
carro da GM e depois mandou uma carta se queixando. A queixa era a seguinte: quando
ele ia na sorveteira e pegava o sorvete de baunilha, ele voltava para o carro e este
demorava a dar partida; se ele pegasse qualquer outro sabor de sorvete, ele voltava para
o carro e este "pegava" de primeira.
Conta ainda a lenda que isto virou piada na GM, uma vez que ningum imaginava o que
o sabor de um sorvete teria a ver com o problema no carro. Acredita-se que um
engenheiro foi investigar o caso. Apresentou-se ao cliente e juntos foram testar a teoria
que o cliente alegava. Foram at a sorveteria e compraram o sorvete de baunilha.
Voltaram para o carro e realmente o carro no deu partida na primeira tentativa nem nas
seguintes. Esperaram um pouco, e tentaram de novo. A sim o carro ligou. Voltaram
para a casa e depois de comerem o sorvete fizeram o mesmo teste s que pegando um
sorvete de sabor diferente. Quando voltaram para o carro, a surpresa: o carro "pegou" de
primeira. Bom, mas poderia ser acaso ou coincidncia. Ento testaram diversas vezes,
usando mtodos estatsticos e o resultado ... sempre o mesmo.
Eu sempre cito isto como um exemplo de BI, mesmo tendo sido feito manualmente, isto
, sem ajuda de bancos de dados e software (tecnologias da informao). Mas este caso
ilustra bem o objetivo de um processo de BI e como ele pode ser feito, no s para
leigos mas tambm para analistas de BI experientes.
Hoje em dia h diversas definies para BI e muitas vezes profissionais dizem estar
fazendo BI quando na verdade esto gerando informaes com sistemas de informaes
gerenciais, ou seja, atravs de ferramentas para gerao de dashboards, grficos,
relatrios e anlises visuais (visualizao de informaes).
A seguir, explicarei um pouco melhor o que entendo de BI e qual sua diferena para
sistemas gerenciais. Tambm falaremos da buzzword Big Data, o que significa e o que
implica para processos de BI.
O livro tem o objetivo primeiro de explicar tcnicas e mtodos que ajudem processos de
BI. Mas vamos procurar dar nfase ao que ainda no foi dito em outros livros do
gnero. Por isto, vamos enfatizar que o objetivo principal de um processo de BI
encontrar causas, explicaes e padres.
10
no est errado. No o nico enfoque, mas uma das formas de se ver o BI. Temos
muito a aprender com a histria dos grandes cientistas da Humanidade. A diferena
talvez no esteja nos mtodos, apesar de que eles tambm evoluem. Mas hoje temos
muito mais dados e mais complexos (Big Data) e ferramentas mais avanadas,
principalmente ferramentas de software. Por isto, o termo Cientista de Dados to atual.
Por isto, vamos enfatizar que os dados so muito importantes para o processo, incluindo
a forma e as condies como so coletados e armazenados. No basta discutirmos as
formas de anlise se os dados analisados no tiverem qualidade (garbage in, garbage
out).
O leitor se quiser poder pular algumas sees, conforme seu interesse. Os captulos no
esto numa sequncia de aprendizado. Dentro dos captulos sim, a ideia manter uma
certa ordem de leitura.
Com o passar do tempo, viu-se que era possvel extrair novas informaes daquelas
armazenadas e apresentar isto na forma de relatrios. Ento, de um sistema de controle
de estoque, era possvel saber quais os produtos mais vendidos, os que menos saam e
desenhar um grfico mdio das sadas dos produtos ao longo do tempo. Da mesma
forma, de um sistema de folha de pagamento era possvel saber qual o cargo ou setor
que mais custo dava para a empresa. E de sistemas de contabilidade, era possvel medir
o que j tinha sido gasto ao longo o tempo e o que se esperava recebe no tempo futuro.
Os relatrios evoluram para se tornarem sofisticados sistemas de informaes
gerenciais (SIGs), incluindo a gerao de diferentes tipos de grficos e painis com
diferentes informaes (dashboards). O livro de Bertin (1983) apresenta e explica as
aplicaes de diferentes tipos de grficos.
Apesar da utilidade incontvel dos sistemas de informaes gerenciais, o que faz deles
teis at hoje em qualquer empresa, profissionais tais como administradores, tomadores
de deciso, gestores de informaes e executivos ainda precisavam de um tipo de apoio
mais sofisticado, algo que pudesse facilitar a tomada de deciso.
Primeiro, era necessrio descrever dados para encontrar caractersticas para ajudar a
entender o que estava acontecendo ou o que havia acontecido. Esta a funo dos
modelos descritivos, que buscam identificar padres. Os sistemas de BI entram aqui,
auxiliando a entender por que as coisas acontecem, quais so as causas ou explicaes
para certos eventos ou fenmenos.
11
se neste tipo de apoio, os sistemas conhecidos como sistemas de apoio deciso
(SADs).
Ento podemos dividir o processo todo da seguinte forma, sistematizando o que se quer
saber em relao a como encontrar tais respostas:
12
Em resumo, SIGs ajudam a entender o que aconteceu ou o que est acontecendo (ex.:
totais de venda no ms anterior, qual a taxa de crescimento de nossas vendas); BI
procura por causas ou explicaes (ex.: por que as vendas esto caindo).
13
conhecimento que tem e as conexes que faz em seu crebro. Isto inteligncia, ou seja,
saber resolver problemas utilizando o conhecimento que possui. E isto se aplica tambm
a poder resolver problemas novos, usando adaptaes, analogias, etc.
O conhecimento nos faz mais inteligentes; pessoas e empresas que aprendem. Como
Kuhn relata, at a metade do sculo 19 no se usava conhecimento na indstria, somente
nas Cincias. Assim como o conhecimento cientfico mudou o paradigma da Cincia na
idade mdia, o uso intensivo de conhecimento acelerou inovaes e permitiu indstria
aproveitar os que as metodologias cientficas ensinavam nas cincias, fazendo a prtica
da indstria menos emprica.
A busca por padres tambm objetivo do BI. No oceano de dados, preciso tentar
encontrar uma ordem para que os dados possam fazer sentido e serem teis. Uma base
de clientes onde no conseguimos identificar quem nosso cliente, o que ele quer, quais
suas caractersticas, no serve para nada alm de confundir.
E isto tudo fez surgir a Era do Conhecimento, apoiada pelas chamadas tecnologias da
informao.
14
1.5 Big Data e Information Explosion
Chamam isto de Big Data (Tole, 2013), mas anos atrs Korth e Silberschatz j falavam
sobre isto e chamavam esta nova revoluo de "exploso de informaes". Sim eles
comparavam estes novos acontecimentos a revolues como a inveno da imprensa
por Gutenberg (distribuio de informaes a todo canto do mundo) e inveno do
telefone por Graham Bell (informao distribuda imediatamente, em tempo real).
O volume aumenta a cada ano pelas seguintes razes:
o armazenamento de dados hoje barato (discos rgidos e DVDs) ou mesmo de
graa (servios de hospedagem free na Web);
as pessoas esto mais familiarizadas com a tecnologia e consequentemente geram e
armazenam mais informaes (crianas de 2 anos j sabem usar celulares e
computadores e a 3a idade est menos tecnofbica);
a tendncia atual de "no jogar nada fora", que comeou com o Gmail dizendo que
ningum precisava "deletar' seus e-mails;
mais possibilidades de servios para publicar e difundir informaes (blogs, twitter,
e-mail, redes globais, conexes sem fio, etc.).
A Revista Veja, edio de maio de 2013 (ed.2321, n.20, ano 46) tratou deste assunto na
sua reportagem de capa. Eles falam que o Big Data se deve a 3 Vs: volume, velocidade
e variedade. Alm do grande volume de dados gerados, coletados, armazenados, etc, a
velocidade de transmisso (banda larga por cabo ou 3G ou wifi etc.) e a diversidade de
tipos de informaes (planilhas, textos, imagens, sons) ajudam a sobrecarregar o ser
humano e as organizaes.
15
Algum vai dizer que o volume de informaes bom, porque as pessoas e
organizaes possuem mais informao para tomar decises. Por outro lado, vivemos
no stress por termos mais opes para escolher, mais informaes para ler, mais
conhecimento para aprender e por no conseguirmos lidar com tanta informao
disponvel e nem mesmo conseguir encontrar as informaes que precisamos
(information overload). como uma mesa cheia de papis e a gente sabendo que a
informao que a gente procura est em algum destes papis nesta mesa.
16
2 Busca e Identificao de Padres
Quero ratificar mais uma vez que o objetivo do processo de BI ajudar pessoas e
organizaes a encontrarem causas e no s apresentar informaes, como fazem
sistemas gerenciais. A busca por causas passa por analisar dados, talvez grandes
quantidades, procura de padres, modelos ou repeties. Se no encontrarmos
padres, no temos como afirmar quais eventos geram quais consequncias. Ser uma
confuso de dados, sem ordem, sem explicaes.
17
usar exatamente as mesmas aes. A inteligncia humana pressupe a adaptao dos
padres para novas realidades.
Mas o que um modelo ? Vejamos algumas definies de modelo: aquilo que serve de
objeto de imitao; aparelho ou conjunto de aparelhos que permitem a reproduo de
determinada pea por processos usados em fundio para o preparo de objetos de metal;
molde; prottipo ou exemplo que se pretende reproduzir ou imitar; um exemplar que se
deve seguir e imitar pela sua perfeio; imagem ou desenho que representa o objeto que
se pretende reproduzir esculpindo, pintando ou desenhando; pessoa exemplar, perfeita,
digna de ser imitada; esquema terico em matria cientfica representativo de um
comportamento, de um fenmeno ou conjunto de fenmenos. No contexto deste livro, a
melhor definio a ltima: um esquema ou estrutura que representa um
comportamento (de um evento ou conjunto de eventos). Ao longo deste livro, usaremos
alguns sinnimos para modelo, tais como: padro, regras, leis, teoria, regularidade,
cdigo, paradigma. No h uma explicao cientfica para tais escolhas. Isto demandaria
muito espao num livro que pretende ser prtico.
Modelo no inclui tudo, uma representao da realidade, de parte dela, para um fim
especifico. O processo de BI ento procura por modelos que possam explicar os
acontecimentos passados ou atuais. Estamos interessados nas caractersticas deste
modelo e em como ele pode relacionar os eventos entre si. Isto tudo para evitar ou
eliminar as causas de problemas ou para que possamos repetir as causas de boas
prticas.
O modelo permite completar um cenrio. A partir de dados que temos como fatos,
encaixados no modelo, podemos saber de outros dados que no temos (a chamada
inferncia). Se um evento aconteceu dentro de um modelo, podemos completar os dados
que nos faltam sobre este evento. Por exemplo, usando modelos matemticos e fsicos
aplicados a dados observados no ambiente, peritos podem saber a velocidade a que um
carro estava no momento de um acidente. Os modelos tambm nos ajudaro a encontrar
causas para os eventos, como ser discutido adiante neste livro.
Mas os modelos esto tambm associados ao futuro. Eles nos servem para direcionar
nossas decises e aes. Por isto, usamos muitas vezes o termo "modelo de predio",
porque usando modelos podemos "prever" o futuro (ou tentar, pelo menos). Modelos
18
so utilizados para previso do tempo, para previso de colheitas, de nveis de vendas,
de quebra de mquinas, possibilidade de voto numa eleio (como discutido em
Moraes, 2012), possibilidade de um cliente fechar uma venda, possibilidade de ocorrer
um sinistro (em empresas de seguro), de um cliente pagar ou no um emprstimo, e para
outros tantos fins como veremos neste livro.
Como discutiremos neste livro, encontrar as causas que levam um produto a ser mais
vendido que outros exige tambm comparar tais causas com problemas que impedem a
venda de outros produtos. Descobrir que um modelo explica por que uma mquina
estraga mais frequentemente que outra, inevitavelmente nos leva a pensar em que boas
prticas so utilizadas nas mquinas que no estragam to facilmente.
19
faa vendas no exterior, pode querer comparar seu desempenho com empresa similares
em outros pases.
Os modelos podem no ser precisos. preciso avaliar quando, onde, como e por que os
modelos acertam ou erram. Para tanto, devem ser feitos experimentos controlados.
Fazendo novas observaes, poderemos verificar se elas se encaixam no modelo. Se
sim, confirmam o modelo. Se no, exigem algum refinamento do modelo ou mesmo a
desistncia dele. Entretanto, impossvel fazer todos os testes necessrios ou coletar ou
observar todos os eventos necessrios. Hans Reichenbach comenta o caso de avaliar
remdios utilizando placebo; isto pode durar muito tempo ou no ser possvel de ser
realizado pela dificuldade em encontrar cobaias.
claro que o falseamento depende do modo como esta busca foi feita. Nunca ser
possvel dizer com total certeza que todos os casos foram testados ou que no existe um
caso tido como exceo. A verdade sempre ser que no foi encontrado nenhum caso
pelo modo como a busca foi feita.
Apesar de invalidar um modelo, a descoberta de excees pode ser benfica porque gera
mais conhecimento sobre o contexto, podendo vir a aprimorar modelos existentes ou
20
gerar um novo modelo mais moderno e preciso. Kuhn (2011) discute os paradigmas
cientficos e conclui que a existncia de excees pressupe o surgimento de um novo
paradigma (leia-se, modelo).
Uma vez que s capturam parte da realidade, os modelos nunca so completos. Esta
falta de dados, entretanto, no impede o uso e os benefcios dos modelos. Se no puder
ajudar a prever eventos futuros com exatido, pelo menos nos daro tendncias (em
cima de probabilidades). E assim que as pessoas tomam decises. Nenhuma empresa
deixa de produzir um produto s porque as vendas caram durante os ltimos dias. Se
houver uma tendncia de retomada das vendas, ou seja, se houver uma certa
probabilidade (aceita por alguma razo) de que as vendas iro subir novamente, a
empresa segue no mesmo caminho.
Tem sido assim ao longo da Histria da Humanidade e da Cincia. Teorias surgem mas
aps anos elas podem ser refinadas ou mesmo refutadas, devido a novas descobertas,
novos fatos ou novas formas de interpretar os velhos fatos. No incio, o ser humano
achava que todos os planetas e o sol giravam ao redor da Terra. Depois, descobriu-se a
teoria heliocntrica. Agora j h um pesquisador dizendo que a Terra o centro do
Universo. E est sendo tachado de louco, como j foram classificados Kepler e Galileu.
Ento o que existe um modelo mais aceito pela maioria das pessoas (estudiosos,
cientistas, ou mesmo pessoas comuns). A Teoria de Newton, que fazia isto (apesar de
tantos acertos) caiu. A de Einstein, sucessora da de Newton, tambm possui lacunas. As
leis da macro Fsica no se ajustam aos comportamentos no mundo micro, os quais so
regidos por outras leis. Mas ambas so aceitas at que uma nova teoria consiga reunir e
acomodar casos de ambos os grupos, provavelmente a partir de novas regras.
21
saber que caractersticas so comuns a todos. Se quisermos diminuir gastos com peas
defeituosas, vamos procurar pelas causas mais frequentes. Se estamos precisando
diminuir desperdcios de energia, vamos olhar para os casos mais frequentes. A nossa
busca ento por repeties.
E a que entra a estatstica, nos permitindo separar repeties interessantes das que no
so significativas. Mas como os modelos no so perfeitos, precisam ser aperfeioados
ou corrigidos. Isto pode ser feito por retroalimentao, aprendendo por experincia, por
exemplo, com os erros cometidos e pela medio da incerteza (Stewart, 2000).
Por que um computador ganha de humanos no jogo de xadrez ? Porque consegue reunir
conhecimento de vrios enxadristas (atravs da anlise de jogos anteriores) e porque
consegue realizar simulaes e previses de consequncias de jogadas possveis em
situaes atuais, ou seja, consegue avaliar o que vai acontecer caso uma determinada
pea seja movida para uma determinada casa. Mesmo que o computador no consiga
fazer todas as combinaes possveis, conforme teoria de Simon (1972), ainda sim
poder avaliar melhores jogadas do que um ser humano. Para tanto, os computadores
so programados com modelos heursticos e no algortmicos. E usando probabilidades,
conseguem avaliar qual a melhor alternativa. Pode ser ento que um modelo no
consiga prever o futuro com exatido, mas permitir avaliar quais eventos mais
provavelmente podero ocorrer.
Nate Silver (2013) comenta que o verbo "prever" em portugus possui duas verses em
ingls: predict e forecast. Ele comenta que hoje elas so usadas como sinnimas, mas na
poca de Shakespeare tinham significados diferentes: predict era aquilo que faziam os
adivinhos; forecast, por outro lado, implicava em planejar em condies de incerteza.
Os modelos discutidos neste livro pretendem fazer previses do segundo tipo, baseados
em dados. Seria como tentar predizer valores para atributos ou acontecimentos de
eventos a partir da anlise de causas (valores de outros atributos).
A previso com modelos j uma realidade nas mais diversas reas de conhecimento
humano. Gorr (1999) discute a perspectiva de analisar dados histricos para entender
estratgias e tentar prever concentraes de futuros crimes. Maltz e Klosak-Mullany
(2000) utilizaram a tcnica de sequncia de tempo (um tipo de Data Mining) para
encontrar padres estatsticos no comportamento de jovens delinquentes nos EUA e
antever eventos ruins em suas vidas, para intervir antes que aconteam. Bill Gates,
numa palestra recente, sugeriu utilizar tais tecnologias de predio na educao
(http://www.technologyreview.com.br/read_article.aspx?id=43501). A ideia seria
analisar dados sobre desempenho e comportamento de alunos, para entender por que um
aluno pode estar faltando s aulas, e com isto tomar aes para diminuir taxas de
abandono. Alm disto, podemos pensar em modelos que permitam entender causas de
desempenho de alunos, para evitar problemas de baixo rendimento ou replicar as boas
prticas dos melhores alunos.
22
a maioria das pessoas est fazendo, e assim poder prever resultados ou entender o que
est acontecendo. Por exemplo, o Google Trends usado para monitorar epidemias nos
EUA. Quando h muitas pesquisas no Google, vindas de uma mesma regio, por
palavras-chave relacionadas a uma determinada doena, isto significa que o nmero de
casos desta doena est aumentando nesta regio. H um experimento do Google
(http://www.google.org/flutrends/br/#BR) para monitorar casos de gripe. O artigo de
Dugas et al. tambm trata do mesmo assunto.
A anlise de redes sociais virou uma maneira fcil de observar as multides. Um artigo
de 2011 (Bollen et al.), conseguiu provar a correlao entre o tipo de humor nas
postagens do twitter e o ndice Dow Jones da bolsa de valores americana. Outros artigos
provaram ser possvel prever receitas de filmes, aumento no nmero de turismo e
mesmo prever eventos futuros analisando postagens ou buscas (Asur et al. 2010;
Mishne, 2006; Radinsky & Horvitz, 2013; Choi & Varian, 2012). Spink e colegas
(2001) analisam o comportamento de multides em mecanismos de busca para realizar
diversas inferncias.
Sargut e McGrath (2011) sugerem a gestores estabelecer um modelo que agregue trs
tipos de informao preditiva:
informaes passadas: dados sobre o que j aconteceu, incluindo indicadores
financeiros e de desempenho;
informaes presentes: alternativas de caminhos, aes, estratgias, oportunidades
ou decises que podem ser tomados;
informaes futuras: o que pode acontecer como consequncia das alternativas,
incluindo respostas do meio-ambiente ou mudanas internas.
O fato que as novas tcnicas esto permitindo predizer com maior preciso alguns
valores e ainda verificar a interligao entre eventos ou variveis. Desta forma,
possvel saber se uma determinada ao vai impactar positivamente ou negativamente
em algum contexto futuro. E quanto ir impactar. Por exemplo, se aumentarmos a
exposio do produto em X dias na mdia convencional, quanto teremos de aumento de
vendas e, com base nos custos desta estratgia, o quanto teremos de retorno financeiro
(ou lucro).
Mas nem por isto (porque vivemos na incerteza) vamos tomar decises sem critrios.
Justamente, as tcnicas, os padres, os dados, nos ajudam a diminuir a incerteza e com
isto melhorar nossas decises e consequentemente seus resultados. H alguns autores
que so contra as tcnicas de planejamento, porque acreditam que no vale a pena
planejar, pois o futuro nunca acontece como planejado. Entretanto, se no planejamos,
23
se no tomamos decises e aes, temos grandes chances de chegar onde estamos agora
ou pior, chegar em algum lugar que no queremos.
Como j dissemos antes, e vamos estressar muito neste livro, BI um processo que
busca encontrar causas (para problemas ou para bons resultados). Portanto, BI um
processo de investigao e descoberta, com algumas semelhanas com o processo
criativo, como discutiremos mais adiante.
Pessoas e empresas querem tomar melhores decises, para alcanar melhores resultados
ou poder direcionar seu futuro. Entender quais condies geram quais resultados uma
das formas de fazer este tipo de planejamento. Entretanto, como discutiremos neste
livro, encontrar causas no to simples quanto parece. Traremos estudos de reas tais
como investigao criminal, diagnstico mdico, previso do tempo, ecologia, biologia,
mecnica, fsica, engenharia, cincias sociais, economia, poltica, etc.
Ento, BI tambm inclui como objetivo descobrir as relaes causais, mesmo que estas
envolvam diversas variveis e diversos tipos de relaes, inclusive indiretas em vrios
nveis. Para uma empresa importante avaliar a correlao entre suas aes e os
resultados. Por exemplo, uma empresa descobriu que um aumento de 5 pontos na
atitude comportamental dos empregados implicava em 1,3 ponto de incremento na
satisfao dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa. Tal
descoberta permite empresa avaliar onde investir e o quanto. Neste exemplo, se ela
quiser aumentar 1% das vendas talvez tenha que aumentar 10 pontos na atitude dos
colaboradores.
24
2.7 Dificuldades para identificar padres - pessoas e sistemas
complexos
O problema de prever eventos futuros que o futuro feito COM pessoas. A maioria
dos modelos incluem pessoas. Se precisamos saber a causa por que mquinas quebram,
temos que lembrar que elas so operadas por pessoas, pessoas fazem sua manuteno,
pessoas as programam. Se quisermos prever ndices de vendas, temos que lembrar que
so as pessoas que compram produtos e servios, e h tambm vendedores, promotores,
publicitrios, especialistas em moda e por fim administradores determinando preos.
Nate Silver (2013) conta o caso dos modelos utilizados pelos cientistas polticos
prevendo a vitria esmagadora de Al Gore na eleio presidencial de 2000 nos Estados
Unidos. Mas quem ganhou as eleies foi George W. Bush, e um dos motivos foi a
cdula de votao, com marcadores mal associados aos nomes, confundindo eleitores
que iriam votar em Al Gore.
A raiz do problema est em que estamos tratando com sistemas complexos. Sistemas
complicados so aqueles compostos por muitas partes, mas para os quais podemos
prever o resultado final, se cada parte funcionar de forma planejada. Se conhecermos os
dados de entrada, as condies ambientes e o sistema funcionar segundo o padro
conhecido, ou seja, um contexto estvel, certo que saberemos o resultado final (Sargu
and McGrath, 2011). Um exemplo de sistema complicado um carro: um mecnico
conhece as partes, suas interaes e consegue prever o funcionamento. Se algum
problema ocorrer, ele poder determinar a causa usando seus conhecimentos e coletando
alguns dados diagnsticos.
Por outro lado, sistemas complexos podem at ter poucas partes mas as interaes entre
as partes podem causar funes ou resultados imprevisveis. As partes interagem de
forma inesperada e por isto seu comportamento passado no pode ser usado para
antecipar eventos futuros com acurcia (Sargu and McGrath, 2011). Sistemas
complexos contm interaes dinmicas e portanto as mesmas condies de entrada
podem levar a resultados diferentes em tempos diferentes. H 3 caractersticas que
25
determinam um sistema complexo: multiplicidade (relativa ao nmero de elementos ou
partes do sistema), interdependncia (o nvel de conexes entre as partes) e a
diversidade (heterogeneidade dos elementos). Conforme Sagu e McGrath, quanto maior
o nvel de cada caracterstica, mais complexo ser o sistema. Um exemplo de sistema
complexo foi a campanha (ou guerra) contra pardais na China em 1958. Os pardais
estavam atacando as plantaes de arroz e ento o Governo chins fez uma campanha
para dizimar os pardais. O problema que, aps a eliminao dos pardais, os gafanhotos
que comearam a comer gros de arroz, porque os pardais eram predadores naturais
dos gafanhotos.
As loucuras que acontecem nos mercados econmicos e nas bolsas de valores tambm
so resultados dos comportamentos complexos das multides. Muitas vezes no h uma
explicao lgica para a correria de venda ou compra nos mercados. Simples boatos
podem se difundir rapidamente e levantar medo na populao, gerando comportamentos
ilgicos de indivduos e levando as massas para direes inesperadas.
Em geral ento, as pessoas procuram diminuir a incerteza das decises mas assumem
certos riscos pela racionalidade limitada. Por exemplo, se algum quiser traar uma rota
de fuga em caso de incndio num prdio, talvez no consiga avaliar todas as alternativas
possveis (local de incio do fogo, quantidade de pessoas, etc.). E no momento da
situao de incndio, o ser humano tem que simplificar ao mximo seu processo de
deciso para acelerar as aes. Isto quer dizer que os planos iniciais podem ter sido
esquecidos ou tero que ser simplificados. E assim, as atitudes planejadas mudam pela
racionalidade limitada. E o ser humano se torna imprevisvel. Tversky e Kahneman
(1974, 1983) discutem o problema de avaliaes probabilsticas erradas em decises
humanas. Eles apresentam diversos experimentos que comprovam que o ser humano
avalia de forma errada muitas situaes, usando modelos probabilsticos errados ou
incompletos.
Alm disto, a ao de uma pessoa acaba por influenciar a deciso dos que esto
prximos. Isto pode modificar o comportamento dos outros, que podem imitar ou fazer
algo bem diferente. Por vezes, algumas decises de pessoas pensando no benefcio
prprio e nico podem prejudicar ainda mais o sistema. H o famoso caso do paradoxo
de Braess, que diz que criar atalhos em redes rodovirias pode no diminuir o tempo
mdio, porque a maioria das pessoas ir escolher o atalho, gerando novos
26
engarrafamentos. Tomar decises de forma independente, talvez no seja a melhor
alternativa, conforme a teoria do Equilbrio de John Nash. Talvez a melhor alternativa
para todos seja cada um perder um pouco de algo para todos ganharem.
As tcnicas relativas Teoria dos Jogos ajudam a entender os resultados nestes tipos de
sistemas complexos. A Teoria dos Jogos uma tentativa de tentar prever resultados em
sistemas complexos. Atravs da anlise da combinao de diferentes estratgias dos
jogadores (componentes do sistema que possuem poder de deciso), pode-se prever os
resultados possveis. A dificuldade est em prever as decises que sero tomadas.
Apesar das dificuldades, das incertezas, mesmo assim precisamos procurar padres para
entender a complexidade dos sistemas. Isto nos ajudar em situaes futuras, mesmo
que no nos permitindo chegar a previses exatas. Ghani e Simmons (2004), por
exemplo, conseguiram prever com 96% de acerto, o preo final em leiles no eBay, um
tipo de situao bastante complexa, envolvendo diversas variveis e alm disto
intuies, sentimentos, percepes e escolhas humanas.
27
3 Processo Geral de BI
BI tem a ver com descobrir conhecimento, para poder gerar inteligncia e resolver
problemas, como discutido no captulo anterior. O objetivo final ento poder gerar
conhecimento novo e til.
A etapa de anlise tem como entrada uma amostra dos dados e gera como sada padres
estatsticos. Mas estes padres no so conhecimento. Eles precisam ser interpretados
dentro do contexto da organizao ou do domnio, para a sim se tornarem
conhecimento. Por exemplo, uma anlise de pacientes com diabetes descobriu que 95%
dos pacientes com diabetes do tipo 1 recebiam o medicamento X. Isto, para um mdico
especialista da rea, no novidade nenhuma, pois o tratamento usual dado a
pacientes deste tipo. O conhecimento interessante e novo est nas excees, nos 5% que
tem o mesmo tipo de diabetes mas no recebe o mesmo medicamento. Pode ser que
tenham alguma outra caracterstica que os impede de tomar tal medicao.
Objetivo do BI
Como trataremos mais adiante neste livro, o processo de BI pode ser feito de forma
reativa ou proativa. Mas em ambos os casos h um objetivo. No primeiro tipo (BI
reativo), o objetivo bem definido e busca identificar ou monitorar indicadores
quantitativos. J no segundo caso, o objetivo mais vago e tem mais a ver com uma
explorao (estamos procurando algo mas no sabemos bem o que , nem se vamos
encontrar). Este "algo" que se procura no modo proativo pode ser simplesmente "algo
novo", sem definio, forma ou qualidades.
Organizar as informaes
Como discutiremos neste livro, a separao dos dados em amostras um passo
importante para o processo de BI. Isto permite analisar os resultados e interpret-los
luz da amostra. Se estamos analisando dados histricos dos 2 ltimos anos, os
resultados se referem a esta amostra. Se formos utilizar os padres encontrados neste
29
histrico para nos preparar para o futuro (ou tentar prever o futuro), poderemos ter
surpresas bem desagradveis.
Alm disto, a separao em amostrar permite comparar os padres encontrados nas
amostras. Separando dados por dias da semana, talvez possamos descobrir um padro
diferente para cada dia da semana.
Por fim, seria interessante contar com um cientista social ou estatstico, que pudesse
ajudar na gerao de amostras e na seleo das tcnicas estatsticas a serem utilizadas.
De acordo com Choudhury e Sampler (1997), existem dois modos para aquisio de
informao: o modo reativo e o modo proativo. No primeiro caso, a informao
adquirida para resolver um problema especfico do usurio (uma necessidade resultante
de um estado anmalo de conhecimento). Nestes casos, o usurio sabe o que quer e
poder identificar a soluo para o problema quando h encontrar.
30
Por outro lado, no modo proativo, o propsito de adquirir informao exploratrio,
para detectar problemas potenciais ou oportunidades. Neste segundo caso, o usurio no
tem um objetivo especfico.
No modo reativo, o usurio tem uma ideia, mesmo que vaga, do que pode ser a soluo
ou, pelo menos, de onde se pode encontr-la. Pode-se dizer ento que o usurio possui
algumas hipteses iniciais, que ajudaro a direcionar o processo de descoberta. Neste
caso, necessrio algum tipo de pr-processamento, por exemplo para selecionar
atributos (colunas em uma tabela) ou valores de atributos (clulas). Isto exige entender o
interesse ou objetivo do usurio para limitar o espao de busca (na entrada) ou filtrar os
resultados (na sada). o caso tpico de quando se deseja encontrar uma informao
especfica, por exemplo, um valor para um atributo ou um processo (conjunto de
passos) para resolver um problema.
31
Na abordagem proativa, no h hipteses iniciais ou elas so muito vagas. O usurio
dever descobrir hipteses para a soluo do seu problema e explor-las, investig-las e
test-las durante o processo. Em geral, acontece porque o usurio no sabe exatamente o
que est procurando. o caso tpico de quando se quer monitorar alguma situao ou
encontrar algo de interessante que possa levar a investigaes posteriores. Depois que
hipteses so levantadas, o processo pode seguir como no paradigma reativo, talvez
sendo necessrio avaliar as hipteses, para verificar se so verdadeiras ou no.
Pode-se dizer que a abordagem proativa mais difcil de ser conduzida e at mesmo
pode no levar a descobertas interessantes. A princpio, deve-se sempre procurar iniciar
com indicadores bem definidos, ou seja, usando uma abordagem reativa. A pr-
atividade til quando os indicadores j foram esgotados ou quando se quer descobrir
algo realmente novo e inesperado. Muitas empresas utilizam abordagens para Gesto da
Inovao baseadas em descobertas por acidente ou acaso (o que os americanos chamam
de serendipity), e este "pulo do gato" pode fazer a grande diferena em mercados
competitivos. Mas isto papo para outro captulo.
32
4 Pr-processamento e Preparao de dados
Esta etapa tambm conhecida pelo termo ETL (extrao, transformao e carga/load)
ou cleansing (limpeza).
O objetivo melhorar a qualidade dos dados e gerar uma base separada para anlise
(um data warehouse) para no sobrecarregar as bases usadas pelos sistemas
transacionais.
A limpeza serve para eliminar inconsistncias da base, completar dados, tratar valores
nulos, eliminar registros duplicados, etc. (por exemplo, uma pessoa com dois telefones
diferentes ou com um endereo incompleto ou faltando).
A grande ideia foi construir um software que identificasse regras automaticamente (sem
que operadores humanos precisam definir as regras) e avaliasse a probabilidade.
Quando os criadores viram que regras novas e interessantes eram descobertas, a nasceu
a Minerao de Dados como conhecida hoje.
O que fazer se acontecer de pegarmos para analisar uma base de dados onde 50% dos
registros no possuem dados para um determinado atributo (por exemplo, campo sexo).
Isto pode gerar resultados no confiveis. Por exemplo, se uma anlise estatstica gerar
um padro dizendo que 80% dos registros possuem valor "masculino" para este campo.
Como no sabemos o que acontece com os outros 50% dos registros, possvel que
todos eles sejam do mesmo sexo e com isto a regra descoberta estaria completamente
distante da realidade.
Outra possibilidade gerar dados por aproximao. Por exemplo, na minerao de uma
base com dados climticos da regio sul do estado do Rio Grande do Sul, havia muitos
dados faltantes. O que se fez foi completar os dados faltantes com os dados de estaes
prximas, uma vez que a variao dos valores de uma estao de coleta para outra no
muito grande.
33
A mdia e a interpolao tambm podem ser utilizadas, mas isto pode gerar distores
drsticas nos resultados se os valores faltantes justamente destoavam da maioria (eram
outliers). Se o conjunto de registros compunha uma minoria, os resultados finais tero
um desvio muito pequeno.
A eliminao de registros duplicados evita contar duas vezes uma entidade. Alm disto,
pode resolver problemas com dados conflitantes (ex.: cliente com dois endereos). H
tcnicas que avaliam probabilidades para saber qual o valor mais correto.
Entretanto, h muitos casos em que isto no feito por alguma razo histrica (mal
planejamento, por exemplo) ou quando duas bases so unidas por aquisio de empresas
diferentes. Imagine o caso em que o identificador utilizado o nome de uma pessoa.
muito provvel que o nome de uma mesma pessoa seja escrito de formas diferentes em
oportunidades diferentes. Um operador humano pode registrar o nome completo, outro
pode abreviar algum nome intermedirio ou mesmo o dono do nome pode no querer
dizer todos os seus sobrenomes. O uso de atributos complementares pode ajudar a
encontrar registros duplicados desta pessoa. Tambm pode-se utilizar tcnicas de
avaliao de similaridade entre vetores, como a medida de similaridade de Pearson
usada em sistemas de Raciocnio Baseado em Casos (RBC ou CBR).
O melhor seria ter padronizao de todos os campos. Se isto no for possvel, devemos
usar tcnicas como as discutidas anteriormente para deduplicar registros.
Em muitos casos, imprescindvel integrar duas ou mais bases, como no caso de uma
empresa que adquire outra e quer unificar as duas bases. Em outros casos, a integrao
pode ser feita para gerar enriquecimento dos dados. Por exemplo, integrar a base de
dados de uma loja fsica com a base de uma loja na Internet.
Para aumentar as chances de haver padres estatsticos, pode-se gerar novos campos a
partir dos existentes. Por exemplo, um hospital possui dados de baixa e alta de pacientes
que foram internados. Mas o dado mais importante para este hospital o nmero de dias
que o paciente ficou internado (tempo de permanncia). Uma simples subtrao entre
datas.
claro que isto aumenta o volume de dados, mas certamente tambm aumenta a
probabilidade de encontramos padres. Em geral, utilizada uma tabela no
normalizada para agilizar as anlises, uma vez que no preciso passar de uma tabela
para outra atravs de chaves estrangeiras (cdigos que relacionam registros).
Outro exemplo de enriquecimento: cada click de uma pessoa num site monitorado. A
estes dados so cruzados com o que a pessoa comprou pela internet. E depois estes
dados so cruzados com dados dos cadastros de lojas fsicas. E ento a estes dados so
somados dados sobre as compras que esta pessoas fez na loja fsica, fora da Internet. E
tudo isto complementado com dados vindos dos perfis da pessoa nas redes sociais e
com o que a pessoa diz em fruns e blogs ( o Social CRM).
E possvel pegar dados pblicos, disponveis livremente na Internet. Estes dados no
identificam pessoas individualmente, mas do estatsticas sobre grupos de pessoas. Uma
empresa pode comprar uma lista telefnica com nome, endereo e telefone de clientes.
Mas no sabe classificar os clientes por dados scio-demogrficos. Ento, a empresa
pode consultar bases pblicas sobre setores censitrios. Um setor censitrio diferente
35
de um bairro ou quadra; uma regio, geralmente menor que um bairro mas podendo
abranger partes de 2 bairros, que foi pesquisada pelo censo do IBGE. Ento, h
informaes estatsticas sobre cada setor especfico. Imagine que a empresa ento
possui os seguintes dados sobre uma pessoa: o nome Jos da Silva e mora na Rua X,
n.41. Bom, usando um sistema de GIS simples, pode-se saber o setor censitrio onde ela
mora. Depois, procuram-se dados estatsticos sobre este setor e, digamos, temos que
neste setor:
100% das residncias possuem 3 TVs;
98% possuem 2 banheiros;
90% possuem aparelhos de DVD;
90% possuem TVs LCD;
etc.
Agora, de posse destas informaes estatsticas, podemos estimar alguns dados sobre
Jos da Silva. Que ele tem 3 TVs, com 100% de chances, que h 98% de chances de ele
ter 2 banheiros em casa, e assim por diante.
Ento, desta forma, uma empresa combina a lista telefnica com dados censitrios e
poder obter um banco de dados de clientes potenciais.
Empresas parceiras tambm costumam compartilhar dados sobre clientes, por exemplo,
administradoras de cartes de crdito, instituies financeiras, redes de varejo, escolas,
postos de gasolina, editoras, etc. E h empresas que vendem este tipo de informao
(cadastros).
muito difcil minerar ou analisar todos os dados de uma base. Em geral, preciso
fazer uma seleo inicial. Isto porque alguns dados, mesmo presentes por direito na
base, talvez no sirvam os propsitos. Por exemplo, produtos que no so mais
vendidos e no interferem mais no processo, e por consequente no so interessantes
para serem analisados, devem ser excludos.
36
A seguir, so discutidas algumas tcnicas para gerao de amostras.
Amostras aleatrias
Neste caso, so selecionados aleatoriamente elementos do universo (conjunto todo). Por
exemplo, a loja determina o tamanho da amostra (valor N) e a seleo feita pegando-
se os N primeiros clientes da base de dados (do cadastro) ou so selecionados N
elementos dentro do cadastro, pulando de forma aleatria. Se a loja no tiver um
cadastro, ela ir selecionar clientes que saiam da loja com sacolas (produtos
comprados), "atacando" N clientes pulando alguns (a critrio da pessoa que far a
abordagem).
Este tipo de amostra pode trazer problemas, pois imagine que os N selecionados so
todos do mesmo tipo (homens X mulheres, classe A ou classe C, etc). E pior ainda se
forem selecionadas justamente as excees.
Alguns pesquisadores julgam a tcnica eficiente pois acreditam na distribuio aleatria
(aquela velha histria da moedinha, se jogarmos uma moeda 1000 vezes e s
analisarmos os 100 primeiros resultados, a distribuio ser a mesma).
Entretanto, para que a tcnica seja utilizada adequadamente, a aleatoriedade deve ser
total. No caso de clientes saindo da loja, no se pode selecionar clientes apenas num dia.
Deve-se levar em conta as variedades (dia da semana, dia do ms, ms, turno, etc).
Esta tcnica s deve ser usada quando no se pode utilizar uma tcnica melhor.
37
tipos de clientes, mas vai excluir quem s veio uma vez por ano ou quem comprou num
valor muito abaixo da mdia de gasto.
Amostras estratificadas
Esta a forma correta de gerar amostras. Para tanto, precisa-se identificar que variveis
podem interferir na anlise. Por exemplo, no caso da loja, atributos como sexo, idade,
classe scio-econmica, bairro e cidade, valor gasto e forma de pagamento podem fazer
diferena para entender os tipos de clientes. E talvez altura, peso e escolaridade no
sejam diferenciais para campanhas de marketing ou para entender comportamentos de
compra.
Depois de identificadas as variveis, precisa-se saber a proporo de elementos no
universo todo para cada varivel. Por exemplo, digamos que h 60% de mulheres e 40%
de homens entre todos os clientes da loja, e que 25% so da classe A, 50% da classe B e
25% da classe C, e assim por diante nas demais variveis.
Ento, a amostra ser definida com a mesma proporo que a diviso no universo. Ou
seja, a amostra deve conter 60% de mulheres, 40% de homens, 25% de pessoas da
classe A, 50% de pessoas da classe B, 25% da classe C e assim por diante.
Para agilizar o processo de anlise, pode-se separar subconjuntos dos dados. Alm de
tornar o processo mais rpido, evita tambm a descoberta de padres com suporte muito
baixo.
A formao de subconjuntos pode ser feita por corte vertical ou horizontal. O corte
vertical significa selecionar alguns atributos para anlise, eliminando outros. O corte
horizontal trata de selecionar alguns registros, eliminando outros.
O corte vertical (feature selection) ser discutido mais adiante. Para o corte horizontal,
as amostras podem ser definidas por tempo (ano a ano, ms a ms, etc) ou por algum
outro atributo que permita separar os dados com significado e no aleatoriamente. Pode-
se pegar um atributo especfico e fazer a separao (ex: sexo, tipo de cliente, produto ou
tipo de produto). Por exemplo, separar uma base de clientes em homens X mulheres,
separar para anlise somente produtos de um certo setor ou faixa de preo, classificar
empresas por porte e analisar em separado cada grupo.
Ou ento separar um conjunto de dados por outros dados relacionados. Por exemplo,
pode-se comparar as vendas feitas por homens X vendas feitas por mulheres, compras
de adultos X jovens X 3a idade, vendas separadas por tipo de produto ou por loja ou por
regio, etc.
Mas qual o melhor campo para separar em subcolees ? Utilizar apenas um campo ou
uma combinao de vrios campos (amostra estratificada) para separar a coleo toda
em subconjuntos ? A escolha deve ser feita por humanos ou automaticamente, como na
tcnica de clustering ?
38
Uma constatao, entretanto, que campos com predomnio de valores no so bons
para separao. Por exemplo, num hospital possvel que mais de 90% dos pacientes
sejam atendidos pelo SUS. Ento no adiante separar os pacientes em "particulares" e
"SUS". At porque o subgrupo do "SUS" deve ser muito pequeno e no ir gerar um
nmero mnimo de elementos para se ter significncia estatstica (discutida adiante).
O que este tipo de campo nos diz que podemos sim separar um subgrupo para anlise,
mas seria o da maioria. Isto , eliminar registros com valores minoritrios. Por exemplo,
se estamos analisando uma base de clientes, e h apenas 0,1% dos clientes que moram
numa determinada cidade, no vale a pena minerar estes registros quando queremos
analisar padres pela cidade.
Se analisarmos juntos todos os atributos que formam uma hierarquia, muitos padres
descobertos iro mostrar estas relaes. E isto no interessante porque j sabemos
39
destas relaes. A soluo utilizar um dos atributos de cada vez, em cada ciclo de
anlise.
Agora note que, se usarmos o atributo mais genrico (neste exemplo, o pas), a
probabilidade de encontramos padres maior, pois h menos valores possveis para
este atributo. Entretanto, pode haver predomnio de um ou dois valores, e como j
comentamos antes isto tambm no bom.
Se usarmos o atributo mais especfico (no exemplo, bairro), pode ser que no haja
repeties e o suporte das regras encontradas seja muito baixo (ou mesmo no
encontremos padres).
A navegao por uma hierarquia d nome s operaes de drill-down e drill-up (ou roll-
down e roll-up), seja para analisar os dados com mais detalhes ou para se ter uma viso
mais superficial dos dados.
Bom, o que foi dito acima vale tambm para outros tipos de hierarquias como datas
(ano ms dia), classificaes de produtos (tipo do produto "brick" marca
embalagem), pedidos e vendas (carrinho item do carrinho), etc.
Geralmente, dividimos as amostras por tempo utilizando alguma unidade como ano,
semestre, ms, dia da semana, hora, turno, etc. Aqui a dica a tentativa e erro e a
gerao de diversas amostras para comparao. Pode-se comear com uma
granularidade intermediria (por exemplo, ms) e depois aumentar ou diminuir a
granularidade, utilizando uma unidade menor ou maior. O feeling de um especialista do
domnio pode ajudar a determinar as melhores unidades para anlise, mas tambm pode
influenciar o processo e acabar deixando fora amostras interessantes (o tal de
"achmetro").
40
Muitas vezes, a granularidade alta (unidade menor, como por exemplo a hora) pode
dificultar a interpretao dos resultados. O que significa um padro de vendas que
ocorre s 9 horas todos os dias, mas no ocorre s 8 horas nem s 10 horas ? Que
estratgias devem ser usadas para aquela hora especfica e que no valem a pena ser
usadas uma hora antes ou depois ? E tambm trabalhar com hora e minuto pode gerar
padres muito especficos, que at podem ser interessantes mas como traar estratgias
de aes para um minuto especfico ?
No devemos tambm negligenciar padres que ocorrem com frequncias maiores que
meses. Por exemplo, para uma revenda de carros pode ser interessante descobrir que um
cliente troca de carro a cada 3 ou 4 anos. As lojas de varejo j descobriram que nos anos
de Copa do Mundo (a cada 4 anos ento), as vendas de TVs aumentam muito.
Os registros feitos ao longo do tempo formam uma srie temporal. Como discutiremos
adiante, a tcnica de minerao mais apropriada a de anlise de sries temporais.
41
conhecido); entre outros (percentuais mximo e mnimo). H uma calculadora online
para fazer tais clculos: http://www.calculoamostral.vai.la/
Tversky e Kahneman (1971) discutem os problemas com amostras muito pequenas. Por
exemplo, se voc jogar uma moeda no viciada trs vezes e der duas vezes cara e uma
vez coroa, voc estar inclinado a acreditar que a probabilidade 66,66% contra
33,33%. Mas se jogar mil vezes a mesma moeda, certamente haver uma proporo
prxima de 50/50. Pior seria se nas trs primeiras jogadas, desse somente um lado.
Como sabemos que, no caso da moeda, a probabilidade 50/50, isto pode gerar a
chamada "falcia do jogador": acreditar que o jogo vai mudar para reverter uma
tendncia e voltar ao padro estatstico. Por exemplo, jogando 5 vezes a mesma moeda e
dando sempre o mesmo lado (digamos, cara), vamos acreditar que na 6a vez ir dar o
outro lado (coroa). E na 7a tambm vamos estar inclinados que dar coroa para
equilibrar o jogo e voltar proporo 50/50. Entretanto, a proporo s acontece com
amostrar maiores. Ento, as prximas jogadas s minimizam os desvios e no os
corrigem logo em seguida.
Como dito antes, nem sempre interessante analisar todos os atributos disponveis. Para
tanto, precisa-se selecionar alguns e eliminar outros. Esta separao pode ser feita por
benchmarking ou analogia, ou seja, utilizando o que normalmente se analisa tais como
vendas, perfil de clientes, etc.
Mesmo assim, a base ainda pode conter muitos atributos e isto pode gerar milhares de
padres estatsticos. O ruim que no se consegue interpretar todos estes padres, por
serem muitos e isto ser uma tarefa intelectual. Ento necessrio ainda eliminar alguns
atributos.
Uma dica evitar atributos com valores que no se repetem, como por exemplo
identificadores e campos chave como CPF, RG, CNPJ e cdigos criados para relacionar
tabelas. Se estes atributos forem utilizados como chaves estrangeiras, a talvez se
consiga algum padro. Por exemplo, o cdigo de clientes pode ser utilizado em vendas
para se descobrir algo especfico sobre um determinado cliente. Mas para casos em que
se queira um padro mais genrico, estes atributos no servem.
As datas devem ser "quebradas" em dia da semana, dia do ms, ms e ano, seno
dificilmente se repetiro. E se isto acontecer, de que adianta conhecer um padro que
aconteceu numa data especfica ?
Quando h campos calculados (ex: total), isto tambm pode gerar muitos padres. No
caso de associaes, certamente aparecero diversas regras relacionando o campo
calculado com seus parmetros. Um exemplo: imagine uma base de vendas com um
campo sendo o total da venda e outro sendo o imposto. Sabe-se que o imposto
calculado pelo valor total da venda. Assim, possvel que sejam identificados diverso
padres do tipo: SE imposto = X e outro_atributo = Y ENTO total_da_venda = Z.
Note que neste exemplo, vrias regras aparecero alterando somente os atributos
relacionados na parte do SE (outro_atributo). Para resolver tal problema, basta utilizar
somente um dos campos (origem ou calculado) de cada vez.
42
4.6.1 Valores que predominam
Outra dica evitar campos com valores dominantes. Por exemplo, se numa base de
dados sobre clientes, 98% dos registros so de homens (ou seja, 98% dos clientes so
homens), no vale a pena minerar o campo "sexo", pois ele estar presente em diversas
regras de associao do tipo SE atributo = X ENTO sexo = "M".
Neste exemplo, mesmo que apaream regras com o sexo = "F", provavelmente o
suporte ser muito baixo, j que somente 2% dos registros tm este valor.
Outro caso de entidades ou registros que predominam. Por exemplo, suponha uma
base de pedidos onde 90% pedidos sejam de uma empresa X, e que a cidade desta
empresa seja Y. Ento possvel que sejam encontrados diversos padres com o cdigo
desta empresa. Se juntarmos os pedidos e os dados das empresas que fazem pedidos
(clientes), vo aparecer muito mais padres com a cidade Y.
Uma dependncia funcional acontece quando um atributo tem seu valor determinado
pela presena de outro (seria uma probabilidade condicional de 100%). Por exemplo, se
numa base aparecer a cidade = "Porto Alegre", o estado ser "RS" sempre (em 100%
dos casos). Ento o atributo "cidade" determina o valor do atributo "estado" (e "estado"
depende de "cidade").
Para evitar tal problema, basta utilizar um dos atributos por vez, em cada ciclo de
anlise. Ou seja, utilizar somente um dos campos da dependncia. Eliminar os campos-
chave, como cdigos e identificadores, tambm minimiza o problema.
43
4.7 Discretizao - faixas ou grupos de valores
Se uma pessoa for realizar a separao dos valores, pode incorrer em erros. Por
exemplo, como separar por idade. De que idade at que idade seria o grupo dos jovens,
dos adultos, das crianas e da chamada 3a idade ?
30
25
20
15
10
0
30 31 32 33 34 35 36 37 38 39 40
Figura 3: Grfico para mostrar discretizao de forma intuitiva
Uma sada para isto utilizar a lgica difusa (fuzzy). Ela permite que um elemento seja
classificado em diferentes grupos mas com graus de pertinncia diferentes. Isto significa
que algum pode dizer que hoje est frio e quente ao mesmo tempo. Mas a pessoa dir
que est frio com grau 0,7 (por exemplo) e est quente com grau (0,3). Ento, no caso
do jovem com 14 anos, ele poder ser classificado tanto como criana como adolescente
(o mesmo com o jovem de 15 anos). Para efeitos de marketing, isto bom, porque as
campanhas no iro perder a oportunidade de atingir certas pessoas por dvida na
classificao.
44
Figura 3. Ela apresenta o nmero de pessoas (eixo vertical "y") que possuem uma
determinada idade (eixo horizontal "x").
Algum poderia dividir este grupo de pessoas em 2 ou 3 grupos. No caso de 2 grupos,
teramos pessoas com idade entre 30 e 32 (inclusive) num grupo e pessoas de 34 a 40
anos num segundo grupo. Se quisermos podemos dividir ainda o segundo grupo em 2,
um com idade entre 34 e 37 e outro com idades entre 38 e 40.
Ento a soluo gerar uma base s para anlise, chamada de base OLAP (on line
analytical processing). Este o conceito de Data Warehouse: uma base centralizada
formada por dados copiados de outras bases, as chamadas bases OLTP (on line
transactional processing). Ento separamos as bases de dados e os servidores: um
esquema para aplicaes transacionais a nvel operacional da empresa (com tarefas de
incluso, excluso, alterao e consulta simples de registros e valores) e outro esquema
com dados s para anlise (dados no volteis, onde somente haja incluso), apoiando
decises tticas e estratgicas.
45
5 Tcnicas de Anlise de Dados
Este captulo pretende apresentar diversas tcnicas para anlise de dados, incluindo um
conjunto de tcnicas conhecidas como Data Mining, mas tambm tcnicas de anlise de
dados cbicos (montagem de cubos) ou anlise OLAP, as quais so popularmente
chamadas de BI.
Por outro lado, h tambm anlises qualitativas. Estas tm por objetivo encontrar as
variveis envolvidas, para depois ento serem aplicadas tcnicas quantitativas. Por
exemplo, uma pesquisa sobre refrigerantes preferidos por uma populao pode comear
por uma pesquisa qualitativa, para que fossem identificados as diferentes preferncias.
Tambm pode-se fazer uma anlise qualitativa para identificar possveis motivos para
cada preferncia. Aps ento, pode-se conduzir pesquisas quantitativas para determinar
quantidades (quantas pessoas preferem cada tipo e quantas vezes cada motivo foi
citado). A anlise qualitativa pode ser feita de forma manual ou intelectual por
humanos, mas j h ferramentas de software que auxiliam tal processo. Neste caso,
normalmente a anlise qualitativa feita sobre dados chamados no-estruturados, os
quais incluem textos, sons e imagens (figuras, desenhos, diagramas, fotos, vdeos, etc.).
A Teoria do Caos diz que h padro em tudo, at mesmo no nosso livre arbtrio. E tudo
se reduz a funes matemticas. A dificuldade no nem encontrar a funo que rege
cada sistema, mas sim saber quais variveis influenciam cada resultado, e depois
conseguir coletar em tempo hbil cada medida. O Prmio Nobel de Economia
geralmente dado a matemticos, porque estes descobrem funes matemticas para
explicar comportamentos econmicos. Um destes casos o de John Nash. No filme
"Uma Mente Brilhante", a vida deste gnio bem retratada. Em algumas passagens
podemos ver como sua mente funcionava, tentando encontrar padres matemticos em
tudo, por exemplo, pssaros voando, pessoas caminhando no campus da universidade.
No nosso dia a dia, tambm usamos simplificaes deste tipo. Por exemplo, para
representar a qualidade de um filme ou uma msica, usamos estrelas. Quanto mais
estrelas, melhor a qualidade. Mas como traduzir um conjunto de diretores, atores, temas,
cenrios, etc. a um nico nmero. J h estudos para anlise automatizada de textos e
47
imagens. Isto certamente passa por nmeros e frmulas matemticas. S assim
poderemos num futuro breve pesquisar no Youtube por um vdeo onde aparea um casal
numa praia com coqueiros, ao entardecer.
O humor da humanidade j pode ser representado por uma srie temporal, a partir da
anlise de postagens no Twitter. E j se pode entender o aumento de vendas pela anlise
dos grficos do Google Trends. E isto inclui prever a bilheteria de um filme analisando
blogs. Os artigos de Bollen et al. (2011), Choi e Varian (2012) e Mishne (2006)
explicam o que eu estou dizendo.
48
Figura 5: biorritmo para vrios dias
Nem sempre os nmeros so melhores que nossas intuies e sentimentos. Nate Silver
relata que olheiros humanos tiveram melhores desempenhos que as estatsticas do
sistema Pecota em vrios casos no baseball (Silver, 2013). Apesar de Lewis (2004)
relatar alguns casos contrrios, (em Moneyball, as estatsticas foram melhores que
olheiros), a concluso que ambos devem se ajudar. A prova disto que a equipe de
Obama mesclou dados e sentimentos das pessoas para fazer uma campanha vitoriosa
(Moraes, 2012).
Nesta seo, apresentamos as principais tcnicas para Data Mining, seu funcionamento
e suas aplicaes.
Associao
Esta tcnica a mais famosa e ficou conhecida depois que uma rede de supermercados,
ao utilizar uma ferramenta de Data Mining com esta tcnica, descobriu que, nas 6as-
feiras, quem comprava fraldas tambm comprava cerveja.
O objetivo da tcnica avaliar que valores aparecem muito juntos nas mesmas
transaes ou eventos (por exemplo, carrinhos de compras), mas tambm pode ser
utilizada para identificar relaes entre atributos dentro de uma mesma entidade (ex.:
clientes do sexo feminino costumam morar mais no bairro X).
Para isto, a tcnica baseada na probabilidade condicional. A Figura 6 apresenta uma
amostra exemplo de uma tabela num banco de dados. Nela podemos ver que h 2
campos, C1 e C2, e os valores que aparecem nas linhas (transaes). Pode-se notar que
os valores X e Y aparecem em comum em muitas linhas.
49
A probabilidade condicional resulta em implicaes do tipo X Y, que so chamadas
regras condicionais e podem ser lidas como "se X aparecer, ento Y tem grandes
chances de aparecer tambm". A implicao tem um grau dede probabilidade ou confiana
(confidence), que calculado pela razo entre o nmero de registros onde X e Y
aparecem juntos, dividido pelo nmero de registros em que X aparece (independente da
presena de Y).
No exemplo da Figura 6, temos que a regra X Y possui confiana de 80%. Isto quer
dizer que h 80% de chances de Y aparecer no campo C2 na mesma linha em que X
estiver no campo C1. Ou olhando para o passado, Y aparece em 80% das linhas onde X
aparece.
Note que a relao inversa pode possuir outro grau de confiana. No exemplo, a regra Y
X tem confiana de 100%, calculada pela diviso do nmero de registros onde Y e X
aparecem juntos pelo nmero de vezes em que Y aparece.
50
Figura 7: Comparao de valores entre campos para Data Mining
Correlao
A tcnica de correlao procura avaliar a similaridade entre duas variveis numricas.
Este tipo de anlise no indica causalidade,
causalidade, ou seja, no diz se um atributo leva a outro,
se causa de outro (ou se um consequncia de outro). Apenas indica que h uma forte
relao entre os atributos, pelos seus valores quantitativos. A anlise de correo pode
inclusive indicar a fora da correlao.
Esta fora de correo pode ser medida numa escala de 1 a -1. O valor 1 indica que as
variveis esto fortemente correlacionadas.
correlacionadas. O valor zero indica que no h nenhum
relao entre elas, e o valor -1 indica uma relao inversa (quanto o valor de uma
varivel alto, o valor da outra baixo).
Pode-se notar que o vetor V4 tem um grau de correlao igual a 1 em relao ao vetor
V1, pois todos os valores so idnticos. J o vetor V3, com valores muito prximos, tem
um a correlao em mais de 99%. O vetor V2 tem correlao de 97,4% porque metade
dos valores so iguais ao vetor V1. O vetor V6 com valores pela metade tem correlao
de 88,7% e por fim o vetor V5 com valores bem diferentes tem s 14,2% de correlao
com o vetor V1.
Esta tcnica til para verificar se h uma relao entre atributos quantitativos, por
exemplo, temperatura e vendas. Como os valores de temperatura oscilam entre 0 e 50 e
as vendas possuem valores bem diferentes, preciso fazer uma normalizao, ou seja,
levando ambas as faixas de valores para o mesmo intervalo (por exemplo, entre 0 e 1).
51
Uma maneira de fazer isto dividir o intervalo original por um valor base (por exemplo,
temperatura dividida por 100) ou fazer a transposio proporcional de valores mnimos
e valores mximos, mantendo a proporcionalidade entre os valores.
V1 V2 V3 V4 V5 V6
40 70 39 40 20 20
120 120 123 120 300 120
60 80 62 60 120 30
300 300 301 300 150 150
150 120 148 150 80 75
200 200 202 200 90 100
80 60 79 80 140 40
180 180 179 180 100 90
correlao= 0,974583 0,999773 1 0,142469 0,887595
Figura 8: Planilha de vetores e grau de correlao
Isto til para se saber quais aes esto realmente impactando em objetivos. Mais
adiante discutiremos a questo da causalidade, ou seja, se uma forte relao entre duas
variveis pode indicar que uma causa da outra.
52
Correlao assncrona
A Anlise de Regresso uma tcnica estatstica que estuda a relao entre duas ou
mais variveis, procurando elaborar um modelo para explicar o comportamento relativo
destas variveis. til para inferir a relao de uma varivel dependente (varivel de
resposta) com variveis independentes especficas (variveis causais ou explicativas do
resultado).
Por exemplo, imagine que a Coca Cola tivesse uma funo relacionando o dia do ano
com a quantidade vendida de seu principal produto. A funo iria dizer o quanto a Coca
Cola iria vender num determinado dia futuro e assim ela poderia produzir somente o que
espera vender (ver Figura 11). A varivel dependente a quantidade vendida do produto
e a varivel independente o dia do ano (pois no depende das vendas e sim o
contrrio). Infelizmente a coisa no to simples assim, pois outros fatores influenciam
a quantidade de vendas, incluindo temperatura, promoes, aes da concorrncia, etc.
53
Figura 11: Tcnica de Modelo de Predio
Por exemplo, Thomas Morus equacionou o crescimento da populao como uma funo
exponencial enquanto que previu o crescimento linear da produo de alimentos,
chegando ento concluso que iria faltar comida no futuro. Os servios de
meteorologia utilizam modelos matemticos desta forma, juntando diversas variveis
para poder prever o tempo (temperatura, se vai chover ou no, o quanto vai chover, qual
ser a velocidade do vento, etc.).
Outra forma de aplicao dos modelos construdos desta forma poder fazer
simulaes, fornecendo como entrada dados ainda no observados. Imagine que h um
modelo que representa a relao entre nmero de vagas nas escolas, nmero de
empregos e que tenhamos informaes sobre a idade e nvel de escolaridade de cada
pessoa num pequeno pas. E que ainda seja possvel determinar a taxa de crescimento da
populao, vagas nas escolas e empregos. Ento, usando a anlise de regresso seria
possvel ter uma funo matemtica relacionando estas variveis. Isto seria til para
prever as quantidades futuras destas variveis, assumindo uma linearidade. E tambm
claro assumindo que outras variveis no interferissem (no haver evaso, migraes,
repeties de ano, etc.). Outro benefcio do modelo seria poder avaliar eventos futuros
caso alguma varivel tivesse alterao de comportamento. Por exemplo, e se o nmero
de nascimentos aumentasse muito (acima do esperado), e se o nmero de vagas de
emprego no crescesse tanto quanto esperado (acima do linear), e assim por diante.
A relao entre as variveis pode ser funcional (por exemplo, a rea de um crculo em
relao medida do raio deste crculo) ou estatstica. A relao pode existir mas no
necessariamente ser exata. Por exemplo, a idade das pessoas em relao altura; so
funes lineares que progridem juntas com uma certa relao at certo ponto. Mas
talvez no seja possvel identificar uma funo matemtica que, a partir de uma, seja
possvel calcular o valor de outra.
Outro exemplo a relao (hipottica) inversa entre o aumento das vendas de TVs num
determinado pas e o ndice de mortalidade infantil neste mesmo pas. At podemos
encontrar uma funo matemtica que relacione os ndices, ou seja, pode haver uma
forte correlao estatstica (como discutido na tcnica anterior) mas certamente uma
varivel no causa de outra. E este tipo de correlao que pode desviar a anlise de
causa-efeito, como discutiremos mais adiante.
54
Os modelos de regresso podem ser:
- simples: quando uma varivel depende somente de outra varivel; ou
- mltiplos ou multivariados: quando uma varivel depende de um conjunto de outras
variveis (o caso das vendas).
A Teoria do Caos diz que temos funes para descrever tudo. O filme "Uma Mente
Brilhante" mostra a vida do matemtico John Nash, que descobria funes matemticas
para tudo. A dificuldade da tcnica de anlise de regresso no descobrir a funo que
relaciona as variveis, pois isto os softwares de Data Mining podem fazer. O problema
est em conseguir dados de todas as variveis envolvidas e numa quantidade suficiente
para tornar a previso significativa em termos estatsticos. E isto inclui tambm em
conhecer ou determinar quais variveis influenciam o resultado (discutiremos isto mais
adiante quando tratamos de descobrir hipteses para causas).
Mdia
Na falta de uma funo, podemos utilizar valores mdios. Imagine, como na Figura 12,
termos histrico de vendas em 3 anos seguidos. Podemos
Podemos fazer uma funo mdia com
os valores mdios dos 3 anos ou mesmo utilizar intervalos, e isto ajudaria a prever o
comportamento para anos futuros.
55
investigar por que somente uma pessoa comprou o produto Y no ltimo ms, por que
um vendedor no atingiu a meta (o normal seria premiar o melhor vendedor e descobrir
o que os melhores fizeram de bom e em comum para que tais melhores prticas sejam
repetidas).
Sequncia de tempo
Esta tcnica analisa sequncias de eventos. Por exemplo, a tcnica de associao pode
identificar que fraldas so compradas em conjunto com cerveja, mas na mesma
transao. Agora, se muitas pessoas compra um TV fina hoje e voltam depois de 3
meses para comprar um home theater,
theater, isto funo da tcnica de sequncia de tempo.
A Figura 14 apresenta um exemplo. Imaginem que so pacientes com suas linhas de
tempo, e cada forma colorida indica um determinado evento importante na sade desta
pessoa. Podemos prever que h grande probabilidade de ocorre um evento do tipo
"bolinha vermelha" na linha de tempo da paciente Ana, logo no incio do ano de 2006,
56
j que todos os pacientes que tiveram eventos do tipo "tringulo amarelo" no incio de
um ano, tiveram "bolinha vermelha" no incio do ano seguinte. claro que isto s um
exemplo e a probabilidade deve ser levada em conta e no somente um nmero pequeno
de casos.
Sries Temporais
57
de cada repetio. Alm disto, h a premissa que outros fatores no iro influenciar o
comportamento. Por exemplo, no caso das aes, uma notcia ou evento relevante pode
influenciar o comportamento de compra e venda das aes, e o que era esperado (subir
ou descer) pode no acontecer devido a isto.
Nesta mesma figura, pode-se notar que a filial mais direita tem um grfico quase que
exatamente inverso ao da matriz. Isto pode significar comportamentos competidores:
quando um grfico est em cima, o outro est em baixo e vice-versa. Ento, a
comparao entre sries tambm pode ser feita para encontrar sries inversas ou
contrrias.
58
A comparao de sries se d no por proximidade de valores no tempo mas por
semelhana no grfico (subidas e descidas). Isto quer dizer que duas sries so
semelhantes no importando o momento no tempo. Na Figura 17, podemos ver que as
sries A e B so semelhantes e iniciam ao mesmo tempo. Por outro lado, a srie C
tambm semelhante srie A, mas se inicia um pouco depois. Isto pode ser til para
avaliar retorno de campanhas de marketing. Por exemplo, ao se colocar propaganda na
TV, talvez as vendas no cresam logo no dia seguinte. E se tirarmos a campanha do ar,
talvez as vendas ainda sigam aquecidas por um certo tempo.
Classificao (categorizao)
A tcnica de classificao tem por objetivo encontrar a classe de um elemento. Note que
por "classe", pode-se at mesmo entender uma ao (por exemplo, aprovar ou rejeitar
um pedido de emprstimo). Para que a tcnica funcione, as classes devero j existir
previamente.
O processo de avaliar a qual classe pertence um elemento novo pode fazer uso de regras
determinsticas, probabilsticas, heursticas, rvores de deciso, tabelas de deciso ou
RBC (baseado em exemplos), conforme discutido no captulo sobre Sistemas
Especialistas.
59
Induo
O objetivo desta tcnica a identificao de um modelo para classificao, ou seja, a
descoberta das regras de classificao. Isto feito atravs do chamado "aprendizado
avaliados para identificar padres. Os
supervisionado", onde exemplos de treino so avaliados
algoritmos clssicos para induo incluem ID3 e C4.5.
Mas para entender o processo, observe a Figura 18. Este grfico posiciona clientes num
plano que relaciona a idade da pessoa e o nmero de horas que passa na Internet por
ms. Os smbolos no meio do grfico representam o tipo de produto
produto adquirido pelo
(vermelho = carto;
cliente (quadrado, crculo ou tringulo) e a forma de pagamento (vermelho
azul = boleto; amarelo = depsito bancrio).
60
Visualmente pode-se verificar que clientes de mais idade e que passam menos horas na
Internet (quadrante mais esquerda e em cima), dominado por clientes que pagam por
boleto bancrio (cor azul). Clientes que compram por depsito bancrio (cor amarela),
s compram produtos do tipo crculo. Os clientes de menos idade tendem a passar mais
horas na Internet e pagar com carto (cor vermelha).
Esta segmentao atitudinal no tem nada a ver com o poder aquisitivo do cliente.
A separao foi feita manualmente mas poderia ter utilizado ferramentas automticas de
clustering.
A vantagem de utilizar dimenses que os fatos podem ser vistos sob diferentes
perspectivas. Neste exemplo das vendas, o total de vendas pode ser apresentado por
produto, por cliente, por loja ou por vendedor. O interessante tambm dos dados
multidimensionais que as dimenses podem ser cruzadas: por exemplo, comparar a
idade do cliente com o preo do produto. Tal tipo de cruzamento nos dar informaes
que no poderiam ser vistas antes (como discutiremos nos prximos pargrafos).
61
normalizado, enquanto que na segunda temos uma representao multidimensional
(com matrizes). O formato multidimensional mais compacto e tambm ajuda nas
operaes de anlise. Neste exemplo, h somente duas dimenses: lojas e produtos.
PRODUTOS
X Y Z
1 10 15 -
LOJAS
2 25 20 30
3 10 - 20
X Y Z
1 10 15 -
X Y Z
2 25 20 30
1 10 15 -
X Y Z
3 10 - 20
2 25 20 30
1 10 15 -
3 10 - 20
2 25 20 30
3 10 - 20
Imagine agora que se queira acrescentar uma 3a dimenso, por exemplo, o cliente. As
vendas de cada cliente formariam uma matriz e assim teramos tantas matrizes quanto
forem os clientes. Assim, teramos o esquema da Figura 21. Isto d a ideia de 3a
62
dimenso como visto na imagem. Se for necessrio acrescentar mais dimenses (por
exemplo, vendedor), isto ser feito nas estruturas internas de armazenamento, pois no
ser possvel ao ser humano imaginar visualmente tal estrutura (4 dimenses).
Se olharmos melhor, esta imagem lembra a de um cubo, por isto, muitas vezes os dados
multidimensionais so tambm conhecidos como dados cbicos (ou sua representao
conhecida como cubo de dados).
A vantagem dos dados cbicos acelerar as anlises e dar respostas mais rapidamente
para usurios que tomam decises. Alm disto, a visualizao de dados em duas ou
mais dimenses ajuda a ver padres que so difceis de identificar em tabelas
normalizadas (flat).
Por exemplo, se tivermos uma base de dados sobre falhas que ocorreram em mquinas
numa empresa, provavelmente a estrutura ser similar que pode ser vista na Figura 22,
onde todos os atributos das falhas esto como colunas: identificao da mquina, setor
onde ocorreu a falha, quem era o operado no momento da falha, data e hora da
ocorrncia, tipo de problema que ocorreu, quantas horas a mquina ficou parada devido
falha, custo por hora da mquina parada e prejuzo total que a falha gerou,
multiplicando-se as horas paradas pelo custo-hora.
Neste tipo de estrutura, fica difcil verificar quais os problemas que mais ocorrem com
cada mquina, qual o total de falhas por operador, etc., especialmente se so muitas
falhas (muitas linhas ou registros).
Por isto, uma estrutura multidimensional, como a apresentada na Figura 23, permite
mais rapidamente verificar padres. Na estrutura multidimensional, os atributos podem
aparecer como linhas ou colunas. Isto permite relacionar atributos entre si e encontrar
padres que no podem ser verificados nas estruturas unidimensionais (tipo "flat").
63
No exemplo da Figura 23, estamos relacionando duas dimenses: identificao da
mquina (nas linhas) X tipo de problema (nas colunas). Na figura, podemos ver o total
de falhas para cada mquina (ltima coluna direita), o total de falhas por tipo de
problema (ltima linha) e a quantidade de falhas para cada par mquina X tipo de
problema. Por exemplo, pode-se notar que ocorreram 51 registros no entroncamento da
linha da "empilhadeira" com a coluna de "falta peas", indicando que a mquina
Empilhadeira teve 51 falhas por falta de peas. Rapidamente tambm podemos notar
qual o tipo de problema mais comum relacionado a cada mquina.
Na Figura 24, estamos relacionando o operador com a hora em que a falha ocorreu.
Aqui a estrutura multidimensional permite visualizar que as falhas com o operador
Beltro s ocorrem s 9h da manh e que o operador Rudinei s teve falhas no incio do
dia (entre 7 e 8h da manh). Tambm pode-se notar que as falhas com o operador Joo
Maria ocorrem mais frequentemente de manh, enquanto que para Menezes e Otto as
falhas so mais frequentes tarde. A estrutura multidimensional tambm d uma viso
diferenciada das falhas que ocorreram com o operador Jos Carlos: elas ocorrem em
ambos os turnos, mas acontecem mais no incio dos turnos. Este tipo de anlise no
poderia ser feita com dados na estrutura flat.
64
Figura 25: Estrutura multidimensional - mquina + tipo de problema X hora
A anlise OLAP tambm pode ser feita com uma dimenso somente, como no caso da
Figura 26, onde h somente o atributo "tipo de problema" e a anlise feita pela soma
de horas paradas.
65
6 Interpretao dos resultados da anlise
Como discutido anteriormente, o processo de descoberta de conhecimento tem por
objetivo identificar conhecimentos novos e teis. Por outro lado, as tcnicas de Data
Mining e anlise OLAP apenas apresentam padres estatsticos, e isto no
conhecimento. Portanto, necessrio interpretar cada padro para poder extrair
conhecimento.
Por exemplo, no caso da anlise de pacientes com diabetes, onde se descobriu que 95%
dos pacientes com diabetes com tipo 1 tinham um determinado tratamento, no
novidade para quem j familiarizado com a rea. Entretanto, este padro evoca a
dvida sobre o que estaria acontecendo com os 5% dos pacientes que tm o mesmo
diagnstico e no esto recebendo o mesmo tratamento. Neste caso, o fato interessante
estava nas excees, e portanto ser necessrio investigar as excees e no a
normalidade para poder extrair conhecimento novo.
Em outros casos, talvez o conhecimento mais interessante esteja na conjuno entre dois
padres. Por exemplo, ao se descobrir (a) que 80% das mquinas da marca XYZ
quebravam com 3 anos de uso e (b) que 77% das mquinas desta marca eram operadas
por pessoas altamente experientes (mais de 10 anos no ramo), levanta-se a curiosidade
de saber qual o percentual para a conjuno dos 2 casos, ou seja, o que estaria
acontecendo com mquinas da marca XYZ com 3 anos de uso e operadas por
profissionais com mais de 10 anos de experincia. Ou ento, o interessante pode estar
em combinar um padro com o negativo de outro: o que acontece com as mquinas
XYZ com menos de 3 anos e operadas por pessoas com mais de 10 anos de experincia,
e o que acontece com mquinas XYZ com 3 anos e operadas por pessoas com menos de
10 anos de experincia.
Tambm pode ser necessrio realizar comparaes entre padres, como discutiremos
adiante. Um padro que aparea com 80% de probabilidade numa amostra e com 60%
de probabilidade em outra merece ser investigado (investigar o porqu da diferena).
Desta forma, para a interpretao dos resultados importante ter algum com
conhecimento sobre o domnio, ramo, mercado ou especfico da empresa.
66
Outro cuidado que devemos ter que os dados so influenciados por eventos externos e
assim a interpretao dos resultados deve entender que eventos aconteceram ou esto
acontecendo. Por exemplo, no famoso caso da associao entre fraldas e cervejas, o tal
supermercado tomou atitudes aps esta descoberta. Ou eles colocaram os produtos
prximos ou colocaram bem longe. E isto deve ter influenciado o padro, aumentado
seu percentual ou talvez at acabando com ele. Ento o tal supermercado precisa refazer
o processo de anlise e comparar os novos resultados com os anteriores. A interpretao
no pode estar dissociada do tempo em que os fenmenos ocorrem e de seu contexto.
Este o mesmo tipo de anlise que feita quando se fala em aquecimento global.
Independente da discusso se a causa humana ou no, estatisticamente, est
comprovado que a mdia de temperatura anual no mundo todo est crescendo. Algumas
pessoas no acreditam nisto porque olham o inverno de um ano e verificam que ele foi
mais frio que o inverno do ano anterior. Sim, isto pode acontecer. Mas o que est sendo
67
medido so mdias por ano e levando em conta todas as medies pelo mundo todo.
Realmente, pode acontecer que, em algumas regies, a mdia pode ter baixado de um
ano para outro. Mas nem isto mesmo argumento contrrio. O filme de Al Gore, "Uma
verdade inconveniente", mostra claramente este grfico. E a tendncia de subida. Ou
seja, temos que usar a tcnica correta.
Com relao ao aquecimento global, muitos acreditam que estamos nos aproximando de
uma era de temperaturas altas. Entre os anos 1000 e 1200 d. C., tivemos uma poca com
mdia de temperatura 6 graus acima da mdia atual. Foi assim que os Vikings fizeram
fazendas na Groenlndia e chegaram at a Amrica. E isto pode estar novamente
acontecendo. Por outro lado, segundo alguns estudiosos, h tambm ciclos de eras
glaciais e possvel que estejamos a algumas dezenas de anos de uma pequena era do
gelo. Ento, talvez at este tipo de acontecimentos pode ser regido por padres. Mas
bom deixar claro que ainda no li nenhum estudo que comprovasse que h um padro.
Nate Silver conta que j tentaram encontrar padres
padres temporais ou sazonais em
terremotos e os resultados no foram bons, pois deixaram de prever os grandes que
aconteceram na Itlia em 2006 (LAquila) e no Japo em 2011 (Fukushima).
Bom, para completar um pouco a discusso e ver tambm o outro lado, a ONU divulgou
recentemente (em setembro de 2013) um relatrio apontando que uma das causas para
as mudanas climticas a ao do Homem sobre a natureza.
68
foram registradas em separado, tendo associado a cada uma delas um atributo
informando o tipo do cliente, ou seja, como ele veio ao estabelecimento (se sozinho,
acompanhado de amigos, se era um casal ou se era uma famlia com crianas). Depois,
o valor total de cada venda foi somado para cada tipo de cliente em separado e ento
feita a mdia (total por tipo dividido por nmero de carrinhos/vendas para cada tipo).
Nesta figura, podemos ver que a mdia de gasto do cliente tipo "sozinho" (ou seja,
pessoas que estavam desacompanhadas no momento da compra) era de 104 reais.
Por outro lado, temos a Figura 29, que apresenta o % de carrinhos em cada faixa ou
categoria de gastos (valores arredondados para mltiplos de 50). Nesta tabela, podemos
notar que 44,6% dos clientes do tipo "sozinho" gastam em torno de 50 reais e apenas
26,5% gastam perto de 100 reais. O que contradiz o valor resultante da figura anterior.
A causa para esta discrepncia que a mdia no leva em conta o desvio padro. Assim,
se uma pessoa sozinha fizer uma compra de 5 mil reais neste supermercado, vai
aumentar a mdia de gasto dos clientes deste tipo. Ou seja, os chamados "outliers",
valores que se distanciam muito da mdia, tambm acabam sendo contados. Ento, a
segunda tabela mais precisa em nos dizer a expectativa de gasto de cada tipo de
cliente.
Figura 29: Gastos de clientes num supermercado, por perfil, e classificados por faixa de gasto
custos para realizar a venda: um vendedor X pode ter vendido 100 mil reais no ms
mas ter gerado um custo de 70 mil para a empresa (lucro de 30 mil), enquanto que o
vendedor Y faturou apenas 50 mil mas teve um custo de apenas 10 mil (lucro de 40
mil); ento a lucratividade talvez seja um melhor indicador;
69
tempo despendido: um vendedor talvez tenha faturado menos que outros porque
teve mais tempo de deslocamento ou porque teve que realizar mais tarefas
burocrticas; se ele tivesse o mesmo tempo para dedicar aos clientes em contato
direto, talvez pudesse ter o mesmo ndice de vendas;
nmero de clientes a visitar: muitas empresas determinam os clientes que os
vendedores devem visitar; o mais correto neste caso, seria avaliar a mdia de vendas
por cliente;
nmero de clientes novos: alguns vendedores acumulam tarefas de prospeco, ou
seja, precisam, alm de concretizar vendas, encontrar novos clientes; alguns
realmente conseguem conquistar novos clientes, mas que talvez no gastem to alto,
justamente por serem novos; mas estes novos clientes talvez sejam repassados para
outros vendedores no prximo ms e a as vendas futuras subsequentes sero
contabilizadas para outro vendedor;
desistncias de clientes: avaliar vendedores somente por pedidos feitos pode ser
perigoso se os pedidos no se concretizarem; da mesma foram, avaliar somente
pelas vendas concretizadas pode deixar de fora desistncias, principalmente quando
os pagamentos dos clientes so realizados a prazo; a inadimplncia dos clientes
tambm deveria ser somada (ou subtrada) aos respectivos vendedores.
O mesmo ocorre na hora de "rankear" clientes. Qual o melhor cliente: aquele que
compra todo ms e s gasta 100 reais por ms ou aquele que s vem uma vez por ano
mas gasta 3 mil reais ? Pela lucratividade, o segundo cliente melhor (cliente de maior
valor) mas o primeiro pode ser um "cliente de maior potencial", j que vem mais
seguido.
E o caso de quem compra 1000 pequenos produtos num supermercado (como sabonete,
pasta de dente, desodorante, etc.) totalizando 3 mil reais, melhor cliente que algum
que compra um eletrnico no mesmo valor total ? Para levar todos os 1000 produtos
talvez seja necessrio um caminho e vrias pessoas, mas para transportar o eletrnico
talvez um carro e uma pessoa sejam suficientes.
A concluso que os indicadores devem ser bem definidos, por quem realmente
conhece o negcio. Analistas de BI s devem gerar as anlises ou apresentaes. O BI
no culpado por apresentar dados equivocados; ele s apresenta o que solicitado.
comum entre analistas de dados e mesmo entre cientistas de diversas reas incutir no
erro conhecido como a Teoria do Mundo Fechado. Vejamos um exemplo. A Figura 30
apresenta o grfico de vendas de laranjas num supermercado ao longo do tempo (apenas
6 meses so mostrados). Nos 4 primeiros meses, o supermercado comprava do
fornecedor "vermelho". No 5o ms, trocaram para o fornecedor "azul", mas voltaram a
comprar do fornecedor "vermelho" no 6o ms. Pode-se notar que o nvel das vendas nos
70
primeiros 5 meses semelhante mas no 6o ms as vendas caram muito. De quem a
culpa ? Do fornecedor vermelho ou do azul ?
Por isto, importante a etapa de preparao dos dados, para que todos os dados
relevantes para entendimento dos padres estejam disponveis para anlise.
71
aplicao
Conhecimento
observaes
coleta
interpretao
anlise
Figura 31: Teoria do Mundo Fechado
Entretanto, no h como coletar todos os dados; por isto, nosso mundo no fechado.
At o planeta Terra troca energia e matria com resto do Universo. E o acelerador de
partculas do CERN na Sua precisa de algum para ligar (e h sensores tambm).
Desta forma, temos que ter cincia de que os resultados das anlises dizem respeito to
somente aos dados analisados, isto , s amostras analisadas. O conhecimento
descoberto ento uma hiptese ou tendncia, que dever ser confirmada analisando o
mundo real ou atravs de tentativa e erro.
O perigo da anlise de correo supor causas erradas para eventos. Por exemplo, anos
atrs os americanos achavam que o sorvete era causador da plio, porque os grficos
eram muito semelhantes; as vendas de sorvete e os casos de plio cresciam no vero. As
duas variveis tinham uma correlao estatstica, mas uma no era causa ou efeito de
outra (Levitt e Dubner, 2009).
Nate Silver, no livro O sinal e o rudo comenta diversos casos de correlaes erradas.
Um deles fala de uma pesquisa inglesa que concluiu que vacas com nome produziam
mais leite que vacas annimas. Na verdade, o fator que influenciava a produo era a
personalizao no cuidado com o animal. As vacas mais bem cuidadas recebiam nomes.
Desta forma, a produo era maior no pelo nome em si para pelo maior cuidado que
recebiam dos tratadores.
72
Boston, onde uma bomba foi feita com uma panela de presso e colocada numa
mochila.
Max Gunther (no livro O Fator Sorte) conta o caso de um sujeito que costumava tocar
clarim e abanar uma bandeira verde numa esquina, dizendo que servia para espantar
girafas. Quando perguntado se dava certo, ele respondia dizendo que nenhuma girafa
havia passado por ali.
Muitas vezes os padres podem dar certo talvez pelo efeito placebo: achamos que
vamos ter melhor rendimento usando certos padres ou supersties. A, repetimos o
padro e o resultado acontece como esperado. Neste caso, h relao entre duas
variveis mas uma no implica na outra. pura coincidncia ou sorte. como regular
sua alimentao e ver efeitos positivos, e ento acreditar que descobriu um novo
mtodo. E isto a vira sabedoria popular e vai passando de boca em boca. Como os
sacrifcios humanos para os deuses ou para ajudar na agricultura e clima (a civilizao
Maia fazia isto).
Outro engano tpico supor relaes de causa e efeito em variveis que possuem
comportamentos similares. A correlao existe porque os valores so similares ao longo
do tempo, mas no necessariamente pode haver uma relao entre elas. Por exemplo,
vendas de sorvete e vendas de mais aumentam no vero e diminuem no inverno, mas
uma varivel no implica na outra. Neste caso, h uma causa comum (a temperatura ou
estaes) que determina estes comportamentos mas no h relao direta entre os dois
tipos de vendas.
Max Gunther, no seu livro "O Fator Sorte" diz que h duas leis estatsticas: (a) tudo
pode acontecer e (b) se algo pode acontecer, vai acontecer algum dia, pelo grande
volume de casos (por exemplo, cair 5 vezes o mesmo nmero na roleta em algum
cassino do mundo, algum dia).
73
isto, precisamos separar as relaes que so estatsticas das que so coincidncia ou
acaso ou sorte. Este problema ser discutido mais adiante.
Alm disto, a correlao entre duas variveis pode perdurar por apenas um certo perodo
de tempo. Vejamos dois exemplos. Imagine uma fruta que s aparea no vero e que
seja quase impossvel guard-la numa cmera fria para ser comercializada no inverno.
certo que as vendas desta fruta sero maiores no vero. Se analisarmos a correlao
entre as vendas da fruta e a varivel "dias de vero", encontraremos uma forte relao.
Mas s neste perodo. O perigo generalizar para outras estaes.
Em outro exemplo, imagine que durante 10 anos as vendas de um certo produto infantil
estiveram fortemente correlacionadas com aparies de uma certa atriz em novelas,
programas de TV, noticirios, etc. Entretanto, esta atriz envelheceu, a moda mudou, as
crianas cresceram, e a correlao no enfraqueceu ou desapareceu. Ento, temos que
admitir que a correlao entre duas variveis pode ser forte mas talvez no dure para
sempre.
Alm de determinar corretamente quais fatores devem ser analisados, deve-se tambm
determinar pesos, ou seja, o quanto um fator mais importante que outro. No exemplo
do baseball, a potncia ao rebater muito mais importante do que a fora do brao e o
alcance defensivo na maioria das posies, exceto para as posies de shortstop e
receptor.
E por que utilizar um nmero reduzido de caractersticas ? Nate Silver comenta que
muitos analistas econmicos utilizam 4 mil variveis para fazer previses econmicas.
Muitas destas variveis so irrelevantes e confundem os resultados. O correto avaliar
quais fatores so os nicos ou os mais determinantes de um resultado.
Alguns autores falam da chamada causa-raiz, ou seja, separar as causas que realmente
levam a um determinado resultado. Por exemplo, uma empresa pode detectar que, para
aumentar a satisfao de seus clientes, precise diversos fatores tais como: tornar o
ambiente mais confortvel, baixar preos, fazer mais promoes e mais diversificadas,
melhorar o relacionamento do funcionrio com o cliente, etc. Entretanto, cada um destes
fatores pode ser conseguido atravs de subfatores. Por exemplo, para tornar o ambiente
mais agradvel, talvez seja necessrio ter uma melhor disposio dos produtos e uma
decorao mais atraente; para baixar preos e fazer promoes, talvez seja necessrio
que gerentes financeiros aprendam novas tcnicas; para melhorar o relacionamento na
loja, talvez seja melhorar a cordialidade do funcionrio e seu modo de abordagem ao
74
cliente. Bom, estes fatores parecem exigir uma qualificao melhor dos funcionrios. E
isto tudo exige orientaes e cursos para funcionrios. Desta forma, o fator-chave, a
causa-raiz talvez seja o treinamento dos funcionrios.
75
7 Processo de BI reativo
Tambm possvel comparar indicadores entre si. Por exemplo, analisar as vendas na
semana anterior ao Dia das Mes em comparao s vendas na semana anterior ao Dia
dos Namorados. Ou ento comparar a lucratividade de cada produto com o grau de
satisfao dos clientes em relao a cada produto.
Os indicadores podem ser apresentados como nmeros (ex. total de vendas), escalas
numricas ou nominais (ex.: bom, mdio, ruim, inclusive com cores tais como verde,
amarelo e vermelho), direcionais (ex.: setas indicando tendncia de subida ou descida
no nmero de clientes), mapas (ex: cores indicando nveis de venda por regio). Menos
comuns mas tambm teis podem ser representaes de variveis qualitativas, como por
exemplos as tag clouds (ex.: palavras mais frequentes nas reclamaes dos clientes).
76
Este tipo de abordagem pode ser considerada reativa, pois h uma entrada ou objetivo
bem definido e o analista de BI sabe exatamente o que procurar e o que apresentar para
o cliente.
A minha crtica a este tipo de processo de BI que ele apenas uma evoluo dos
antigos SIGs (Sistemas de Informaes Gerenciais) e dos EISs (Executive Information
Systems). A meu ver, o verdadeiro processo de BI deve procurar causas para o que est
acontecendo.
Deixemos claro que os SIGs tm seu valor pois ajudam a apontar qual o produto mais
vendido, em que pocas saem mais ou menos, qual o melhor vendedor, qual o setor que
mais gasta, etc. Mas o verdadeiro BI deve procurar encontrar o porqu de um produto
vender mais que outro, de sair mais numa poca que noutra, o porqu de um vendedor
ser melhor que outro.
77
8 Metodologia para BI proativo
Agora vamos falar de BI proativo, uma abordagem no muito comum. Neste caso, a
entrada puramente uma base de dados. O cliente no diz o que est querendo, quais
seus objetivos ou problemas, mas apenas informa que deseja encontrar algo interessante
nos dados. Este paradigma seria bem representado pela seguinte questo: "o que h de
interessante nos meus dados ?".
Neste tipo de abordagem, o objetivo no est bem definido. Ele existe (encontrar algo
til e novo), mas no est claro ou bem detalhado. Isto funciona como uma busca
exploratria, onde o analista est procurando encontrar coisas interessantes, sem bem
saber por onde ir ou como fazer isto. E no h hipteses iniciais; o objetivo justamente
tentar descobrir hipteses para poder depois testar.
Infelizmente no existe uma mquina de induo, como discutido por Popper, seno
seria fcil para analistas de BI, gerentes, etc. A ideia da tal mquina seria que ela
aprendesse automaticamente as leis vigentes no universo observando os fenmenos da
natureza e da generalizando comportamentos. Mas como ela no existe (pelo menos
ainda), ento cabe aos seres humanos fazerem tal processo de investigao e descoberta.
78
8.1 Seleo de dados e amostras
Como j foi discutido anteriormente neste livro, no captulo sobre preparao dos
dados, o primeiro passo gerar amostras (mais de uma). Pode-se considerar a base toda
como uma amostra, mas certamente devemos tambm criar subgrupos.
Uma forma de fazer um processo proativo utilizar tcnicas de Data Mining prprias
para tal. As tcnicas j foram discutidas anteriormente. O problema agora saber qual
tcnica utilizar. Quando apresentamos as tcnicas, discutimos algumas formas de
aplicao. Se tivermos algumas hipteses iniciais ou se tivermos um problema bem
definido, fica fcil saber que tcnica usar. Mas num processo proativo os parmetros
iniciais para se definir que tcnica usar justamente o que est faltando.
Neste caso ento, podemos seguir pelo processo de tentativa e erro, usando uma tcnica
de cada vez e analisando seus resultados para gerar hipteses iniciais. A escolha do tipo
de tcnica depende do tipo de dados que temos.
J a tcnica de anlise de sries temporais exige trabalhar sobre uma varivel com
valores contnuos ao longo do tempo (um valor para cada unidade de tempo, no
podendo haver falta de valores num certo perodo).
79
A tcnica de classificao no pode partir do nada, pois exige algum esquema de
classificao prvio. Mas as tcnicas de clustering e induo podem ser usadas para
gerar as regras de classificao.
J dados temporais (ex.: ano, ms, dia da semana, turno, hora) podem ser utilizados com
valores discretos ou contnuos.
Neste ponto, o analista deve decidir se ir aplicar as tcnicas de descoberta sobre todos
os dados ou sobre partes da base; a sugesto que se comece analisando toda a base e
depois sejam examinados subconjuntos. Em alguns casos, nada de interessante
encontrado na coleo toda, o que leva o usurio, necessariamente, a investigar
pequenas subcolees.
Admitindo que vamos analisar cada atributo em separado, vamos ter informaes
estatsticas sobre os valores que aparecem associados a este atributo. A frequncia de
cada valor pode ser apresentada como um valor percentual ou valor absoluto. Por
exemplo, analisando o atributo "cidade" numa base de clientes, podemos ter cada cidade
apresentada com sua frequncia absoluta na base (nmero de registros em que aparece
cada nome de cidade) ou apresentada por percentuais (ex.: a cidade de Bag aparece em
23% dos registros).
O valor percentual bom para saber quem predomina num conjunto (os famosos
grficos em pizza). J o valor absoluto serve para comparar um valor com ele mesmo,
em perodos de tempo diferentes. Por exemplo, quantos registros eram de Bag na
medio anterior em comparao frequncia atual.
Ambos os valores so interessantes para saber quem est subindo, quem caiu, quem est
surgindo, etc. Entretanto, se o conjunto (nmero de elementos) aumenta, o valor
absoluto no permite saber a relao com outros valores (
Por exemplo, uma empresa notou que reclamaes sobre um produto XYZ haviam
diminudo em nmero absoluto, mas em valores percentuais em relao ao conjunto
todo, o valor aumentou. Isto significa que as reclamaes realmente perderam fora,
mas que agora este produto era um dos principais em termos de reclamaes. A empresa
ento mudou o foco para este produto, tentando diminuir as reclamaes sobre ele (e
com isto, tendo como consequncia a diminuio do total geral de reclamaes).
80
Nate Silver conta de uma piada onde um estatstico afogou-se num rio que tinha, em
mdia, 1 metro de profundidade. Ou seja, havia partes mais rasas e outras bem mais
fundas.
J comentamos sobre enganos com a mdia (Figura 27 e Figura 28). Continuemos com
este exemplo, das vendas em um supermercado. A Figura 33 apresenta o total de
carrinhos (ou vendas ou notas fiscais) para cada perfil de cliente (dentro de uma
determinada amostra). Note que os carrinhos de "famlias" so menos da metade dos
carrinhos de pessoas "sozinhas".
Para a mesma amostra, a Figura 34 apresenta a soma de gastos de cada perfil. Agora
podemos ver que a diferena diminui. Isto porque famlias gastam mais (o que pode ser
visto na Figura 28).
81
No exemplo dado, a contagem de carrinhos permite descobrir que a maioria dos clientes
vm sozinhos ao supermercado. J a mdia de gastos permite ver que famlias gastam
mais que os demais perfis. E a soma de gastos pode nos dizer qual o tipo de cliente que
mais impacta na receita.
A Figura 35 abaixo apresenta pedidos de produtos por cidade e por dia da semana. Os
valores foram definidos pelo percentual da linha, ou seja, mostra a proporo com que
os pedidos foram feitos em cada dia da semana, mas dentro de cada cidade (por isto os
100% esto no total da linha). Este tipo de anlise permite descobrir qual o dia da
semana com mais incidncia de pedidos dentro de cada cidade.
Por exemplo, podemos notar que, na cidade de Uruguaiana, a maioria dos pedidos
feita na 3a-feira, enquanto que na cidade de Itaqui os pedidos predominam na 5a-feira e
j na cidade de Bag h um empate entre 4a e 5a-feira. Tambm podemos notar que a
nica cidade que tem predominncia na 2a-feira a cidade de Dom Pedrito.
J a Figura 36 apresenta os valores percentuais mas por coluna. Isto significa separar os
pedidos de cada dia da semana entre as cidades, para ver a proporo dos pedidos entre
as cidades (100% est no total da coluna). Isto permite verificar, por exemplo, que na
6a-feira a cidade onde mais so feitos pedidos a cidade de Uruguaiana (apesar de este
no ser o dia de mais pedidos nesta cidade).
Os 2 tipos de anlise de percentuais, tanto por linha quanto por coluna, so importantes,
pois cada um mostra um padro diferente.
82
Aqui mostramos o exemplo de vendas por cidade e dia da semana. Mas imagine ter uma
base de clientes e cruzar dados como faixa etria (linhas) X bairro (colunas). Podemos
fazer o percentual por linha e analisar em que bairro predomina cada faixa etria (por
exemplo, jovens esto mais localizados no bairro Praia enquanto que 3a idade est mais
no bairro Centro). Ou ento fazer o percentual por coluna e assim saber qual a faixa
etria que predomina em cada bairro (por exemplo, no bairro XYZ predominam jovens,
enquanto que no bairro KLM predominam adultos).
Contar de brinquedos
Acompanhado Total
amigos 3
casal 2
familia 19
sozinho 25
Total geral 49
Figura 37: total de carrinhos com brinquedos - por perfil
Entretanto, devemos lembrar que h mais clientes com perfil "sozinho" e isto gera uma
tendncia. Por isto, fizemos outra tabela, apresentada na Figura 38, onde podemos ver
duas colunas referentes a brinquedos: uma que indica o nmero de carrinhos que tinha
algum brinquedo (valor 1) e os que no tinham brinquedos (vazio).
Para facilitar a comparao, a mesma tabela foi reformatada para apresentar valores
percentuais (por linha), como est na Figura 39. Agora pode-se ver mais claramente que
12,5% das famlias compra brinquedos enquanto que apenas 7,06% das pessoas
sozinhas compram brinquedos.
Contar de CD brinquedos
Acompanhado 1 (vazio) Total geral
amigos 3 121 124
casal 2 136 138
familia 19 133 152
sozinho 25 329 354
Total geral 49 719 768
Figura 38: carrinhos com ou sem brinquedos - valor absoluto
Contar de CD brinquedos
Acompanhado 1 (vazio) Total geral
amigos 2,42% 97,58% 100,00%
casal 1,45% 98,55% 100,00%
familia 12,50% 87,50% 100,00%
sozinho 7,06% 92,94% 100,00%
Total geral 6,38% 93,62% 100,00%
Figura 39: carrinhos com e sem brinquedos - % por linha
83
8.3.4 O que predomina
Uma tendncia nas anlises estatsticas procurar por valores que predominam. Por
exemplo, numa base de vendas, encontrar o vendedor que mais vende, o produto que
mais vende, a poca em que um produto mais sai, etc. Ento a tcnica procurar por
valores predominantes em cada atributo.
Outra possibilidade separar um subgrupo de registros com o valor que predomina (por
exemplo, cidade com maior frequncia entre os clientes) e a analisar somente estes
registros (clientes de uma determinada cidade). Isto nos permitiria descobrir
predominncias dentro de cada atributo. E isto pode ser feito em vrios nveis
consecutivos.
Por outro lado, imagine se o supermercado descobrisse que tem gente comprando feijo
no domingo e so uma minoria, talvez duas ou trs pessoas. O que isto tem de
interessante ? E se o engenheiro descobrir que 1% das quebras so devido a uma nica
pea ? E se uma pessoa descobrir um livro raro, nunca antes lido ? Ou algum livro
publicado, mas pouco vendido ou citado ?
Segundo, algumas raridades de padres podem suscitar hipteses para novas teorias. No
caso do supermercado, talvez seja interessante fazer campanhas para as pessoas
comprarem feijo no domingo e fazerem feijoada em casa na 2a-feira com os restos do
churrasco do domingo. Pode ser um novo padro, ainda adormecido (que precisa ser
despertado). Talvez o padro no seja muito frequente por falta de estmulos. As
fbricas de cerveja j descobriram que muitas mulheres bebem cerveja, apesar de serem
84
a minoria. Mas as propagandas so todas machistas. Ento pode estar a uma nova
oportunidade de promoo. So os chamados Nichos de mercado, a estratgia do
Oceano Azul. Steve Jobs no perguntou se as pessoas queriam um iPad. Ele fez e foi o
maior sucesso.
Terceiro, mas no esgotando as possibilidades, o que raro pode fazer uma enorme
diferena no mundo competitivo. Saber o que ningum mais sabe, pode ser uma
vantagem econmica (veja os investidores nas Bolsas de Valores). H uma lenda de um
ingls que ficou sabendo, durante a guerra entre Inglaterra e Frana, que a Inglaterra iria
vencer. Ento ele voltou s pressas para seu pas e comeou a vender tudo o que tinha.
As pessoas, sabendo que ele voltava do campo de batalha, tambm comearam a vender
tudo, achando que a Inglaterra tinha perdido. A ele ento passou a comprar tudo por
baixssimos preos.
Agir de forma diferente pode chamar ateno (produtos personalizados, novos estilos de
moda). O novo gnio do xadrez, o noruegus Magnus Carlsen (o "Mozart do Xadrez")
no usa tcnicas usuais. Todos grandes jogadores conhecem todas as estratgias. Ento
o noruegus costuma fazer algo inesperado, fora dos padres, e isto desconcerta os
adversrios, que no entendem o padro, no conseguem prever as prximas jogadas e
ficam nervosos. Foi assim que ele deixou nervoso o grande campeo Gary Kasparov.
Por isto, processos de BI devem procurar padres com alta frequncia ou probabilidade
estatstica, mas os analistas de BI devem tambm estar atentos a momentos raros,
eventos pouco frequentes.
Uma variao da estratgia descrita no item anterior, seria analisar valores minoritrios
ou separar um subgrupo de registros com valores que menos aparecem. No caso de
valores numricos, os valores minoritrios (outliers) podem ser os valores acima ou
abaixo da mdia ou intervalo mdio. Por exemplo, se temos uma base de clientes com
mdia de idade num intervalo entre 20 e 60 anos, poderamos analisar a minoria que tem
idade abaixo de 20 ou acima de 60.
85
estatisticamente o perfil do cliente com o tipo de carro adquirido. O perfil inclua tipos
como mulheres jovens, casais, jovens homens solteiros, etc.
Quando uma exceo ocorre, por exemplo um jovem homem solteiro comprando um
carro tipicamente de casais, isto chama ateno, mas ningum costuma investigar pois
uma exceo. Entretanto, este caso isolado pode ser uma hiptese para novo tipo de
comportamento, quem sabe levantando a possibilidade de novas propagandas para atrair
novos pblicos.
Outro caso interessante aconteceu num site de comrcio eletrnico que descobriu que
havia muitos homens comprando chapinha (para alisar cabelos). Apesar de ser uma
minoria que faz isto (a grande maioria dos clientes que compra chapinha de mulheres),
o site resolveu investigar o caso. Constatou-se que eles estavam comprando para
presente, mas isto no ficava explcito na hora da compra. Este tipo de informao pode
at influenciar de forma errada as campanhas de marketing e os sistemas de
recomendao que traam perfis de clientes. O site ento inclui uma opo para o
cliente poder dizer que estava comprando para dar de presente (e no era para uso do
prprio cliente). O mais interessante entretanto que o site passou a gerar campanhas
no dias dos namorados para homens comprarem o tal produto para darem de presente
para suas namoradas (e a campanha trouxe bons resultados).
A sugesto comear procurando por padres com alta probabilidade (para no gerar
muitos resultados) e depois ir diminuindo. Um valor mnimo ideal no existe. Se houver
86
um atributo que no tenha um valor com alta frequncia (por exemplo, que no aparea
em 40% ou mais dos registros), ento a probabilidade de 30% pode ser interessante.
conciso: um padro que trata de poucos atributos mais interessante porque mais
fcil de ser entendido; por exemplo, o que se entende uma regra que diz que 89%
dos clientes que compram refrigerante, carne, salada e leite num supermercado,
tambm compram queijo ? Agora, se a regra for 89% dos clientes que compram
presunto tambm compram queijo, a fica mais fcil de se entender o padro e
tomar algumas atitudes;
87
cobertura ou generalidade: um padro geral se cobre um conjunto grande de
dados; o caso contrrio da exceo como j discutido antes;
confiabilidade: um padro confivel se tem suporte maior, ou seja, se ocorre com
alta frequncia ou percentual (em grande parte dos casos);
raridade: um padro interessante se se distancia muito dos demais padres ( caso
das excees);
diversidade: um padro que trata de atributos bem diferentes dos que so tratados
em outros padres considerado diverso e por isto tem um certo grau de
importncia;
novidade: se um padro no puder ser inferido de outros padres, ento ele
interessante;
surpresa: o caso j comentado de contradizer as crenas ou expectativas;
utilidade: til se contribui para alcanar um objetivo;
aplicabilidade: se ajuda em alguma tomada de deciso ou em aes futuras.
Como discutido antes, a separao da base de dados pode ser feita em subconjuntos
associados a aspectos temporais (por ano, ms, bimestre, semana, dia da semana) ou ,
separando os fatos (vendas, clientes, produtos, pedidos, etc) por alguma caracterstica
ou atributo.
A comparao entre grupos fica mais fcil de ser feita quando as amostras dizem
respeito a perodos de tempo. Assim, pode-se comparar vendas entre os meses do ano,
ou reclamaes a cada ano e entre eles. Isto permite acompanhar as mudanas nos
padres ao longo do tempo e identificar tendncias (de queda ou subida), ou mesmo
encontrar um padro que acontea a cada X anos (por exemplo, vendas de TV tm seu
pico a cada 4 anos, coincidindo com os anos em que h Copa do Mundo de Futebol).
88
tempo. Por exemplo, podemos trocar tempo por espao e assim comparar padres em
regies geogrficas diferentes. Ou at mesmo combinar vrios atributos. Por exemplo,
comparar doenas entre pases de hemisfrio Sul e Norte a cada ano.
Cada grupo ou amostra pode ser analisado separadamente, mas o interessante poder
comparar os padres encontrados para cada grupo (internamente) com os padres de
outros grupos ou mesmo com o padro da coleo toda.
A comparao de padres entre subcolees pode ser feita avaliando o que predomina
em cada subgrupo ou ento buscando saber a probabilidade (ou frequncia) de cada
padro em cada subgrupo. Podemos descobrir que um padro aparece com
probabilidade de 90% num subgrupo e com apenas 50% noutro. Ou ento podemos
verificar o tipo de valor para um determinado atributo que predomina em cada
subgrupo. Por exemplo, podemos descobrir que num subgrupo h mais homens e noutro
mais mulheres, ou ento ficar sabendo que a faixa etria predominante num subgrupo
de jovens enquanto que em outro subgrupo predomina a faixa etria mais velha.
Isto significa tomar cada atributo e avaliar os padres encontrados para cada um deles
em cada grupo e a comparar os resultados entre os grupos.
Mas tambm podemos comparar os padres encontrados em cada grupo com o padro
da coleo toda. Por exemplo, pelo Google Trends, comparamos as buscas pelos termos
"dengue" e "gripe A", feitas no Brasil todo, com buscas originadas no Rio Grande do
Sul, sobre os mesmos termos e no mesmo perodo. O resultado est nas Figura 40 e
Figura 41.
89
Figura 40: Google Trends sobre Gripe A e Dengue no Brasil
Figura 41: Google Trends sobre Gripe A e Dengue no Rio Grande do Sul
90
8.5 Combinao e Integrao de padres
J vimos antes como comparar padres. Agora vamos discutir como combin-los, para
gerar um padro nico ou um novo padro. Imagine que haja duas regras com atributos
comuns, por exemplo:
Se ambas as regras possurem probabilidade de 100%, podemos juntar as duas regras (a)
e (b), e teremos que:
Outro caso:
91
Aqui, no podemos juntar as regras (c) e (d) porque no sabemos se os casos do Rudinei
so comuns aos casos ocorridos s 7 horas ou no.
Como mostra a figura abaixo, pode mesmo acontecer de no haver casos ocorridos com
Rudinei e s 7 horas, ou seja, no haver interseco entre as duas condies (nenhum
caso do Rudinei aconteceu s 7 horas e todos os casos que aconteceram s 7 horas no
eram com o Rudinei).
Torno
Turno = manh
Joo
Aqui pode ocorrer de as regras no terem probabilidade 100%, mas o tipo de anlise
segue o mesmo.
92
Por exemplo, a regra
"70% das falhas do Joo ocorreram no turno da manh"
Torno
Turno = manh
Joo
Mas pode acontecer, por exemplo, que a regra mais genrica seja
"100% das falhas do Joo ocorreram no turno da manh"
93
Agora note que neste ltimo caso, a regra
(e) "70% das falhas do Joo que ocorreram no turno da manh foram no torno"
Note o seguinte na regra (e): "70% das falhas do Joo que ocorreram no turno da
manh ... "; mas todas as falhas do Joo foram de manh, ento pode-se dizer
simplesmente que "70% das falhas do Joo foram no torno" (regra "f").
Outro caso seguinte: se descobrirmos que a maior parte das nossas vendas so feitas
para clientes do estado de SP, e se soubermos que a maior parte das vendas (todas) so
feitas para clientes da cidade de SP, ento melhor ficar com a regra mais especfica (a
2a).
A sugesto ento procurar agrupar os padres por semelhana, ou seja, pelos atributos
em comum, e tentar verificar se possvel juntar os padres ou eliminar alguns, ficando
com os mais sucintos. Se for necessrio escolher, os autores sugerem ficar com padres
mais genricos, pois muita especificidade pode gerar sobrecarga.
No necessariamente que elas tenham que ter a mesma probabilidade. Se ambas tiverem
probabilidade 100%, temos o chamado "se e somente se".
94
Uma das maneiras de testar hipteses fazer novas observaes no mundo real. Por
exemplo, se descobrimos um padro que a maioria dos clientes homens com mais de
30 anos adquire o produto X, basta observar se este padro aparece em novos casos.
Seria a mesma situao que fazer uma previso (o prximo cliente homem com mais de
30 anos ir comprar o produto X) e verificar se ela ocorre ou no.
Este tipo de validao era muito feita por cientistas no incio do mtodo cientfico e com
o surgimento de teorias cientficas, segundo Losee). Por exemplo, se temos 3
observaes tais que:
A1 P
A2 P
A3 P
Para validar a regra, temos que saber se todos A realmente so P. Isto significa procurar
por As que no so P. Se houver um A que no seja P, ento a regra invlida. Mas
como testar com todos os casos ? Isto pode ser muito custoso. Alm disto, como vamos
saber se conseguimos testar todos os casos ?
Outro problema com este tipo de abordagem, segundo Losee, que podemos encontrar
concluses verdadeiras mas as premissas serem falsas. Estaremos validando premissas
ou regras invlidas. Ento teramos que validar todas as premissas antes.
Mas ter que validar todas as premissas anteriores pode ser muito trabalhoso (validar a
premissa da premissa e assim por diante). Para evitar tais problemas, a Humanidade
utiliza conceitos e princpios bsicos. So definies estabelecidas e aceitas pela
comunidade cientfica. O que Thomas Kuhn chamou de "paradigma". Isto evita ter que
fazer regresses infinitas e explanaes de todos os princpios. Mas a surge outro
problema (que ser discutido adiante), que justamente no haver mais discusso sobre
conceitos bsicos. Mas e se eles estiverem errados ? E se at hoje no tivssemos
questionado o heliocentrismo ?
possvel que uma hiptese s valha em certas situaes (por exemplo, para alguns
tipos de clientes ou produtos, ou somente em alguns perodos de tempo, ou at mesmo
s tenham sido verdadeiras no passado, no valendo mais no presente). Ento devem ser
determinadas as condies ou premissas para validade de uma hiptese.
95
Outra maneira de validar hipteses criar 2 grupos controlados, um que confirme a
hiptese e outro que contradiga. Por exemplo, se acharmos uma hiptese de que clientes
que gostam de esportes gastam 2 vezes mais que suas esposas, vamos preparar 2 grupos
para testar com novas observaes. Um com os clientes que gostam de esportes e outro
grupo com clientes que no gostam de esportes ou preferem outro tipo de hobby. Se o
padro (gastar 2 vezes mais que suas esposas) s acontecer num grupo, a hiptese
vlida. Mas se o padro aparecer nos dois grupos, ento a hiptese no vale. A curva
ROC permite comparar resultados (experimentais X observacionais).
A forma ento de validar uma hiptese fazer uma predio e avaliar o resultado com
novas observaes. O problema pode ser uma questo de tempo entre a predio e seus
resultados. Imagine ter que esperar anos para saber se algo que acontece na infncia
causa de cncer (Maathuis et al., 2010).
Outro problema da validao pode ser seu custo (tendo que refazer experimentos ou
situaes). Imagine que foi descoberto um padro que diz que mquinas da marca XYZ
quebram mais no vero e quando utilizadas por operadores novatos. Ento, para
avaliar esta regra, devemos esperar o prximo vero e colocar um operador novato para
oper-la. Mas e se fizermos manuteno preventiva neste meio tempo ? Ento o
contexto foi alterado, como j discutido no pargrafo anterior. O custo tambm pode
advir de ter que realizar novos experimentos. Por exemplo, ao realizar uma campanha
de marketing na TV em horrio nobre (ou seja, com custo alto), uma empresa de
publicidade descobriu um determinado padro. Para avaliar o tal padro, seria
necessrio repetir a campanha, que j foi custosa. claro que, se a empresa acredita que
a campanha foi boa, ela ir repeti-la e comparar os resultados financeiros. A isto
chamamos taxa de retorno de campanhas de marketing. E se os resultados da segunda
campanha no forem bons ? Ento o padro estava errado. E o custo foi desperdiado.
Mas no havia como testar a hiptese sem refazer a campanha.
Outro exemplo de custo para avaliar uma teoria: uma empresa descobriu que, se os
vendedores usassem de um determinado artifcio na negociao, a venda seria perdida.
Como testar esta hiptese ? Refazendo o modo considerado errado ? Neste caso, o
normal para qualquer pessoa evitar repetir o erro. Mas se a teoria estiver errada e no
for mesmo um erro tal procedimento ?
Uma alternativa seria utilizar software para simulao e testar as hipteses. Para isto,
precisamos do modelo real e parmetros. Por exemplo, equipes de Frmula-1 utilizam
simuladores chamados tneis de vento para testar o design do carro. Utilizando leis da
Fsica e modelos computacionais do carro possvel avaliar sua performance dentro do
computador, sem precisar de um tnel de vento real ou um carro em tamanho real.
Outra questo a ser pensada quando se quer avaliar uma hiptese, definir o perodo
pelo qual a hiptese ser avaliada. No mesmo exemplo anterior, devemos considerar
quantos clientes do mesmo tipo ? Ou devemos considerar todos os clientes que fizerem
compras nos prximos n dias, mas qual o valor de n ?.
96
descobre que todos os pacientes que so tratados na ala sul do hospital recebem, como
procedimento cirrgico, uma cesariana. Se conseguirmos encontrar um paciente do sexo
masculino que foi tratado na ala sul, a regra ento no mais vlida.
Assim, uma forma de invalidar uma regra encontrar um caso que seja exceo, ou
seja, onde a regra no se aplica. Entretanto, excees existem aos montes e a
estaramos simplesmente desconsiderando a regra. O que pode acontecer diminuir a
probabilidade da regra. Por exemplo, se encontrarmos uma regra que diz que clientes
homens entre 20 e 30 anos praticam algum tipo de esporte, talvez ela no valha para
100% dos casos. Se houver excees neste caso, elas no invalidam a regra mas
somente diminuem sua fora.
O problema todo que vivemos num mundo cada vez mais complexo. H muitos
padres, mas tambm muitas excees. H muitos efeitos colaterais, positivos e
negativos. Conseguir mapear todas estas influncias uma tarefa muito difcil.
8.7 Retroalimentao
97
Muitas vezes, at mesmo para validar uma hiptese necessrio refazer o processo, mas
a utilizando uma abordagem reativa e no proativa.
Em outros casos, necessrio refazer o processo vrias vezes para gerar um conjunto
grande de hipteses ou mesmo de conhecimentos j validados, para que possam ser
combinados (j discutimos anteriormente como integrar e combinar padres ou regras).
98
9 Processo de BI como Descoberta e Investigao
Encontrar porqus uma caracterstica tpica de processos de investigao e descoberta.
Isto inclui a investigao cientfica, a descoberta de fontes de recursos naturais, o
diagnstico mdico, a busca por causas de efeitos ou problemas, o planejamento de
recursos para atingir objetivos.
O conhecimento prvio sobre o assunto ou domnio importante, bem como estar ciente
do contexto, parmetros, limitaes e condies em que a investigao ocorre.
Entretanto, o conhecimento subjetivo, flexvel, mutvel e depende das pessoas. Por
isto, Moscarola e Bolden (1998) sugerem o modelo construtivista ao invs do positivista
99
para os processos de descoberta. Isto , o processo deve ser de construo e guiado por
um especialista humano. A construo forma-se a partir de fundamentos, que podem ser
dados novos ou conhecimentos e teorias prvias. E vai se desenvolvendo com
aprendizados, erros e correes. Os caminhos podem ser refeitos, os objetivos
redirecionados, hipteses novas podem surgir, anteriores podem ser refinadas, refeitas
ou mesmo descartadas. As concluses iniciais devem ser validadas. As primeiras nunca
devem ser tomadas como verdadeiras de imediato.
Pior seria no ter hipteses para comear. Conforme Clarke e Eck, a falta de hipteses
pode gerar "paralisia de anlise", conduzindo a investigao a lugar nenhum.
Um dos W (Why - por que ocorreu) ser deixado de fora neste incio, j que
justamente o alvo da investigao.
A ordem dos eventos tambm pode influenciar o resultado. Por exemplo, vendedores
com as mesmas aes podem ter tido resultados diferentes; e isto pode ser devido
ordem das aes. A aplicao da tcnica de Data Mining para anlise de Sequncias de
Tempo, apresentada na seo 5.1, pode ser til para descobrir padres em relaes
sequenciais entre eventos (uma ordem significativa de acontecimentos).
Estes primeiros passos geram volumes grandes de dados. O famoso Big Data. Deve-se
ter ferramentas prprias para registrar os dados, seus relacionamentos, de forma a
facilitar a anlise e filtragem posteriores.
No se deve fazer filtragens no incio. Tudo importante; nenhum dado deve ser
descartada ou menosprezado. Lembre do efeito Borboleta no clima. O mesmo se diz
para relaes entre variveis. Tudo deve ser anotado para anlise futura. Lembre que um
supermercado descobriu uma relao entre as vendas de fraldas e cervejas, o que a
princpio pode parecer um absurdo.
101
Silver declara que um dos maiores riscos na era da informao que a massa de
conhecimento no mundo est aumentando (e exponencialmente). Ento a diferena
entre o que sabemos e o que pensamos saber pode estar aumentando. E como
consequncia temos um crescente aumento de stress, porque as pessoas querem e
precisam saber e armazenar mais informaes e conhecimento.
Segundo Darwin, "ningum pode ser bom observador se no tiver uma teoria antes".
preciso direcionar o foco da observao, porque pode haver muita informao. Isto no
significa apaixonar-se pela teoria e no enxergar outros caminhos. Darwin mesmo tinha
algumas teorias iniciais (vindas de Lamarck) que acabou refutando com suas
descobertas.
Se estivermos numa aula e pedirmos aos alunos para "observarem", eles perguntaro
"observar o qu ?". Se estivermos numa cidade nova com fome, a observao ser para
encontrar algum lugar para comer. Se estivermos sem compromisso, talvez nos
interessemos pela arquitetura e pelo ambiente. Se estamos procurando uma pessoa, s
vamos olhar para pessoas. O ser humano recebe muitas informaes pelos 5 sentidos,
externas e internas, mas no d relevncia a tudo. E nem pode. Para evitar a sobrecarga,
preciso fazer filtros e selecionar dados.
Koestler diz que o "bom observador" aquele que direciona suas observaes. Popper
diz que usamos quadros de referncia. Somos condicionados pelas necessidades e
vontades, primeiro momentneas, depois relativas a nossa expectativa de futuro, mas
isto tudo moldado pelo nosso passado. O passado pode ajudar, acelerando buscas,
eliminando lixos. Mas pode nos condicionar por um vcio de interesse e fechar nossos
olhos a novas observaes. A filtragem pode ser boa para evitar o acmulo de grande
volume de dados. Mas pode ser ruim, por deixar coisas importantes de fora da anlise.
Por isto, devemos usar tcnicas e nossa experincia para saber selecionar e filtrar dados.
Um dos auxlios pode ser o uso de ferramentas de software, para ajudar no
armazenamento, recuperao e seleo de dados. O ser humano possui limitaes para
estas tarefas. O computador no to inteligente. Mas a parceria de ambos pode ser
uma soluo tima.
102
E h tambm o livro de Jacques Bertin, sobre o assunto.
A intuio um palpite, mas no uma adivinhao. Ela deve ser precedida por dados. A
questo que a intuio acontece numa deciso sem muita explicao de onde veio, se
ela est certa ou no ou por que devemos utiliz-la. saber algo sem saber explicar
como. Max Gunther acredita que usamos dados do inconsciente, que foram colhidos e
armazenados antes, mas que no temos conscincia de quando os estamos usando.
como reconhecer um amigo na rua ou a voz de algum no telefone. No tem explicao,
mas a gente faz e na maioria das vezes no erra.
103
consciente. Por exemplo, se voc pedir para um pianista explicar que sequncia de
teclas ele usa numa msica que saiba tocar sem partitura (de memria ou de cabea),
dificilmente ele conseguir explicar, ou pelo menos, levar um bom tempo tentando
relembrar. Mas no momento de tocar a msica, a sequncia vem sem ele precisar pensar
sobre isto.
A experincia, o hbito pode ajudar a aprimorar o uso de intuies, tanto para filtragem
do que coletar quanto para seleo de hipteses ou causas provveis.
O hbito uma vantagem quando no h tempo para raciocinar. Ele nos ajuda a tomar
as decises certas. Mas deve ser treinado, para no ser usado como sorte ou preguia.
Por exemplo, o jogador que assume a funo de lbero num time de vlei, quando ele
faz uma defesa, ele no pensa conscientemente. A reao em milsimos de segundos.
Mas seu crebro precisa tomar decises quanto a posicionamento do corpo (pernas,
braos, mos, etc.), para rebater a bola para frente, em direo ao meio da quadra, sem
passar a rede e sem ficar muito perpendicular a ele mesmo. Para tanto, ele vai dispor
braos, mos e restante do corpo, mas a deciso no consciente. As decises rpidas (e
acertadas) neste caso vm devido a treino (a fora do hbito). como digitar um texto
num computador sem olhar para o teclado. Se perguntarmos a uma pessoa que digite
textos rapidamente onde fica uma determinada letra, ele ter que parar para pensar. Mas
se pedirmos para ele digitar uma palavra, esta sair rapidamente. O mesmo com um
piloto de corrida. As decises so tomadas rapidamente, parecendo ser instinto, mas na
verdade um hbito que foi muito treinado.
Kahneman fala da importncia de praticar o hbito. Ele afirma que os grandes jogadores
de xadrez no veem o mesmo tabuleiro como um novato. Eles conseguem visualizar
jogadas possveis pela fora do hbito. O treino gera uma habilidade para acessar mais
rapidamente certas informaes no crebro e organiz-las melhor. Gladwell, no seu
livro sobre Outliers (2011), chega a um nmero mgico de 10 mil horas de treino, que
distingue os grandes campees dos demais. Ele v isto em grandes msicos e jogadores.
Se uma pessoa treinar 8 horas por dia, todos os dias, sem folgas, precisar de 3,4 anos
para chegar a este nmero. por isto que podemos notar que grandes campees de
esportes ou msicos virtuoses comearam com pouca idade.
Duhigg (2012) diz que podemos instalar hbitos em nossos crebros. Eles ficam
armazenados em reas especficas do crebro e podem ser recuperados de forma
inconsciente. Comea com um estmulo que manda o crebro entrar em modo
automtico, e indica qual hbito deve ser usado. As recompensas (dor, prazer, etc.)
104
ajudam o crebro a saber se vale a pena memorizar este hbito para o futuro ou no. A
sugesto definir um plano para uma rotina que traga a mesma recompensa. Para o
lbero do vlei, seria treinar exaustivamente defesas e recompensar com felicidade ou
tristeza cada resultado. Recompensas diferentes ajudam o crebro a diferenciar aes
boas de ruins.
Em muita decises, no h informaes suficientes para uma boa escolha. Por exemplo,
ao chegarmos a uma encruzilhada, no caminho em direo a um destino, e se no
tivermos um mapa, vamos usar heursticas para escolher o caminho a seguir. Talvez
algum olhe para o cu, e mesmo sem saber orientar-se por ele, tenha um lampejo de
informao, lembrando de uma situao semelhante em que ficou perdido. Outros
olharo para o cho, lembrando situaes que viram num filme (nunca experimentaram
a mesma situao mas reusaro solues que foram teis para outras pessoas).
Algumas heursticas esto enraizadas no ser humano como hbito ou instinto. Por
exemplo, segurar coisas que caem, fugir do fogo ou de animais que rosnam. Mas as
heursticas tambm so usadas para acelerar a soluo de problemas. Conforme,
Gigerenzer e Gaissmaier (2011), uma heurstica uma estratgia que ignora parte da
informao com o objetivo de fazer decises mais rpidas do que mtodos complexos.
Em casos onde no h tempo para pensar, as heursticas podem funcionar.
Por outro lado, como as heursticas so usadas sem conscincia, podem gerar resultados
catastrficos, quando seria melhor raciocinar sobre alternativas. Gladwell no livro Blink
(2011) descreve o caso de um bombeiro que sobreviveu a um incndio na floresta
parando para pensar numa soluo, enquanto que seus companheiros no tiveram a
mesma sorte porque seguiram seus instintos (ou heursticas).
Lenat (1982) diz que as heursticas podem ser construdas por especializao ou por
generalizao. Por exemplo, se uma deciso foi til numa caminhada por uma floresta,
possvel que tambm seja til em qualquer tipo de caminhada (generalizao) ou em
caminhadas menores (especializao). A fora das heursticas est na analogia que
proporcionam. Se uma heurstica H foi til numa situao S, ento heursticas similares
a H sero teis em situaes similares a S (analogia). Entretanto, se o ambiente muda
rapidamente, as heursticas possuem pouco tempo de vida.
105
das pessoas. Se as pessoas souberem que esto sendo avaliadas ou observadas, mudam
seu comportamento (para melhor ou pior).
Como j dito antes, no errado formular hipteses iniciais. O problema s ficar com
estas e descartar outras possibilidades.
Fazer as perguntas certas significa coletar e armazenar os dados certos, ou seja, j ter
algumas hipteses do que pode ser a causa ou o que pode influenciar. Se a causa para
quebras de mquinas a temperatura ambiente, ento temos que coletar estes dados e
inseri-los na base de dados para depois poder utilizar as tcnicas de anlise com ajuda
de software. Se esta for a causa e tais dados no estiverem na base, ou no
descobriremos nunca a causa ou ento estaremos calcados em descobertas enganosas.
Detalhes podem fazer a diferena. O ser humano tem a tendncia de analisar o que
comum, mais frequente, o que aparece mais. assim com a moda. Ningum d ateno
para um tipo de acessrio que s uma pessoa usa. Se vrios estiverem usando o mesmo
estilo, isto chama a ateno das pessoas comuns. Entretanto, num processo de
descoberta ou investigao, os pequenos sinais podem ser muito teis. Pergunte a um
investigador policial. Ento, num primeiro momento nada deve ser descartado. Todos os
dados possveis devem ser coletados e analisados. Todos os caminhos devem ser
considerados. E vrias hipteses iniciais devem ser construdas.
A viso holstica significa a "Viso do Todo", ver todos os elementos e suas relaes.
Isto ajuda a entender como o todo (problema) est composto e pode ajudar a direcionar
o foco ou mesmo ver detalhes pouco percebidos.
106
Procure observar as interaes, no s estabelecendo as conexes entre os elementos
mas entendendo que tipo de conexo existe. X pode estar conectado a Y por ser sua
causa, mas pode estar conectado a Z por que so ideias contrrias e pode estar
conectado a W por outra razo diferente. No estabelea regras de tipos de conexes,
no fique preso a paradigmas, tenha mente aberta.
Viso holstica tambm tem a ver com Sinergia (o todo maior que a mera soma das
partes). Se ao analisar a molcula de gua (H2O), observssemos os elementos
hidrognio e oxignio em separado, no saberamos que o estado natural da gua
lquido. Quando os elementos de um todo interagem entre si, formam um sistema
complexo que pode levar a resultados imprevisveis. S listar os elementos no
suficiente; temos que entender as relaes entre eles.
Segundo Morin (2000, p.42), at meados do sculo XX, a maioria das cincias obedecia
ao princpio de reduo, que limitava o conhecimento do todo ao conhecimento de suas
partes, como se a organizao do todo no produzisse qualidades ou propriedades novas
em relao s partes consideradas isoladamente. A sinergia se resume em dizer que 1 +
1 = 3. Quando as partes se juntam, podem formar algo novo e bem diferente. Foi assim
que a primeira forma de vida deve ter comeado segundo a teoria evolucionista.
No entender isto como procurar a causa para defeitos num carro observando apenas o
comportamento do motorista e as peas, sem olhar para a estrada, o clima, o que outros
motoristas fizeram, etc. Houve um caso interessante numa cidade do interior do Rio
Grande do Sul. Estavam acontecendo suicdios entre agricultores em nmero fora dos
padres normais. As primeiras hipteses levavam para investigao de aspectos sociais,
como famlia, ambiente social onde trabalhavam, perspectivas econmicas, etc. Depois
descobriu-se que o uso excessivo de agrotxicos estava influenciando o organismo e o
lado psicolgico dos agricultores.
Se estivermos lidando com sistemas biolgicos, temos que considerar estes aspectos. E
a a sinergia bem maior e complexa. H o famoso caso da guerra dos pardais na China
em 1958. O governo identificou que os pardais estavam comendo arroz nas plantaes e
diminuindo a produo. Ento fez uma ampla campanha para que os cidados
ajudassem a matar pardais. Com a populao de pardais quase extinta, os gafanhotos
107
comearam a atacar as plantaes de arroz, porque os pardais eram seus predadores
naturais.
Por exemplo, nos EUA, a polcia conseguiu capturar um franco atirador porque ele se
escondia dentro de um carro, atirando por um buraco no porta-malas; as imagens dos
locais sempre tinham este carro. Analisando os dados capturados e armazenados no
banco de dados, no se tinha nenhum atributo comum a todos os casos. O bairro era
diferente, horrio e tipo de vtima tambm. Mas as imagens revelaram o sinal comum
que permitiu identificar o criminoso.
Um cuidado que se tem que ter que em alguns conjuntos pode no haver uma
caracterstica comum a todos elementos. Por exemplo, na maioria das empresas, se
formos procurar o que h de comum a todos clientes, a resposta ser "nada" (conjunto
vazio). O que acontece que os clientes formam grupos, porque justamente o mercado
segmentado. Ento, neste caso, seria melhor utilizar a tcnica de agrupamento
(clustering), que separa automaticamente os elementos por similaridade. Depois, a
tcnica de induo permite descobrir as caractersticas de cada grupo.
108
cada cliente. E os elementos podem ser produtos, lojas, vendedores, etc. Em geral, o
Grfico de Pareto ento se assemelha a uma curva descendente.
Uma variao do mtodo seria trabalhar com valores fuzzy para classificar elementos.
Por exemplo, se estamos classificando pessoas por faixa etria, temos a tendncia de
definir limites. Poderia ser assim: jovens so pessoas menores de 24 anos, adultos tm
entre 25 e 40, sniors tm entre 41 e 60 anos e a 3a idade formada por pessoas com
mais de 60 anos. Mas o que acontece com pessoas prximas das fronteiras (por
exemplo, algum com 24 anos e alguns meses) ? A lgica fuzzy permite classificar um
mesmo elemento em duas classes distintas mas com graus de pertinncia diferentes.
Ento, se uma empresa for fazer campanhas de marketing para clientes segmentados por
idade, usando o raciocnio fuzzy, a empresa no perde oportunidades deixando clientes
das fronteiras somente numa campanha.
Por exemplo, se foi utilizado o total de itens para montar o ranking de clientes, pode-se
descobrir:
a) que a mdia de itens comprados entre eles era X;
b) que a idade mnima era 23 anos;
c) que todos os clientes do grupo selecionado tinham residncia na cidade;
d) que todos estes clientes selecionados tinham renda acima de Y salrios mnimos e
moravam em residncia prpria.
Uma anomalia do mtodo descrito antes, que as caractersticas comuns num grupo
podem tambm estar presentes em outros grupos. Um exemplo: uma empresa utilizou o
grfico de Pareto para tentar encontrar as boas prticas de seus vendedores. Ao
identificar os atributos dos melhores vendedores, descobriu que estavam tambm
presentes nos piores.
Pode-se dividir o grupo todo em partes para comparar caractersticas, a fim de encontrar
o que diferencia um grupo de outro. Por exemplo, uma tcnica muito utilizada para
entender bons e maus pagadores em sistemas financeiros dividir os clientes nestes 2
109
tipos de grupos e ento analisar o que h de comum internamente a cada grupo. Depois
ento, os atributos que caracterizam cada grupo so comparados em busca das
diferenas.
O grande defeito seguir por caminhos errados, levando a perda de tempo e esforos.
Imagine pegar justamente as excees. Mas muitas vezes, so caminhos que devem ser
trilhados na falta de hipteses.
Benchmarking e Analogias
O perigo das analogias, segundo Popper, generalizar demais ou de forma errada. Ele
conta o caso de cachorros que foram aterrorizados com cigarros. Aps, cada vez que um
destes via um papel branco enrolado, ele fugia. No caso, o fator real (causa raiz) era o
fumo e no o papel que enrolava o fumo. Mas at mesmo o ser humano confunde as
causas.
110
"Reframe", repensar o problema
Para reformular, temos que nos libertar das regras que estamos usando. Einstein, Galileu
e Darwin quebraram paradigmas. Mas para isto, precisaram se libertar das teorias
aceitas em suas pocas. Se pensarmos que um problema s tem uma soluo possvel
(ou caminho para a soluo), a tendncia tentar colocar os dados num esquema que
leve por este caminho. por isto que muitas solues aparecem em sonhos, porque
quando dormimos a parte do crebro que dita regras e conexes lgicas est dormindo
tambm. Por isto que sonhamos coisas estranhas, sem lgica. Mas tambm o que
permite conectar diferentes matrizes e fazer associaes novas (que acordados no
fazemos).
Precisamos voltar, tomar direes diferentes, usar dados diferentes, observar detalhes
que talvez no fossem considerados to importantes, refazer as perguntas. Sair das
regras normais e hbitos, ver o que est escondido (hidden analogies). justamente o
contrrio de usar analogias e benchmarking.
Recentemente, surgiu uma explicao possvel para as pedras (algumas com mais de
300 quilos) que se movem sozinhas no lago seco de Racetrack Playa, no deserto de
Mojave nos EUA. Elas deslizam pelo solo deixando marcas bem visveis atrs delas. O
gelogo da NASA Ralph Lorenz acredita que as rochas so movidas pela ao dos
ventos e da gua. Ele acredita que elas ficam envoltas em gelo durante o inverno, ento
quando o leito do lago derrete e fica lamacento, o gelo permite s pedras deslizar sobre
o barro, impulsionadas pelos ventos fortes do deserto.
111
Quebra de Paradigmas
J comentamos que os hbitos so bons para filtrar opes e economizar tempo. Mas h
o perigo de ficar preso a solues pr-determinadas ou tradicionais. H heursticas (no
comprovadas cientificamente) que acabam guiando as nossas decises. Por exemplo,
muitos executivos demitem funcionrios para reduzir custos. a soluo mais comum,
mais tradicional e muita vezes mais fcil para quem faz (no para quem demitido).
Outro exemplo: muitas empresas pensam que no se investe na crise; mas o livro de
Carlos Domingos (Oportunidades Disfaradas) conta justamente casos de sucesso que
contrariaram esta regra.
Muitas vezes, a soluo passa por quebrar paradigmas. Segundo Thomas Kuhn, no seu
famoso livro A estrutura das revolues cientficas, paradigmas so realizaes
cientficas universalmente reconhecidas que, durante algum tempo, fornecem problemas
e solues modulares para uma comunidade de praticantes de uma cincia. O paradigma
orienta pesquisas de um grupo; um modelo ou padro aceito.
Um paradigma uma maneira de ver o mundo. E isto pode mudar. Kuhn comenta o
experimento de utilizar um culos que inverte a imagem (descrito por Harvey Carr). As
pessoas se acostumam e conseguem viver normalmente.
A quebra de paradigma uma nova forma de ver as mesmas coisas talvez at com os
mesmos instrumentos. Foi o que aconteceu em vrias quebras de paradigma na
Astronomia. Em muitos casos, o mesmo instrumento (luneta) era utilizado focando no
mesmo lugar no espao. Mas as hipteses eram diferentes. E a novos detalhes
aparecem, fazendo ento a teoria se modificar.
Entretanto, uma teoria pode ser aceita mesmo sem explicar todos os fenmenos.
Quando surgem contra-exemplos, a teoria no deve ser rejeitada mas adaptada. Para
rejeitar uma teoria, preciso ter outra para substitu-la.
112
Descoberta por acaso (serendipity)
Serendipity um neologismo ingls que significa fazer descobertas por acidente, sorte
ou acaso. A origem da palavra relatada no artigo de Pek Van Andel e creditada ao
escritor britnico Horace Walpole em 1754.
Entretanto, a sorte favorece a mente preparada (frase associada a Pasteur por vrios
autores, entre eles Koestler e Johnson). Isto quer dizer que, para descobrir algo por
acaso, preciso ter informaes, hipteses, testes, ideias, etc.
falso acreditar que Arquimedes resolveu o problema do Rei sem nada saber. Antes,
ele estudou muito o problema e possveis solues. Mesmo aqueles que sonharam com
solues porque estavam, durante o dia, colhendo informaes. Talvez o momento
Eurekha tenha sido a juno das peas do quebra-cabea (como Koestler e Johnson
dizem ser um dos passos essenciais para a criatividade). Mas ento antes era preciso
colher e analisar as peas.
Estamos acostumados a pensar que toda deciso deve ser baseada em fatos e raciocnio
lgico. Em geral, as pessoas relutam em usar dados no confirmados ou mesmo que no
sejam quantitativos (nmeros). Entretanto, como j discutimos antes, pela racionalidade
limitada, nem sempre possvel coletar e analisar todos os dados e alternativas
necessrios, ou mesmo verificar a veracidade de tudo o que ouvimos e lemos. Em
muitos casos, utilizar uma informao no confirmada, pode ser o pulo do gato na frente
dos demais concorrentes.
Por exemplo, a maioria dos investidores das bolsas de valores utilizam softwares que
analisam dados histricos e fazem previses atravs de tcnicas de Data Mining
(minerao de dados). Mas todos os investidores tomarem decises da mesma forma
(com os mesmos dados e tcnicas), ningum vai ganhar. Para vender, preciso que
algum compre e vice-versa. Ento, para ganhar na Bolsa preciso ter uma viso
diferente dos outros, sobre algo que pode dar certo ou errado, enquanto os outros esto
pensando o contrrio. Isto, claro, aumenta o risco e a probabilidade de erro, mas
tambm aumenta as chances de sair ou estar frente. Se formos esperar para confirmar
todas as informaes, nunca vamos tomar uma deciso.
Gunther diz que precisamos tambm utilizar dados subjetivos, como os sentimentos.
Precisamos ouvir os nossos prprios sentimentos. Isto no significa confundir intuio
com desejo. Um forte desejo pode parecer uma forte intuio. Decises tambm podem
ser tomadas com base em informaes ainda no confirmadas, como opinies e
rumores.
Existem informaes que sozinhas no significam muito, mas quanto integradas podem
ajudar a predizer eventos. Estes so os chamados sinais fracos (weak signals) segundo
Ansoff (1980). Sinais fracos so aqueles pedaos de informao, ambguos, vagos,
incompletos, imprecisos e controversos. No so claros; so quase mudos. Esto
normalmente escondidos no rudo e no recebem muita ateno no processo de deciso.
113
So informaes mal estruturadas, esparsas e desconexas. No so certezas, mas pistas.
Podem surgir na forma de frases, fotos, cheiros, imagens, desenhos, pedaos de artigos
ou qualquer observao pronunciada por algum. Nesses fragmentos esparsos pode
residir um potencial informativo importante para a investigao.
Sinais fracos podem gerar grandes influncias nos resultados. A Teoria do Caos
(Gleick, 1989) explica que pequenas alteraes em algumas variveis podem modificar
completamente o resultado final. Da que surge o tal efeito borboleta (uma borboleta
voando no Brasil pode gerar uma tempestade no Texas). Gladwell, no livro Ponto da
Virada (2013) tambm comenta sobre pequenos eventos que desencadeiam grandes
revolues. H muitos exemplos na moda e no marketing. Nate Silver fala de um sinal
que foi desconsiderado para um terremoto na Itlia: sapos deixaram de desovar 5 dias
antes.
Outro caso interessante com relao anlise de atrasos em voos. Muitas companhias
descobriram que a etapa de limpeza da aeronave nas escalas era um determinante para
os atrasos. Antes relegada a um fator de pouca importncia no tempo da viagem, a etapa
de limpeza recebeu foco de equipes de planejamento. A TAM ento passou a usar um
tapete vermelho para clientes limpares os ps na entrada. A GOL projetou um esquema
em que os clientes ajudam na limpeza interna. E tudo isto deu certo.
J Pentland estuda outros tipos de sinais fracos, o que ele chama de sinais honestos.
So sinais que aparecem nos rostos das pessoas, impercebveis no cotidiano pelo olhar
humano, muito porque acontecem num tempo menor que um piscar de olhos. Quando
assistimos vdeos em cmera lenta, tais sinais aparecem claramente. Pentland e sua
equipe utilizam tecnologias para detectar estes sinais honestos. Os sinais podem ser
demonstraes de empatia para facilitar e encorajar comunicao (ex.: acenos com
cabea) ou podem indicar estresse. E no aparecem somente no rosto, mas so
demonstrados por todo o corpo humano. A linguagem dissimula emoes, mas o corpo
no as consegue esconder. J h at taxonomias para anlise de expresses faciais
(Ekman e parceiros; Kring e Sloan, 2007)
O ser humano intuitivamente consegue identificar tais sinais. o que muitos dizem de
uma conversa olho no olho para conhecer melhor uma pessoa. As decises referentes a
escolha ou avaliao de pessoas so feitas assim. Mas tambm servem para avaliar
veracidade de argumentos e informaes que os outros nos passam. Saber reconhecer
tais sinais pode melhorar nossa tomada de deciso. Os estudos de Pentland concluram
que empregados que se valem de interaes cara a cara acabam sendo 30% mais
produtivos.
114
Gladwell comenta sobre o poder dos boatos, que podem ajudar ou atrapalhar. Ele
comenta o caso de um boato espalhado entre americanos para resistncia aos ingleses, e
que acabou tendo uma forte influncia na independncia americana.
O importante saber juntar os sinais fracos, entender suas relaes, seu poder de
conjunto e para onde apontam. Para Nate Silver, havia dados suficientes para prever o
ataque terrorista de 11 de setembro. O problema no era a carncia de informaes, mas
sim que as peas no foram corretamente juntadas (exatamente como aconteceu nos
ataques a Pearl Harbor). O que faltava era exatamente uma teoria que pudesse explicar
os dados em conjunto, um padro que indicasse um evento significativo ou mesmo uma
hiptese por menos provvel que fosse.
Lesca (2003) apresenta uma metodologia para anlise de dados sobre mercado
competitivo, onde os chamados "sinais fracos" so tambm considerados. Isto inclui
opinies e at mesmo boatos. A ideia no descartar nada. A metodologia de Lesca
interessante porque demonstra como conectar dados e sinais fracos, para gerar
hipteses. Talvez o conjunto final de dados possa mostrar uma tendncia que os
nmeros no apresentavam. Parte desta metodologia ser discutida adiante.
Outro exemplo: uma empresa no sabia mais como lidar com quebras em suas
mquinas. J havia investigado tudo: fornecedores, tempo de uso, qualidade dos
operadores, qualidade das peas que substituam outras, temperatura durante o uso, as
variaes de temperatura (uso X descanso) e at mesmo a temperatura ambiente. E nada
de encontrar um padro. A algum suspeitou que a trepidao das mquinas era
diferente. Colocaram sensores para medir o quanto cada mquina trepidava.
Descobriram que as medidas eram diferentes mas no havia um padro. No encontram
um motivo para haver diferenas nas trepidaes, analisando as variveis j descritas
antes. A, outro algum suspeitou que a diferena nas trepidaes poderia estar no tipo
de piso usado na empresa. Nada. Eram todos iguais. A outro algum, analisando onde
ficavam as mquinas que mais davam problemas, descobriu que o andar onde estava
que fazia a diferena. Mquinas em andares mais altos tinham histrico maior de falhas
e quebras. Concluindo: as diferenas na estrutura do prdio eram a causa dos problemas.
Ento uma das tarefas do processo de BI engloba buscar causas para efeitos observados.
Por exemplo, no McDonalds, o sanduche Big Mac fica pronto mais rpido que os
demais porque vende mais ou vende mais porque fica pronto mais rpido ? Se outro
115
sanduche ficasse pronto primeiro, ele seria o mais vendido ? o velho problema de o
que vem primeiro: o ovo ou a galinha ? Gladwell, no livro O ponto da virada, comenta
a relao entre pessoas confiantes e o ato de fumar. O que gera o qu ? a confiana
que faz a pessoa fumar ou o ato de fumar que deixa a pessoa mais confiante.
A primeira tarefa identificar causas de efeitos avaliar a correlao entre as variveis ou
eventos. A correlao uma tcnica estatstica que avalia a similaridade entre 2 vetores
de nmeros, 2 grficos ou 2 sries. O coeficiente de Pearson um dos mtodos mais
utilizados. Quanto mais prximos os nmeros na ordem, maior o grau de correlao
entre os vetores. Para uma empresa importante avaliar a correlao entre suas aes e
os resultados. Por exemplo, uma empresa descobriu que um aumento de 5 pontos na
atitude comportamental dos empregados implicava em 1,3 ponto de incremento na
satisfao dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa.
Tal descoberta permite empresa avaliar onde investir e o quanto. Neste exemplo, se
ela quiser aumentar 1% das vendas talvez tenha que aumentar 10 pontos na atitude dos
colaboradores.
Como j discutimos antes, correlao entre eventos ou variveis no necessariamente
implica em que um seja causa de outro. Conforme Hans Reichenbach, citado por
Tsamardinos e Sofia Triantafillou (2011), se A e B esto correlacionados, ou A causa B,
ou B causa A, ou eles compartilham uma causa comum. Eu ainda acrescentaria que
pode ser uma sincronicidade, como discutido antes, caso no haja uma frequncia
mnima. O famoso teste de Granger pode ajudar a identificar se h uma relao causal
numa correlao.
Alm disto, uma causa pode ser direta ou indireta. Em muitas empresas, costuma-se
relacionar os ndices de venda ao desempenho dos vendedores. Mas muitas vezes so
esquecidas causas indiretas. Por exemplo, as propagandas feitas pela empresa podem
ajudar um vendedor e prejudicar outro. Os tipos de clientes ou regies pelas quais cada
vendedor ficou responsvel pode ser o determinante, isentando o vendedor e suas
atitudes do resultado final. Outro exemplo: a causa para o custo elevado de um produto
pode estar na raiz da cadeia de suprimentos.
Causas indiretas podem gerar o evento mas com muitos laos intermedirios. Imagine o
caso de uma virose que deixa vrias pessoas com problemas estomacais. Se todos
comeram no mesmo restaurante, isto pode ser uma causa comum e direta. Entretanto,
pode ter ocorrido de uma pessoa ter comido algo e depois passado o vrus para outro
que passou para outro e assim por diante.
Na rea de sade, muito comum confundir sintoma com causa. A causa vem primeiro
e os sintomas ou sinais aparecem depois. Mas h casos complexos onde fica difcil
determinar o que causa e o que efeito. Por exemplo, gua no pulmo consequncia
ou causa de problemas cardacos ? e diabetes, causa ou consequncia de problemas de
m circulao ?
Outra questo a cuidar que a causa pode ter ocorrido logo antes do evento efeito ou
muito tempo antes. Uma promoo publicada num jornal talvez gere resultados no
mesmo dia. Mas uma campanha nas redes sociais talvez demore mais tempo para gerar
resultados positivos. Levitt e Dubner (no livro Freakonomics) levantam a possibilidade
de a liberao de abortos ser uma das causas para diminuio de crimes nos EUA no
final de 1989. Mas os 2 eventos estariam relacionados numa diferena de tempo de 20
anos. Esta a chamada correlao assncrona que j foi discutida antes neste livro.
116
Aqui devemos distinguir causas determinsticas de causas provveis. O determinismo
ocorre quando a causa leva aos efeitos em 100% dos casos e sem nenhuma dvida.
Quando no h certeza, devemos tratar a relao causa-efeito de forma probabilstica.
Isto acontece em modelos ou padres onde h excees.
Para poder avaliar o determinismo da causa sobre o efeito, necessrio avaliar tambm
outros eventos no contexto. Como j discutimos antes, BI no acontece num mundo
fechado. Se as vendas caem ou sobem inesperadamente num determinado ms, no
significa que as aes da empresa foram a causa. As aes dos competidores, os eventos
que acontecem na cidade ou sociedade, as questes econmicas, etc., podem ser causas
mascaradas.
Uma maneira de avaliar qual realmente a causa para um efeito colocar num banco de
dados todos os eventos que podem estar relacionados e a utilizar tcnicas estatsticas
(como anlise de correlao e teste de Granger) para filtrar candidatos a causas.
Em muitas vezes teremos que refazer as situaes ou eventos e ento fazer novas
observaes. A cada novo experimento realizado, precisamos monitorar as causas
candidatas e registrar tudo num banco de dados para anlise estatstica.
Outra tcnica til gerar um grafo relacionando possveis causas a efeitos. Cada relao
de causa-efeito recebe uma probabilidade. Depois podemos analisar o grafo com os
seguintes Axiomas Causais de Markov e de Rei:
a) causas imediatas geram efeitos independente de causas remotas; por exemplo,
infeco causa doena, independente de como se foi infectado (axioma de Markov);
b) uma causa comum pode gerar dois ou mais efeitos independentes; por exemplo,
fumar pode causar cncer e dedos amarelados, mas um efeito no tem a ver com outro
(axioma de Reichenbach).
Anlise de causa-raiz
Gladwell, no livro Outliers, comenta que acidentes com avies acontecem por acmulo
de erros triviais e pequenos. Ele comenta o caso de uma companhia area que precisou
treinar sua tripulao para se comunicarem melhor em ingls com as torres de controle
em outros pases. Isto porque a m comunicao gerava outros pequenos erros e da
poderia at mesmo causar um grave acidente.
117
O importante ento tentar descobrir a chamada causa-raiz, aquela que gera outras
causas em sequncia ou cascata. Se conseguirmos eliminar a causa-raiz, as demais
causas no acontecero e assim o efeito tambm no acontecer.
Veja o caso das empresas de Eike Batista que perderam muito valor em 2013: uma
empresa estava escorada em outra e dependia dos investimentos se confirmarem nas
outras. Quando a base ruiu, todas caram junto.
Em outro caso, uma empresa gerou diversos diagramas de Ishikawa para entender
causas das reclamaes de clientes. A diviso foi feita em vrios nveis, isto , cada
causa era estudada e suas causas analisadas, gerando diagramas interrelacionados,
formando uma rvore de causas interconectadas.
interconectadas. O interessante que um fator se
repetia em diversas subcausas e diversos ramos da rvore: a competncia dos
funcionrios. A empresa ento focou em treinamentos e conseguir diminuir muito as
reclamaes.
Nate Silver discute em seu livre as previses feitas para a eleio de presidente nos
EUA. Ele acredita que, para uma previso ser precisa, no basta saber qual candidato
tem mais preferncias nos estados; preciso avaliar os estados mais importantes e o
conjunto (relaes entre estados).
118
Alm disto, na maioria dos casos, no h uma causas nica e simples; pode haver
causas mltiplas ou multivariadas (como na regresso). Para tanto, necessrio analisar
conjuntos de dados e no dados isolados.
Em outros casos, a causa pode ser um volume grande de eventos do mesmo tipo. Veja a
moda por exemplo. Uma pessoa sozinha usando uma marca ou um tipo especfico de
acessrio no gera efeito, mas vrias fazendo isto gera um efeito exponencial. Este tipo
de fenmeno chamado de ponto da virada, muito bem descrito no livro de Malcolm
Gladwell.
Uma empresa descobriu que suas mquinas s tinham problemas quando a temperatura
no ambiente passava dos 30 graus e um operador inexperiente (menos de 1 ano de
trabalho) estava manipulando a mquina. Notem: eu frisei o E. Ambos os fatores
deveriam estar juntos para gerar o problema.
A abstrao pode ser feito de duas formas: por Generalizao ou por Agregao,
conforme Smith e Smith (1977). Generalizar formar conceitos de mais alto nvel a
partir de fatores menores. Um exemplo de generalizao seria notar que todos os
problemas com uma determinada mquina industrial ocorreram com operadores que
tinham menos de 20 anos. A agregao seria compor eventos mais complexos a partir
de fatores menores. Por exemplo, o mesmo caso (operadores jovens) mas somente em
mquinas adquiridas h menos de um ano (mquinas novas, de modelos novos).
Uma possibilidade seria atacar somente a causa (e) que a que tem maior probabilidade
(50%). Outra seria atacar as causas (a) e (b), pois juntas (conforme item h) do 40%
de probabilidade e podem ser dirimidas com aes semelhantes (e de menor custo).
Por isto, nesta seo vamos falar de algumas metodologias (se que se pode chamar
assim) para investigao. Elas nos orientam como coletar, filtrar e analisar dados, como
desenvolver teorias, como criar e validar modelos, como identificar e definir regras e
leis cientficas ou no.
120
Mtodo Cartesiano
O mtodo de Ren Descartes, que ficou conhecido como mtodo Cartesiano, possui os
seguintes passos ou preceitos:
1. Busca pela verdade: nunca aceitar algo como verdadeiro sem conhecer; receber
as informaes com ceticismo, examinando sua racionalidade e sua justificao;
2. Anlise, ou diviso do assunto em tantas partes quanto possvel e necessrio:
dividir cada uma das dificuldades em tantas partes quanto for possvel e necessrio para
melhor entend-las e resolv-las;
3. Sntese, ou elaborao progressiva de concluses abrangentes e ordenadas a
partir de objetos mais simples e fceis at os mais complexos e difceis.
4. Enumerar e revisar minuciosamente as concluses, garantindo que nada seja
omitido e que a coerncia geral exista.
Mtodo Cientfico
Por exemplo, ao identificar que um cliente jovem comprou o produto X e depois que
outro cliente jovem tambm comprou o mesmo produto, comeamos a pensar na
hiptese de haver uma regra (princpio) que diga que todo cliente jovem compraria o
produto X (se soubesse que ele existisse). Isto induo. Ela olha para o passado e
procura explicaes.
Se esta regra for verdadeira, ento um novo cliente jovem dever comprar o produto X,
e esta a deduo de uma possibilidade. Ela olha para o futuro.
Podemos tambm pensar na deduo como uma maneira de produzir fatos (mesmo que
histricos) que devem ser verdades. Por exemplo, se descobrirmos que vrias mquinas
da marca XYZ quebraram 2 anos aps o incio de utilizao, podemos pensar que esta
uma regra. E portanto, podemos dizer que as demais mquinas desta marca, mesmo que
ainda no avaliadas, tambm quebraram no mesmo perodo (casos passados mas aidna
no confirmados). Estas dedues (novos fatos) devem ser verificados para confirmar a
regra.
121
Um exemplo mais formal:
A deduo funciona assim:
Tendo a regra A ==> B (A implica em B), se A verdadeiro, ento deduzimos B.
Pelo lado da sntese, a ideia seria procurar elementos que estivessem disponveis no
momento (prximos ao lugar) e da tentar construir uma soluo com eles. Talvez a
soluo no fosse uma ponte, mas uma canoa ou tirolesa. A soluo dependeria dos
elementos encontrados.
Mtodo de Galileu
Galileu revolucionou o modo como a Astronomia era feita. De seus aprendizados, surge
um mtodo para construo de teorias. Os passos so:
1. Fazer a observao do fenmeno;
2. Resolver a complexidade do fenmeno, identificando elementos, relaes,
quantidades, medidas, etc;
3. Elaborar uma hiptese explicativa;
4. Verificar a hiptese atravs de experimentaes ou novas observaes.
Raciocnio Abdutivo
Segundo Charles Sanders Peirce: "a abduo o processo para formar hipteses
explicativas. A deduo prova algo que deve ser; a induo mostra algo que atualmente
operatrio; j a abduo faz uma mera sugesto de algo que pode ser. Para
apreender ou compreender os fenmenos, s a abduo pode funcionar como mtodo.
O raciocnio abdutivo so as hipteses que formulamos antes da confirmao (ou
negao) do caso."
122
Tendo a regra A ==> B (A implicando em B), se B um fato comprovado, podemos
abduzir (como hiptese) que A verdadeiro e tambm causa de B.
Somente testes posteriores podem comprovar se isto verdade. Mas a hiptese est a.
As partes possuem conexes entre si, segundo alguma ordem ou objetivo comum. Nem
todos elementos esto conectados a todos outros. Podem haver subgrupos, mas sempre
haver alguma ligao entre os grupos.
Por exemplo, o sistema carro parte de um sistema maior de trfego, que por sua vez
pode ser considerado subsistema de uma cidade e assim infinitamente.
s vezes, difcil determinar o que est fora ou dentro do sistema. Por exemplo, os
alunos de uma universidade so elementos do sistema universidade ou so meio-
ambiente. Para tirar esta dvida (e outras), verifique se o sistema pode controlar este
elemento. Se sim, ele ser um elemento do sistema. Se no, ele ser um elemento do
meio-ambiente. Neste exemplo, a universidade no pode controlar que o aluno venha
aula, portanto os alunos so parte do meio-ambiente. Um cuidado: a universidade pode
influenciar (persuadir) o aluno a vir s aulas mas no tem controle sobre esta deciso do
aluno.
123
c) Quanto maior a fragmentao do sistema (ou seja, o nmero de subsistemas), maior
ser a necessidade para coordenar as partes.
Por exemplo, mais fcil coordenar um time de futebol de campo (com 11 jogadores
em campo) do que um time de futebol de salo (com 5 jogadores em campo). Por isto,
ningum v peas pequenas (como parafusos) quando pensa em elementos de um carro.
A razo disto que mais fcil visualizar menos sistemas e entender sua integrao;
por esta razo, as pessoas procuram agrupar os elementos em subsistemas.
d) O nmero mgico 7 2.
Na dcada de 50, George Miller conclui de suas pesquisa que as pessoas normais
possuem uma certa capacidade de processamento de informaes. Uma das descobertas
que podemos gerenciar de 5 a 9 subsistemas (por isto, o nmero 7 + 2 e 7 2). Isto
quer dizer que uma pessoa consegue gerenciar melhor uma equipe com 5 a 9 membros.
Ou que devemos subdividir os sistemas de 5 a 9 partes para poder entender melhor o
todo.
e) Homeostase.
Este princpio diz que os sistemas sempre procuram o equilbrio. Isto quer dizer que, se
uma parte no est funcionando bem, outras tero que trabalhar mais para manter o
equilbrio e para que o sistema consiga atingir seu objetivo.
Por exemplo, se uma pessoa est mancando de uma parte, a outra perna ser
sobrecarregada. Uma infeco no p pode gerar febre e isto afeta todo o corpo; da
mesma forma, outras partes podero ficar infeccionadas. Numa empresa, se o setor de
vendas no est bem, outros setores devem trabalhar mais ou melhor (por exemplo,
marketing).
f) Sinergia
A sinergia pode ser exemplificada pela frmula 1 + 1 = 3. Isto significa que as partes de
um sistema podem interagir para gerar algo maior, o que as partes no conseguiriam
fazer ou atingir se trabalhando isoladamente.
124
Tal princpio tambm pode ser entendido atravs da frase O todo no a mera soma
das partes. Um bom exemplo a gua (cuja frmula H2O). Se estudarmos cada parte
isoladamente, teremos que as molculas de hidrognio se encontram na natureza em
estado gasoso, e o mesmo acontecendo com o oxignio. Mas quando esta partes se
juntam formam uma substncia cujo estado natural lquido.
A sinergia tambm explica por que, muitas vezes, uma equipe de futebol com um
jogador a menos consegue ganhar de outra com maior nmero de jogadores. A resposta
est na integrao entre as partes, que conseguem gerar algo novo.
Abordagem Sistmica
125
e) analogias
A analogia consiste em utilizar uma soluo S num problema P, similar a uma soluo
S que j teve sucesso num problema P similar a P. Ou seja, o reuso de solues em
problemas similares, com alguma adaptao da soluo. No a toa que o Homem criou
o avio observando os pssaros voarem.
Milhares de anos atrs, a cincia era emprica, descrevendo apenas fenmenos naturais.
E isto durou at a Renascena e o Iluminismo. H poucas centenas de anos, ramos
tericos surgiram usando modelos e generalizaes. Com o surgimento do computador
e do software, foi possvel elaborar teorias complexas e test-las com simulaes
computacionais (Hey et al., 2009).
Existem diversos manuais e artigos com dicas para investigao criminal e percia.
Basta procurar na Web por "crime scene analysis/investigation/evidence". Separei
algumas dica de um manual que encontrei na Internet. (Clarke e Eck)
126
O famoso "Unabomber", que enviava cartas bomba para cientistas com o intuito de
parar a evoluo tecnolgica, foi identificado por suas prprias cartas: seu estilo de
escrita denunciou sua formao, detalhes do papel e da impresso indicaram o tipo de
mquina que usava e ainda os locais de postagem. Mas a dica final veio de um familiar.
Investigar causas como investigar um crime. Sherlock Holmes tinha seu mtodo,
utilizado em vrios livros deste personagem mas descrito primeiramente no livro Um
estudo em vermelho de Doyle.
Em outros casos, ele mesmo gerava suas regras, segundo o mtodo indutivo.
Holmes criticava as pessoas que atulhavam o crebro com detalhes inteis, soterrando
hipteses promissoras. O personagem ressalta a importncia tambm do estudo
meticuloso e sistemtico, aconselhando evitar formar teorias antes de possuir todos os
indcios, pois isto poderia distorcer o raciocnio.
Quanto s circunstncias fora do comum, ele diz que constituem mais uma orientao
do que um obstculo.
Diagnstico Mdico
127
As primeiras informaes so coletadas na chamada anamnese. Alm das informaes
atuais (sinais, sintomas e exames recentes), necessrio perguntar sobre a histria
pregressa do paciente, o que inclui sabre sobre doenas anteriores. Complementa a
anamnese a coleta do histrico familiar (informaes sobre doenas de familiares), dos
hbitos (alimentares, dirios, etc.) do paciente e de suas condies e ambientes sociais e
profissionais (fonte: Porto, 2005).
Um sintoma deve ser analisado de forma contextual. Ele possui um incio no tempo,
uma durao e pode evoluir para caractersticas diferentes. importante entender as
caractersticas no momento em que o sintoma surgiu e tambm as mudanas ao longo
do tempo.
Neste momento, talvez algum que trabalhe com mquinas industriais esteja se
perguntando o que pode aprender com o diagnstico mdico. Mas temos que lembrar
que mquinas tambm apresentam sintomas e sinais, s que no nos dizem isto. Mas
podemos observar e at mesmo coletar tais dados com sensores.
Um objetivo d a direo, o foco, ilumina o caminho; mas a criatividade faz sair das
regras e encontrar novos caminhos (hipteses). O processo de BI , de certa forma,
semelhante a um msico procurando uma nota que faa a conexo entre 2 partes de uma
msica, um investigador policial procurando o autor de um crime, um mecnico
investigando a causa de um defeito em uma mquina, um pintor procurando um meio de
expressar suas ideias mentais e surpreender aqueles que olham sua obra.
Mas para que o momento Eureka ocorra, algumas coisas devem acontecer antes. O
insight da soluo no vem por acaso, como Koestler e Johnson descrevem em tantos
exemplos nos seus livros. Arquimedes s viu a soluo porque tinha estudado
ardentemente o problema que lhe havia sido imposto, porque estava estudando outros
temas e conseguiu conect-los.
a) Maturao de ideias
Koestler fala em ripeness. Steven Johnson fala em palpite lento (slow hunch).
Isto significa muito estudo. Coletar muitas informaes, propor teorias (hipteses),
testar a teoria com exemplos reais e refazer o processo muitas vezes. Tim Berners-Lee
maturou a ideia da WWW por mais de 10 anos. E perseverou. Christianson (2012)
128
inclusive apresenta uma cpia do manuscrito original, onde o orientador de Tim escreve
a mo: "vago mas excitante ...".
Os grafos e mapas mentais ou conceituais podem ser teis para representar conexes
entre conceitos ou ideias. Os grafos podem ser direcionados, como um DAG (directed
acyclic graph), representando por exemplo relaes de causa-efeito ou se um conceito
influencia ou implica em outro. Mas as relaes (representadas graficamente por arestas
entre nodos do grafo) tambm podem representar outros tipos de significados quaisquer.
Por exemplo, podem representar ideias conflitantes, podem representar generalizaes
ou agregaes entre conceitos ou objetos, podem indicar sequncias ou caminhos e por
a vai. Se as relaes no tiverem direo, as arestas podem simplesmente significar que
h uma relao entre 2 conceitos ou ideias.
129
A Figura 44apresenta um mapa mental que representa tambm a viso multidimensional
dos dados envolvidos na venda de um produto. Se algum quiser ver pelo ponto de vista
do BI tradicional, conseguir ver uma tabela fato sobre vendas, tabelas de dimenses
(vendedores, loja, propaganda, dados de clima, marca, data e hora) e tabelas secundrios
formando um esquema tipo floco de neve (snowflake).
Como um mapa mental, podemos ver os fatores que influenciam a venda. Diretamente,
temos clima, loja, marca, propaganda, data hora e vendedor. Entretanto, o esquema
mostra que o vendedor influenciado pela sua motivao e pelo treinamento que
recebeu. E o treinamento possui 3 fatores que influenciam.
Desta forma, podemos pensar nas causas para ndices de vendas bons ou ruins
analisando as causas diretas ou indiretas. O diferencial deste tipo de visualizao
poder descobrir uma causa distante. Por exemplo, um baixo ndice de vendas pode estar
associados a quem ministrou o treinamento (que influencia a qualidade do treinamento,
que por sua vez influencia o desempenho do vendedor, que finalmente influencia as
vendas). Ou quem sabe o aumento das vendas pode ser devido atitude dos vendedores,
que por sua vez receberam um bom treinamento, e este foi de qualidade porque o
ambiente do treinamento foi especial (quando e onde).
Uma rede de varejo estava tendo muitos problemas com mercadorias defeituosas, e
queria diminuir tal prejuzo. Estes problemas foram detectados em todas as lojas. Ento
130
o problema no era na loja. As mercadorias defeituosas vinham de diferentes
fornecedores. Ento o problema no estava tambm no fornecedor (ou na fabricao).
Notou-se tambm que as mercadorias defeituosas vinham apenas dos Centros de
Distribuio (CDs) nmero 1 e 2. Mas todos os CDs utilizam o mesmo processo padro.
Fez-se uma anlise por observao (invisvel) para saber se os funcionrios estavam
realizando o processo de forma diferente do planejado. Nada foi encontrado. Ento o
problema no era no processo especfico de um ou alguns CDs.
Uma constatao importante foi que as mercadorias defeituosas tinham sido entregues
por apenas 3 transportadores: a 2, a 3 e a 4. Ento procurou-se saber o que havia de
comum entre estes transportadores. Nada foi encontrado. Pois estes 3 transportadores
utilizam diferentes tipos de caminhes. Utilizando informaes de rastreamento, ou
seja, caminho percorrido pelas mercadorias defeituosas, procurou-se saber se algum tipo
especfico de caminho havia sido utilizado para as mercadorias defeituosas. De novo,
nada foi encontrado, pois as mercadorias defeituosas chegavam com diferentes tipos de
caminhes.
131
defeituosas e que no apresentavam problemas. E tambm levaram o mesmo tipo de
mercadoria para o CD nmero 3, e ali no foram constatados defeitos neste tipo de
mercadoria. Ento o tipo de caminho no era determinante do problema.
Mas uma constatao importante foi feita: quando um caminho do tipo X ou Z fazia
entregas no CD 1 ou 2, a entrega era feita de forma um pouco diferente. Como nestes
CDs, a movimentao era maior, o processo de descarregar as mercadorias era feito
com algumas alteraes, feitas pelas pessoas sem conhecimento de quem planejou o
processo todo. O mesmo tipo de caminho, ao fazer entregas no CD 3, que tem menos
movimento, no alterava o processo.
Em resumo, pode-se descobrir que a causa dos problemas era uma combinao de
elementos do sistema de logstica desta empresa. A representao visual permitiu
identificar a combinao que gerava os problemas, algo que as planilhas e bancos de
dados no mostravam.
Ontologia
Teste de Engenharia de
Data
Software Requisitos Data Mining
Warehouse
132
Outro tipo de anlise interessante sobre mapas mentais faz-los representando fluxos
de informaes, ou seja, quem fornece informao para quem (ver Formanski et al.).
Nodos representam pessoas e arestas (setas) representam o fluxo de informao de uma
pessoa para outra. As cores indicam o departamento ou setor de cada pessoa. A largura
da seta representa o quanto de informao que passou naquela via. A Figura 47 mostra
um exemplo.
a) podemos notar uma sub-rede isolada esquerda com duas pessoas do departamento
amarelo (identificadas como 1 e 2). Elas no trocam informaes com pessoas de outro
departamento. Alm disto, h uma pessoa do departamento "amarelo" (3) que no
interage com estas duas para trocar informaes, mas que est bem "enturmada" com
pessoas de outros departamentos. Provavelmente isto indica um problema a ser
contornado. necessrio que esta 3a pessoa (identificado por 3) interaja com seus
pares. E tambm seria possvel pensar em como fazer com que os 2 funcionrios
"amarelos" (1 e 2) pudessem interagir com pessoas de outros departamentos.
b) podemos notar que h uma pessoa (11) que s recebe informaes. Pode ser um
novato, ainda aprendendo. E h algum (12) que s fornece; pode ser algum
experiente, mas ser que ele ou ela no deve receber algum tipo de informao de
alguma outra pessoa ?
133
d) a pessoa identificada por 9 est isolada, tendo somente contato com a pessoa
identificada por 10. Pode ser que 9 seja um aprendiz, que deve ser "sombra" de 10.
e) fora a pessoa 9, a rede azul a mais conectada, pois todos as pessoas deste setor
interagem entre si. J na sub-rede vermelha, o nodo 4 no interagem com 6 e 7. H que
se investigar o porqu disto, se planejado assim ou se um problema.
Determinismo X probabilismo
As arestas num grafo podem representar relaes determinsticas de, por exemplo,
causa-efeito. Mas tambm podemos usar grafos de probabilidades. Neste caso, as
relaes so provveis e no h certeza absoluta. As Redes de Markov e as Redes
Bayesianas utilizam o conceito de probabilidade para marcar relaes entre nodos num
grafo. As Redes Neurais Artificiais tambm utilizam pesos probabilsticos para as
conexes entre os neurnios artificiais.
Num grafo de relaes causais, as relaes entre conceitos (causas e efeitos) recebem
pesos numricos indicando a probabilidade da relao. Isto permite raciocnio lgico
(crisp ou fuzzy) sobre qual a causa mais provvel, independente se a causa est direta ou
indiretamente conectada ao efeito.
Os grafos ponderados (com pesos nas relaes) tambm so teis para que se possa
identificar quais relaes so de maior interesse para anlise. Pesos muito altos podem
sugerir relaes mais importantes num contexto e relaes com pesos muito baixos
podem ser eliminadas por insignificncia (principalmente para limpar um grafo com
muitas conexes).
Um dos casos mais interessantes de descoberta por minerao foi feita por Swanson e
Smalheiser (1997). Eles conseguiram encontrar uma possvel relao entre 2 textos de
assuntos distintos. O texto 1 falava que ...o leo de peixe bom para a circulao do
sangue.... O texto 2 dizia que ... a sndrome de Raynaud est associada com a vaso-
constrio nas pessoas .... A partir da leitura destes 2 textos, eles chegaram hiptese
de que o leo de peixe poderia ajudar no tratamento da sndrome de Raynaud.
Entretanto, no havia na literatura mdica cientfica nenhum texto que falasse de tal
hiptese. Ento eles partiram para experimentos prticos e os resultados comprovaram a
hiptese.
Este problema pode ser esquematizado utilizando-se um mapa mental (ou grafo).
Considerando os seguintes conceitos e suas relaes:
Sndrome de Raynaud vaso-constrio (relao de causa-efeito);
leo de peixe boa circulao (relao de causa-efeito);
vaso-constrio boa circulao (relao de associao).
O mapa pode levantar a hiptese que h uma relao entre a Sndrome de Raynaud e o
leo de peixe. Generalizando, poderamos construir um autmato que sugere novas
ligaes (a serem investigadas) a partir de grafos.
134
A partir da Figura 48, que relaciona conceitos, pode-se:
a) sugerir ligaes para procurar: por exemplo, verificar se h ligao entre A e D (e de
que tipo);
b) procurar evidncias que liguem os conceitos: por exemplo, com a hiptese de relao
entre A e D, procurar se h algum texto falando da relao entre A e D ou ento
podemos fazer algum experimento que concretize ou comprove esta relao;
c) procurar um conceito que ligue outros: por exemplo, ser que existe um conceito X,
tal que A X D ?
O mtodo regressivo, proposto por Descartes, assume que uma soluo existe como
hiptese, bastando procurar por ela para comprovar a hiptese.
Mapas geogrficos podem ser muito teis para levantamento e validao de hipteses.
O diferencial do mapa geogrfico trazer informaes que no aparecem em bancos de
dados tradicionais, tais como distncia, proximidade, tipo de terreno, etc.
Um dos casos mais famosos de anlise de mapas e que permitiu descobrir causas est
relatado no livro The Ghost Map de Steven Johnson. O livro conta a histria do
mdico John Snow que descobriu a causa de mortes e a origem da clera em Londres,
em 1854. Naquela poca, todos diziam (sabedoria popular) que a doena se alastrava
pelo ar. Dr. Snow, a partir de seus conhecimentos, no acreditava nesta hiptese, mas
135
no sabia a real causa. Aps posicionar num mapa da cidade todos os casos, Dr. Snow
percebeu que havia mais mortes prximas de uma fonte de gua. Sua hiptese ento era
de que a gua seria o meio de transmisso. A anlise temporal da disseminao de casos
fortaleceu ainda mais a hiptese, pois os casos aumentavam com o tempo a partir da
fonte de gua. Por fim, as hipteses do doutor foram confirmadas e muitas vidas salvas.
Hoje em dia, com a constante preocupao com novos vrus e a disseminao cada vez
mais rpida de epidemias, uma ferramenta visual pode apoiar anlises e dar subsdios
para decises de entidades de sade e governos.
O mapa serve para representar causas (diretas ou indiretas) de eventos, relaes entre
eventos, relaes entre causas, instncias, generalizaes, etc. uma metodologia
genrica que pode ser aplicada a diferentes contextos com o objetivo de facilitar o
entendimento de um problema.
136
O framework aqui apresentado baseado na metodologia L.E.SCAnning de Humbert
Lesca (tambm discutida nos trabalhos de Caron-Fasan, Janissek-Muniz e Blanco.
O passo 2 serve para agrupar informaes por similaridade ou por assunto, usando
marcadores (labels) para os grupos. O mapa mental j pode comear a ser feito. Pode-se
usar um smbolo diferente (ex. quadrado) para dizer que h vrias unidades de
informao dentro de um conceito. A Figura 50 apresenta um exemplo deste passo da
metodologia. Nela podemos ver grupos de informaes j categorizados por assunto.
Imagine que estas informaes foram coletadas a partir de notcias, reportagens,
propagandas, blogs, comentrios de especialistas no assunto e etc.
137
(no h limites). O importante deixar explcito no mapa o tipo da relao. Podem ser
usados smbolos diferentes para os diferentes tipos de relaes. Neste momento, se h
uma relao entre 2 conceitos mas no se sabe o tipo, deve-se manter a conexo, mesmo
sem a determinao do tipo (que depois ser avaliado). possvel manter conceitos
contraditrios, marcando este tipo de relao entre eles. A verificao
verificao da veracidade
ser feita mais tarde. A Figura 51 apresenta o grafo da figura anterior (mesmo exemplo)
j com as relaes entre conceitos.
J no passo 5, devemos validar o mapa e suas informaes. Neste ponto, deve-se revisar
as conexes e os tipos e at mesmo a importncia e veracidade dos conceitos. Pode-se
inclusive colocar um grau de certeza nas informaes e relaes.
138
Figura 52: Novas hipteses e reviso do mapa - metodologia associativa
Hipteses podem ser acrescentadas ao mapa, sendo marcadas desta forma (para no
confundir com informaes j confirmadas).
O tal mapa mental poder ser, num futuro breve, um autmato que sugira anlises a
serem feitas, novos conceitos ou relaes, informaes
informaes a verificar e at mesmo possveis
causas para efeitos.
Ser como o conceito de biblioteca do futuro, proposto por Feigenbaum (1989). Ele
compara as bibliotecas de hoje com as do futuro: as primeiras so como um armazm de
objetos passivos, enquanto que as bibliotecas do futuro sero uma coleo de
documentos ativos que ajudaro s pessoas fornecendo conexes desconhecidas,
fazendo associaes e analogias, sugerindo conceitos novos, descoberta de novos
mtodos e teorias.
139
10 Business Analytics
A evoluo da rea de BI gerou a chamada Business Analytics. O objetivo poder
prever acontecimentos ou predizer valores para variveis. Por exemplo, "neste ritmo de
vendas, alcanaremos a meta no dia ...". A ideia no nova, apenas teve uma nova
roupagem. Os sistemas de apoio deciso (SAD ou DSS, em ingls) j h muitos anos
vm ajudando os tomadores de deciso. O funcionamento simples: a partir de dados
de entrada (parmetros) e utilizando um modelo de deciso, pode-se prever valores
futuros. Os modelos de deciso geralmente so do tipo what-if ("e se eu fizer isto, o que
vai acontecer"), e utilizam tcnicas como projeo, regresso e simulao.
Mas no pode haver confuso. O barmetro permite prever chuva mas no causa do
tempo. O pluvimetro mede ndices de chuva mas tambm no so causas (e no
servem para fazer previses, mas seus registros podem ser utilizados para tal). No o
ato de fumar que causa cncer mas sim as substncias que esto no cigarro.
Previses
Como j dito antes, as previses ajudam as empresas no seu planejamento e no seu dia a
dia. Uma empresa que trabalhe com estoques que consiga prever quanto vai vender nos
prximos dias, pode produzir ou comprar somente a quantidade que ir vender. Estoque
parado prejuzo porque a empresa precisa pagar infraestrutura para armazenar (local,
pessoas, climatizao, etc.) e se no vender o produto pode deteriorar (perder prazo de
validade, estragar por condies climticas adversas, etc.). Dizem que a Amazon ser
capaz de prever vendas e com isto antecipar sua logstica. Ou seja, se ela predizer que
um determinado cliente vai comprar um certo livro dentro de um ms, ela j vai enviar
este livro para um local prximo ao cliente.
E as previses tambm servem para validar hipteses. Faa uma previso a partir de um
modelo e verifique se os eventos previstos acontecem. Isto permite refinar um modelo
ou descart-lo.
140
Mas o que uma previso boa ? Ela precisa acertar tudo, sempre e nos mnimos
detalhes ? A qualidade de uma previso dada pela preciso. Mas nem sempre os
valores ou eventos acontecem realmente como previstos, pode haver um certo desvio,
que chamamos de margem de erro. A tendncia que os modelos e suas previses
errem mais no incio e com o passar do tempo vo melhorando. Para isto preciso fazer
mais previses e refinar o modelo a partir da avaliao das causas dos erros.
Tambm podemos avaliar os modelos e suas previses pelo seu valor. Talvez a previso
erre, mas a margem de erro pode ser aceitvel e a previso ajude a tomar decises.
Imagine tambm uma indstria de refrigerantes. Deixar produto estocado perda na
certa. Ela precisa produzir quase como just-in-time. Ento talvez uma previso boa no
precise de um valor exato para quanto ela vai vender (quanto as pessoas vo consumir
ou comprar), mas um intervalo de valores j ajude.
A previso tem que ser honesta, como nos aconselha Nate Silver. Ela no deve suscitar
a fama pela sua grandiosidade. Ela precisa ser a melhor previso que poderia ter sido
feita. claro que a previso do clima para uma semana intil. Ela precisa ser boa para
o dia corrente e no interessa se errar para mais dias, pois ela poder ser refeita.
Nate Silver distingue previso de projeo. Uma previso uma declarao definitiva e
especfica sobre quando e como acontecer um evento (por exemplo, um terremoto de
grandes propores atingir tal cidade no dia tal). J uma projeo uma declarao
probabilstica (por exemplo, h 60% de chance de ocorrer um terremoto em tal cidade
nos prximos trinta anos).
Estas pequenas variaes podem ser rudos, como discutido por Nate Silver, ou podem
ser variaes do ambiente real. A Teoria do Caos (discutida no livro de James Gleick)
diz que uma borboleta batendo asas no Brasil pode influenciar o clima no Japo. Esta
ideia veio de um artigo apresentado em 1972, por Edward Lorenz. Lorenz descobriu que
truncar um dado na terceira casa decimal fazia uma enorme diferena. A concluso
que uma pequena mudana nas condies iniciais (o bater de asas de uma borboleta no
Brasil) pode produzir uma divergncia grande e inesperada nos resultados (um tornado
no Japo). No significa que o comportamento do sistema seja aleatrio, como o termo
caos talvez possa sugerir. Significa apenas que muito difcil prever a atuao de
certos tipos de sistemas, pois seria necessrios coletar todas as variveis que implicam
no resultado e saber seu valor com muita preciso em tempo hbil.
141
As previses mudam com o passar do tempo
Ray Kurzweil fala da teoria do retorno acelerado. No caso, ele usa esta teoria para
discutir previses tecnolgicas. Uma previso no linear. Imagine fazer previses para
10 anos. Entretanto, esta previso foi feita no tempo Zero. Aps algum tempo aps o
marco Zero, digamos 2 ou 3 anos, as condies iniciais j mudaram. Ou seja, a previso
inicial no vale mais, precisaria ser refeita com as novas condies. E como as
informaes surgem de forma exponencial (por isto tambm o Big Data), elas podem
ajudar a melhorar as previses. E isto vai acelerando de forma exponencial.
Raposas X Porcos-espinhos
Nate Silver diz que h 2 tipos de pessoas que fazem previses: as raposas e os porcos-
espinhos.
Raposas, por outro lado, so criaturas que vivem de fragmentos, que acreditam numa
infinidade de pequenas ideias que juntas produzem algo maior. Tendem a ser mais
tolerantes em relao incerteza e s opinies discordantes. Se os porcos-espinhos so
caadores e esto sempre em busca de uma grande presa, as raposas so animais
coletores.
Raposas usam mais dados. Porcos-espinhos usam poucos ndices (reduzir algo
complexo a poucas variveis).
As previses podem no ser projees, mas ainda assim so feitas com dados. Se no
tivermos dados, adivinhao, como tendo uma bola de cristal. Por isto, as estatsticas
142
so muito importantes. No h como fazer previses sem olhar para o passado e
aprender com ele.
Michael Lewis, no livro Moneyball (que virou filme com Brad Pitt), faz uma grande
discusso sobre esta dicotomia entre usar ou no estatsticas. Ele discorre sobre o caso
real do Oakland Athletics, time de baseball americano, para expor seus argumentos. A
questo toda se desenrola na diferena entre olheiros humanos e sistemas estatsticos
para fazer previses sobre jovens jogadores. Cada time escolhe os jogadores mais
promissores no incio da temporada. A grande maioria dos clubes utiliza, at hoje, os
olheiros (scouts).
Os olheiros muitas vezes erram porque se preocupam mais com aparncias. Ento os
sistemas baseados em estatsticas podem ser melhores pois no so influenciados por
rudos e variveis que no implicam em resultados e conseguem se adaptar melhor a
pequenas variaes nos parmetros. Por outro lado, os olheiros vo melhor em alguns
casos porque usam uma abordagem hbrida, com uma quantidade maior de informaes
do que a oferecida apenas pelas estatsticas. E ainda acumulam informaes com o
passar do tempo (no so sistemas estticos). Um bom olheiro tambm consegue
informaes privilegiadas, que a maioria no pode obter (por exemplo, no baseball,
dados sobre a situao social e familiar do jogador).
O Oakland de Billy Beane teve um grande sucesso com estatsticas. Em outros casos
porm, olheiros venceram o sistema Pecota de estatsticas. J os Red Sox uniram
olheiros (scouts) e estatsticas (nerds) e foram campees em 2004. Lewis concluiu que
as estatsticas funcionam melhor para jogadores de divises inferiores do que para os da
primeira liga. Mas nos nveis ainda mais inferiores, elas no funcionam.
143
O uso de intuies para previses
Uma boa ideia ento combinar dados estatsticos com intuio, e no somente usar um
ou outro. Onde a intuio no detalhista, os dados podem nos ajudar a lembrar
detalhes. Onde a estatstica no completa, a observao humana pode completar uma
anlise.
Em geral, as pessoas procuram diminuir a incerteza das decises mas assumem certos
riscos pela racionalidade limitada. Por exemplo, se algum quiser traar uma rota de
fuga em caso de incndio num prdio, talvez no consiga avaliar todas as alternativas
possveis (local de incio do fogo, quantidade de pessoas, etc.). E no momento da
situao de incndio, o ser humano tem que simplificar ao mximo seu processo de
deciso para acelerar as aes. Isto quer dizer que os planos iniciais podem ter sido
esquecidos ou tero que ser simplificados. E assim, as atitudes planejadas mudam pela
racionalidade limitada. E o ser humano ento utiliza intuies para acelerar a deciso.
J falamos antes que a intuio um palpite, mas no uma adivinhao. Ela deve ser
precedida por dados. O ser humano possui uma certa capacidade para tomar decises
rpidas com pouca informao. Isto no significa que devemos tomar decises por
pressa. A intuio no deve ser confundida com caminho mais fcil (preguia). Gunther
recomenda no confiar na primeira impresso, e sugere que coletemos muitos dados.
Kahneman tambm concorda: um grande risco tomar decises usando a rea
preguiosa e irracional do crebro.
Daniel Kahneman (2012), ganhador do Prmio Nobel de Economia em 2002, diz que
temos dois sistemas de tomada de deciso: um rpido e outro devagar. O sistema rpido
utilizado por exemplo para reconhecer rostos. At bebs o usam. E a gente no precisa
raciocinar, automtico, sem esforo. Utiliza associaes e reconhecimento de padres,
sendo difcil de controlar ou modificar. J o sistema devagar usado para, por exemplo
calcular quantas horas tem em 4 dias. Ele serial, controlvel, flexvel, governado por
regras e exige muito esforo.
Por exemplo, grandes negcios so fechados somente aps o encontro presencial entre
as partes. Os homens de negcios dizem que importante "olhar nos olhos". Isto
tambm serve para contrataes para empregos. Koestler sugere que as pessoas devam
ter conhecimentos generalizados, sobre outras reas, alm da sua especializao. Isto
pode ajudar inconscientemente, com dados novos e analogias. Gunther cita Alfred P.
Sloan, ex-executivo da GM: "o ato final da deciso intuitivo". Isto porque uma
escolha entre alternativas. Ningum sabe qual a melhor alternativa ou se uma delas vai
dar certo ou no. Se soubssemos, no seria deciso e sim "bola de cristal".
No h nada que garanta o resultado, seja utilizando dados estatsticos ou intuies. Mas
melhor para uma deciso ter mais dados (sejam confirmados ou no).
144
11 Novos tipos de dados, tcnicas de coleta e anlise
Este captulo aborda questes perifricas ao tema de BI, mas que podem ajudar
cientistas de dados e analistas de BI.
Num futuro um pouco mais distante isto j poder ser feito atravs da anlise de
imagens gravadas com cmeras. J foi feito um experimento que, pelo contorno da
pessoa diante de um banner, era possvel identificar o sexo e a faixa etria. Paco
Underhill e parceiros fazem consultoria para empresas de varejo analisando
estatisticamente o comportamento de clientes em lojas. As informaes so coletadas
por observao direta no ambiente ou em gravaes de imagens.
Com esta onda de Big Data por a, est todo mundo coletando dados sobre todos. A
operadora de celular sabe por onde a gente anda e quando. Qual o caminho que
costumamos fazer, por onde costumamos andar em cada dia da semana e horrio. E se
instalarmos aplicativos tipo o Waze no nosso celular, a Google (que comprou o Waze)
vai saber at a que velocidade estamos andando. E da inferir se estamos a p ou de
carro, ou num engarrafamento. A algum inventou a tecnologia de RFID, e ela est em
cartes com chips, carros, produtos novos e vai estar em sacolas, carrinhos de
supermercados, etc. Ento no s por celular. Os aplicativos e softwares que usamos
em celulares, tablets, notebooks e etc tambm esto avisando onde estamos, se
estivermos conectados via Wifi, 3G ou 4G.
Inferir gerar uma informao a partir de outra. Se voc compra muito produto
congelado no supermercado, a anlise destes dados pode ajudar a inferir que:
a) voc tem um bom freezer em casa;
b) voc no sabe cozinhar ou no gosta;
145
c) voc uma pessoa muita atarefada e no tem tempo nem para cozinhar.
A coleta por inferncia ento quando o sistema gera informaes novas a partir de
outras. O nvel de inferncia subjetivo de cada organizao e certamente aumenta a
incerteza sobre a veracidade da informao. Mas muitas empresas assumem o risco
desta incerteza, porque mais incerto ainda no saber nada sobre o cliente.
Tempos atrs surgiram alguns artigos falando sobre Phenomenal Data Mining. Que
significa tentar inferir eventos ou atributos de entidades a partir de colees de dados.
na prtica e com seriedade fazer aquela brincadeira de analisar os restos no lixo de
algum. A voc saber que tipo de pessoa , pelo que compre e consome (marcas, tipos
de produtos, faixas de preos, etc). Assim, se voc compra Xampu feminino e
desodorante feminino juntos na mesma compra, voc uma mulher. Se comprar Xampu
para carro, esponja para lavar carro e creme para polimento de carro, voc certamente
tem um carro. claro que h margem para erros.
A princpio, parece que s foi utilizada a coleta explcita (perguntas e respostas). Mas se
pararmos para pensar, a pessoa s se dirigia a certos tipos de carros. Alm disto, anotava
mais que o nome e o telefone. Ela anotava o tipo de carro e outros dados que
conseguisse coletar (adesivos informando que h bebs no carro, sobre estacionamentos
hospitalares, associaes e clubes, etc). Ento este um tipo de coleta implcita, por
observao.
Alm disto, os dados iam para centrais onde eram ento analisados. A partir dos dados
coletados explcita ou implicitamente, algum iria fazer uma inferncia. Por exemplo, a
partir do selo de estacionamento de mdicos num hospital, pode-se inferir a profisso de
mdico; da tem-se o perfil de pessoas com boa renda e alto senso crtico. Se o carro
tinha cadeira de bebs, infere-se que h uma famlia por trs.
146
11.2 Novas tecnologias para coletar e monitorar dados
Novas tecnologias esto surgindo para coletar dados. Chips e antenas de RFID
permitem rastrear produtos e at mesmo pessoas (bem como GPS e celulares). A
anlise de vdeos (imagens) permite capturar movimentos e gestos. Capturas de sons
permitem a posterior anlise e o reconhecimento de fala. J h diversos dispositivos
para identificao de pessoas por biometria (at mesmo tatuagens j servem para isto).
Diversos sensores esto sendo fabricados e utilizados nas mais diversas situaes.
Sensores de movimento alertam para intrusos. Sensores de umidade e luminosidade so
utilizados na agricultura de preciso. Sensores de rotao so comuns em jogos em
aparelhos mveis, mas tambm servem para estabilizar veculos. Computadores de
bordo tambm usam sensores de proximidade para estacionar de forma autnoma um
carro. A medicina no futuro ir utilizar sensores para medir sinais de sade nas pessoas.
O professor Petland faz pesquisas com sensores para coletar expresses faciais e utilizar
isto para melhorar a comunicao. O pesquisador Kevin Warwick implantou sensores
em seu corpo. O futurista Michio Kaku fala que haver em breve diagnstico mdico
por imagens capturadas pelo espelho do banheiro ou pela cmera do celular.
Uma tcnica mais avanada a que analisa a sequncia de clicks ou pginas vistas por
um usurio numa sesso em um site. Esta sequncia chamada de clickstream, e indica
o caminho percorrido pelo usurio desde que entrou no site at sua sada (ltima pgina
vista). A anlise de clickstreams importante para conhecer a estratgia dos usurios at
seu objetivo, ou para saber se algum estava perdido no site sem saber como chegar ao
objetivo, ou para diferenciar as estratgias de usurios com perfis diferentes. Por
exemplo, pode-se comparar os clickstreams mais comuns entre usurios que compram e
comparar com o padro de usurios que no compra. Talvez o projeto do site no esteja
ajudando estes ltimos a chegarem a seus objetivos. Ou a empresa pode descobrir que o
diferencial est na pgina que apresenta o preo dos produtos.
147
Se o usurio puder ser identificado, seja por login, cookies ou outra forma, possvel
saber quantas revisitas so feitas ao site, inferir o interesse do usurio e tambm
enriquecer tais dados com informaes vindas de outras bases, tais como cadastros em
lojas fsicas.
Hal Varian, economista-chefe do Google, na sede da empresa em Mountain View,
Califrnia diz que eles podem prever o nmero de pedidos iniciais de seguro-
desemprego com mais antecedncia porque, se correrem boatos de que haver
demisses em alguma empresa, as pessoas vo comear a pesquisar onde e como dar
entrada no seguro-desemprego e termos afins (citado no livro de Nate Silver).
Para mais detalhes sobre esta tecnologia ver o meu livro sobre 31 tipos de sistemas de
informao.
Estima-se que 80% das informaes de uma companhia esto contidas em documentos
textuais. Os textos podem ser e-mails, postagens em blogs, microblogs e redes sociais,
arquivos eletrnicos (txt, doc, pdf, ppt, documentos digitalizados), comentrios em
pginas web e at mesmo textos resultantes de pesquisas e questes abertas. Este
volume grande de informaes textuais impossibilita a anlise das informaes de
forma manual. Isto no s pela quantidade, mas pela complexidade das informaes
neste formato, o que exige trabalho intelectual para interpretao dos textos. Outro
problema com anlise manual que se perde a noo estatstica do contedo destes
textos.
148
Ento, a estratgia mais apropriada para Text Mining identificar conceitos (contextos
ou temas ou assuntos) nos textos e aplicar as tcnicas estatsticas sobre os conceitos.
Para identificar os conceitos, deve-se usar uma base ou ontologia de conceitos, na qual
esto definidas as diferentes formas de um conceito aparecer num texto (sinnimos,
expresses, etc).
Por exemplo, a presena de sintomas de alcoolismo em pronturios mdicos pode ser
verificado pela presena de uma das seguintes expresses: lcool, hlito etlico, faz uso
de bebidas, bebe imoderadamente.
Ento o conceito "alcoolismo" ser definido de forma a serem analisadas estas
expresses. Se uma delas aparecer, o texto estar tratando deste conceito.
Uma vez que as palavras formam a unidade bsica de informao dos textos e sobre elas
ser feito o text mining, necessrio algum tratamento prvio antes de aplicar
estatstica. Por exemplo, corretores ortogrficos ajudam a eliminar variaes incorretas
de palavras.
Text Mining utiliza as mesmas tcnicas de Data Mining que podem ser aplicadas a
variveis nominais ou qualitativas, tais como classificao, clustering, associao,
sequncia temporal e anlise de distribuio. Alm disto, h nova tcnicas como anlise
de diferenas e similaridade entre textos e a tcnica de gerao automtica de resumos
de textos.
Para mais detalhes sobre esta tecnologia ver o meu livro sobre 31 tipos de sistemas de
informao.
As empresas esto preocupadas com sua imagem. importante saber o que esto
falando dela ou de seus produtos e servios. Para obter tal conhecimento, a empresa
pode usar pesquisas de campo com clientes potenciais ou fazer pesquisas tipo "survey"
com uma amostra de seus clientes. Entretanto, nem sempre as pessoas se sentem
confortveis para reclamar ou falar mal.
Para estes casos existe a Internet, zona livre de censura e restries. Mas no estamos
falando de analisar notcias, nem sites especficos para reclamaes como o
Reclameaqui. No primeiro caso, depende-se da parcialidade da fonte e, no segundo
caso, pode ficar em aspectos muitos especficos de alguns poucos clientes (h uma
estatstica que diz que apenas 95% dos clientes insatisfeitos fazem reclamaes
formais).
149
Sentimentos (Sentiment Analysis) ou Minerao de Opinies (Opinion Mining) nasce
como uma das alternativas. Seu objetivo encontrar opinies e analisar seu contedo.
Na prtica, o que deve ser feito encontrar na Web textos que possam conter opinies
de pessoas e analisar o tipo de sentimento presente nos textos: se positivos ou negativos
(se falam bem ou falam mal).
Esta ontologia de aplicao pode ser incrementada para que a anlise seja feita sobre
sentimentos mais detalhados (e no somente positivos ou negativos). Alguns autores
utilizam o modelo POMS (Profile of Mood States), utilizado por psiclogos, para
identificar o estados de humor. Este modelo utiliza 6 tipos de humor:
1. Tenso-Ansiedade:
tenso, tranquilo, nervoso, impaciente, inquieto e ansioso.
2. Depresso-Melancolia:
o triste, desencorajado, s, abatido (deprimido), desanimado e infeliz
3. Hostilidade-Ira:
irritado, mal humorado, (rabujento), aborrecido, furioso, com mau feitio, e
enervado.
4. Vigor-Actividade:
animado, activo, enrgico, alegre e cheio de boa disposio
5. Fadiga-Inrcia:
esgotado, fatigado, exausto, sem energia, cansado e estourado.
6. Confuso-Desorientao:
confuso, baralhado, desnorteado, inseguro, competente e eficaz.
Tal modelo j foi utilizado para comprovar a correlao entre postagens do twitter e
acontecimentos do mundo real. Por exemplo, pode-se analisar o sentimento
predominante nas postagens antes, durante ou depois de um evento, sejam as eleies
presidenciais ou o Dia de Ao de Graas. Tambm possvel saber o ritmo das
postagens para cada tipo de humor, analisando-se subidas e descidas num grfico que
represente o total de postagens de cada tipo.
Outro modelo que pode ajudar a detalhar sentimentos, o Modelo OCC de Ortony,
Clore e Colins. Este modelo trabalha com 22 tipos de emoes, agrupando adjetivos que
exprimem tais emoes em textos.
150
Resumindo, tcnicas de anlise de sentimentos so teis para avaliar opinies de
clientes efeitos ou potenciais, mas tambm para refinar ideias (pois a empresa pode
analisar o sentimento das pessoas sobre determinados assuntos antes que produtos e
servios sejam lanados).
151
12 Concluso
Ao fazer BI, o cientista ou analista deve ter em mente que preciso ter um objetivo.
Como j discutimos durante o livro, talvez o objetivo no esteja muito claro no incio
(esta a abordagem proativa), mas ir se delinear durante o processo. Portanto, no h
como terminar um processo de BI sem se ter avaliado se algum objetivo foi alcanado.
Muitas empresas coletam todos os tipos de dados possveis, sem mesmo saber se vo
usar ou no. Outras fazem todo tipo de anlise sem bem saber qual o objetivo por trs
disto. Empresas analisam perfis de clientes, coletam dados pessoais e privativos,
invadem privacidade, mas para qu ?
O Big Data pode ser analisado com tcnicas e ferramentas. Mas ser que precisamos de
tantos dados ? Isto muitas vezes causa a sobrecarga e depois o estresse de quem faz. E
tambm pode causar problemas para clientes. Muitas empresas so coletando dados
demais sobre as pessoas, como invaso de privacidade. O que temos que nos perguntar
se o que estamos fazendo ir trazer mais resultados positivos ou negativos. Ou seja,
vai fazer mais mal ou bem ? E para quem.
Outro cuidado para o cientista de dados querer encontrar padro em tudo. Isto pode
virar um TOC (transtorno obsessivo-compulsivo). Popper (1980, p.17) nos diz: "...
fenmeno psicolgico do pensamento dogmtico ou, de modo geral, do comportamento
dogmtico: esperamos encontrar regularidades em toda parte e tentamos descobri-las
mesmo onde elas no existem; os eventos que resistem a essas tentativas so
considerados como 'rudos de fundo'; somos fis a nossas expectativas mesmo quando
elas so inadequadas - e deveramos reconhecer a derrota. O mundo catico por
natureza. Em alguns casos a gente v padres, mas na maioria parece uma baguna
mesmo. E da ? O importante conseguir viver neste contexto. Foi isto que causou a
evoluo dos seres vivos, justamente a capacidade de adaptar-se a ambientes diferentes.
Isto implicou no desenvolvimento de habilidades melhores e a consequente
sobrevivncia por mais tempo.
Um conselho final aproveitar o que os nmeros podem nos dar mas no acreditar que
os nmeros sempre sero melhores que nossas intuies e sentimentos.
O Futuro do BI
Sistemas inteligentes podero sugerir novas conexes, descobrir novas regras, padres,
hipteses e conhecimentos. Mas somente humanos podero incorporar tcnicas de
criatividade e conhecimentos para a integrao de diferentes disciplinas, para anlise de
novos cenrios, para soluo de problemas, para identificao de causas.
152
Bibliografia
ANSOFF, H. Igor. Strategic issue management. Strategic Management Journal, v.1, n.2,
April/June 1980, p.131148.
ASUR, Sitaram; HUBERMAN, Bernardo A. Predicting the Future with Social Media.
Proceedings WI-IAT '10 IEEE/WIC/ACM International Conference on Web
Intelligence and Intelligent Agent Technology - v.1, 2010, p. 492-499.
BOLLEN, Johan; MAO, Huina; ZENG, Xiao-Jun. Twitter mood predicts the stock
market. Journal of Computational Science, 2(1), March 2011, 1-8.
CHOI, H.; VARIAN, H. Predicting the Present with Google Trends. Economic Record,
special issue selected Papers from the 40th Australian Conference of Economists, v. 88,
n.1, p.29, June 2012.
153
CLARKE, Ronald V.; ECK, John E. Crime analysis for problem solvers in 60 small
steps. Center for Problem-Oriented Policing, U.S. Department of Justice.
DUGAS, A. F. et al. Influenza Forecasting with Google Flu Trends. Online Journal of
Public Health Informatics, v.8, n.2, Fevereiro de 2013.
DUHIGG, Charles. O Poder do Hbito - Por que fazemos o que fazemos na vida e nos
Negcios. Objetiva, 2012.
EKMAN, Paul; ROSENBERG, Erika L. (ed.) What the Face reveals - basic and applied
studies of spontaneous expression using the Facial Action Coding System (FACS). New
York: Oxford University Press Inc., 1997.
EKMAN, P.; FRIESEN, W.V.; HAGER, J.C. FACS - the Facial Action Coding System.
2a. ed. Salt Lake City: Research Nexus eBook. London: Weidenfeld & Nicolson, 2002.
FEIGENBAUM, E. A.. Toward the Library of the Future. Long Range Planning, v. 22,
n. 1, 1989, p.118-123.
154
GIGERENZER, Gerd; GAISSMAIER, Wolfgang. Heuristic Decision Making. Annual
Review of Psychology, v.62, 2011, p.451482.
GLADWELL, Malcolm. Outliers - the story of success. Back Bay Books, 2011.
GLADWELL, Malcolm. O ponto da virada - como pequenas coisas podem fazer uma
grande diferena (original: the tipping point). Rio de Janeiro: Sextante, 2013.
GLEICK, James. Caos - a criao de uma nova cincia. Rio de Janeiro: Campus, 1989.
GUNTHER, Max. O Fator Sorte. Rio de Janeiro: Best Business, 2013 (original: The
luck factor, 1977).
HEY, Tony; TANSLEY, Stewart; TOLLE, Kristin. The Fourth Paradigm: data-
intensive scientific discovery. Redmond: Microsoft Research, 2009.
JOHNSON, Steven Berlin. The Ghost Map: The Story of London's Most Terrifying
Epidemic and How It Changed Science, Cities, and the Modern World. Riverhead
Hardcover, 2006.
KOESTLER, Arthur. The Act of Creation - a study of the conscious and unconscious
processes in humor, scientific discovery and art. New York: Arkana (The Penguin
Group), 1964.
KRING, Ann M.; SLOAN, Denise M. The Facial Expression Coding System (FACES):
development, validation, and utility. Psychological Assessment, v.19, n.2, Junho de
2007, p.210-24.
155
KUHLTHAU, Carol C. Inside the search process: information seeking from the user's
perspective. Journal of the American Society for Information Science, v.42, n.5, June
1991.
LENAT, Douglas B. The nature of Heuristics. Artificial Intelligence, v.19, n.2, Outubro
de 1982, p.189-249.
LEWIS, Michael. Moneyball: The Art of Winning an Unfair Game. W. W. Norton &
Company, 2004.
LOSEE, John. A Historical Introduction to the Philosophy of Science. 4a.ed. New York:
Oxford University Press, 2001. (original 1972)
MILLER, George A. The Magical Number Seven, Plus or Minus Two: Some Limits on
OurCapacity for Processing Information. The Psychological Review, v. 63, 1956, p. 81-
97.
MISHNE, Gilad. Predicting movie sales from blogger sentiment. In AAAI Spring
Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW)
2006.
MORAES, Maurcio. Big Brother Obama. Revista Info, Editora Abril, n.324, dezembro
de 2012.
MOSCAROLA, Jean; BOLDEN, Richard. From the data mine to the knowledge mill:
applying the principles of lexical analysis to the data mining and knowledge discovery
process. Note de Recherche n 98-15, Universit de Savoie. Setembro de 1998.
156
OARD, Douglas W.; MARCHIONINI, Gary. A conceptual framework for text filtering.
Technical Report, University of Maryland. Maio de 1996.
POPPER, Karl. The logic of scientific discovery. Londres: Hutchinson & Co., 1959.
RADINSKY, Kira; HORVITZ, Eric. Mining the web to predict future events.
Proceedings WSDM '13 Proceedings of the sixth ACM international conference on Web
search and data mining, 2013, p. 255-264.
SENGE, P. The Fifth Discipline: The art & practice of the learning organization. New
York: Doubleday, 1990.
SILVER, Nate. O sinal e o rudo: por que tantas previses falham e outras no. Rio de
Janeiro: Intrnseca, 2013.
157
SWANSON, Don R.; SMALHEISER, N. R. An interactive system for finding
complementary literatures: a stimulus to scientific discovery. Artificial Intelligence,
Amsterdam, v.91, n.2, p.183-203, Apr. 1997.
TOLE, A. A. Big Data Challenges. Database Systems Journal, v. IV, n. 3, 2013, p.31-
40.
UNDERHILL, Paco. Why we buy: the science of shopping. Simon & Schuster, 1999.
WOLF, Gary. The Data-Driven Life - What happens when technology can analyze
every quotidian thing that happened to you today ? The New York Times Magazine
Maio de 2010.
158